集群调度系统对现代数据中(zhōng)心的重要作(zuò)用(yòng)不言而喻,前几期和大家对比了下常见的三款简单又(yòu)好用(yòng)的免费开源调度软件,包括搭配使用(yòng)以应对复杂调度的的“Torque+Maui”,高度可(kě)伸缩和容错的“Slurm”和“OpenLava”,他(tā)们凭借着“免限制&低成本”而备受欢迎。
但是每个组织都有(yǒu)其独特的需求和目前,尤其商(shāng)业组织对安(ān)全性、故障容忍度等要求很(hěn)高,这时候一款优秀的商(shāng)业产(chǎn)品就是不错的选择,比如即将和大家聊到的PBS Pro。
说到PBS Pro,一定要先介绍一下“PBS家族”。PBS作(zuò)為(wèi)功能(néng)最齐全、历史最悠久、支持最广泛的本地集群调度器之一,其最初开发是為(wèi)了提供一个能(néng)满足异构计算网络需要的软件包,当多(duō)个用(yòng)户使用(yòng)同一个计算资源时,每个用(yòng)户可(kě)以使用(yòng)PBS脚本提交自己的任務(wù),并由PBS对这些任務(wù)进行管理(lǐ)和资源分(fēn)配,因此特别适用(yòng)于高性能(néng)计算中(zhōng)集群系统、超级计算机和大规模并行系统。 PBS包括OpenPBS 、PBS Pro和Torque三个主要分(fēn)支,Open PBS 作(zuò)為(wèi)最早的系统已无后续开发,而Torque是常常和 Maui一同使用(yòng)的开源版本,本篇要说的PBS Pro则是PBS的商(shāng)业版本,一种快速、强大的工(gōng)作(zuò)负载管理(lǐ)器。 PBS Pro开发方Altair最初专攻仿真CAE,后期為(wèi)了切合用(yòng)户使用(yòng)需求针对性地开发了PBS Pro调度软件。因此,在PBS Pro的开发初期就明确了是為(wèi)高性能(néng)计算而生的。 那么,大家思考过吗——“究竟哪个PBS版本最适合客户的集群?”这其实没有(yǒu)绝对的答(dá)案,选择哪个版本和组织的需求息息相关,与其说“最”不如说“更”。 OpenPBS 对于小(xiǎo)型的、少于 32 个 CPU 的低成本集群来说是一个不错的平台,但是超过这一极限会导致故障容忍问题。相较之下,PBS Pro可(kě)以扩展到数千个CPU和最多(duō)1000个作(zuò)业,经过50000多(duō)个节点的测试,可(kě)拓展以支持数百万个内核,具(jù)有(yǒu)快速的作(zuò)业分(fēn)配和最小(xiǎo)的延迟。因此,对于具(jù)有(yǒu)数千个CPU的工(gōng)业级集群或者对可(kě)伸缩性、故障容忍等方面有(yǒu)要求的集群来说,PBS Professional 一定是“更佳”的选择。 // 首先是易用(yòng)性。 PBS Pro的图形提交管理(lǐ)界面,可(kě)以方便使用(yòng)者和管理(lǐ)员进行使用(yòng)和集群管理(lǐ)。同时為(wèi)所有(yǒu)的资源提供统一接口,易于配置以满足不同系统的需求。 // 其次是移植性。 PBS Pro符合POSIX 1003.2标准,可(kě)以用(yòng)于shell和批处理(lǐ)等各种环境。 // 再者是适配性。 PBS Pro可(kě)以适配各种管理(lǐ)策略,并提供可(kě)扩展的认证和安(ān)全模型,支持广域网上的负载的动态分(fēn)发和建立在多(duō)个物(wù)理(lǐ)位置不同的实體(tǐ)上的虚拟组织。 // 最后是灵活性。 PBS Pro可(kě)以通过层级调度灵活应对更加多(duō)样和动态化的工(gōng)作(zuò)负载,可(kě)帮助客户适应其不断变化的运营环境。 PBS Pro安(ān)装(zhuāng)开始前一定也是“环境准备”,这里简单分(fēn)為(wèi)操作(zuò)系统环境和并行运算基础环境的准备。 ★ 操作(zuò)系统环境包括配置固定网络IP、维护主机Hosts表、关闭iptables和selinux、正常配置yum、配置主机时间同步和配置root的ssh无密码等。 ★ 并行运算基础环境的准备则包括NFS配置、配置NFS client、确保所有(yǒu)用(yòng)户在所有(yǒu)节点间可(kě)以无密码ssh通信和配置autofs。 然后进入关键的安(ān)装(zhuāng)环节。 第一步,安(ān)装(zhuāng)Altair license管理(lǐ)器。 上传安(ān)装(zhuāng)程序并安(ān)装(zhuāng)许可(kě)证管理(lǐ)器。 确认许可(kě)证服務(wù)正常启动后,检测许可(kě)证使用(yòng)状态。 第二步,安(ān)装(zhuāng)PBS Pro。 在命令行输入: 安(ān)装(zhuāng)分(fēn)类4类server节点、执行节点、提交节点与通信节点,根据节点的各个用(yòng)途选择对应的安(ān)装(zhuāng)类型。 第三步、安(ān)装(zhuāng)相关组件。 為(wèi)了实现PBS Pro丰富的功能(néng),需要安(ān)装(zhuāng)其它组件,如用(yòng)于应用(yòng)集成模版的PBSAppsvcs组件、用(yòng)于图形界面打开的PBSWorks组件、PBSA组件等等,具(jù)體(tǐ)这里不展开说了。 最后用(yòng)web方式打开使用(yòng)PBS Pro的web页(yè)面即可(kě)对调度软件进行页(yè)面化的对接操作(zuò)。 至此,本篇PBS Pro的部署实践介绍就结束啦! 同时,本篇也是Geeki说的收官之作(zuò),明天会推送 “Geeki说”的一年回顾总结 ,包括“平台实施搭建”、“奥工(gōng)自研OGSP”、“并行文(wén)件系统”以及其他(tā)的小(xiǎo)实践、小(xiǎo)技(jì )巧,感兴趣的小(xiǎo)伙伴记得关注呀! —END—
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设