在超算集群中(zhōng),“开源”这两个字代表着很(hěn)大的魅力,不是简单的公(gōng)布源代码或者说无需许可(kě)费用(yòng)所以有(yǒu)效节省集群管理(lǐ)成本,而是意味着大众可(kě)以通过修改代码将“自己的需求”真正落实。因此,我们接触的各类集群中(zhōng),很(hěn)多(duō)客户钟爱于开源的软件与系统,比如今天要和大家聊一聊的一款非常常见的开源且可(kě)扩展的高级集群管理(lǐ)和配置工(gōng)具(jù)——xCAT。
xCAT(Extreme Cloud Administration Toolkit)是一款大家非常熟悉的开源工(gōng)具(jù),主要用(yòng)于自动化裸机服務(wù)器和虚拟机的部署、扩展与管理(lǐ),允许使用(yòng)者通过一个单点,控制和管理(lǐ)一个集群系统,可(kě)以有(yǒu)效简化集群管理(lǐ)、实现快速扩展,显著提高系统管理(lǐ)员的工(gōng)作(zuò)效率。值得一提的是,xCAT软件包基本上全部由一系列有(yǒu)用(yòng)的 perl 脚本构成,所以使用(yòng)者修改代码后不需要重新(xīn)再编译和安(ān)装(zhuāng),而是可(kě)以很(hěn)方便地根据自己的需求直接修改脚本来定制出自己需要的 xCAT 软件。
xCAT作(zuò)為(wèi)集群基础配置的第一步,常用(yòng)于HPC、HPC中(zhōng)的AI以及HPC开发云。在2018年11月统计的全球超级计算机500强中(zhōng),排名(míng)第一和第二的Summit和Sierra使用(yòng)的集群管理(lǐ)软件就是xCAT,可(kě)见xCAT除了“开源”,其它优势在全球也是得到普遍认可(kě)的。
xCAT最突出的优势便是层次结构具(jù)有(yǒu)的极强可(kě)扩展性。我们都知道,超级计算中(zhōng)心往往需要配置管理(lǐ)上千台服務(wù)器,一台一台配置简直是不现实的(虽然在没有(yǒu)管理(lǐ)配置工(gōng)具(jù)前我们就是这么做的) ,“可(kě)伸缩”就成了其體(tǐ)系架构的必要条件之一。xCAT支持具(jù)有(yǒu)多(duō)服務(wù)器节点的层次结构,计算节点分(fēn)由服務(wù)节点进行分(fēn)區(qū)与管理(lǐ),保证了极强的扩展性,大大缩短了配置时间,提高配置效率,因此保证了xCAT作(zuò)為(wèi)基础工(gōng)具(jù)在超算领域的广泛利用(yòng)。
作(zuò)為(wèi)一款基础常见的配置工(gōng)具(jù)软件,奥工(gōng)服務(wù)小(xiǎo)分(fēn)队部署的每一个集群都会在硬件实施后安(ān)装(zhuāng)xCAT,安(ān)装(zhuāng)步骤几乎做到了烂熟于心,简单地说只需要解压对应安(ān)装(zhuāng)包,并生成yum源,然后使用(yòng)yum一键安(ān)装(zhuāng)即可(kě)。
以2.14.6版本的xCAT為(wèi)例:
1、上传安(ān)装(zhuāng)包并解压
2、生成安(ān)装(zhuāng)xCAT的yum源
3、使用(yòng)yum一键安(ān)装(zhuāng)
4、加载环境变量
至此xCAT 的安(ān)装(zhuāng)就算完成了。安(ān)装(zhuāng)过程很(hěn)简单,但是配置过程有(yǒu)点难度,需要涉及配置xCAT多(duō)张tab表,包含集群基本信息(site表)、集群节点定义(nodelist表)、集群网络定义(network表)、集群硬件管理(lǐ)(nodehm表&ipmi表)、集群节点类型定义(nodetype表)、集群密码定义(passwd表)、集群mac地址定义(mac表)等,以及所需的HTTP、DHCP、DNS服務(wù),最终才算配置完成。
说到本期想分(fēn)享xCAT,奥工(gōng)服務(wù)小(xiǎo)分(fēn)队的工(gōng)程师们都表示这个软件太过于常见和熟悉(毕竟奥工(gōng)拥有(yǒu)超过350+服務(wù)案例,几乎每一例都安(ān)装(zhuāng)了xCAT),每个人和它都有(yǒu)独特的回忆与心得,想和大家畅所欲言:
工(gōng)程师A:
在实际生产(chǎn)环境中(zhōng)有(yǒu)时候需要安(ān)装(zhuāng)各种驱动和软件,一般情况下需要安(ān)装(zhuāng)完系统后再一台台的安(ān)装(zhuāng)驱动软件,费时又(yòu)费力,遇上规模大的集群就有(yǒu)点捉襟见肘了。如果使用(yòng)xCAT管理(lǐ)集群,可(kě)以指定节点启动脚本,这样系统安(ān)装(zhuāng)完成后软件和驱动也自动安(ān)装(zhuāng)完成了,超赞!
工(gōng)程师B:
xCAT包含了大量功能(néng)模块,对于兼容性和技(jì )术要求有(yǒu)一定的门槛,很(hěn)多(duō)用(yòng)户和新(xīn)加入小(xiǎo)分(fēn)队的小(xiǎo)伙伴们都表示刚接触时往往无从下手。奥工(gōng)服務(wù)小(xiǎo)分(fēn)队為(wèi)简化安(ān)装(zhuāng)部署流程,更方便小(xiǎo)伙伴们掌握这项安(ān)装(zhuāng)技(jì )能(néng),将xCAT以及它的依赖环境移植到Docker中(zhōng),这样就可(kě)以在任何系统任何硬件环境实现快速高效部署了。
工(gōng)程师C:
你们都说xCAT简单方便,但我还是要提醒大家“磨刀(dāo)不误砍柴工(gōng)”,在感受xCAT给集群管理(lǐ)带来的便利之前其实还有(yǒu)很(hěn)多(duō)步骤需要做的。首先需要关闭防火墙、编辑维护好包含所有(yǒu)节点的hosts表、服務(wù)器做好raid、记录好网卡的mac地址、打开管理(lǐ)口的ipmi over lan功能(néng)等等,这些工(gōng)作(zuò)是保证xCAT正常安(ān)装(zhuāng)和使用(yòng)的前提,一定要仔细仔细再仔细。
工(gōng)程师D:
添加计算节点时,我们通常会将所有(yǒu)的节点都添加到all这个大组,同时也可(kě)以根据计算节点类型再添加其他(tā)分(fēn)组类型,比如刀(dāo)片服務(wù)器可(kě)以按照刀(dāo)箱划分(fēn)為(wèi)组,gpu节点可(kě)以添加到gpu组中(zhōng),大内存节点可(kě)以添加到fat组中(zhōng),这样运维的时候可(kě)以定点运维,避免不小(xiǎo)心操作(zuò)其他(tā)服務(wù)器,提高运维效率。
“敏捷”“强大”“扩展性”已经成為(wèi)了xCAT的代言词,丰富的集群管理(lǐ)功能(néng)让它成為(wèi)超算集群客户的“宠儿”,更是奥工(gōng)服務(wù)小(xiǎo)分(fēn)队有(yǒu)超级多(duō)心得體(tǐ)会的“老朋友”之一,篇幅有(yǒu)限,本篇先和大家点到為(wèi)止啦。
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设