运维工(gōng)程师是集群环境平稳运行的保障者,他(tā)们面临的主要挑战是确保集群实施部署后的运行稳定和安(ān)全保障。随着集群规模的扩大,成百甚至上千个节点同时运行时,需要节点之间精(jīng)确的通信和联动,这些挑战将更為(wèi)复杂。
运维工(gōng)程师的能(néng)力成長(cháng)不仅需要IT知识的學(xué)习,更离不开实战经验的累积,从数十节点到数百乃至数千节点,奥工(gōng)服務(wù)工(gōng)程师正是在这种进阶式规模提升的集群服務(wù)中(zhōng)不断实践成長(cháng)。本篇讲述的便是某次1000+节点集群规模的运维实践过程。
01/项目背景
该集群是奥工(gōng)工(gōng)程师从長(cháng)期维护的超算集群中(zhōng)发现,某系统显示目前系统版本内核存在bug。经过各方商(shāng)讨解决方案,最终决定进行一次大规模的升级与迁移。由于本次处理(lǐ)的用(yòng)户集群规模大、难度大、问题多(duō),紧急抽调奥工(gōng)工(gōng)程师团队力量,共用(yòng)时三天,顺利完成了升级任務(wù),保障了集群平稳安(ān)全运行。
■ 规模大:
升级的节点高达上千个,数据达到3P,操作(zuò)难度大。
■ 难度大:
用(yòng)户数量很(hěn)多(duō),集群非常庞大,时间紧任務(wù)重。
■ 问题多(duō):
集群复杂性很(hěn)高,升级过程中(zhōng)遇到的问题也很(hěn)多(duō)。
02/升级过程
第一步,去官网现在待升级的内核版本、文(wén)件系统版本,同时确认各个版本的兼容性,防止软件版本的冲突影响到升级的正常进行。
第二步,编辑安(ān)装(zhuāng)升级脚本。
1.内核更新(xīn)
此次升级内核版本為(wèi)kernel-3.10.0-1127.19.1.el7.x86_64
rpm -ivh kernel-3.10.0-1127.19.1.el7.x86_64.rpm
rpm -Uvh *.rpm
升级完成后,重启机器,使用(yòng)uname -a查看内核版本是否是升级后的版本
2.重新(xīn)安(ān)装(zhuāng)Ib驱动
首先安(ān)装(zhuāng)相关依赖包
yum -y install python-devel redhat-rpm-config rpm-build gcc gcc-gfortran tk
重新(xīn)打上Ib驱动
./mlnxofedinstall --all --force
3.文(wén)件系统升级
gpfs-5.0.3-3升级到gpfs-5.0.5.2,注意确认升级版本需要与升级后内核版本相匹配。
第三步,单节点-多(duō)节点-整个刀(dāo)箱测试升级脚本。
编写自动化安(ān)装(zhuāng)脚本,其中(zhōng)包含节点内核升级;gpfs文(wén)件系统升级;Ib驱动;hardethib ;gpu 驱动安(ān)装(zhuāng)(gpu节点需要)等步骤。
节点测试需要从单节点开始,单节点测试安(ān)装(zhuāng)通过之后测试多(duō)节点并行安(ān)装(zhuāng),没有(yǒu)问题之后进行整个刀(dāo)箱批量安(ān)装(zhuāng),可(kě)以保证在分(fēn)发所有(yǒu)节点安(ān)装(zhuāng)脚本时,安(ān)装(zhuāng)过程的全程自动化不会出现问题。
最后一步,通过xcat分(fēn)发脚本安(ān)装(zhuāng)所有(yǒu)节点,升级完成。
03/总结感悟
每一次任務(wù)的圆满完成都凝聚了奥工(gōng)工(gōng)程师专业细致、认真负责的职业素养与专业能(néng)力,每一次项目上的操作(zuò)实践都是工(gōng)程师职业生涯中(zhōng)的宝贵财富。在实践中(zhōng)总结,在经验中(zhōng)成長(cháng),反观这次升级与迁移,一定会有(yǒu)珍贵的反思与感悟:
01/比如某些节点在gpfs升级中(zhōng)配置文(wén)件会出现丢失的情况。mmsdrrestore 是在 GPFS 集群灾难恢复中(zhōng)一个很(hěn)重要的命令,可(kě)以用(yòng)来恢复 GPFS 集群中(zhōng)指定节点的配置文(wén)件。工(gōng)程师们在灾难恢复时主要是恢复 mmsdrfs 这个 GPFS 的重要配置文(wén)件。比如在mmsdrrestore 命令,可(kě)以执行下面的命令。mmsdrrestore – p node1 – F /var/mmfs/gen/mmsdrfs。通过以上操作(zuò),恢复相应的配置文(wén)件,保证升级迁移的顺利进行。
02/节点互信出现问题。在升级某些节点时自动升级脚本失败,通过排查发现是由于该节点互信存在问题。因此需要重做互信,以保证节点正常升级以及后续可(kě)以正常加入到集群的作(zuò)业运行。
03/理(lǐ)论知识与实际操作(zuò)之间有(yǒu)很(hěn)大的沟壑,第一次面对上千节点的升级与迁移,需要以平稳的心态慢慢找问题所在,耐心处理(lǐ)问题,戒骄戒躁;更需要奥工(gōng)工(gōng)程师团队的全力支持,每一位成员,他(tā)们背后是整个奥工(gōng)工(gōng)程师团队,他(tā)们的每一次成長(cháng)也是奥工(gōng)工(gōng)程师团队的不断强大。
奥工(gōng)工(gōng)程师历经数百个项目的锤炼,从单节点、几十个节点、到成百甚至上千个节点,无不标刻着他(tā)们不惧挑战、脚踏实地的成長(cháng)印记。
专业与负责、团结与信任,是奥工(gōng)每一位工(gōng)程师的职业信仰和工(gōng)作(zuò)准则。这次上千节点的服務(wù)过程,凝聚了团队所有(yǒu)人的心血和力量。未来,奥工(gōng)服務(wù)小(xiǎo)分(fēn)队将继续砥砺奋进,用(yòng)专业与实力,“成就客户,成長(cháng)自己”!
—END—
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设