本期还是与存储有(yǒu)关!“开关机”是集群中(zhōng)再日常不过的操作(zuò)了,大规模复杂系统的实验室高性能(néng)计算集群开关机必须严格按照正确步骤逐次进行,否则轻则导致存储硬件损坏,重则造成数据丢失。
本期就让我们一起聚焦存储“开机”与“关机”的实践步骤,以及日常突发断電(diàn)该如何紧急处理(lǐ)吧。 开机的原则遵循 “先开重要设备,再开边缘设备”。 01 环境准备工(gōng)作(zuò) 环境检查贯穿高性能(néng)计算集群建设到运维全阶段,特别是开机阶段。具(jù)體(tǐ)来说包括保证集群环境清洁、无尘,防止任何腐蚀性气體(tǐ)、废气的侵入,机房内不允许水、气管道通过,空气调节设备应能(néng)满足设备正常运行的温度与湿度要求,确保空调运转正常。 最后是依次给设备加電(diàn)。先给交换机设备加電(diàn),再给存储扩展柜加電(diàn),等待5分(fēn)钟,加電(diàn)存储控制器,等待10分(fēn)钟,最后给IO设备设备加電(diàn),IO设备自检完成后按开机键开机。 02 IO节点所有(yǒu)操作(zuò):启动、挂载、检查。 ◆ 启动: 开机后等待IO节点系统启动完成,通过PING命令检测网络连通性,确认正常后启动文(wén)件系统。文(wén)件系统启动為(wèi)开机自启动,以下命令一般无需执行,若没有(yǒu)自动启动,可(kě)以通过以下方式手动启动GridScaler文(wén)件系统: ssh r4io1 mmstartup -N r4io1,r4io2,r4io3,r4io4 启动后,检查文(wén)件系统启动状态是否為(wèi)active。 ssh r4io1 mmgetstate -N r4io1,r4io2,r4io3,r4io4 ◆ 挂载: 在IO节点挂载文(wén)件系统,文(wén)件系统挂载也是开机自启动,以下命令一般无需执行。若没有(yǒu)自动启动,可(kě)以通过以下方式手动挂载GridScaler文(wén)件系统 ssh r4io1 mmmount all -N r4io1,r4io2,r4io3,r4io4 ◆ 检查: 最后,记得检查文(wén)件系统是否挂载,并查看是否挂载了文(wén)件系统的目录。 03 计算节点所有(yǒu)操作(zuò):启动、挂载、检查。 启动: 完成上述步骤后,开启所有(yǒu)计算节点,计算节点启动文(wén)件系统。同样,文(wén)件系统和挂载都為(wèi)开机自启动,如果没有(yǒu)自动启动,可(kě)以结合xcat中(zhōng)批量操作(zuò)命令手动启动GridScaler文(wén)件系统 ssh xcat2 psh all mmstartup PS:若有(yǒu)个别节点没有(yǒu)启动可(kě)以使用(yòng)以下命令单独启动GridScaler文(wén)件系统 ssh hostname mmstartup 启动后,对计算节点文(wén)件系统状态进行检查,是否都為(wèi)active。 ssh xcat2 psh all mmgetstate 挂载: 同样,文(wén)件系统挂载也為(wèi)开机自启动,若没有(yǒu)自动启动,以下方式為(wèi)手动挂载GridScaler文(wén)件系统 ssh xcat2 psh all mmmount all 检查: 同样检查计算节点文(wén)件系统是否挂载 ssh xcat2 psh all df -h 查看是否挂载了文(wén)件系统目录 以上IO节点和计算节点全部操作(zuò)完之后,还需要检查文(wén)件系统是否运行在RDMA网络下: ssh xcat2 psh all “mmfsadm test verbs status” 查看状态是否為(wèi)start。 关机的原则遵循 “先关边缘设备,再关重要设备”。 01 关机准备工(gōng)作(zuò) 在管理(lǐ)节点上以管理(lǐ)员用(yòng)户(root)登录,使用(yòng)下面方式对终端用(yòng)户发送提示信息,所有(yǒu)登录用(yòng)户都会收到提示the system will be closed。 ssh xcat2 psh all “wall the system will be closed” kill所有(yǒu)作(zuò)业,关闭运行在存储上的服務(wù),如作(zuò)业调度软件、门户软件、license管理(lǐ)器等。 02 计算节点所有(yǒu)操作(zuò):卸载、检查、关闭。 存储初始化的第一步,需要将不同数量的磁盘一起 卸载所有(yǒu)计算节点文(wén)件系统 ssh xcat2 psh all mmumount all 检查所有(yǒu)计算节点文(wén)件系统是否卸载成功 ssh xcat2 psh all df -h 检查是否已经成功卸载/apps和/hpchome目录 关闭所有(yǒu)计算节点文(wén)件系统 ssh xcat2 psh all mmshutdown 03 IO节点所有(yǒu)操作(zuò):卸载,检查,关闭。 卸载所有(yǒu)IO节点文(wén)件系统 ssh rio1 mmumount all -N r4io1,r4io2,r4io3,r4io4 检查所有(yǒu)IO节点文(wén)件系统是否卸载成功 ssh r4io1-r4io4 df -h 检查是否已经成功卸载文(wén)件系统目录 关闭所有(yǒu)IO节点文(wén)件系统 ssh rio1 mmshutdown -N r4io1,r4io2,r4io3,r4io4 以上IO节点和计算节点全部操作(zuò)完之后,检查所有(yǒu)节点文(wén)件系统是否关闭,确保所有(yǒu)节点文(wén)件系统状态為(wèi)down,完成系统的全部关机。 再进行硬件关机,通过shutdown命令关闭存储控制器,等待1分(fēn)钟会自动退出该终端。拔出控制器電(diàn)源,等待5分(fēn)钟,拔出扩展柜電(diàn)源,至此关机完成。 目前大部分(fēn)集群都会采用(yòng)普通供電(diàn)+UPS供電(diàn)相结合的方式,配以专业的断電(diàn)应急保障,足以保证集群供電(diàn)安(ān)全可(kě)靠的同时,有(yǒu)效节省超算集群的UPS建设和维护费用(yòng)。 如果集群发生突然断電(diàn)情况,转為(wèi)消耗UPS電(diàn)量,这时候需要立即关机,具(jù)體(tǐ)步骤如下: ① 由于断電(diàn)突发,直接强制关闭文(wén)件系统 ssh r4io1 mmshutdown -a ② 检查所有(yǒu)节点文(wén)件系统是否关闭,状态為(wèi)down ssh rio1 mmgetstate -a ③ 使用(yòng)shutdown关闭存储,等待1分(fēn)钟会自动退出该终端 ssh user@controllerA/controllerB PS:若停電(diàn)时间较長(cháng),则拔出控制器電(diàn)源,等待5分(fēn)钟,再拔出扩展柜電(diàn)源,完成应急关机响应。 “开机/关机”是实施部署中(zhōng)最基础、最常规的操作(zuò),可(kě)以说是每一个奥工(gōng)小(xiǎo)分(fēn)队队员的“基本功”了。秉承着“多(duō)想一种可(kě)能(néng),多(duō)做一次检查”的理(lǐ)念,奥工(gōng)小(xiǎo)分(fēn)队致力于夯实常规化的工(gōng)作(zuò)、优化细节上的操作(zuò),扎实“基本功”,优化“实践力”,提升“服務(wù)感”,致力于实现客户价值最大化。 以上就是本篇关于“开机”“关机”以及紧急断電(diàn)情况下的“应急关机”的奥工(gōng)实践分(fēn)享,想了解更多(duō),请关注我们,下期见!
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设