技(jì )术资料

资料介绍

存储开关机小(xiǎo)实践

时间:2022-11-10 浏览次数:110 分(fēn)类:技(jì )术资料

本期还是与存储有(yǒu)关!“开关机”是集群中(zhōng)再日常不过的操作(zuò)了,大规模复杂系统的实验室高性能(néng)计算集群开关机必须严格按照正确步骤逐次进行,否则轻则导致存储硬件损坏,重则造成数据丢失。



本期就让我们一起聚焦存储“开机”与“关机”的实践步骤,以及日常突发断電(diàn)该如何紧急处理(lǐ)吧。


image.png

开机的原则遵循

“先开重要设备,再开边缘设备”。


01

环境准备工(gōng)作(zuò)


环境检查贯穿高性能(néng)计算集群建设到运维全阶段,特别是开机阶段。具(jù)體(tǐ)来说包括保证集群环境清洁、无尘,防止任何腐蚀性气體(tǐ)、废气的侵入,机房内不允许水、气管道通过,空气调节设备应能(néng)满足设备正常运行的温度与湿度要求,确保空调运转正常。


最后是依次给设备加電(diàn)。先给交换机设备加電(diàn),再给存储扩展柜加電(diàn),等待5分(fēn)钟,加電(diàn)存储控制器,等待10分(fēn)钟,最后给IO设备设备加電(diàn),IO设备自检完成后按开机键开机。


图片



02

IO节点所有(yǒu)操作(zuò):启动、挂载、检查。


◆ 启动:

开机后等待IO节点系统启动完成,通过PING命令检测网络连通性,确认正常后启动文(wén)件系统。文(wén)件系统启动為(wèi)开机自启动,以下命令一般无需执行,若没有(yǒu)自动启动,可(kě)以通过以下方式手动启动GridScaler文(wén)件系统:

ssh r4io1

mmstartup -N r4io1,r4io2,r4io3,r4io4

启动后,检查文(wén)件系统启动状态是否為(wèi)active。

ssh r4io1

mmgetstate -N r4io1,r4io2,r4io3,r4io4


◆ 挂载:

在IO节点挂载文(wén)件系统,文(wén)件系统挂载也是开机自启动,以下命令一般无需执行。若没有(yǒu)自动启动,可(kě)以通过以下方式手动挂载GridScaler文(wén)件系统

ssh r4io1

mmmount all -N r4io1,r4io2,r4io3,r4io4


◆ 检查:

最后,记得检查文(wén)件系统是否挂载,并查看是否挂载了文(wén)件系统的目录。



03

计算节点所有(yǒu)操作(zuò):启动、挂载、检查。

启动:

完成上述步骤后,开启所有(yǒu)计算节点,计算节点启动文(wén)件系统。同样,文(wén)件系统和挂载都為(wèi)开机自启动,如果没有(yǒu)自动启动,可(kě)以结合xcat中(zhōng)批量操作(zuò)命令手动启动GridScaler文(wén)件系统

ssh xcat2

psh all mmstartup

PS:若有(yǒu)个别节点没有(yǒu)启动可(kě)以使用(yòng)以下命令单独启动GridScaler文(wén)件系统

ssh hostname

mmstartup

启动后,对计算节点文(wén)件系统状态进行检查,是否都為(wèi)active。

ssh xcat2

psh all mmgetstate


挂载:

同样,文(wén)件系统挂载也為(wèi)开机自启动,若没有(yǒu)自动启动,以下方式為(wèi)手动挂载GridScaler文(wén)件系统

ssh xcat2

psh all mmmount all


检查:

同样检查计算节点文(wén)件系统是否挂载

ssh xcat2

psh all df -h

查看是否挂载了文(wén)件系统目录



以上IO节点和计算节点全部操作(zuò)完之后,还需要检查文(wén)件系统是否运行在RDMA网络下:

ssh xcat2

psh all “mmfsadm test verbs status”

查看状态是否為(wèi)start。


image.png

关机的原则遵循

“先关边缘设备,再关重要设备”。


01

关机准备工(gōng)作(zuò)


在管理(lǐ)节点上以管理(lǐ)员用(yòng)户(root)登录,使用(yòng)下面方式对终端用(yòng)户发送提示信息,所有(yǒu)登录用(yòng)户都会收到提示the system will be closed。

ssh xcat2

psh  all “wall the system will be closed” 


kill所有(yǒu)作(zuò)业,关闭运行在存储上的服務(wù),如作(zuò)业调度软件、门户软件、license管理(lǐ)器等。


02

计算节点所有(yǒu)操作(zuò):卸载、检查、关闭。


存储初始化的第一步,需要将不同数量的磁盘一起

卸载所有(yǒu)计算节点文(wén)件系统

ssh xcat2

psh all mmumount all


检查所有(yǒu)计算节点文(wén)件系统是否卸载成功

ssh xcat2

psh all df -h

检查是否已经成功卸载/apps和/hpchome目录


关闭所有(yǒu)计算节点文(wén)件系统

ssh xcat2

psh all mmshutdown


03

IO节点所有(yǒu)操作(zuò):卸载,检查,关闭。


卸载所有(yǒu)IO节点文(wén)件系统

ssh rio1

mmumount all -N r4io1,r4io2,r4io3,r4io4


检查所有(yǒu)IO节点文(wén)件系统是否卸载成功

ssh r4io1-r4io4

df -h

检查是否已经成功卸载文(wén)件系统目录


关闭所有(yǒu)IO节点文(wén)件系统

ssh rio1

mmshutdown -N r4io1,r4io2,r4io3,r4io4


以上IO节点和计算节点全部操作(zuò)完之后,检查所有(yǒu)节点文(wén)件系统是否关闭,确保所有(yǒu)节点文(wén)件系统状态為(wèi)down,完成系统的全部关机。


再进行硬件关机,通过shutdown命令关闭存储控制器,等待1分(fēn)钟会自动退出该终端。拔出控制器電(diàn)源,等待5分(fēn)钟,拔出扩展柜電(diàn)源,至此关机完成。


image.png

目前大部分(fēn)集群都会采用(yòng)普通供電(diàn)+UPS供電(diàn)相结合的方式,配以专业的断電(diàn)应急保障,足以保证集群供電(diàn)安(ān)全可(kě)靠的同时,有(yǒu)效节省超算集群的UPS建设和维护费用(yòng)。


如果集群发生突然断電(diàn)情况,转為(wèi)消耗UPS電(diàn)量,这时候需要立即关机,具(jù)體(tǐ)步骤如下:


① 由于断電(diàn)突发,直接强制关闭文(wén)件系统

ssh r4io1

mmshutdown -a


② 检查所有(yǒu)节点文(wén)件系统是否关闭,状态為(wèi)down

ssh rio1

mmgetstate -a


③ 使用(yòng)shutdown关闭存储,等待1分(fēn)钟会自动退出该终端

ssh user@controllerA/controllerB


PS:若停電(diàn)时间较長(cháng),则拔出控制器電(diàn)源,等待5分(fēn)钟,再拔出扩展柜電(diàn)源,完成应急关机响应。


“开机/关机”是实施部署中(zhōng)最基础、最常规的操作(zuò),可(kě)以说是每一个奥工(gōng)小(xiǎo)分(fēn)队队员的“基本功”了。秉承着“多(duō)想一种可(kě)能(néng),多(duō)做一次检查”的理(lǐ)念,奥工(gōng)小(xiǎo)分(fēn)队致力于夯实常规化的工(gōng)作(zuò)、优化细节上的操作(zuò),扎实“基本功”,优化“实践力”,提升“服務(wù)感”,致力于实现客户价值最大化。




以上就是本篇关于“开机”“关机”以及紧急断電(diàn)情况下的“应急关机”的奥工(gōng)实践分(fēn)享,想了解更多(duō),请关注我们,下期见!




相关产(chǎn)品

OGSP

OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。

OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。

了解产(chǎn)品

咨询電(diàn)话

公(gōng)司官微

025-86738812

联系我们

hwclould@ongineer.cn

南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室

025-86738812

奥工(gōng)科(kē)技(jì )公(gōng)众号

版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号

技(jì )术支持:网站建设

阿娇被实干20分钟无删视频 被夫の上司に犯中文字幕 拔萝卜动画免费观看完整版全集高清 苏酥的被CAO日常NP 日本欧美久久久久免费播放网 青丝影院电视剧在线观看全集免费 GOGOGO手机高清在线观看 少妇高潮呻吟A片免费看软件 大地资源在线观看免费中文版 老牛影视文化传媒有限公司官方 调教男奴开腿羞辱性用具男男 黄金网站APP在线观看大全免费视频 丰满岳疯狂做爰2 亚洲人成色777777商业模式 青青河边草免费观看字幕 一女多男3根一起进去 强壮的公次次弄得我高潮A片日本 高潮毛片又色又爽免费 黄瓜视频下载 三年高清观看免费大全哔哩哔哩 《禁止的爱》在线观看 王局长扛着白洁两条雪白大腿视频 公车上的人妻沦陷完整版 他掀开裙子舌头伸进去在线观看 成长的秘密免费观看 性生交大图片费看 麻花天美电影免费观看 被粗大黑人JIB捣出了白浆 樱花动漫在线观看 巜人妻私密按摩师2 女人张开腿让男人添 荫蒂每天被三个男人添小说 公与淑婷厨房猛烈进出演员表 我的漂亮的瘦子5美国 麻花传剧原创MV在线看完整版视频 娇妻裸体交换俱乐部61 美国人完整版免费看 花荫露第十七回原文及翻译 啊灬啊灬啊灬快灬深草莓视频 99精产国品一二三产区区 隔壁的少妇2做爰韩国电影小说 国产麻豆剧传媒精品国产AV 边做边呻吟边做边爱视频 大地中文在线观看免费高清 被黑人伦流澡到高潮HNP动漫 好兄弟当我面给我老婆夹菜正常吗 够了够了到高C了好多水视频 久久精品一区二区三区四区 美女被操网站 强壮的公次次弄得我高潮A片宋 大地资源高清播放在线观看 被黑人伦流澡到高潮HNP动漫 国产无码AV 国产无码AV 天美传媒有限公司宣传片 大地二大全资源在线观看 天堂在线 国产乱伦视频 星空影院电视免费观看 青柠在线观看免费高清电视剧黑暗荣耀 亚洲无码在线播放 大地资源二中文在线观看官网 飘雪影院免费版在线观看视频 麻花传剧原创MV在线看完整版高清 《年轻的护士1》在线观看视频 亚州码专无区2022 无码精品人妻一区二区三区湄公河 三年高清观看免费大全哔哩哔哩 今夜无人入睡在线观看完整版电影 飘雪影院在线观看免费版高清动漫 美国农场主儿女1984免费 国产真人毛片爱做A级毛潘金莲√ 17岁完整版高清免费观看 少妇4做爰电影 日产精品一线二线三线芒果 麻花影视在线看电视剧软件 美丽姑娘高清版在线观看免费中文 嗯灬啊灬把腿张开灬A片视频网站 善良的儿媳 精品人妻午夜一区二区三区四区