在传统集群的运维中(zhōng),经常陷入“救火式运维”的窘境,秉承着“预防為(wèi)先”的原则,定期巡检可(kě)以提前发现设备在运行中(zhōng)存在的隐患并进行合理(lǐ)整合,做到防患于未然。奥工(gōng)小(xiǎo)分(fēn)队根据集群实际需求制定巡检方案,通过人工(gōng)&运维软件双重保障的巡检方式,每季度、每月甚至每天定时定点為(wèi)集群检查隐患、排除风险,力求面面俱到,不放过任何一个细节。
超算集群是由一些互相连接的服務(wù)器通过快速通信链路构成的一个并行或分(fēn)布式系统。这些服務(wù)器一起工(gōng)作(zuò)并运行一系列共同的应用(yòng)程序,同时為(wèi)用(yòng)户和应用(yòng)程序提供单一的系统映射。从外部看来,这些服務(wù)器就像一台服務(wù)器在工(gōng)作(zuò);而对内来说,外面来的负载通过一定的机制动态地分(fēn)配到这些节点机中(zhōng)去,从而达到超级服務(wù)器才有(yǒu)的高性能(néng)、高可(kě)用(yòng)。
每一个运维人都知道,在集群的运维过程中(zhōng)“防大于治”,“救火”不如在“起了火星子”或者“周围存在易燃易爆品”时就及时处理(lǐ)。超算中(zhōng)心设备数量多(duō),如果隐患不及时处理(lǐ),轻则影响单个节点的正常运行,重则影响整个集群的稳定运行。
那么如何“防”?巡检就是“防”的必要手段——“日常巡检”是日常对相关设备进行巡视和检查,主要分(fēn)為(wèi)机房环境巡检和服務(wù)器巡检,通过巡检发现隐患并第一时间安(ān)全处理(lǐ)完毕,做到以“防”主动找出可(kě)能(néng)会影响系统可(kě)用(yòng)性、系统性能(néng)降低等原因,发现影响软硬件严重故障、业務(wù)系统性能(néng)的瓶颈等等,最大限度减少隐患和已经存在问题带来的影响,保障集群正常稳定运行。
超算中(zhōng)心分(fēn)為(wèi)系统运行监控中(zhōng)心和中(zhōng)心机房两个部分(fēn),中(zhōng)心机房是超算中(zhōng)心正常运转的重要核心,更是巡检的重中(zhōng)之重。為(wèi)保障所有(yǒu)用(yòng)户作(zuò)业安(ān)全平稳运行,中(zhōng)心机房专人专岗负责,另配备7*24小(xiǎo)时的遠(yuǎn)程团队提供支持,在巡检上自然也会下大功夫。关于奥工(gōng)巡检整个流程下来可(kě)以简单分(fēn)為(wèi)前期准备、现场检查、数据收集分(fēn)析、报告生成、问题追踪,本篇着重和大家聊一聊“现场检查”这一部分(fēn),该部分(fēn)可(kě)以细划分(fēn)為(wèi)机房环境巡检和服務(wù)器设备巡检,下面就来详细和大家说一下:
机房环境巡检就是对机房基础环境设备、网络设备、主机设备、数据库及中(zhōng)间件系统等实现全面监控,形成完整的实时监控系统,自动收集各种监控指标,及时发现系统隐患和故障,第一时间通知到负责人,保证问题可(kě)以得到及时处理(lǐ)。
奥工(gōng)自研的集群监控软件OGCR(Ongineer Control Rom)就是这么一款具(jù)备监控集群各个方面,协助机房环境巡检的监控软件,它可(kě)以通过多(duō)样化图表实施展现当前集群的状态(包括温度、湿度、空调、UPS、烟感、摄像头、门禁等……)并提供相关提醒和告警,目前已经成為(wèi)奥工(gōng)小(xiǎo)分(fēn)队巡检的有(yǒu)力工(gōng)具(jù)之一。
除了环境的巡检,还有(yǒu)集群的服務(wù)器(Linux)系统也需要定期巡检,以检查服務(wù)器软硬件使用(yòng)情况,确保可(kě)以及时发现问题、解决问题,降低损失,巡检内容包括硬件监控、系统监控、性能(néng)监控、安(ān)全监控、应用(yòng)监控和作(zuò)业运行监控,这里简单概述下就不展开了说了。
● 硬件监控包括通过遠(yuǎn)程管理(lǐ)系统查看集群节点硬件状态(比如联想IMM)、通过IPMI完成物(wù)理(lǐ)设备的监控(比如设备温度、设备故障)以及查看交换机、ib線(xiàn)是否存在降速的情况;
● 系统监控是对cpu、内核、操作(zuò)系统、内存、硬盘使用(yòng)率、io、负载等进行监控;
● 性能(néng)监控是对服務(wù)器性能(néng)和存储性能(néng)进行监控;
● 安(ān)全监控是对用(yòng)户登录是否存在异常情况、是否存在用(yòng)户密码爆破、查看所有(yǒu)用(yòng)户的定时任務(wù)是否存在异常等进行监控;
● 应用(yòng)监控是对应用(yòng)软件的license进行检查,主要关注是否过期、是否正确启用(yòng)、查看文(wén)件系统剩余空间,检查gpfs,lsf,ldap等应用(yòng)是否正确运行等;
● 作(zuò)业运行监控是针对用(yòng)户作(zuò)业cpu利用(yòng)率和各个队列排队情况进行监控。
巡检工(gōng)作(zuò)完成后,奥工(gōng)小(xiǎo)分(fēn)队会对巡检内容进行统计分(fēn)析,同时记录存在问题并进行问题追踪,讨论巡检情况并撰写运维报告,最终提出问题优化方案。
有(yǒu)一个比较常见的巡检“小(xiǎo)情况”想和大家分(fēn)享一下,在奥工(gōng)小(xiǎo)分(fēn)队日常巡检中(zhōng)发现经常有(yǒu)用(yòng)户遇到文(wén)件无法写入、上传等问题,通过检查最终发现问题根源在于用(yòng)户磁盘空间满了而用(yòng)户并不自知,于是我们开始思考如何主动帮助用(yòng)户避免此类情况的发生。
通过总结经验、集思广益,奥工(gōng)小(xiǎo)分(fēn)队最终达成了应用(yòng)脚本方式避免上述问题的解决方法。通过编写脚本,在每个用(yòng)户登陆时自动显示磁盘情况(包括空间已用(yòng)多(duō)少,还剩多(duō)少等信息),可(kě)以及时提醒用(yòng)户清理(lǐ)文(wén)件夹,避免了用(yòng)户因為(wèi)磁盘容量问题导致无法正常运行作(zuò)业。
每一个运维人都知道“防大于治”的重要性,奥工(gōng)小(xiǎo)分(fēn)队更是贯彻执行,将“防”的效用(yòng)最大化,力求在问题发生前发现问题、解决问题。OGCR的精(jīng)确告警配以人工(gōng)巡检是奥工(gōng)小(xiǎo)分(fēn)队目前巡检的重要手段,同时我们也看到自动化巡检更是大势所趋。今年,奥工(gōng)自动巡检系统软件OGAC已通过中(zhōng)國(guó)软件测评中(zhōng)心的测试,不久将会正式发布,敬请期待!
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设