在专栏第一系列中(zhōng)和大家分(fēn)享了超算平台搭建实施的管理(lǐ)节点部署、集群系统部署、集群性能(néng)测试以及统一智能(néng)管理(lǐ)。大家是不是觉得,在超算平台搭建实施完成交到客户手上,由系统管理(lǐ)员负责管理(lǐ)之后,我们的工(gōng)作(zuò)就算圆满结束了?并不是喔!我们还有(yǒu)非常重要的一项任務(wù)——超算运维管理(lǐ)。
简单来说,超算运维就是负责超算系统的运行维护工(gōng)作(zuò),保障系统安(ān)全稳定运行,给用(yòng)户提供有(yǒu)效的超算服務(wù)。超算运维的历史之久可(kě)以追溯到上个世纪60年代,当超算被应用(yòng)于军事、科(kē)研等高尖端领域的时候,运维便相伴而生,经历从传统运维到智能(néng)化运维的漫長(cháng)过程。随着数字化信息时代的到来,确保信息系统安(ān)全可(kě)控,已经成了各个企业稳定业務(wù)发展的前提,超算运维在各个企业中(zhōng)的价值體(tǐ)现也越来越突出。 我们奥工(gōng)专业的运维团队,始终保持着积极响应的状态,致力于為(wèi)企业级IT用(yòng)户提供稳定的全生命周期的超算运维服務(wù)。团队内部根据负责工(gōng)作(zuò)的不同,主要分(fēn)為(wèi)驻场运维、专项运维以及运维专组三部分(fēn),下面来一一為(wèi)大家介绍: 在集群“安(ān)营扎寨”的驻场运维 根据项目的实际情况,针对集群情况复杂、运维要求高的客户,我们会安(ān)排技(jì )术工(gōng)程师提供专门的驻场服務(wù),在甲方爸爸“家”里住下,提供针对性的运维服務(wù)。 比如我们的小(xiǎo)分(fēn)队中(zhōng)就有(yǒu)负责某高校驻场的运维小(xiǎo)姐姐,在该高校的高性能(néng)中(zhōng)心上班,遵守教职工(gōng)的工(gōng)作(zuò)时间,执行老师们需要的运维服務(wù)内容,包括安(ān)装(zhuāng)配置、巡检、值守以及其他(tā)需要配合的工(gōng)作(zuò)服務(wù)内容。这种运维方式包括规范性日常维护、故障应急响应、设备问题解决等等,运维效率优势明显,可(kě)以在客户设备出现问题的第一时间判断处理(lǐ)故障,最短的时间相应客户需求,降低运营信息系统的故障解决的时间成本。 短期内“突击”的专项运维 专项运维比较特殊,一般由参与该项目实施的工(gōng)程师负责,不需要驻场运维那样長(cháng)期“安(ān)营扎寨”,但是短期内又(yòu)需要专人负责,在集群现场“暂住”半个月、一个月或者更長(cháng)时间,全身心投入集群建设和维护。(悄悄的说,专项运维大概率发生在某个大集群出现严重问题时,一般情况下较少见。) 比如我们服務(wù)的某制造业客户,当它的集群出现電(diàn)源问题且设备宕机,情况复杂严重,其业務(wù)受到严重影响的时候,奥工(gōng)运维小(xiǎo)分(fēn)队队長(cháng)亲自上阵、奋战整整一周。在保证数据不丢失的前提下,竭尽全力恢复集群,并在后期对恢复的集群做了整套性能(néng)测试,检查集群各项性能(néng)是否受影响。 7*24小(xiǎo)时响应的运维专组 奥工(gōng)小(xiǎo)分(fēn)队中(zhōng)的运维专组必须重磅介绍!服務(wù)大量的客户项目、几十个集群、7*24小(xiǎo)时响应……我们争分(fēn)夺秒(miǎo)為(wèi)客户保障集群安(ān)全生产(chǎn)环境。 每月整理(lǐ)运维报告,总结分(fēn)析近期运维情况;每季度巡检测试并整理(lǐ)巡检报告,检查集群性能(néng)水平。我们希望可(kě)以不断完善运维方式,更好地提升运维服務(wù)水平。 从某些意义上来说,及时运维比建设更重要。除了日常运维,我们还会根据具(jù)體(tǐ)情况的不同适时地调整运维策略,比如疫情期间不少集群突增挖矿病毒和勒索病毒,我们运维专组紧急商(shāng)量对策,最终选择通过关闭不必要的HPC应用(yòng)、提高防火墙安(ān)全策略和监听遠(yuǎn)程登录端口等方式保护集群安(ān)全,效果颇為(wèi)显著。 1/响应时间 传统运维局限性是我们服務(wù)这么多(duō)年一直困扰的问题,服務(wù)范围、地点、对象等都会受到约束,严重影响运维效率。正是因為(wèi)这些局限的存在,从出现问题、发现问题到解决问题,中(zhōng)间的时差不可(kě)避免。 如果说平均解决时间是结果,那么平均响应时间就是重要的过程指标。告警越快、响应越快、问题解决越快。所以响应时间的重要性不言而喻,它是提升运维服務(wù)的关键点之一。 2/主动or被动 传统运维最明显的瓶颈是“被动响应”,往往是故障出现后才采取一定措施,延误了时间,还造成不同程度的损失,这种被动的“救火式”运维往往让我们捉襟见肘、着实头痛。 举个例子,我们早期运维的某高校集群曾出现存储忽然损坏,运维人员及时响应并到达现场,抢修了近24小(xiǎo)时才恢复正常运作(zuò),这样的传统超算运维方式,尽管运维人员已经竭尽全力,但被动的响应还是对用(yòng)户计算需求造成了一定的影响。所以,如何可(kě)以“化被动為(wèi)主动”,如何推进主动式运维, 也是提升运维的关键点。 3/预判能(néng)力 相信每一个运维人都因為(wèi)海量的日志(zhì)数据而黯然神伤过,日复一日的“打怪升级”、发现问题解决问题……虽然其中(zhōng)不乏“等级高”的运维人可(kě)以根据故障现象的不同,结合自身经验分(fēn)析原因并迅速找出解决问题的方法,甚至可(kě)能(néng)具(jù)有(yǒu)一定的预判能(néng)力,能(néng)敏锐的察觉到问题所在,因此备受青睐。但是随着社会生产(chǎn)数字化转型,超算规模越来越大,系统越来越复杂,大数据的连续轰炸依旧让运维人员心有(yǒu)余而力不足。那么如何利用(yòng)大数据分(fēn)析减少运维人员压力,提高集群预判性能(néng)就非常关键了。 03/我们怎么做? 1/缩短时延 试想下,如果線(xiàn)上发现问题,能(néng)够第一时间通过短信、邮件、语音等方式告诉大家,是不是就可(kě)以有(yǒu)效缩短响应时间呢(ne)?我们奥工(gōng)小(xiǎo)分(fēn)队便通过微信或邮件方式,结合ipmitool命令收集服務(wù)器硬件情况,定时自动采集系统数据,后台进行数据与阀值比对,发送集群硬件平台故障信息,第一时间传递集群状态,大大缩短时延,提高运维效率。同时,我们更有(yǒu)奥工(gōng)客服机器人7*24小(xiǎo)时在線(xiàn),提高响应度,不遗漏客户提出的任何一个运维需求,缩短响应时间,增强服務(wù)體(tǐ)验感。 2/化被动為(wèi)主动 随着社会生产(chǎn)数字化转型,超算规模越来越大,系统越来越复杂,超算运维必须要通过专门工(gōng)具(jù)提升运维智能(néng)化水平。超算运维智能(néng)化最突出的特点就是“化被动為(wèi)主动”,通过智能(néng)化监控系统发现故障隐患,提前告知用(yòng)户需要重点关注的资源,做到防患于未然。 除了OGSP2.0為(wèi)解放人力运维的贡献外,我们自然也没有(yǒu)闲着。根据不同集群用(yòng)户的实际需求,我们会具(jù)有(yǒu)针对性得编写该集群的自动化巡检脚本,检查内存、cpu、节点状态、机房温度等等……通过自动巡检主动发现集群可(kě)能(néng)存在的问题。 3/提高预判 「深耕运维记录,提升预判能(néng)力。」 凭借在超算运维多(duō)年摸爬滚打的经验,我们日常会通过记录运维活动、收集运维故障信息,进行数据分(fēn)析,分(fēn)析故障点,形成事件报告。运维记录有(yǒu)多(duō)重要想必每一个运维人都非常清楚的,深耕运维记录可(kě)以有(yǒu)效避免个人意志(zhì)带来的主观性、片面性和局限性,也可(kě)以减少因缺少数据支撑而带来的偏差,降低决策风险。 最最最重要的是,我们奥工(gōng)专属的资深运维工(gōng)程师可(kě)以根据整合的信息给出分(fēn)析,针对不同集群的实际情况,敏锐得预判可(kě)能(néng)存在和未来会出现的问题,在问题发生前预防并优化,从根本上提升體(tǐ)验度。 「智能(néng)化大数据分(fēn)析,防患于未然。」 另外,我们上一篇提到的奥工(gōng)自研OGSP2.0在提高预判上也有(yǒu)“奇效”。它的智能(néng)化监控系统全面展示集群系统,通过大数据分(fēn)析提前发现可(kě)能(néng)存在的故障隐患,提前告知用(yòng)户需要重点关注的资源;另外它的智能(néng)化诊断也可(kě)以最大限度减少维修时间、提高服務(wù)质(zhì)量,做到防患于未然。 至此,《超算平台搭建实施系列》正式告一段落。 下一期,我们即将围绕奥工(gōng)超算平台搭建中(zhōng)必不可(kě)少的文(wén)件系统和大家分(fēn)享我们的测试经验,不见不散!
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设