技(jì )术资料

资料介绍

超算平台搭建实施-关于运维那些事

时间:2022-11-10 浏览次数:56 分(fēn)类:技(jì )术资料

在专栏第一系列中(zhōng)和大家分(fēn)享了超算平台搭建实施的管理(lǐ)节点部署、集群系统部署、集群性能(néng)测试以及统一智能(néng)管理(lǐ)。大家是不是觉得,在超算平台搭建实施完成交到客户手上,由系统管理(lǐ)员负责管理(lǐ)之后,我们的工(gōng)作(zuò)就算圆满结束了?并不是喔!我们还有(yǒu)非常重要的一项任務(wù)——超算运维管理(lǐ)



简单来说,超算运维就是负责超算系统的运行维护工(gōng)作(zuò),保障系统安(ān)全稳定运行,给用(yòng)户提供有(yǒu)效的超算服務(wù)。超算运维的历史之久可(kě)以追溯到上个世纪60年代,当超算被应用(yòng)于军事、科(kē)研等高尖端领域的时候,运维便相伴而生,经历从传统运维到智能(néng)化运维的漫長(cháng)过程。随着数字化信息时代的到来,确保信息系统安(ān)全可(kě)控,已经成了各个企业稳定业務(wù)发展的前提,超算运维在各个企业中(zhōng)的价值體(tǐ)现也越来越突出。


01/奥工(gōng)小(xiǎo)分(fēn)队的运维

我们奥工(gōng)专业的运维团队,始终保持着积极响应的状态,致力于為(wèi)企业级IT用(yòng)户提供稳定的全生命周期的超算运维服務(wù)。团队内部根据负责工(gōng)作(zuò)的不同,主要分(fēn)為(wèi)驻场运维、专项运维以及运维专组三部分(fēn),下面来一一為(wèi)大家介绍:



在集群“安(ān)营扎寨”的驻场运维


根据项目的实际情况,针对集群情况复杂、运维要求高的客户,我们会安(ān)排技(jì )术工(gōng)程师提供专门的驻场服務(wù),在甲方爸爸“家”里住下,提供针对性的运维服務(wù)。


比如我们的小(xiǎo)分(fēn)队中(zhōng)就有(yǒu)负责某高校驻场的运维小(xiǎo)姐姐,在该高校的高性能(néng)中(zhōng)心上班,遵守教职工(gōng)的工(gōng)作(zuò)时间,执行老师们需要的运维服務(wù)内容,包括安(ān)装(zhuāng)配置、巡检、值守以及其他(tā)需要配合的工(gōng)作(zuò)服務(wù)内容。这种运维方式包括规范性日常维护、故障应急响应、设备问题解决等等,运维效率优势明显,可(kě)以在客户设备出现问题的第一时间判断处理(lǐ)故障,最短的时间相应客户需求,降低运营信息系统的故障解决的时间成本。



短期内“突击”的专项运维


专项运维比较特殊,一般由参与该项目实施的工(gōng)程师负责,不需要驻场运维那样長(cháng)期“安(ān)营扎寨”,但是短期内又(yòu)需要专人负责,在集群现场“暂住”半个月、一个月或者更長(cháng)时间,全身心投入集群建设和维护。(悄悄的说,专项运维大概率发生在某个大集群出现严重问题时,一般情况下较少见。)


比如我们服務(wù)的某制造业客户,当它的集群出现電(diàn)源问题且设备宕机,情况复杂严重,其业務(wù)受到严重影响的时候,奥工(gōng)运维小(xiǎo)分(fēn)队队長(cháng)亲自上阵、奋战整整一周。在保证数据不丢失的前提下,竭尽全力恢复集群,并在后期对恢复的集群做了整套性能(néng)测试,检查集群各项性能(néng)是否受影响。


7*24小(xiǎo)时响应的运维专组


奥工(gōng)小(xiǎo)分(fēn)队中(zhōng)的运维专组必须重磅介绍!服務(wù)大量的客户项目、几十个集群、7*24小(xiǎo)时响应……我们争分(fēn)夺秒(miǎo)為(wèi)客户保障集群安(ān)全生产(chǎn)环境。


每月整理(lǐ)运维报告,总结分(fēn)析近期运维情况;每季度巡检测试并整理(lǐ)巡检报告,检查集群性能(néng)水平。我们希望可(kě)以不断完善运维方式,更好地提升运维服務(wù)水平。


从某些意义上来说,及时运维比建设更重要。除了日常运维,我们还会根据具(jù)體(tǐ)情况的不同适时地调整运维策略,比如疫情期间不少集群突增挖矿病毒和勒索病毒,我们运维专组紧急商(shāng)量对策,最终选择通过关闭不必要的HPC应用(yòng)、提高防火墙安(ān)全策略和监听遠(yuǎn)程登录端口等方式保护集群安(ān)全,效果颇為(wèi)显著。


02/提升运维服務(wù)的个关键点

 1/响应时间 


传统运维局限性是我们服務(wù)这么多(duō)年一直困扰的问题,服務(wù)范围、地点、对象等都会受到约束,严重影响运维效率。正是因為(wèi)这些局限的存在,从出现问题、发现问题到解决问题,中(zhōng)间的时差不可(kě)避免。


如果说平均解决时间是结果,那么平均响应时间就是重要的过程指标。告警越快、响应越快、问题解决越快。所以响应时间的重要性不言而喻,它是提升运维服務(wù)的关键点之一。


 2/主动or被动 


传统运维最明显的瓶颈是“被动响应”,往往是故障出现后才采取一定措施,延误了时间,还造成不同程度的损失,这种被动的“救火式”运维往往让我们捉襟见肘、着实头痛。


举个例子,我们早期运维的某高校集群曾出现存储忽然损坏,运维人员及时响应并到达现场,抢修了近24小(xiǎo)时才恢复正常运作(zuò),这样的传统超算运维方式,尽管运维人员已经竭尽全力,但被动的响应还是对用(yòng)户计算需求造成了一定的影响。所以,如何可(kě)以“化被动為(wèi)主动”,如何推进主动式运维, 也是提升运维的关键点。


 3/预判能(néng)力 


相信每一个运维人都因為(wèi)海量的日志(zhì)数据而黯然神伤过,日复一日的“打怪升级”、发现问题解决问题……虽然其中(zhōng)不乏“等级高”的运维人可(kě)以根据故障现象的不同,结合自身经验分(fēn)析原因并迅速找出解决问题的方法,甚至可(kě)能(néng)具(jù)有(yǒu)一定的预判能(néng)力,能(néng)敏锐的察觉到问题所在,因此备受青睐。但是随着社会生产(chǎn)数字化转型,超算规模越来越大,系统越来越复杂,大数据的连续轰炸依旧让运维人员心有(yǒu)余而力不足。那么如何利用(yòng)大数据分(fēn)析减少运维人员压力,提高集群预判性能(néng)就非常关键了。

03/我们怎么做?

 1/缩短时延 


试想下,如果線(xiàn)上发现问题,能(néng)够第一时间通过短信、邮件、语音等方式告诉大家,是不是就可(kě)以有(yǒu)效缩短响应时间呢(ne)?我们奥工(gōng)小(xiǎo)分(fēn)队便通过微信或邮件方式,结合ipmitool命令收集服務(wù)器硬件情况,定时自动采集系统数据,后台进行数据与阀值比对,发送集群硬件平台故障信息,第一时间传递集群状态,大大缩短时延,提高运维效率。同时,我们更有(yǒu)奥工(gōng)客服机器人7*24小(xiǎo)时在線(xiàn),提高响应度,不遗漏客户提出的任何一个运维需求,缩短响应时间,增强服務(wù)體(tǐ)验感。

image.png

 2/化被动為(wèi)主动 


随着社会生产(chǎn)数字化转型,超算规模越来越大,系统越来越复杂,超算运维必须要通过专门工(gōng)具(jù)提升运维智能(néng)化水平。超算运维智能(néng)化最突出的特点就是“化被动為(wèi)主动”,通过智能(néng)化监控系统发现故障隐患,提前告知用(yòng)户需要重点关注的资源,做到防患于未然。


除了OGSP2.0為(wèi)解放人力运维的贡献外,我们自然也没有(yǒu)闲着。根据不同集群用(yòng)户的实际需求,我们会具(jù)有(yǒu)针对性得编写该集群的自动化巡检脚本,检查内存、cpu、节点状态、机房温度等等……通过自动巡检主动发现集群可(kě)能(néng)存在的问题。

image.png


 3/提高预判 


「深耕运维记录,提升预判能(néng)力。」

凭借在超算运维多(duō)年摸爬滚打的经验,我们日常会通过记录运维活动、收集运维故障信息,进行数据分(fēn)析,分(fēn)析故障点,形成事件报告。运维记录有(yǒu)多(duō)重要想必每一个运维人都非常清楚的,深耕运维记录可(kě)以有(yǒu)效避免个人意志(zhì)带来的主观性、片面性和局限性,也可(kě)以减少因缺少数据支撑而带来的偏差,降低决策风险。


最最最重要的是,我们奥工(gōng)专属的资深运维工(gōng)程师可(kě)以根据整合的信息给出分(fēn)析,针对不同集群的实际情况,敏锐得预判可(kě)能(néng)存在和未来会出现的问题,在问题发生前预防并优化,从根本上提升體(tǐ)验度。

image.png

image.png

「智能(néng)化大数据分(fēn)析,防患于未然。」

另外,我们上一篇提到的奥工(gōng)自研OGSP2.0在提高预判上也有(yǒu)“奇效”。它的智能(néng)化监控系统全面展示集群系统,通过大数据分(fēn)析提前发现可(kě)能(néng)存在的故障隐患,提前告知用(yòng)户需要重点关注的资源;另外它的智能(néng)化诊断也可(kě)以最大限度减少维修时间、提高服務(wù)质(zhì)量,做到防患于未然。


image.png







至此,《超算平台搭建实施系列》正式告一段落。


下一期,我们即将围绕奥工(gōng)超算平台搭建中(zhōng)必不可(kě)少的文(wén)件系统和大家分(fēn)享我们的测试经验,不见不散!



相关产(chǎn)品

OGSP

OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。

OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。

了解产(chǎn)品

咨询電(diàn)话

公(gōng)司官微

025-86738812

联系我们

hwclould@ongineer.cn

南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室

025-86738812

奥工(gōng)科(kē)技(jì )公(gōng)众号

版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号

技(jì )术支持:网站建设

脔到她哭H粗话H好爽小黄鸭视频 艳肉乱痕1一12章精汁欲液 大地资源中文第二页在线观看完整版 日产无人区一线二码三码2021 片多多电影电视剧影视剧三年 父亲有力挺送女儿的花园 特级西西人体444WWW高清大胆 成全影视大全在线播放 国语对白农村老太婆BBW 农场主的女儿们在线观看完整视频憨豆 巜大学生特殊精油按摩2 中文天堂国产最新 欧美尺码日本尺码专线 女人和公豬交交30 中国新疆XXXXXL19DFM 黄金网站APP在线观看大全免费视频 成人无码视频 我和闺蜜在KTV被八人伦 你是我的女人6免费观看6集 少妇厨房愉情2 CSGO高清视频免费播放 麻花传媒沈芯语老师家访 三个人一起躁我吃奶头80分钟 三年在线观看免费大全 古代全肉高H春药 根管治疗多少钱一颗牙 美丽的桃子2意大利语来源 王局长扛着白洁两条雪白大腿视频 免费无码黄在线观看WWW 三年片免费观看大全有 妖精动漫免费登录页面看漫画在线观看 三年片在线观看免费大全爱奇艺 领导扒开我奶罩吸我奶头视频 艳肉乱痕1一12章精汁欲液 美丽姑娘高清版在线观看免费中文 成全看免费观看完整版 年轻的母亲在线 老头边吃奶边挵进去呻吟 国产精品久久久久久久久久久久 少妇4做爰电影 巜出轨上司的人妻2中字 玩弄寡妇丰满肉体 爱丫爱丫在线观看免费高清电视剧 一边添奶一边添P好爽视频 多人灌满精子怀孕高H 《第一次的人妻》 巨胸女教师秘书HD 4D玉蒲团奶水都喷出来了免费 乖宝真紧H嘶爽老子H 女儿的男朋友63中汉字三义 黑人糟蹋人妻HD中文字幕 漂亮的秘书伦理HD 黑人荫道BBWBBB大荫道 一边下奶一吃敷面膜视频 免费观看欧美成人AA片爱我多深 红桃免费观看电视剧高清墨雨云间 琪琪伦伦影院理论片 三年片大全免费观看 头等舱客服的特殊待遇2 糖心VLOG免费网页版 初恋的滋味2电视剧免费观看 健身的女孩们2满天星 私人影院家庭影院 校草被LJ到喷水沦为宿舍视频 特种兵初尝禁果H高肉1V1 女人花免费观看大全电视剧 我和岳乱妇三级高清电影 特黄AAAAAAA片免费视频 国产重口老太伦视频 国产精品久久久午夜夜伦鲁鲁 少女的免费高清中国 日本A级C片免费看三区 少妇2做爰伦理 妇与子乱肉肉视频 丰满的继牳伦理 再深点灬舒服灬太大了添小书 强公把我次次高潮HD 强伦人妻一区二区三区视频18 中文字幕在线播放 亚洲精品字幕