驻场运维,是奥工(gōng)科(kē)技(jì )提供给客户的一种专属集群运维服務(wù)。针对项目情况,选派资深工(gōng)程师,进驻客户集群现场,提供专人专岗服務(wù),在最短的时间内实现最高效的运维。
今天,一位驻场某超算集群多(duō)年的工(gōng)程师小(xiǎo)姐姐,带着她上季度工(gōng)作(zuò)报告回来啦!让我们通过一次驻场运维季度汇报,来具(jù)體(tǐ)看看驻场运维服務(wù)都是如何落地的吧!
01/常规运维
常规操作(zuò)即日常巡检工(gōng)作(zuò),比如客户问题的处理(lǐ)、作(zuò)业报错的处理(lǐ)、各类软件的安(ān)装(zhuāng)等等,贯穿驻场运维的方方面面,有(yǒu)效保障集群稳定高效运行。
◆每月统计计算资源和存储资源,分(fēn)析CPU平均利用(yòng)率、内存平均使用(yòng)率。
◆每月统计用(yòng)户和作(zuò)业数,分(fēn)析核时使用(yòng)情况及有(yǒu)效时间占比。
◆每月集群状态汇总,包括系统服務(wù)、硬件、性能(néng)、文(wén)件系统、作(zuò)业调度、节点宕机等。
该季度维护事件100+,其中(zhōng)包括报错处理(lǐ)30+,账号处理(lǐ)20+,软件安(ān)装(zhuāng)20+,其他(tā)维护30+。
02/非常规运维
当集群出现特殊问题时,驻场工(gōng)程师会第一时间响应、处理(lǐ),这些都是“非常规”操作(zuò)。
汇报中(zhōng)提到几次重大维护事件,也是比较具(jù)有(yǒu)代表性的“非常规操作(zuò)”,比如超算中(zhōng)心全部计算设备停机维护;上千节点的数据转移;新(xīn)增核数支持科(kē)研抗疫;存储内部出现问题且厂商(shāng)无法解决时,工(gōng)程师多(duō)次深夜现场救急……在遇到大型特殊故障事件时,奥工(gōng)团队更是高效协调内部资源,抽调人员全力处理(lǐ),尽快恢复集群运行。
03/特殊运维
除此之外,还有(yǒu)一个特殊的运维内容——OGSP。
一方面协助集群管理(lǐ)员保障OGSP持续高效运行,协助用(yòng)户创建、删除、迁移;账单统计发送;软件的迁移、升级以及处理(lǐ)客户在使用(yòng)OGSP过程中(zhōng)遇到的各类问题。
另一方面,与产(chǎn)品测试端积极配合,在运维过程中(zhōng)收集事件,细化需求,开发新(xīn)功能(néng)点,不断提升客户體(tǐ)验感。
除了驻场运维,奥工(gōng)运维服務(wù)还包括7*24小(xiǎo)时的在線(xiàn)运维、高效的专项运维、统筹全局的运维专组……不论是哪一种运维方式,我们的工(gōng)程师都会定期记录运维活动、收集运维故障信息,进行数据分(fēn)析,分(fēn)析故障点,形成事件报告。定期整理(lǐ)运维报告、总结分(fēn)析运维情况,通过不断完善运维方式,预判可(kě)能(néng)存在的问题,提前预防,优化建议,更好地提升运维服務(wù)水平!
—END—
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设