众所周知,奥工(gōng)科(kē)技(jì )有(yǒu)两大“扛把子部门”,扛起了奥工(gōng)最专业的技(jì )术服務(wù)——服務(wù)部和产(chǎn)品部。由年轻“小(xiǎo)杆子”组成的服務(wù)部负责客户集群的规划、实施、搭建、运维等等,他(tā)们活跃在集群一線(xiàn),秉承着“人在電(diàn)脑在”的信念,一个電(diàn)话就“闪现”到客户面前。由成熟稳重“大蜀黍”组成的产(chǎn)品部负责相关软件开发,面对其他(tā)部门和客户提出的严苛需求日常在深夜中(zhōng)头脑风暴、死磕到底,不满足产(chǎn)品需求誓不罢休。
当服務(wù)部的小(xiǎo)杆子和研发部的大蜀黍凑在一起,他(tā)们会碰撞出什么火花(huā)呢(ne)?没错,就是我们奥工(gōng)自研且不断迭代更新(xīn)的“OGSP(OG HPC Service Portal)”。
经过数百例集群的实施部署,奥工(gōng)服務(wù)小(xiǎo)分(fēn)队对于搭建超算平台已经熟能(néng)生巧,但是将集群交给客户后,集群管理(lǐ)员是否能(néng)安(ān)全高效的管理(lǐ)运行集群,一直是个头疼的事。传统集群对管理(lǐ)员的要求很(hěn)高,既需要很(hěn)强的代码功底,也需要丰富的工(gōng)作(zuò)经验和集群管理(lǐ)能(néng)力。大多(duō)数客户的集群即使配备了很(hěn)专业的管理(lǐ)员,在集群使用(yòng)过程中(zhōng)也在所难免会遇到大大小(xiǎo)小(xiǎo)各种问题,客户往往十分(fēn)苦恼却无计可(kě)施。
集群用(yòng)户多(duō)难以管理(lǐ)怎么办(bàn)?集群计费单一怎么办(bàn)?集群操作(zuò)难度比较大怎么办(bàn)?什么是好的IT服務(wù)商(shāng)?急用(yòng)户之所急,想用(yòng)户之所想才算真的好!索性自主研发一款真正贴近用(yòng)户需求,提高客户使用(yòng)體(tǐ)验,能(néng)将集群管理(lǐ)员从“又(yòu)累又(yòu)繁”工(gōng)作(zuò)中(zhōng)解放出来的高性能(néng)服務(wù)门户吧。OGSP初代产(chǎn)品——OGSP1.0就此诞生,為(wèi)优化集群运维,解决复杂运营问题而生。
在OGSP设计初期,根据客户的需求反馈,研发方向主要针对如何弱化原本超算中(zhōng)心的管理(lǐ)复杂度;实现集群可(kě)视化、自动化和统一管理(lǐ);提高集群运行效率的同时强化安(ān)全管理(lǐ)等等,从而最终真正降低超算中(zhōng)心系统管理(lǐ)员运维复杂度并提高用(yòng)户體(tǐ)验感。作(zuò)為(wèi)初代产(chǎn)品,OGSP1.0很(hěn)好地解决了以上问题,它通过集群监控、流程规范、用(yòng)户管理(lǐ)、精(jīng)准计费和安(ān)全管理(lǐ)等组合功能(néng)整體(tǐ)降级集群运维难度,提升集群安(ān)全保障,初步从运营角度实现集群价值的有(yǒu)效提升。
一个产(chǎn)品的好坏,取决于客户是否愿意依赖,更取决于是否寄予更多(duō)的期望。初代产(chǎn)品OGSP1.0是成功的,但似乎还不够“尽兴”。它能(néng)不能(néng)在更加安(ān)全、更加高效的基础上,实现集群用(yòng)户管理(lǐ);实现一键快速部署;实现多(duō)种业務(wù)对接;实现对日志(zhì)审计追溯;实现计费管理(lǐ)更加精(jīng)细准确……甚至,它能(néng)不能(néng)更漂亮点?当然可(kě)以!升级后的OGSP优化UI,美化布局和配色,兼顾“外在”与“内在”。
技(jì )术大佬们看到这里,是不是开始好奇OGSP是如何做出来的?简单来说,OGSP采用(yòng)前后端分(fēn)离、软硬件分(fēn)离、准微服務(wù)化搭建架构。并且,OGSP以高度可(kě)伸缩和容错对集群管理(lǐ)及作(zuò)业调度把控,并通过计算用(yòng)户作(zuò)业信息,实现费用(yòng)、账单、报表等管理(lǐ)。
在安(ān)全功能(néng)上,支持调用(yòng)齐治堡垒机、jumpServer堡垒机等接口把控其安(ān)全性;在用(yòng)户管理(lǐ)上,支持对接LDAP、NIS等主流认证平台,对用(yòng)户账户信息、管理(lǐ)员权限等管理(lǐ)把控;在存储管理(lǐ)上,支持对接GPFS、Lustre、BeeGFS文(wén)件共享系统,保证资源组内的所有(yǒu)节点可(kě)以并行访问整个文(wén)件系统,对存储目录、配额大小(xiǎo)等管理(lǐ);在作(zuò)业管理(lǐ)上,支持对接LSF、PBS、SLURM等作(zuò)业调度系统,对集群状态、节点状态、作(zuò)业状态、队列状态信息进行获取。
目前发布的OGSP2.0已升级為(wèi)融合计算服務(wù)门户平台,為(wèi)高性能(néng)计算(HPC)、大数据(BigData)和人工(gōng)智能(néng)(AI)三大领域的客户提供融合计算一站式服務(wù),涵盖融合计算领域各类应用(yòng)入口、资源和作(zuò)业调度、任務(wù)和应用(yòng)监控、用(yòng)户和计费管理(lǐ)等综合型运营服務(wù)管理(lǐ)等功能(néng)。
OGSP2.0的价值特点显著,有(yǒu)效提升了平台运维品质(zhì)、提升了资产(chǎn)价值回报并实现了资产(chǎn)精(jīng)细运营,更具(jù)有(yǒu)易运营、易维护、易操作(zuò)、安(ān)全可(kě)控的显著优势。凭借其技(jì )术优势,OGSP2.0发布半年就已经成功应用(yòng)于多(duō)个业務(wù)领域,包括教育科(kē)研、汽車(chē)制造、生命科(kē)學(xué)、军工(gōng)科(kē)研、气象科(kē)學(xué)、金融证券等等,客户反馈满意。
回顾OGSP过往,是服務(wù)部在客户端了解的第一手服務(wù)需求促成了产(chǎn)品的诞生。产(chǎn)品部通过沟通客户在集群运维使用(yòng)的真实痛点,研发出OGSP1.0——一款可(kě)用(yòng)度高的超算服務(wù)门户。OGSP的1.0版本以核心业務(wù)為(wèi)出发点,解决了用(yòng)户当时部分(fēn)需求,实现了初步的业務(wù)闭环,并逐步向整个业務(wù)拓展。当“可(kě)用(yòng)”不再是主要矛盾后,OGSP进入了效率提升阶段——它是否能(néng)更加“强大”更加“好用(yòng)”?
“强大好用(yòng)”是一个无穷尽的需求,于是OGSP开启了它的迭代之旅。OGSP2.0版本针对1.0存在的不足,除了解决一键部署、优化用(yòng)户管理(lǐ)、UI升级外,着重提高用(yòng)户集群的运营价值。正在研发的2.5版本对架构进行了重新(xīn)设计,对于当前功能(néng)点进行细节优化、产(chǎn)出标准化文(wén)档对接客户、对于整體(tǐ)架构的安(ān)全性、可(kě)拓展性、功能(néng)性都进行了合理(lǐ)性升级,功能(néng)更进行了模块化和数字化。此外,3.0和4.0版本已经规划完毕,OSGP继续更新(xīn)中(zhōng)……
作(zuò)為(wèi)一名(míng)奥工(gōng)科(kē)技(jì )的研发工(gōng)程师,对于“亲生的”OGSP自然是越看越欢喜,但是客户的使用(yòng)反馈才是评判OGSP是否将超算集群发挥最大价值的唯一标准。下一期,就让日常和客户打交道的服務(wù)部“小(xiǎo)杆子”来说一说OGSP2.0实施使用(yòng)感受,看看他(tā)们眼中(zhōng)的OGSP又(yòu)是什么样的吧!
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设