大家好,这里是“Geeki说”第四期——概述超算平台搭建实施之《统一智能(néng)管理(lǐ)篇》。看过前几期的小(xiǎo)伙伴们都知道,基于以往的项目案例和实施经验,我们精(jīng)心策划并开启了“Geeki说”专栏,用(yòng)来讲述我们奥工(gōng)工(gōng)程师的实践故事和技(jì )术體(tǐ)会。
超算平台搭建实施到了最后一步,也是最贴近用(yòng)户的一步,即统一智能(néng)管理(lǐ)。 本篇作(zuò)為(wèi)超算平台搭建实施的终篇,将和大家韶一韶在集群搭建完成后,我们如何通过自研的智能(néng)管理(lǐ)软件帮助系统管理(lǐ)员对集群进行智能(néng)化管理(lǐ),在保障集群安(ān)全的前提下,实现集群资源统一部署、管理(lǐ)、监控、调度和报表等,大幅提高集群效率和易用(yòng)性,让超算集群运营实现真正落地。 在大规模的集群系统中(zhōng),操作(zuò)系统和软件部署一直都是令系统管理(lǐ)员十分(fēn)苦恼的问题,系统管理(lǐ)员每天往往会在大量单调复杂的工(gōng)作(zuò)中(zhōng)焦头烂额。 集群搭建完成后,安(ān)全问题是最需要关注的。如果集群存在安(ān)全隐患,账号安(ān)全不能(néng)保障,就会发生账号挟持、用(yòng)户无法登陆等问题,严重的时候甚至会造成不可(kě)估量的数据损失。為(wèi)了防止这种情况发生,集群管理(lǐ)员需要通过硬件层面、系统层面的安(ān)全加固来防止外部和内部的入侵,所以对系统管理(lǐ)员的技(jì )术要求就很(hěn)高。 另外,集群管理(lǐ)中(zhōng)心人工(gōng)手动成分(fēn)特别高。集群的使用(yòng)情况需要管理(lǐ)员通过脚本才能(néng)得出,用(yòng)户提交作(zuò)业和资源占用(yòng)情需要命令才能(néng)查看;财務(wù)管理(lǐ)需要手动核算才能(néng)生成账单;用(yòng)户管理(lǐ)方面也存在局限问题,用(yòng)户离职或者毕业,用(yòng)户信息仍然存在,長(cháng)此以往变成黑户,大量黑户的存在对服務(wù)器数据和信息造成很(hěn)大威胁,这就需要管理(lǐ)员定期手动核对现有(yǒu)账户信息,不断地删除更新(xīn)对应账户。整體(tǐ)来说,集群管理(lǐ)过程复杂且浪费大量人力。 奥工(gōng)服務(wù)小(xiǎo)分(fēn)队服務(wù)了300多(duō)家客户,部署维护过大大小(xiǎo)小(xiǎo)不少集群,我们看到了集群管理(lǐ)员在集群运营中(zhōng)遇到的各种问题,也真切地认识到集群搭建实施要善始善终,不能(néng)仅仅是搭建实施而忽视用(yòng)户的使用(yòng)感受。所以我们有(yǒu)了一个想法——是否可(kě)以自主研发一个智能(néng)化的管理(lǐ)平台软件,弱化原本超算集群管理(lǐ)的难度,最大化实现超算集群的价值呢(ne)? 我们总结出需要搬走集群管理(lǐ)的“三座大山(shān)”,分(fēn)别是安(ān)全问题、管理(lǐ)问题、效率问题。设想这样一个智能(néng)化管理(lǐ)平台软件应该保障集群的安(ān)全性,所以考虑内置防火墙、用(yòng)户危险操作(zuò)可(kě)回溯查看、权限登录方式等;推动集群管理(lǐ)简易化,所以考虑数字化财務(wù)记账、自助式财務(wù)流程、自动化生成多(duō)维度财務(wù)报告等;促进集群的管理(lǐ)高效,所以准备通过解耦模块可(kě)组合的方式满足不同超算用(yòng)户需求快速部署不需要人為(wèi)干预即可(kě)轻松实现在本地搭建。2018年3月,我们公(gōng)司研发出了这样一款服務(wù)软件,给它取名(míng)叫OGSP(奥工(gōng)高性能(néng)门户)。 OGSP作(zuò)為(wèi)一个轻量级容器构建的高性能(néng)统一智能(néng)管理(lǐ)和自服務(wù)门户,从用(yòng)户生产(chǎn)场景出发,围绕超算生产(chǎn)进行安(ān)全、可(kě)靠、稳定提供了支撑。具(jù)體(tǐ)的我们这里就不多(duō)说了,让我们来看一下它是如何安(ān)装(zhuāng)部署的吧! 环境准备 安(ān)装(zhuāng)前期的环境准备工(gōng)作(zuò)包括软件工(gōng)具(jù)准备,有(yǒu)xShell、WinScp、ogsp安(ān)装(zhuāng)包等,以及整理(lǐ)设备清单,本次快速部署采用(yòng)的是虚拟机,操作(zuò)系统為(wèi)Centos。 准备工(gōng)作(zuò) 首先需要我们准备存放目录。通过创建文(wén)件存放的目录/oglab/ogsp,使用(yòng)WINSCP或xshell将ogsp文(wén)件上传到此目录下。 准备工(gōng)作(zuò)最后一步,也是我们前文(wén)中(zhōng)提到了很(hěn)多(duō)次的“关闭防火墙”,这里关闭的包括iptables和selinux这两个防火墙安(ān)全服務(wù)。 安(ān)装(zhuāng)OGSP 安(ān)装(zhuāng)Docker,作(zuò)為(wèi)一个开源的应用(yòng)容器引擎,Docker可(kě)以打包应用(yòng)以及依赖包到一个可(kě)移植的镜像中(zhōng),实现轻量化部署与管理(lǐ)。 安(ān)装(zhuāng)Mysql,这是ogsp主要的后端数据库软件,结合Mysql本身具(jù)有(yǒu)的良好性能(néng),可(kě)以保证ogsp前端增删改查等操作(zuò)等功能(néng)稳定。 安(ān)装(zhuāng)Mongodb,这是ogsp用(yòng)于日志(zhì)的审查系统,方便对用(yòng)户操作(zuò)等消息日志(zhì)进行分(fēn)析记录。 安(ān)装(zhuāng)PHP-fpm,此部安(ān)装(zhuāng)提供了更好的PHP进程管理(lǐ)方式,可(kě)以有(yǒu)效控制内存和进程、平滑重载PHP配置。 安(ān)装(zhuāng)Tomcat,Tomcat 服務(wù)器是一个免费的开放源代码的Web 应用(yòng)服務(wù)器,属于轻量级应用(yòng)服務(wù)器,是开发和调试JSP 程序的首选。 安(ān)装(zhuāng)Nginx,Nginx (engine x) 是一个高性能(néng)的HTTP和反向代理(lǐ)web服務(wù)器,可(kě)以有(yǒu)效加速ogsp页(yè)面访问速度。 安(ān)装(zhuāng)jumpserver,开源的jumpserver堡垒机、用(yòng)户内部云盘存储、ldap用(yòng)户认证等,可(kě)以用(yòng)于ogsp对接第三方应用(yòng)接口。 安(ān)装(zhuāng)Ldap-resfelt,用(yòng)于对接用(yòng)户自己的用(yòng)户管理(lǐ)系统,同步上层用(yòng)户管理(lǐ)系统数据信息。 安(ān)装(zhuāng)py-service,这是ogop用(yòng)户作(zuò)业调度系统lsf的接口。除了它,ogsp同样支持其他(tā)作(zuò)业调度软件,例如slurm等。 以上步骤完成后,ogsp基础功能(néng)组件部署就算完成了,此时便可(kě)以通过浏览器打开ogsp主界面。 以上就是我们OGSP初代产(chǎn)品的安(ān)装(zhuāng)部署过程,过去该过程零零总总需要花(huā)费不少时间,如今2.0版本即将推出,除了各项功能(néng)大大增强之外,在安(ān)装(zhuāng)部署方式上也由原来的“手动分(fēn)布式部署”升级為(wèi)“一键自动化部署”,实现了时间大幅度缩减和效率明显提高。 说到这里,大家一定很(hěn)好奇OGSP2.0有(yǒu)什么特色功能(néng)?它在智能(néng)化运维方面有(yǒu)什么突出的优势?这其中(zhōng)也不是一两句话能(néng)说清楚的。这里我先卖个关子,OGSP2.0即将正式发布!请大家拭目以待!
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设