奥工(gōng)科(kē)技(jì )作(zuò)為(wèi)一家专业的融合计算服務(wù)提供商(shāng),我们的服務(wù)工(gōng)程师们被亲切地称為(wèi)“奥工(gōng)服務(wù)小(xiǎo)分(fēn)队”,这支队伍伴随公(gōng)司成長(cháng),五年时间里服務(wù)了百余个HPC集群,覆盖高教、医(yī)疗、制造、军工(gōng)等多(duō)个领域,具(jù)有(yǒu)丰富的HPC项目实战经验。
基于以往的项目案例和实施经验,我们精(jīng)心策划并开启了“Geeki说”专栏,用(yòng)来讲述我们奥工(gōng)工(gōng)程师的实践故事和技(jì )术體(tǐ)会。
话不多(duō)说,进入今日正题——
《一张图概述HPC平台搭建实施》中(zhōng)的
“那张图” ▼▼▼
HPC实施搭建是全栈服務(wù)中(zhōng)的重要环节,可(kě)将它分(fēn)為(wèi)四大模块,分(fēn)别是管理(lǐ)节点部署、集群系统部署、集群性能(néng)测试和统一智能(néng)管理(lǐ)(奥工(gōng)自研统一智能(néng)管理(lǐ)软件还未发布,会在本系列HPC实施搭建《统一智能(néng)管理(lǐ)篇》中(zhōng)详细展示)。
Geeki说 的“第一说”
实施搭建的第一步「管理(lǐ)节点部署」
(敲重点:是第一次部署必须要安(ān)装(zhuāng)的模块)
在前期的硬件设备全部上架完成后,我们就要开始部署管理(lǐ)节点,管理(lǐ)节点部署作(zuò)為(wèi)HPC实施的首要步骤,在配置好后,可(kě)向其余节点自动推送系统和其他(tā)安(ān)装(zhuāng)包,比如作(zuò)业调度系统、文(wén)件系统、驱动等等,以便进行下一步操作(zuò)。
為(wèi)了“说”得更加清晰,我们又(yòu)将此步骤的部署具(jù)體(tǐ)分(fēn)為(wèi)基本配置、平台软件安(ān)装(zhuāng)和导入分(fēn)发脚本三部分(fēn),下面就和大家好好唠一唠~
01/基本配置
首先,是基本配置,包括安(ān)装(zhuāng)操作(zuò)系统、编写hosts表、配置ip地址和本地yum源。
基本配置的第一步就是安(ān)装(zhuāng)系统,安(ān)装(zhuāng)完成后配置优化项(包括selinux和firewalld配置和ssh端口优化)。selinux可(kě)以看作(zuò)是安(ān)全增强型的linux,嵌入系统内核,负责对内的安(ān)全管理(lǐ);相对的,firewalld可(kě)以看作(zuò)是防火墙的升级版,对端口、ip地址等进行对外的安(ān)全管理(lǐ)。对内对外安(ān)装(zhuāng)完毕后,不能(néng)忘了对ssh端口优化,通过优化修改默认端口,可(kě)有(yǒu)效地防止黑客攻击,进一步提高集群安(ān)全性。
安(ān)全问题搞定了,就要开始编写hosts表了。通过手动编写hosts表,可(kě)以加快域名(míng)解析、方便局域网用(yòng)户、屏蔽网站等等,同时ip地址与域名(míng)对应,也方便查找和记录。
基本配置的最后一步是配置本地yum源。yum是一个在fedora和redhat以及suse中(zhōng)的shell前端软件包管理(lǐ)器,提供了查找、安(ān)装(zhuāng)、删除某一个、一组甚至全部软件包的命令,通过本地yum源的配置,配置安(ān)装(zhuāng)系统镜像中(zhōng)的软件源,并可(kě)以通过这个源获取软件并安(ān)装(zhuāng)。
02/平台软件安(ān)装(zhuāng)
在基本配置好后,就要开始安(ān)装(zhuāng)集群统一管理(lǐ)的组件,包括ntp、dns、http、dhcp、nfs这些软件。
「ntp」可(kě)以确保高精(jīng)度的时间校正;「dns」用(yòng)于域名(míng)与 ip 地址的相互转换,以及控制因特网的電(diàn)子邮件的发送;「http」用(yòng)来拉取安(ān)装(zhuāng)包的头文(wén)件,通过头文(wén)件获取清单,其中(zhōng)包含操作(zuò)系统信息、磁盘划分(fēn)信息、基本设置、安(ān)装(zhuāng)后需要执行的脚本等等;「dhcp」可(kě)自动获得服務(wù)器分(fēn)配的ip地址和子网掩码以及nfs实现在类unix系统间实现磁盘文(wén)件共享。
除此之外,还要安(ān)装(zhuāng)部署 ldap server和webmin。
「ldap server」可(kě)以优化查询、浏览、搜索的数据库,安(ān)装(zhuāng)后用(yòng)作(zuò)用(yòng)户管理(lǐ)。「webmin」是目前功能(néng)最强大的基于web的unix系统管理(lǐ)工(gōng)具(jù),管理(lǐ)员通过浏览器访问webmin的各种管理(lǐ)功能(néng)并完成相应的管理(lǐ)动作(zuò)。
在上述安(ān)装(zhuāng)部署完成后,创建用(yòng)户即可(kě)☑
03/分(fēn)发脚本导入
管理(lǐ)节点部署的最后一步,包括了网络配置、系统优化和ib网络驱动安(ān)装(zhuāng)、gpu显卡驱动自动安(ān)装(zhuāng)、作(zuò)业调度系统server/client自动安(ān)装(zhuāng)、文(wén)件系统server/client自动安(ān)装(zhuāng)、intel编译器自动安(ān)装(zhuāng)、iozone(测试文(wén)件系统的读写性能(néng))、stream(测试内存带宽)、iperf(测试网络延迟)等等。
网络配置中(zhōng)的「ntp」上文(wén)已提到,是一种保证每台节点时间一致的基础服務(wù),另外的图解中(zhōng)提到的「rsyslog」自动配置,是為(wèi)了排查故障和追溯故障点。系统优化中(zhōng)的「ssh」调优大家也不陌生了,可(kě)以通过修改默认端口,防止黑客攻击,效果明显;「swap」调优脚本配置可(kě)以在内存不够时自动释放内存空间;而「module」安(ān)装(zhuāng),可(kě)以通过modulefiles动态修改用(yòng)户的环境。
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设