上一期《管理(lǐ)节点篇》向大家讲述了头节点如何安(ān)装(zhuāng)部署,本期“Geeki 说”让我们一起聚焦超算平台搭建实施的第二步,也是“看不见”的部分(fēn)——集群系统部署,讲讲集群系统如何分(fēn)发。
01/Client节点mac表导入 首先,我们会把client节点的mac表导入我们的管理(lǐ)节点,管理(lǐ)节点通过mac 表去分(fēn)发对应节点的操作(zuò)系统以及他(tā)们所需要的软件。 02/集群系统分(fēn)发 集群包括登录节点、计算节点、io节点、管理(lǐ)节点。上图中(zhōng)的大内存节点、fat节点和gpu节点都属于计算节点的一种。 登录节点,该节点顾名(míng)思义,是用(yòng)来给用(yòng)户登录的。我们高教领域的用(yòng)户不在少数,在學(xué)校的集群平台上,师生登录的时候不可(kě)能(néng)让他(tā)们任意登录整个集群。那么如何限定他(tā)的权限呢(ne)?这就需要选取或者规定其中(zhōng)几台节点作(zuò)為(wèi)他(tā)们的登录节点,只能(néng)登录并通过这些节点去操作(zuò)集群。 用(yòng)户登录后,需要计算节点进行下一步的计算操作(zuò),“跑”各种应用(yòng)。比如“跑”生命科(kē)學(xué)应用(yòng)需要调用(yòng)计算节点,那么登录节点就会通过作(zuò)业调度软件把这些任務(wù)派发到集群的计算节点上,再通过计算节点的资源去进行计算。 上图集群配置中(zhōng)除了较常见的一些计算节点外,还有(yǒu)特别的cpu节点(包括大内存节点、fat节点)和gpu节点。大内存节点最明显的特点是内存数量比较多(duō),而fat节点则是cpu核数比较多(duō),另外图中(zhōng)两个gpu节点的配置也是不同的,在gpu-k40节点中(zhōng)使用(yòng)的是2块 nvidia tesla k40c gpu卡,在gpu_v100节点中(zhōng)使用(yòng)的是8块 nvidia tesla v100 gpu卡,它们的功能(néng)倾向稍有(yǒu)不同。 说完配置,让我们回到集群系统配置的图解。▼▼▼ 首先是mgt。mgt对应管理(lǐ)节点,管理(lǐ)节点是用(yòng)来管理(lǐ)整个集群的,包括系统推送、用(yòng)户管理(lǐ)、系统批量操作(zuò)等等。 由于集群的存储口有(yǒu)限,无法兼顾每一台节点,可(kě)将存储的磁盘空间映射给io节点,再通过io节点上层安(ān)装(zhuāng)gpfs并行文(wén)件系统,将存储映射出来的磁盘组成文(wén)件系统,挂载给所有(yǒu)计算节点,那么所有(yǒu)计算节点就能(néng)看到统一的存储空间了。 另外大家耳熟能(néng)详的login节点,即用(yòng)户登录节点,是用(yòng)来给用(yòng)户登录的。用(yòng)户登录后只有(yǒu)普通权限,并在这些限定节点进行作(zuò)业提交,把任務(wù)派发到计算节点。 接下来是gpu计算节点和cpu计算节点,这里就不多(duō)做赘述了。 以上是各个节点的介绍,下面和大家详细聊一聊各个节点需要对应的软件角色。 首先,管理(lǐ)节点需要ladp server(用(yòng)户管理(lǐ))、作(zuò)业调度server、ib驱动、系统优化、时间同步、rsyslog日志(zhì)和网络配置。 io节点包括了文(wén)件系统server(因為(wèi)只有(yǒu)它和存储直接接触),除此之外的配置基本同上。 login节点需要配置文(wén)件系统的client端。因為(wèi)用(yòng)户的家目录在文(wén)件系统里,需要去挂载文(wén)件系统才能(néng)登录login 节点,然后配置作(zuò)业调度的软件,以便用(yòng)户通过作(zuò)业调度软件去提交作(zuò)业到计算节点。除了和前两个节点差不多(duō)的配置,还有(yǒu)intel编译器、环境变量脚本等。 剩下的计算节点所需的功能(néng)点较少,多(duō)為(wèi)软件client端与性能(néng)调优,性能(néng)调优会在下一篇《性能(néng)测试篇》中(zhōng)详细介绍,这里也就不多(duō)说了。 以上部分(fēn)配置完成了后,需要配置文(wén)件系统。 文(wén)件系统是在操作(zuò)系统中(zhōng)负责管理(lǐ)和存储文(wén)件信息。从系统角度来看,文(wén)件系统是对文(wén)件存储设备的空间进行组织和分(fēn)配,负责文(wén)件存储并对存入的文(wén)件进行保护和检索的系统。而在之前的操作(zuò)中(zhōng)所提到的“文(wén)件系统”操作(zuò)仅仅是安(ān)装(zhuāng),安(ān)装(zhuāng)后还需要把文(wén)件系统对接起来,通过配置io节点将文(wén)件系统的优化项包括挂载项这些给作(zuò)业节点配置好。 我们会通过创建集群模板文(wén)件,将所有(yǒu)的节点都添加进去,并定义节点角色,以创建的节点模板文(wén)件来创建集群,再创建nsd设备(这里需要提前准备磁盘描述文(wén)件)。在准备好nsd底层的设备之后,就可(kě)以创建gpfs对外提供的文(wén)件系统了。 最后是作(zuò)业调度系统的配置。 作(zuò)业调度,简单来说是将我们派发的作(zuò)业提交给各个计算节点,它有(yǒu)四大明显的特点:①在单位时间内尽可(kě)能(néng)提交更多(duō)的作(zuò)业;②不断提交作(zuò)业,自动排队,保证集群利用(yòng)率最高并一直处于忙碌状态(可(kě)达到接近100%);③由于集群利用(yòng)率可(kě)达到100%,io得以充分(fēn)利用(yòng),利用(yòng)率相对也很(hěn)高;④对所有(yǒu)用(yòng)户的作(zuò)业的优先级进行公(gōng)平公(gōng)正、合理(lǐ)有(yǒu)效的分(fēn)配。 我们会通过修改lsf的配置文(wén)件install.config里面的内容,来修改安(ān)装(zhuāng)位置、管理(lǐ)者、集群名(míng)、文(wén)件位置、安(ān)装(zhuāng)源glibc文(wén)件包地址等等,从而实现作(zuò)业调度系统的配置。 在配置好作(zuò)业调度系统后,我们集群系统的部署“四步走”就全部完成啦。
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设