新(xīn)年新(xīn)气象! “Geeki说” 又(yòu)更新(xīn)啦!作(zuò)為(wèi)一家专业的融合计算服務(wù)提供商(shāng),奥工(gōng)科(kē)技(jì )的服務(wù)工(gōng)程师们被亲切地称為(wèi)“奥工(gōng)服務(wù)小(xiǎo)分(fēn)队”,他(tā)们将传统的工(gōng)匠精(jīng)神具(jù)體(tǐ)化成奥工(gōng)的“极客精(jīng)神”(Geeki精(jīng)神:Genuine-真诚/Energetic-活力/Extreme-极致/Knowledge-智慧),并将“Geeki精(jīng)神”落实到每一次项目服務(wù)中(zhōng)。
奥工(gōng)小(xiǎo)分(fēn)队自成立六年以来服務(wù)了数百个HPC集群,覆盖高教、医(yī)疗、制造、军工(gōng)等多(duō)个领域,具(jù)有(yǒu)丰富的HPC项目实战经验。基于这些项目案例和实施经验,我们精(jīng)心策划并开启了“Geeki说”专栏,讲述我们奥工(gōng)工(gōng)程师的实践故事和技(jì )术體(tǐ)会,今年我们将继续和大家分(fēn)享奥工(gōng)小(xiǎo)分(fēn)队工(gōng)作(zuò)成長(cháng)中(zhōng)的经验与技(jì )巧,本篇就从耳熟能(néng)详的“GPU”开始吧! CPU和GPU的监控对集群来说都非常重要,直接关系到集群的正常运行与安(ān)全保障。CPU即中(zhōng)央处理(lǐ)器,作(zuò)為(wèi)计算机系统的运算和控制核心,是信息处理(lǐ)、程序运行的最终执行单元。 GPU即图形处理(lǐ)器,又(yòu)称显卡,是一种专门在个人電(diàn)脑、工(gōng)作(zuò)站、游戏机和一些移动设备上做图像和图形相关运算工(gōng)作(zuò)的微处理(lǐ)器。 在集群运行过程中(zhōng)CPU与GPU相辅相成,GPU使显卡减少了对CPU的依赖,并承担起部分(fēn)CPU的工(gōng)作(zuò)。因為(wèi)GPU拥有(yǒu)大量的运算核心,相对于适用(yòng)于少量复杂且逻辑性高的工(gōng)作(zuò)的CPU,GPU则适用(yòng)于大量简单的运算工(gōng)作(zuò),而超算中(zhōng)心往往使用(yòng)GPU并行计算处理(lǐ)大量数据以保障运算高效。 因此近些年来,GPU在数据中(zhōng)心的应用(yòng)一直在不断深入,从个别节点部署GPU到GPU集群的搭建,GPU在集群中(zhōng)的的地位也越来越重要。 对于集群管理(lǐ)员而言,监控往往是必要的。目前市场上对于GPU监控的开源软件虽然很(hěn)多(duō),但对于监控开发小(xiǎo)伙伴获取GPU卡数据的途径相对却寥寥无几,奥工(gōng)小(xiǎo)分(fēn)队经常接触的有(yǒu)如下两种: 1 ● nvidia-smi 比较基础也是最為(wèi)常见的方式是使用(yòng)GPU自带的命令“nvidia-smi”去获取数据。虽然这种方式简单,但是如果没有(yǒu)开启持续模式就会存在一些问题:一方面可(kě)能(néng)会导致拉取数据时产(chǎn)生延迟,另一方面也可(kě)能(néng)会导致pci的延迟,比如网卡(IB卡、万兆卡)断连或者延迟过高。针对这种问题,奥工(gōng)小(xiǎo)分(fēn)队自有(yǒu)妙招——只需要通过手动开启持续模式nvidia-smi -pm 1即可(kě)轻松解决。 2 ● NVML 另外一种使用(yòng)的人相对少些,但是优势明显,即使用(yòng)英伟达官方有(yǒu)提供相应的工(gōng)具(jù)NVML(NVIDIA Manage Library)来解决GPU卡的数据获取问题。 综合对比下,為(wèi)了更高效地获取GPU参数信息,奥工(gōng)小(xiǎo)分(fēn)队更多(duō)采用(yòng)第二种NVML的接口方式,在我们产(chǎn)品部自研的实时健康监控软件OGCR上也采用(yòng)了这种方式来保障GPU参数信息的实时获取,那么这么方便的工(gōng)具(jù)如何来实现使用(yòng)呢(ne)? NVML是基于C的API,用(yòng)于监视和管理(lǐ)NVIDIA GPU设备的各种状态,同时也有(yǒu)相应的python实现方式----pyNVML,该python库可(kě)以直接使用(yòng)python安(ān)装(zhuāng)后完成相应的GPU数据获取。 ▼ 以CentOS7.X為(wèi)例 ▼ ① 安(ān)装(zhuāng)Python3环境: ② 安(ān)装(zhuāng)pyNVML 自此GPU卡监控相应的工(gōng)具(jù)已经齐备。 准备好工(gōng)具(jù)之后,我们该如何使用(yòng)呢(ne)?下面给大家来对比一下官方提供的方式和奥工(gōng)小(xiǎo)分(fēn)队自己实际拓展的操作(zuò)方式: ① 官方提供的方式: ② 奥工(gōng)小(xiǎo)分(fēn)队根据实际需求、应用(yòng)示例进行针对性拓展: Nvidia.py 运行脚本:python3 nvidia.py 通过以上命令行,可(kě)以得出相应的GPU实际运行信息,包括:GPU型号、显存总量、空闲显存、已使用(yòng)显存、功耗、当前温度、使用(yòng)率等等…… 奥工(gōng)小(xiǎo)分(fēn)队会将得到的参数集成至奥工(gōng)自研的实时健康监控软件OGCR,并对GPU集群资源使用(yòng)情况进行实时监控与展示,以确保及时发现异常情况并进行告警,保障集群的正常运行。 以上就是今年第一篇“Geeki说”分(fēn)享啦!新(xīn)的一年,奥工(gōng)小(xiǎo)分(fēn)队将不断成長(cháng),不断分(fēn)享,不断為(wèi)客户们提供最专业的融合计算服務(wù)! —END—
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设