上一期,从“研发动机”、“产(chǎn)品期望”、“版本特点”和“迭代路線(xiàn)”四大方面入手,和大家畅谈了“强大好用(yòng)”的融合计算门户平台OGSP。相对于1.0版本,2.0版本在集群管理(lǐ)上增加了实时健康监控,本期就让我们聚焦OGSP集群展示的重要模块之一——奥工(gōng)集群监控软件OGCR。
随着集群数据激增,对集群有(yǒu)效监控的需求越来越迫切,然而在实践中(zhōng)发现不同角色需求的出发点又(yòu)有(yǒu)很(hěn)大不同。
集群管理(lǐ)员会想:“集群现在处于什么状态?是否存在隐患?”
集群用(yòng)户会想:“我的作(zuò)业运行情况如何?预计什么时候能(néng)完成?”
奥工(gōng)小(xiǎo)分(fēn)队会想:“我们可(kě)以看到计算资源的趋势并更好的分(fēn)配利用(yòng)资源吗?”
以上这些需求,是人力所不能(néng)為(wèi)的,所以一款可(kě)以收集集群计算运行各个指标,对集群资源使用(yòng)情况进行实时监控,并能(néng)及时发现异常情况,第一时间通知到相关人员,将损失降到最低、把性能(néng)调到最优的集群监控软件就变得至关重要。
OGCR(Ongineer Control Rom)奥工(gōng)集群监控软件正是这样一款具(jù)备监控集群各个方面的监控软件,包括硬件、操作(zuò)系统、物(wù)理(lǐ)环境,作(zuò)业调度,文(wén)件系统的监控平台。它可(kě)以通过多(duō)样化图表,实时展现当前集群的状态,还能(néng)用(yòng)来展示和通知集群使用(yòng)相关的提醒和告警。
OGSP的兼容性极强,OGCR自然一脉相承。OGCR是个“不挑”的软件模块,只要有(yǒu)操作(zuò)系统就能(néng)安(ān)装(zhuāng),在任意需要监控的IBM、HP、DELL全系列刀(dāo)片服務(wù)器和机架服務(wù)器上都可(kě)以进行安(ān)装(zhuāng),硬件要求几乎低到可(kě)以忽略不计的地步。对于软件环境,OGCR的操作(zuò)系统支持范围也非常广,包括RedHat、CentOS、Ubuntu和國(guó)产(chǎn)中(zhōng)标麒麟系统等等。
可(kě)以说,OGCR对软硬件环境的要求做到了几乎“0门槛”。OGCR是个“仔细”的软件模块,从基础架构的健康状况到上层应用(yòng)的使用(yòng)情况通通包含在监控范围之内,覆盖风险告警、操作(zuò)系统、文(wén)件系统、作(zuò)业调度和硬件监控五大维度。
风险告警是OGCR最重要的功能(néng)没有(yǒu)之一,可(kě)以从各个维度监控到集群实时的运行情况,包括集群环境、内存容量、存储空间、CPU、GPU、节点异常情况、作(zuò)业排队情况等等,只要触发了告警规则,OGCR会在第一时间通知到负责人,以便及时处理(lǐ)问题。
以机房环境為(wèi)例,常年“驻扎”在现场的奥工(gōng)小(xiǎo)分(fēn)队对集群统一感受就是“冷”,可(kě)见机房对温度的控制非常严格,常规会设定温度超过30℃进行告警,当然只要你愿意可(kě)以设定更低。同样,机房的湿度也要严格把控,湿度过高对線(xiàn)路隐患极大,及时告警保证了机房的基本运行安(ān)全。
(监控告警系统:环境温度、硬件告警、节点告警)
(操作(zuò)系统:内存、CPU、GPU、负载、使用(yòng)率)
(文(wén)件系统:空间使用(yòng)率、磁盘状态、节点挂载、用(yòng)户配额)
(作(zuò)业调度系统:节点状态、队列明细、队列核数、实时作(zuò)业情况、机时汇总)
(硬件监控系统:开关机、内存、磁盘、電(diàn)源)
奥工(gōng)出品,必出精(jīng)品!那么,OGCR到底有(yǒu)什么与众不同的优势呢(ne)?
首先,安(ān)装(zhuāng)部署快捷简单。相对于耗时長(cháng)、步骤繁、人员要求高的监控软件,OGCR做到了极简化的一键安(ān)装(zhuāng)、快速部署,大大提高了安(ān)装(zhuāng)部署效率。
其次,页(yè)面设计美观简洁。美观的基础要求是“整洁”,OGCR页(yè)面功能(néng)模块划分(fēn)清晰、菜单设计人性化、可(kě)视性强;美观的升级要求是“好看”,其监控信息展示形式多(duō)样(包括饼状图、柱状图、折線(xiàn)图等等),信息颜色區(qū)分(fēn)明显,红色标识异常节点、绿色标识正常节点、黄色标识超过常规设定的情况,一目了然。
最后,告警机制非常优越。告警阈值设定灵活,OGCR本身默认有(yǒu)一些告警规则的设定,启动和暂停“点击”即可(kě)。除默认规则,还可(kě)以通过告警规则对应的设置按钮可(kě)以行相关告警条目的规则设定,实现定制化告警;另外,告警通知的方式多(duō)样,可(kě)以通过邮件、微信等方式进行告警,保证信息及时传达。
作(zuò)為(wèi)一款有(yǒu)生命力的软件,OGSP将会持续迭代,其核心模块OGCR更会不断更新(xīn)完善,客户的声音和小(xiǎo)伙伴们的支持一直都是它快速发展的推动力,鼓励着奥工(gōng)做出一款“想客户所想”的融合计算服務(wù)门户。
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设