在HPC领域摸爬滚打这么多(duō)年,奥工(gōng)服務(wù)小(xiǎo)分(fēn)队见识过各种各样的HPC集群,也接触过形形色色的客户需求,其中(zhōng)便有(yǒu)一种比较不常见,目前却越来越受欢迎的奇妙搭配:HPC+云。
想必大家对HPC最初的认知是其早期被用(yòng)于各种科(kē)學(xué)研究和专用(yòng)领域,可(kě)提供每秒(miǎo)万亿次级的计算速度,具(jù)备海量的数据处理(lǐ)能(néng)力。近些年,随着企业对计算性能(néng)的需求增加,普通中(zhōng)小(xiǎo)企业也开始尝试用(yòng)HPC集群解决算力不足等问题。前几篇一直有(yǒu)和大家提到集群的“成本”,因為(wèi)HPC集群高额的成本限制,并不是每一家企业部署HPC集群都是“划算”的,因此在云市场相对成熟的情况下,云上HPC服務(wù)逐步推出,HPC资源变得触手可(kě)得。
反观那些已经部署了HPC集群的大型企业,他(tā)们在计算方面的需求是不稳定的,波峰、波谷效应明显。波峰时资源不足(為(wèi)满足波峰资源需求又(yòu)需要很(hěn)長(cháng)的建设周期)、波谷时资源浪费。若波峰时建设、波谷时浪费,浪费情况就更加严重;若不建设又(yòu)会耽误研发进度,甚至可(kě)能(néng)导致产(chǎn)品不能(néng)及时上市推广。这是不可(kě)避免且急需解决的问题,“HPC+云”解决方案就是非常好的选择!
奥工(gōng)科(kē)技(jì )提供专业的 混合态超算云解决方案 ,该方案基于“HPC+云”的特殊性,搭建云专線(xiàn)打通云上与本地CPU、GPU计算资源,利用(yòng)云扩容的弹性收缩解决本地资源不足问题,通过云爆发(OGCB)组件紧急应对峰值需求,并使用(yòng)高性能(néng)计算门户(OGSP)实现对用(yòng)户资源的管理(lǐ)调配。
下面就和大家分(fēn)享一个面临着“本地集群年限久&设备旧/集群性能(néng)下降&计算效率低/弹性资源不足”三大问题的HPC集群,看看奥工(gōng)服務(wù)小(xiǎo)分(fēn)队是怎么做到的:
对于混合态超算云建设而言,打通云上与本地资源壁垒、实现资源灵活调用(yòng)的关键在于可(kě)靠的云专線(xiàn)。奥工(gōng)服務(wù)小(xiǎo)分(fēn)队在客户自有(yǒu)的HPC数据中(zhōng)心和公(gōng)有(yǒu)云之间搭建了两根云专線(xiàn),充分(fēn)利用(yòng)公(gōng)有(yǒu)云服務(wù)优势的同时,继续使用(yòng)现有(yǒu)IT设施,搭建后对该专線(xiàn)进行了充分(fēn)测试,包括网络带宽、延迟、丢包率的测试等等,保证数据传输的数率和稳定性,实现了云上云下混合调度。专線(xiàn)对接后,用(yòng)户使用(yòng)个人電(diàn)脑通过本地资源或云上资源完成计算任務(wù),通过专線(xiàn)上传下载计算结果文(wén)件,同时公(gōng)有(yǒu)云提供网络安(ān)全防护组件,保证集群安(ān)全可(kě)靠。
针对客户原有(yǒu)业務(wù)云容量不足问题,奥工(gōng)服務(wù)小(xiǎo)分(fēn)队為(wèi)其制定了一套完整的公(gōng)有(yǒu)云扩容方案。扩容实施前,客户原有(yǒu)的资源运行在虚拟机上,内部使用(yòng)万兆网络环境,使用(yòng)通用(yòng)CPU型号、因此存在性能(néng)不高,数据存储相对独立、机器配置无法调整等问题。奥工(gōng)小(xiǎo)分(fēn)队对本地集群进行了重新(xīn)规划,对独立的部门、项目组集群资源进行整合,使其实现了统一的资源调度。同时,额外扩容了一套弹性云资源平台,采用(yòng)定制化高主频、多(duō)核数CPU,满足了CPU通道的大内存容量,解决了本地资源不足的现状。云扩容实施后,HPC平台整體(tǐ)性能(néng)较之前本地集群提升了2-3倍,同时实现了资源的有(yǒu)效置换。
最后是奥工(gōng)自研的高性能(néng)门户(OGSP)结合奥工(gōng)云爆发(OGCB)对整个“HPC+云”的统一管理(lǐ)。与传统HPC集群相比,实现对“HPC+云”集群高效管理(lǐ)更具(jù)有(yǒu)挑战性。OGSP与OGCB携手打破资源边界,将本地集群资源、公(gōng)有(yǒu)云计算资源以及各地超算中(zhōng)心资源实现无缝对接,融合丰富软件资源,為(wèi)用(yòng)户提供自助式资源使用(yòng)服務(wù),实现对用(yòng)户“本地+云上”资源的管理(lǐ)调配和集群价值的最大化。
服務(wù)部小(xiǎo)伙伴A:
HPC集群需求往往随着客户业務(wù)量的变动而变动,有(yǒu)的月份资源闲置,有(yǒu)的月份资源不够用(yòng),“HPC+云”实现了“弹性伸缩”就能(néng)很(hěn)好地解决这个问题。在资源需求较大的月份,可(kě)以做到随时随地调整计算节点数量,云服務(wù)更是提供了从基础到高级多(duō)种不同规格以供选择,支持随需扩展和收缩,从而满足不同HPC业務(wù)应用(yòng)的需求。
服務(wù)部小(xiǎo)伙伴B:
资源升级是必然,资源如何更新(xīn)就成了HPC集群客户非常关心的问题之一。本案例中(zhōng)HPC集群使用(yòng)华為(wèi)云的丰富云上资源,华為(wèi)云中(zhōng)硬件型号可(kě)以随着市场型号的升级而免费升级。随着硬件产(chǎn)品的不断迭代更新(xīn),上一代产(chǎn)品价格会越来越低,所以“资源置换”可(kě)以使得老配置以近乎同等的价格置换成新(xīn)配置,从而满足不断递增的需求,并从長(cháng)期角度节省了集群的费用(yòng)。
服務(wù)部小(xiǎo)伙伴C:
尽管“HPC+云”实现了随用(yòng)随租、可(kě)以更快捷地获取资源,也比较适合短期内有(yǒu)计算需求的HPC企业,但是云上特定的资源有(yǒu)限(如8卡GPU节点之类),时而可(kě)能(néng)被瓜分(fēn),因此对那些专业性要求長(cháng)期稳定使用(yòng)的企业并不适用(yòng)。
看完本篇,是不是大家对“HPC+云”这个组合跃跃欲试了呢(ne)?可(kě)以说,“HPC+云”固然好,但是合适更重要。奥工(gōng)服務(wù)小(xiǎo)分(fēn)队致力于為(wèi)客户定制“最合适”的融合计算服務(wù)解决方案,融合最优资源,提供最专业的服務(wù)!
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设