高性能(néng)计算(HPC)是什么?“高性能(néng)计算平台是一套计算性能(néng)强大,数据传输率超高,具(jù)有(yǒu)大规模存储空间和完整软件的系统,主要采用(yòng)集群架构,通过网络将大量的服務(wù)器连接起来,让所有(yǒu)服務(wù)器协调工(gōng)作(zuò)来完成一系列计算任務(wù)。”
可(kě)见,“网络”作(zuò)為(wèi)服務(wù)器之间的桥梁,在高性能(néng)计算领域的重要性不言而喻。奥工(gōng)服務(wù)小(xiǎo)分(fēn)队中(zhōng)有(yǒu)最专业的网络工(gōng)程师,负责超算集群的网络配置、网络运维、网络管理(lǐ)……专攻各种网络问题,累积了大量的实践经验。那么本篇,就让我们来聊一聊超算领域的“网络”是什么样的,看看“网络冗余”/“网络安(ān)全”/“网络管理(lǐ)”这三部分(fēn)在实施超算集群中(zhōng),我们有(yǒu)什么实践心得吧!
一、网络冗余。我们知道“网络”主要是由全部的节点设备以及设备之间的连接组成的,所以网络中(zhōng)的故障也包括节点设备故障和连接故障。而“冗余”简单的理(lǐ)解就是多(duō)余的重复或啰嗦内容(包括信息、语言、代码、结构、服務(wù)、软件、硬件等等),它的目的就是通过对原本单一的部分(fēn)进行备份,以增强网络的安(ān)全性。
在奥工(gōng)小(xiǎo)分(fēn)队服務(wù)过的大量用(yòng)户中(zhōng),以部分(fēn)企业、高教、军工(gōng)等為(wèi)典型代表,他(tā)们的集群环境对网络实时性要求很(hěn)高,可(kě)以说是绝对不允许出现网络故障。因為(wèi)一旦出现故障,实时性受损,会导致业務(wù)中(zhōng)断、硬件设备无法使用(yòng)等等问题,以至于造成非常大的经济损失,后果很(hěn)严重。
但是在现实中(zhōng),与如此苛刻要求相对的情况是,能(néng)导致故障的原因却非常非常多(duō)。由于网络涉及的环节和设备多(duō),比如服務(wù)器、交换机、路由器、防火墙、電(diàn)信设备等等,稍有(yǒu)不慎都可(kě)能(néng)会出现问题,从而导致网络中(zhōng)断。所以我们凭借多(duō)年经验,在项目的前期就会為(wèi)客户设计提供冗余的网络架构,将网络故障出现的可(kě)能(néng)性降到最低。
下面介绍一下网络冗余中(zhōng)的一个常见情况——“服務(wù)器链路冗余”。下图可(kě)以看到,每台刀(dāo)片服務(wù)器对应刀(dāo)片交换机的两个内部万兆网口,刀(dāo)片交换机分(fēn)别连接到上行两台接入交换机,刀(dāo)片交换机监测上線(xiàn)链路,当上行链路断开时自动断开刀(dāo)片服務(wù)器内部链路端口。另外,图中(zhōng)的服務(wù)器侧双网卡為(wèi)主备模式,当链路down时会自动切换。
(服務(wù)器線(xiàn)路冗余示意图)
二、网络安(ān)全。
网络安(ān)全是指网络系统的硬件、软件及其系统中(zhōng)的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,网络系统连续可(kě)靠地正常运行,网络服務(wù)不中(zhōng)断。 简单来说,网络安(ān)全就是信息处理(lǐ)和传输的安(ān)全,包括硬件系统的安(ān)全、可(kě)靠运行,操作(zuò)系统和应用(yòng)软件的安(ān)全,数据库系统的安(ān)全,電(diàn)磁信息泄露的防护等。
保证网络的硬件、软件能(néng)正常运行是超算集群网络实现资源共享的前提,此基础上还需要保证数据信息交换安(ān)全。在实施过程中(zhōng),我们发现网络安(ān)全问题的出现往往和资源共享的滥用(yòng)息息相关,因此保障超算集群网络安(ān)全的技(jì )术途径简单来说就是要实行有(yǒu)限制的共享。
举个例子——為(wèi)了服務(wù)器的网络安(ān)全,我们往往会在核心交换机的入口侧(即核心交换机连接到办(bàn)公(gōng)交换机的接口)进行策略限制,使用(yòng)匹配指定办(bàn)公(gōng)网段允许访问服務(wù)器特定端口,如22或80等,除这些流量外禁止通信,可(kě)以在很(hěn)大程度上减少服務(wù)器被攻击的可(kě)能(néng)。
(策略限制示意图)
三、网络管理(lǐ)。
网络管理(lǐ)包括对硬件、软件和人力的使用(yòng)、综合与协调,以便对网络资源进行监视、测试、配置、分(fēn)析、评价和控制等,以及当网络出现故障时能(néng)及时报告处理(lǐ)并协调,从而保障超算网络安(ān)全、高效运行。
随着网络迅速发展,网络的复杂性不断增長(cháng),对网络管理(lǐ)的要求也日益增加,硬件变动、故障监测、性能(néng)监控等都成了令超算集群网络管理(lǐ)员头疼的问题。為(wèi)了解决网络管理(lǐ)员运维的困难,我们对集群的网络管理(lǐ)有(yǒu)一套自己的管理(lǐ)方式。比如,通过交换机的SNMP协议对交换机设备进行监控。我们需要在交换机上配置SNMP,交换机会将收集的信息存储到MIB库。在监控服務(wù)器上部署的监控软件可(kě)以通过SNMP协议通过向交换机的MIB发起查询获取信息,将这些信息以文(wén)字或图表的方式进行展现。
(交换机监控示意图)
网络作(zuò)為(wèi)连接大量服務(wù)器的媒介,是实施运维高性能(néng)集群中(zhōng)的关键点。奥工(gōng)服務(wù)小(xiǎo)分(fēn)队在提供专业服務(wù)的过程中(zhōng),非常重视网络问题,致力于不断优化我们的超算网络服務(wù)。
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设