GPFS不仅仅是一种高性能(néng)并行文(wén)件系统,更是一种领先的文(wén)件管理(lǐ)基础设施。它支持 AIX、LINUX和 Windows 操作(zuò)系统,提供的文(wén)件系统操作(zuò)服務(wù)可(kě)以支持并行应用(yòng)和串行应用(yòng),在群集中(zhōng)的多(duō)个节点间实现对共享文(wén)件系统中(zhōng)文(wén)件的快速存取操作(zuò),并提供丰富的信息生命周期管理(lǐ)功能(néng)。
Geeki说丨并行文(wén)件系统测试小(xiǎo)实践-GPFS。
GPFS拥有(yǒu)突出的高性能(néng)和可(kě)拓展性,具(jù)有(yǒu)显著优点,比如确保I/O在高速率;减小(xiǎo)访问磁盘的次数;减少重复性磁盘I/O以提高性能(néng);保证高吞吐的可(kě)持续性;提高磁盘带宽和磁盘空间效率等等。凭借它的独特功能(néng)与优势,GPFS在客户实际环境中(zhōng)被广泛应用(yòng),也成了奥工(gōng)小(xiǎo)分(fēn)队日常打交道的并行文(wén)件系统之一。
除此之外,GPFS还有(yǒu)可(kě)以根据实际情况定制各种“高阶”的配置策略,比如remotefs策略、分(fēn)层策略、afm策略等等。这些“高阶”策略往往需要相关的原厂服務(wù)才可(kě)以配置,然而如今拥有(yǒu)丰富实践经验的奥工(gōng)小(xiǎo)分(fēn)队也可(kě)以轻松实现GPFS“高阶”策略的配置与实施。接下来,就让我们一起聊聊关于GPFS“分(fēn)层策略”的配置实践吧。 超算领域的“分(fēn)层策略”是通过把不同的资源放置在不同存储位置,从而平衡成本与收益以有(yǒu)效运用(yòng)资源的一种方式,可(kě)以看作(zuò)是一种存储资源的“投资策略”。一般来说,高速介质(zhì)往往具(jù)有(yǒu)"小(xiǎo)容量+高成本"的特点。随着层级下移,容量越大单位成本越低、速度越慢,反之亦然。因此,就需要在存储介质(zhì)的配置上寻求一个合适的点,充分(fēn)考虑到成本与效益的均衡关系,实现相对条件下的成本最低和效益最优。这就是“分(fēn)层策略”配置的关键所在——在不同的层级之间使用(yòng)有(yǒu)差别的存储介质(zhì),即在高速小(xiǎo)容量层级的介质(zhì)层与低速大容量层级的介质(zhì)层之间进行一种自动/手动数据迁移、复制、管理(lǐ)等操作(zuò),以确保在更低的成本下,既能(néng)满足性能(néng)又(yòu)能(néng)满足容量的需求。 GPFS具(jù)有(yǒu)很(hěn)好的数据分(fēn)层实现机制,在某些场景下可(kě)以带来显著的性能(néng)提升,与此同时GPFS的分(fēn)层策略难点也不容忽视。一方面是策略应用(yòng),GPFS的分(fēn)层方案众多(duō),需要贴合用(yòng)户实际情况,如根据使用(yòng)频率、文(wén)件大小(xiǎo)、用(yòng)户权限等决定采用(yòng)哪一种迁移方案,切记不可(kě)套用(yòng)方案;另一方面是容量规划,由于分(fēn)层将存储分(fēn)為(wèi)热数据和冷数据两部分(fēn),想要平衡好这两部分(fēn)的容量占比,就需要前期大量调研与精(jīng)细规划。 先看下本次环境:本次测试环境配备了一套全NVMe高速存储,一套由NL-SAS组成的数据存储,采用(yòng)GPFS并行文(wén)件系统,然后开始配置策略。 首先,在建nsd时分(fēn)為(wèi)2个pool,NVMe為(wèi)system pool,NL-SAS為(wèi)datapool。 [root@io01 oglab]# mmlsdisk fs1 然后,建立分(fēn)层策略编写一个rule文(wén)件,以K為(wèi)单位,扫描文(wén)件系统里面的文(wén)件大小(xiǎo),大于100M的文(wén)件从system pool移动到datapool。 [root@io01 oglab]# cat rule 注意:在执行前需要查看下磁盘里面有(yǒu)哪些文(wén)件。 发现datapool对应的nsd02是空的,system pool对应的nsd01有(yǒu)3个文(wén)件。其中(zhōng)test.txt/test1.tar.gz是大于100M的文(wén)件。 [root@io01 oglab]# mmfileid fs1 -d:nsd02 [root@io01 oglab]# mmfileid fs1 -d:nsd01 [root@c866f1u01 fs1]# ll -h 再迁移命令: [root@io01 oglab]# mmapplypolicy fs1 -P rule 最后查看结果: [root@io01 oglab]# mmfileid fs1 -d:nsd02 [root@io01 oglab]# mmfileid fs1 -d:nsd01 结果显示大于100M的文(wén)件test.txt和test1.tar.gz两个文(wén)件已经迁移至NL-SAS组成的数据存储datapool,也就是nsd02中(zhōng)了。 至此,本次配置分(fēn)层策略就算定义完成了,后续的迁移会通过编写定时计划任務(wù),即“定个闹钟”在半夜任務(wù)量小(xiǎo)的情况下自动执行迁移任務(wù)。 存储分(fēn)层的本质(zhì)是為(wèi)了通过合理(lǐ)配置以达到成本和效率两者的“最优解”。通常情况下,我们会选择把热数据放在SSD,温数据放在HDD,冷数据放在离線(xiàn)存储系统中(zhōng)。在上述测试环境中(zhōng),我们采用(yòng)了最简单基础的策略——将100M以上的大文(wén)件定期从SSD pool迁移至datapool中(zhōng)。然而,真实环境中(zhōng)的策略往往复杂很(hěn)多(duō),奥工(gōng)小(xiǎo)分(fēn)队会根据用(yòng)户文(wén)件大小(xiǎo)的占比,推断出需迁移文(wén)件大小(xiǎo)的数值,进行灵活变更,為(wèi)不同的集群定制不同的分(fēn)层方案。 在GPFS文(wén)件系统中(zhōng)会做存储分(fēn)层其实只是完成了“50%”的分(fēn)层策略,另外50%则需要通过配置“最优分(fēn)层”来实现。為(wèi)了实现“最优”,需要大量调研掌握集群具(jù)體(tǐ)情况、深入了解客户需求,衡量成本与性能(néng),具(jù)體(tǐ)问题具(jù)體(tǐ)分(fēn)析。 比如在人工(gōng)智能(néng)行业中(zhōng),往往需要处理(lǐ)大量图片,小(xiǎo)文(wén)件较多(duō)的情况下可(kě)以根据文(wén)件的修改时间来制定分(fēn)层策略,例如“将一周未读写的文(wén)件下沉到冷数据层中(zhōng),相对的常用(yòng)文(wén)件放在SSD层中(zhōng)”。 比如在大气行业中(zhōng),天气预报的实时性要求很(hěn)高,随之而来对于计算的速率要求也很(hěn)高。那么,计算过程会选择放在SSD层中(zhōng),以确保计算效率。而预报完成后的数据不需要频繁读写,只需要留存就可(kě)以。在这种情况下,可(kě)以采用(yòng)每天定时将大于一个数量级的文(wén)件放到冷数据中(zhōng),以确保SSD层容量充裕為(wèi)下一次的计算做好保障。 根据应用(yòng)场景的不同,“分(fēn)层策略”会有(yǒu)不同的组合,真正好的策略应该是“因地制宜”的,而不是“一成不变”的。利用(yòng)好GPFS的“分(fēn)层策略”,将对应的数据迁移至合适的存储内,為(wèi)客户节约成本提高集群效率,这是奥工(gōng)小(xiǎo)分(fēn)队分(fēn)内的事情,也是我们不断追求的目标。
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设