基于以往的项目案例和实施经验,我们精(jīng)心策划并开启了“Geeki说”专栏,用(yòng)来讲述奥工(gōng)工(gōng)程师的实践故事和技(jì )术體(tǐ)会。
随着企业信息化进程的加快和业務(wù)规模的不断扩张,庞大的信息量使业務(wù)数据不断增加,存储系统初期配置的容量已不能(néng)满足现有(yǒu)业務(wù)需求,存储扩容成了系统管理(lǐ)工(gōng)程师们常遇的挑战之一。
奥工(gōng)工(gōng)程师在大量的集群项目中(zhōng)反复实践,通过增加服務(wù)器和存储的方式进行扩容,并根据实际应用(yòng)场景,不断优化调整实施方案,成功完成项目扩容目标。
一 、实施背景
1、项目背景
现有(yǒu)存储集群采用(yòng)本地SSD组成GPFS分(fēn)布式文(wén)件系统。随着业務(wù)的发展,原有(yǒu)的存储资源不足,需要在已有(yǒu)集群架构上进行存储扩容。為(wèi)此,新(xīn)增4台服務(wù)器、2套存储,将服務(wù)器本地的PCIe SSD硬盘+存储HDD硬盘扩容至现有(yǒu)集群的GPFS文(wén)件系统中(zhōng)。
现有(yǒu)业務(wù)系统需保证GPFS文(wén)件系统7*24运行,对于新(xīn)的磁盘组的扩容方式,放弃使用(yòng)Remotefs,转向新(xīn)建新(xīn)的文(wén)件系统来实现扩容需求。同时,在扩容和后续的测试过程中(zhōng),需要保证原有(yǒu)文(wén)件系统的正常、稳定运行。
2、技(jì )术要求
本次扩容POC的关键在于保证新(xīn)扩容的GPFS文(wén)件系统读写性能(néng)达到预期标准。
通过以下两方面的技(jì )术组合实现对存储容量和性能(néng)的较高要求:
(1)采用(yòng)PCIe SSD+HDD的磁盘组合实现GPFS扩容
PCIe SSD提供优异的读写性能(néng),HDD提供大容量的存储空间;
(2)运用(yòng)migrate策略保证性能(néng)稳定
当达到预定的目标值后,自动将SSD Pool中(zhōng)的数据迁移到HDD Pool中(zhōng),以保证SSD Pool有(yǒu)足够的空间保持可(kě)持续写入性。
二、实施过程
扩容过程
新(xīn)建文(wén)件系统配置过程略。
配置migrate策略:
RULE 'migrate' #配置策略名(míng)称
MIGRATE FROM Pool 'system' #配置migrate源Pool,sysytem Pool為(wèi)SSD
THRESHOLD(60,20) #配置migrate生效规则,当system Pool空间占用(yòng)率达到60% 时生效,达到20%时停止migrate
TO Pool 'data' #配置migrate目的Pool
REPLICATE(1) #配置migrate副本数量
测试过程
1、每台存储创建7个Raid6(6+2),2台存储共14个LUN挂载给I/O节点,测试本地SSD读写速度。
测试存储磁盘读写速度
测试结果显示HDD硬盘读写速度偏低,未达到预期目标。
2、调整存储,划分(fēn)7个Raid6(6+2),每个Raid划分(fēn)2个LUN给I/O节点,重新(xīn)配置NSD及文(wén)件系统。
l 对HDD硬盘进行读写测试,发现性能(néng)依旧未有(yǒu)明显提升。
l 通过检查交换机流量、测试文(wén)件落盘方式等信息,均未发现异常。
l 测试存储裸盘的读写速度,发现裸盘的读写性能(néng)也明显低于正常性能(néng)水平,此时判断问题原因主要还在存储上。
分(fēn)析原因如下:
1) 存储磁盘初始化进度45%,磁盘初始化可(kě)能(néng)会影响磁盘性能(néng);
2) 新(xīn)加的I/O节点与现有(yǒu)集群I/O节点及存储均在同一个100Gb网络环境,集群I/O间通信和I/O与存储间可(kě)能(néng)存在性能(néng)干扰。
解决方法:
1) 等待存储磁盘初始化完成后,再进行一次文(wén)件系统读写测试;
2) 后期对新(xīn)加的4台I/O节点每台增加1块56Gb IB卡,用(yòng)于与存储直连,将存储网与现有(yǒu)100Gb网络隔离,再进行测试。
测试结果:
l 新(xīn)增56Gb IB卡后进行读写测试发现性能(néng)未有(yǒu)提升,排除此原因。
l 待存储初始化完成后再进行测试,发现性能(néng)达到标准值的90%,判断此為(wèi)问题主要原因。
3、调整存储划分(fēn)為(wèi)每台存储6个Raid6(8+2)、存储缓存為(wèi)256k、GPFS文(wén)件系统块大小(xiǎo)為(wèi)16Mb,最终测试结果达到标准预期。
扩容测试结果达到标准预期
三、实施體(tǐ)会
服務(wù)技(jì )术的所谓“难点”往往不在于技(jì )术本身,而在于落地的细节。面对技(jì )术“难点”,奥工(gōng)小(xiǎo)分(fēn)队积极寻求解决思路,反复跟踪排查测试,及时优化调整方案;以切实解决客户实际需求為(wèi)目标,围绕具(jù)體(tǐ)问题,做实技(jì )术细节,持续发力為(wèi)用(yòng)户提供更省心更便捷的IT服務(wù)。
—END—
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设