“眼见為(wèi)虚,手动為(wèi)实”是奥工(gōng)小(xiǎo)分(fēn)队一贯的工(gōng)作(zuò)态度,在定制化每一份解决方案之前,我们都会对经手的产(chǎn)品进行大量反复的全方位测评,对每一款产(chǎn)品最真实的情况了然于心,保证奥工(gōng)出品的融合计算解决方案可(kě)以切实帮助客户需求实现真正落地。近期,因為(wèi)项目的原因,奥工(gōng)小(xiǎo)分(fēn)队恰巧要测试一款分(fēn)布式存储产(chǎn)品,就让我们通过本次测试分(fēn)享一下针对存储类产(chǎn)品常用(yòng)的的测试套路。
什么是“分(fēn)布式存储”?分(fēn)布式存储是一种数据存储技(jì )术,利用(yòng)特定技(jì )术通过网络使用(yòng)企业中(zhōng)的每台机器上的磁盘空间,并将这些分(fēn)散的存储资源构成一个虚拟的存储设备,数据分(fēn)散的存储在企业的各个角落。
从直连存储(DAS)、集中(zhōng)存储,到“分(fēn)布式存储”,存储经历了几十年演化发展。随着“云+大数据+AI”的高速发展,存储系统急需实现空间数据容纳能(néng)力、资源获取服務(wù)分(fēn)发能(néng)力以及统一管理(lǐ)运维能(néng)力的三大提升。如今的分(fēn)布式存储就具(jù)备了高扩展、高灵活、易运维、上線(xiàn)快、低成本的显著优越性,因此被普遍应用(yòng)于超算集群中(zhōng),用(yòng)来巩固超算集群的存储能(néng)力。
為(wèi)了全面评估此分(fēn)布式存储产(chǎn)品的各项性能(néng),奥工(gōng)小(xiǎo)分(fēn)队设计為(wèi)期三天的测试方案,测试其在私有(yǒu)云环境中(zhōng)的应用(yòng)情况。本次测试共四台服務(wù)器,采用(yòng)分(fēn)离式的架构,一台安(ān)装(zhuāng)私有(yǒu)云操作(zuò)系统,三台安(ān)装(zhuāng)CentOS操作(zuò)系统并安(ān)装(zhuāng)分(fēn)布式存储管理(lǐ)软件。这三台服務(wù)器每台配备两块1T SSD硬盘做缓存盘,10块2T HDD硬盘做数据容量盘,软件部署成功后采用(yòng)iscsi的方式映射到私有(yǒu)云操作(zuò)系统中(zhōng),并在私有(yǒu)云管理(lǐ)平台中(zhōng)以SharedBlock的形式挂载使用(yòng)。
(拓扑图)
值得一提的是,本次测试环境采用(yòng)最常见的连接方式,搭建方便快速,同时可(kě)以最大程度上减少网络对测试结果的影响,下面进入测试的正题吧!
1、云平台使用(yòng)测试:
众所周知,创建虚拟机的速度可(kě)以很(hěn)直观的反应出分(fēn)布式存储性能(néng)。本次云平台使用(yòng)测试便分(fēn)别测试了创建1台虚拟机、同时创建10台云主机以及同时创建20台云主机所需要的速度,每个测试用(yòng)例测试三次。
测试前先使用(yòng)ISO创建一台虚拟机,然后封装(zhuāng)成qcow2镜像,使用(yòng)此qcow2镜像创建云主机,镜像规模2C4G,根云盘40G。测试过程很(hěn)简单,在云平台上创建云主机,配置為(wèi)2核4G,并加载一块40G的云盘,控制创建云主机数量分(fēn)别為(wèi)1台、十台、二十台,于是得到了如下的测试结果:
根据上述结果看出,本次条件下创建虚拟机的速度还是可(kě)以的,时间都能(néng)控制在1分(fēn)钟以内。
2、高可(kě)用(yòng)测试:
“高可(kě)用(yòng)性”是衡量分(fēn)布式存储性能(néng)的重要指标之一,所谓“高可(kě)用(yòng)性”指的是一个系统经过设计从而减少停工(gōng)时间,保持其服務(wù)高度可(kě)用(yòng)性。在实际生产(chǎn)环境中(zhōng)经常会出现硬盘损坏等情况,如果冗余措施做的不到位,那么带来的后果很(hěn)有(yǒu)可(kě)能(néng)是灾难性的。
因此,高可(kě)用(yòng)测试存储采取三副本的方式部署,理(lǐ)论上是支持两个节点同时故障的,不论是两个节点同时关机还是两个节点上的硬盘均出现故障,数据都应该正常。下面我们开始测试看看实际效果如何:
首先,强制关闭存储节点:
分(fēn)别强制关闭1台或2台存储节点并恢复,测试对云主机是否有(yǒu)影响。在关闭1台机器情况下,云主机能(néng)正常使用(yòng),存储节点关机后五分(fēn)钟存储平台自动触发重构操作(zuò),无需手动干预;在关闭2台机器的情况下,存储显示不支持该操作(zuò)。
接着,强制拔出硬盘:
分(fēn)别强行拔出1台存储节点上1块硬盘或者2台节点上各1块硬盘,测试对云主机是否有(yǒu)影响。拔除存储节点1上的一块硬盘过五分(fēn)钟后恢复,云主机能(néng)正常使用(yòng),拔除硬盘五分(fēn)钟后触发重构,期间不影响其他(tā)云主机使用(yòng);强行拔除存储节点1、2上的一块硬盘,存储平台再一次显示不支持该操作(zuò)。
最后,断電(diàn)灾难测试:
在实际生产(chǎn)环境中(zhōng)有(yǒu)可(kě)能(néng)出现一种极端现象,也是每个工(gōng)程师和管理(lǐ)员都不愿意出现的情况——机房断電(diàn)。不愿意看到但也存在发生几率,因此奥工(gōng)小(xiǎo)分(fēn)队通过三台节点均出现故障的情况来模拟机房断電(diàn)的情况,强行断電(diàn)多(duō)个节点并恢复,测试结果表明云主机能(néng)自动恢复,无需手动干预。
从上述的测试结果可(kě)以看出:
本环境中(zhōng)只支持1个节点故障以及1个节点上的硬盘故障。在实际生产(chǎn)环境中(zhōng),集群長(cháng)时间使用(yòng)发生老化,多(duō)节点同时出现硬盘故障的情况屡见不鲜,本次测试的分(fēn)布式存储就难以应付了。
另外值得一提的是,系统出现故障后五分(fēn)钟内自动触发重构,将数据写到其他(tā)磁盘中(zhōng)去,无需手动干预,可(kě)见此款分(fēn)布式存储产(chǎn)品在数据恢复的表现上还不错。
3、性能(néng)测试
除了上述几种人工(gōng)手动测试,我们同样会结合专业的测试工(gōng)具(jù),比如通过FIO对IOPS进行专业性测试,对硬件进行压力测试和验证。磁盘IO是检查磁盘性能(néng)的重要指标,可(kě)以按照负载情况分(fēn)成顺序读写,随机读写两大类。
此次fio测试参数均采用(yòng)私有(yǒu)云平台推荐的参数进行测试,并进行了100%顺序读写、100%随机读写、顺序/随机混合读写,為(wèi)了得出一个更加准确的结论,每种测试分(fēn)别测试4次。测试结果这里就不多(duō)加赘述,给大家看一下测试命令。
最后是非常重要的IOZONE测试,主要用(yòng)来测试操作(zuò)系统文(wén)件系统性能(néng)。使用(yòng)iozone可(kě)以在多(duō)線(xiàn)程、多(duō)cpu,并指定cpu cache空间大小(xiǎo)以及同步或异步I/O读写模式的情况下进行测试文(wén)件操作(zuò)性能(néng)。需要注意的是,设置的测试文(wén)件的大小(xiǎo)一定要大过你的内存(最佳為(wèi)内存的两倍大小(xiǎo)),不然linux会给你的读写的内容进行缓存,会使数值非常不真实。本次因為(wèi)只有(yǒu)1台私有(yǒu)云系统,只测试了单节点单線(xiàn)程和单节点多(duō)線(xiàn)程,同样只展示一下使用(yòng)命令。
至今,奥工(gōng)小(xiǎo)分(fēn)队实施运维项目超过350+,这其中(zhōng)涉及到的产(chǎn)品我们都做过各种专业测试,累积了丰富的测试经验。秉承着“专业&负责”,奥工(gōng)小(xiǎo)分(fēn)队坚持大量测试后才能(néng)放心的把高质(zhì)量产(chǎn)品推荐给客户,对定制化融合计算服務(wù)解决方案保质(zhì)保量,从而实现解决方案价值的最大化!
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设