哈喽大家好,本篇依旧是“存储专场”,让我们来看看今天的主角——并行文(wén)件存储。
并行文(wén)件存储是在集群环境下,為(wèi)解决传统计算环境中(zhōng)串行存储性能(néng)瓶颈,所提出的专用(yòng)存储。并行文(wén)件存储在计算平台运算时,可(kě)以通过集群化与并行化的方式,多(duō)个存储节点并行处理(lǐ)业務(wù)下发的 I/O 请求,相对传统的串行存储大幅提高了性能(néng)与效率。 “换存储”是“基本功”同样也是门“技(jì )术活”。下面就以奥工(gōng)小(xiǎo)分(fēn)队近期负责的某一存储故障為(wèi)例,聊聊并行文(wén)件存储故障处理(lǐ)的一些特殊情况和相关技(jì )巧。 每一次面对集群出现故障,奥工(gōng)小(xiǎo)分(fēn)队快速响应、第一时间现场排查,根据集群的具(jù)體(tǐ)情况和故障现象确定故障原因。 本案例中(zhōng)的集群配备了一套存储与四台IO节点,并安(ān)装(zhuāng)了GPFS并行文(wén)件系统。硬盘运行状态正常的情况下,盘柜中(zhōng)有(yǒu)一半的盘在存储运行一段时间后出现了无故掉線(xiàn)的情况。為(wèi)了解决上述问题,临时采取了断電(diàn)重启的方法,短期内使得硬盘重新(xīn)上線(xiàn)并开始重建。 但紧急处理(lǐ)并不是長(cháng)久之策,上述现象出现愈发频繁,最终导致集群处于不可(kě)用(yòng)状态,亟需从根源上解决问题。 事实上,在出现问题的这段时间内,奥工(gōng)小(xiǎo)分(fēn)队不断排查原因,对该集群的存储控制器,硬盘柜等固件升级,但现象仍然存在,问题没有(yǒu)得到解决,因此最终认定為(wèi)机箱的SAS连接線(xiàn)导致。一般遇到这种情况,换一个机箱就可(kě)以解决了。 换机箱,按常规操作(zuò)首先需要记录盘箱的硬盘位置,将旧主机箱下架,换成新(xīn)的机箱,把硬盘按原来的位置插到新(xīn)机箱里面。等控制起来后,导入原来的Raid组,重新(xīn)映射vdisk给IO节点,用(yòng)GPFS文(wén)件系统恢复的方式,将它恢复上線(xiàn)。 方案设计设想很(hěn)完美,但是处理(lǐ)过程往往很(hěn)曲折。 首先,奥工(gōng)小(xiǎo)分(fēn)队记录硬盘位置并為(wèi)每块硬盘打上标签。然后卸载原机箱,更换新(xīn)机箱,将硬盘按照原来位置插回对应的槽位。 上述常规操作(zuò)后,开启控制器发现硬盘并没有(yǒu)重建,我们意识到这个问题比想象中(zhōng)复杂,立刻换回原本的控制器测试,发现原来控制器下开始重建了。 由此发现后,我们使用(yòng)一台原本控制器和一台新(xīn)控制器,让控制器之间同步Raid状态信息,并更换开机升级控制器固件一致。可(kě)没想到的是,由于新(xīn)旧控制器之前内存大小(xiǎo)并不一致,所以又(yòu)出现了新(xīn)的报错。 针对新(xīn)的报错,奥工(gōng)小(xiǎo)分(fēn)队选择先强制清除报错信息,再重启控制器后顺利开机,并开始同步Raid信息。重新(xīn)映射后由于盘符的变更,我们找到原来的gpfs nsd创建文(wén)件去对应新(xīn)的盘符。 最后,使用(yòng)gpfs内置命令mmchnsd将nsd的原盘符更换為(wèi)新(xīn)的nsd盘符,再启动gpfs文(wén)件系统,终于顺利开机,完成了本次“一波三折”的换存储之旅,整个存储完全恢复到正常运行状态。 数据是客户最核心的资产(chǎn),涉及到存储的处理(lǐ)往往要慎之又(yòu)慎。 与“开关机”相似,“换存储”也是非常基本的操作(zuò),可(kě)能(néng)是换盘、可(kě)能(néng)是换机箱……会有(yǒu)很(hěn)多(duō)复杂情况。在保障生产(chǎn)环境不受影响的前提下,要做“好”,做到“以不变应万变”,需要扎实的基础经验和专业的服務(wù)精(jīng)神。為(wèi)此,奥工(gōng)小(xiǎo)分(fēn)队不断努力,致力于将基础的工(gōng)作(zuò)做到最细致,将最好的體(tǐ)验给客户。
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设