疫情之下IT人怕什么?
是成千上万节点的迁移?
还是“睡后”工(gōng)资赚来的发际線(xiàn)后移?
客户需求get
咨询、售前、服務(wù)工(gōng)程师迅速集结
讨论此次异地技(jì )术服務(wù)流程
方案需要更严谨
计划需要更周密
准备需要更充分(fēn)
毕竟
疫情防控政策下
出行实属不易
·
·
·
常规操作(zuò)来一波
严控加码再一波
时间紧(1天)任務(wù)重(重要)
酒店(diàn)隔离期也得分(fēn)秒(miǎo)必争
反复沟通调整服務(wù)细节
确保疫情下的现场实施顺利完成
第四天
终于可(kě)以去客户现场!
实施难点和风险
1. 时间紧迫(≤1天)
2. 硬件的安(ān)全拆卸和转移
3. 控制器内部系统盘镜像同步
4. 控制器间配置同步
5. 存在当前运行的控制器重启失败的风险
6. 存在配件不兼容导致无法开机的风险
材料准备
1. 螺丝刀(dāo)一套
2. CPU硅脂
3. USB转RS232串口配置線(xiàn)
4. 硬盘盒
5. 防静電(diàn)手套
6. 防静電(diàn)手环
7. 鞋套
操作(zuò)步骤
1. 现场环境确认
① 查看存储控制器状态,确认正在运行控制器是否為(wèi)Master
② 确认并找到故障控制器位置,做好标记
③ SHOW UPS 查看UPS状态
④ SHOW UN PD,确认是否存在故障硬盘
⑤ 检查故障控制器状态,意外完成双控制器间配置同步
2. 新(xīn)控制器开机测试
通过开机测试,查看系统内置硬盘状态是否正常;确认硬盘以外其他(tā)部件是否正常。
3. 故障控制器下架、改配
① 将其所有(yǒu)線(xiàn)缆(電(diàn)源線(xiàn)、SAS線(xiàn)、心跳線(xiàn)、IB線(xiàn))数量、位置确认并登记
② 确认是否能(néng)关机,如若死机则强制关机
③ 拔出SAS線(xiàn)、心跳線(xiàn)、IB線(xiàn)
④ 故障控制器下架
⑤ 将故障控制器上两颗CPU、所有(yǒu)内存、SAS卡、网卡、IB卡全部拆卸
⑥ 将新(xīn)控制器上一颗CPU、所有(yǒu)内存、 SAS卡、网卡、IB卡全部拆卸
⑦ 将故障控制器上拆卸的所有(yǒu)配件安(ān)装(zhuāng)到新(xīn)控制器上
4. 新(xīn)控制器改配后开机测试
更改配置重新(xīn)开机测试,查看系统内置硬盘状态是否正常;确认硬盘以外其他(tā)部件是否正常。
■ 遇到问题
新(xīn)控制器无法开机
■ 解决方法
做最小(xiǎo)化测试
■ 问题测试
测试一:将旧内存条依次移除一半。❌
测试二:将新(xīn)控制器上的内存重新(xīn)插到新(xīn)控制器上。❌
测试三:移除所有(yǒu)新(xīn)增的IB卡、SAS卡。❌
测试四:分(fēn)次移除一颗旧CPU。❌
测试五:将两颗旧CPU移除,更换為(wèi)新(xīn)控制器上的CPU。✅
■ 问题锁定
旧CPU与新(xīn)控制器硬件不兼容
■ 遇到问题
新(xīn)老控制器CPU不匹配
■ 解决问题
在其他(tā)旧服務(wù)器上找到同型号CPU,拆卸加装(zhuāng)至新(xīn)控制器另一槽位,顺利开机。
·
·
·
疫情之前
这或许只是一次常规的现场服務(wù)
疫情当前
异地尤其是跨省的现场服務(wù)
变得不再普通
疫情之下,出行不易
现场服務(wù)如何保障?
践行奥工(gōng)科(kē)技(jì )一贯的服務(wù)理(lǐ)念
多(duō)想一种可(kě)能(néng)
多(duō)做一次检查
与用(yòng)户携手并进、共克时艰!
—END—
OGSP(Ongineer Service Platform)是奥工(gōng)科(kē)技(jì )自主研发的一款面向终端计算用(yòng)户的、安(ān)全、可(kě)进化的密集计算服務(wù)平台。
OGSP秉承云原生设计理(lǐ)念,搭建密集计算场景中(zhōng)基础侧、平台侧、应用(yòng)侧的生态服務(wù)架构,谋求基础侧的稳定、健康、可(kě)扩展性;平台侧的高效、动态、易用(yòng)性;应用(yòng)侧的专业、交互、场景化。将服務(wù)产(chǎn)品化、产(chǎn)品场景化,為(wèi)用(yòng)户提供基于实际生产(chǎn)场景的一站式密集计算服務(wù)。
hwclould@ongineer.cn
南京市雨花(huā)台區(qū)锦绣街(jiē)绿地之窗C4栋326室
025-86738812
版权所有(yǒu) ©南京奥工(gōng)信息科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP证000000号
技(jì )术支持:网站建设