三虎
作者三虎联盟成员·2024-05-10 09:18
系统运维工程师·中国邮政储蓄银行

金融行业老旧设备更新(全过程梳理及实战经验分享)

字数 5372阅读 2033评论 0赞 0

摘要:本文总结了金融行业内实施老旧设备更新工作中的经验和教训,介绍了实施主要过程、更新方式、更新难点等,为企业在开展设备更新工作时提供指导和参考,让企业提前预见替换中可能出现的难点和疏漏点,为企业顺利实施该工作提供保障。

一、 为什么要开展老旧设备更新

电子元器件的使用寿命遵循浴盆曲线规律,当使用达到一定“年头”,IT设备将进入到磨损故障期,故障率明显升高,以分布式计算类系统的机械硬盘故障为例,每日频繁的IO读写加剧了大容量磁盘的损耗,运行期超过4年后,磁盘故障率陡增,表现出零星的磁盘读写失败,这会导致批处理任务执行耗时长或最终失败。当发现并处理完一批次故障后,新的一批磁盘故障又逐个出现,可谓此消彼长。
图 1 电子系统与器件失效浴盆曲线

图 1 电子系统与器件失效浴盆曲线

另外动力环境、负载变化、设备搬迁等不 确定因素还会造成高故障率提前。设备老化、使用年限过长,将造成备件、人力、耗能、环保等各项运维成本投入增大,事故发生风险概率升高。
图 2 设备更新的起因与影响

图 2 设备更新的起因与影响

随着企业发展,设备性能也可能出现瓶颈,不再满足业务需求,为保持或提升企业市场竞争力,需要及时对设备更新换代。

此外一些外部环境因素,如设备备件停产、服务商停服、固件版本停止更新等,也迫使用户必须开展设备更新。因此,在设备达到一定使用年限开始逐步淘汰或更新势在必行。

近些年来,金融科技进入快车道阶段,要求信息化系统在便捷灵活、安全合规方面通过快速迭代以适应市场发展,同时银行等金融机构对业务连续性有特殊要求,要做到24小时不停业。这些都给金融业的设备替换工作增加了难度。

二、 老旧设备更新的年限要求

目前业界对各类设备使用年限没有统一的要求,企业内部综合考虑运维压力、设备性能、政策因素、企业内标准等因素确定设备使用年限。以某银行内部制度为例,IT设备选择在5-7年后开始下线,UPS等动环设备使用期限为10年。

三、 老旧设备更新有几种方式

1、 在线替换
在机房资源充足情况下,将新资源部署入网,通过虚机、存储等资源迁移,业务流量入口切换或主备链路切换的方式实现在线替换。如新系统上线后,切换业务入口完成新老系统交替;网络设备接入网后,通过主备链路切换完成新老设备交替。 具体的实施过程将在“老旧设备更新实施”部分介绍。
图 3 新老系统切换

图 3 新老系统切换

2、 离线替换
当机房资源不足或有充足的停机时间时,可在原位置做设备替换。如5x9的业务系统,在充分准备后,利用夜间或休息日完成设备安装、程序部署、业务验证等工作。

四、 老旧设备更新有哪几种情况

1、 业务系统更新
由承建部门负责牵头实施,对原系统整体重新立项、建设,对于运维来说更加友好。这种“拆迁式”更新,保留了大部分原系统主体功能,并扩容、改造原功能,待新系统上线并“迁”入交易后,拆除老系统。

2、 设备更新
多系统复用,建设期个别利旧,系统规模小,或软件授权无替代等原因导致不能整体替换的,需对单台或多台设备逐个替换。鉴于设备使用的影响范围,按照业内使用的常规情况,对几种设备类型的复用情况,替换难度、风险等进行比较:

表 1 不同类型设备更新情况比较

表 1 不同类型设备更新情况比较

主机设备,应用服务一般具备高可用架构;

存储设备,基本被多台主机共用,数据冗余情况根据业务的重要程度有所区分,替换时需在主机层先进行数据迁移后再替换下线;

网络设备,这里包括了存储网络、业务网络等,因接口多设备老,梳理互联关系难度大,切换主备链路,风险大;

动环设备,虽不涉及程序或数据的调整,但影响面大,替换的风险较高;

安全设备,设备种类多,通用性一般,与上下游设备之间、应用程序之间均需要做兼容适配,过程复杂,难度较高;

接下来内容,主要针对“设备更新”场景继续介绍:

五、 老旧设备更新有哪些前期准备工作

1、 软硬件之间的 适配
包括了主机硬件与操作系统层适配,操作系统层与数据库、中间件及各类开源软件的适配工作。如果调整了CPU芯片架构(如x86转为ARM),则CPU芯片与各软件之间均需适配,当然平台移植性较强的java或容器等适配,是依靠底层的java虚拟机JVM或容器底座来完成适配的。

主机类设备替换,为了简化上层数据库或应用程序的调整,可尝试继续延用原操作系统版本。操作系统与硬件之间适配,按照7年估算硬件产品升级,CPU芯片等各类硬件迭代在2-3次 ,操作系统支持情况有较大变化(如表2所示)。

操作系统与硬件在做适配性测试时,需关注包括各类驱动对硬件识别情况,硬件性能是否达标。另外与操作系统、硬件厂商确认,针对缺陷或新特性是否需要补丁更新。
表 2  Intel  Xeon  Scalable  Processors  Minimum  OS  Support Matrix

表 2 Intel Xeon Scalable Processors Minimum OS Support Matrix

老旧设备更新的初衷是提高系统运行效率及稳定,同时淘汰老产品减轻运维负担。所以在替换中,尽可能使用新版软件,这样软硬件兼容度、新特性发挥等方面更好,对运维来说,减少软件版本数量,将利于日后数据统计、运维工具开发、监控平台对接等等工作。

不管是被迫更换还是主动升级软件,都会引入应用程序、中间件、数据库与操作系统之间的重新适配工作,测试中需验证各类软件的部署及运行是否正常,验证QPS、吞吐量是否达标等。

2、 新设备与老环境之间的适配
当替换生产中某个节点设备,必然要考虑和上下游之间的适配, 如 主机接口与原存储、业务网络交换端口速率、通信协议、工作模式是否兼容,是否需要降低配置规格适配老环 境(以图4为例),如 果不适配,是否需要增加配件或设备,连带上下游硬件一起更新来扩大改造面,在替换改造前,需协调设备厂商根据现场环境做好评估及验证。

图 4 交换机工作模式修改为半双工

图 4 交换机工作模式修改为半双工

3、 应用程序迁移验证
对主机的替换,涉及应用重新部署。目前国内部分操作系统厂商提供系统迁移软件,如统信有易可实现centos向统信UOS迁移,但也存在诸多的局限性。正常情况下,迁移前完成程序打包,并测试验证再次部署、发布、运行是否正常,以确保后续迁移顺利实施。

4、 生产地址是否变更
主机的生产地址是否变更,由替换方式决定,如果是原位置替换,原地址可继续复用;如果是在线替换,新、老设备并行运行,因接入交换机差异,地址会发生变化。

生产地址发生变化时,系统内各个主机间访问的地址以及外部系统访问本地地址均需调整,本系统自身调整外,关联系统也需要配合改造。修订的内容涉及程序配置文件、数据库、甚至是应用程序代码,全部修订完后,可通过抓包的方式,来观测内外部是否还存在访问老主机地址的进程,来判定是否修改完整。

5、 设备关系梳理
没有孤立的业务系统或设备,故需梳理清楚上下游关系,交换机需整理替换端口映射表 (如表3所示) ,查缺补漏,通过排查MAC地址或WWN信息来明确每个端口标签和实际设备是否一致,这里如果发现主备接反或接入到同台设备时应及时整改,防止切换后业务中断;存储需明确每个LUN盘的分配使用对象;主机需明确上层应用服务及涉及范围等。

表 3 SAN交换机端口信息表结构

表 3 SAN交换机端口信息表结构

梳理新、老设备之间的对应替换关系,提前打印、粘贴标签,保证替换时做到一一对应。

利旧线缆梳理,对原位置设备替换,可以利旧的线缆,明确并打印相应标签,哪些线缆需要重新部署,提前做好规划、实施。

6、 验证准备
人员安排,需安排业务人员及运维人员做好替换过程中的业务验证;安排相关厂商做好部署前后的检查工作;如果涉及到停业,尽早发布停业通告。

7、 应急方案
老旧设备更新也是对生产环境的变更操作,涉及变更,就需要充分考虑数据备份、回退方案和应急处理措施。关键数据备份是运维人的“底线”,回退方案要明确具体步骤,应急方案应切实有效,提前做好演练。

8、 细化任务
明确、细化替换任务的前、中、后期所有工作涉及的事项内容、责任人、时间窗口及注意点,通过沙盘演练等方式推演替换中可能还存在的问题或疏漏,发现问题及时校准,在实施过程中,按照方案执行,出现偏差做好方案修订,在结束后,也将获得一份与实际吻合、行之有效的替换方案。

六、 老旧设备更新实施大致有哪些环节

1、 环境部署
安装部署、配置新的替换设备。这里需要强调的是,在没有正式的设备替换流程前,替换未必会遵守正常的工程建设流程执行,所以强调在安装部署时,应按照生产基线进行配置,包括各类固件微码版本升级、驱动补丁更新、设备初始化、设备调试等,防止投产后再进行变更。

此外根据设备关系梳理情况,布放新设备到关联设备之间的新增网线、光缆等,同步做好线缆标签标识的打印、粘贴。

2、 替换过程
主机类设备
非云场景下的主机替换,在确认“应用程序迁移验证”无异常后先行在新设备上重新部署相关软件,在集群内有多台主机来保证高可用和负载能力前提下,将新设备入网,确认承接业务情况,老设备下线,确认交易。剩余主机均按照“上线-确认-下线-确认”来实现逐台替换。
云场景下的主机替换,因系统及业务数据均存储在商业磁盘阵列介质中,可使用冷迁移或疏散方式将虚机迁移到其他计算节点,如果原云下资源不足,可先将新主机初始化后扩容到云内,再将老设备上虚机指定迁移到新主机上。

存储类设备
存储设备只能采用在线替换,先完成新老设备间数据迁移,再对老设备下线。数据迁移已有很多成熟的方案,可参考《 存储迁移优化实施方案的四种选择 》。这里再介绍实际应用中的三种场景:
Oracle数据库的ASM,Oracle ASM管理大大简化了磁盘管理和数据迁移,在ASM管理下,对磁盘组(diskgroup)扩容新存储逻辑卷,再剔除老存储逻辑卷,再启动数据均衡(reblance),等待数据均衡完成,即实现新老磁盘替换。这种在线迁移方式有一定的IO读写开销,一般选择业务低峰时段操作。另外如果迁移时间充裕的话,可放慢数据均衡速率以换取安全稳定。
LVM的文件系统,LVM底层可通过操作PV(物理卷)实现数据迁移,对VG(卷池)扩容,再将老卷移出(pvmove)VG,即实现新老磁盘替换。卷移出操作不影响文件系统读写,将移出操作放置在后台执行,即可实现在线迁移,该迁移速度慢,占用IO较少,且支持断点续传(慎用),上层基本无感知。
云上虚机及文件系统,可通过cinder retype等实现系统盘和数据盘迁移。该方式离线迁移,当系统盘需要迁移时使用,否则优先使用“LVM的文件系统”进行数据迁移。

交换机设备
对照生产环境重新配置新交换机,网络交换机配置包括路由信息,部署模式,主备关系,业务网关,vrrp组等,光纤交换机包括基础配置,zone信息等等。
为了保证高可用,交换机多为主备,入网时,采用逐台进行的原则,关停一台后,先检查各区域连通性,是否有主机连通异常或主机数据读写异常(存储网络),如无问题,说明对位交换机已接管成功,再进行老设备下架、新设备入网、线缆接入,完成后先断开对位老设备的某个端口,观测新设备对应端口的互通情况,无异常说明接管成功,再进行后续设备的断电更换工作,如图5所示。
图 5 网络交换机设备替换

图 5 网络交换机设备替换

全部完成后,检查到关联设备的互通状态,路由状态,进行业务验证及交换机之间的倒换测试。

七、 老旧设备更新难点及风险点在哪

1、 复用设备 梳理遗漏
网络、存储等复用设备,在梳理端口关系、存储盘映射关系时,一旦出现遗漏则可能在老设备关停时造成生产故障,所以梳理不容小觑。不要“过分相信”线缆上的标签,标签打印,沾粘过程中都可能出现人为错误,最真实的是主机上识别到的MAC地址、WWPN号、LUN盘UUID号信息,采集这些信息并与标签比对,可以发现哪些标签是错误的。

2、 温和替换
新系统部署上线前,有充分的测试验证期,而在设备更替、切换中,验证时间窗口不会很充分。所以在替换中,每个检查过程不能省略,变更时尽量小范围试点,如端口先试点切换,再到整机。

3、 留足空间
存储替换时,确认原存储是否有超分,规划时确保新存储空间满足已分配的空间总和;另外存储分配剩余至少空闲5%空间,保证存储整体性能。
需要特别提醒,使用LVM做数据迁移时,因存储或操作系统对磁盘空间的计算差异,可能导致新分配空间略小于原存储分配空间,致使因空间不足迁移失败。所以新磁盘空间稍多于原有磁盘,如老存储划分1000GB,则新盘划分1001GB。

4、 云上虚机迁移
首选不建议使用热迁移方式,热迁移在内存收敛方面成功率待提高,保险起见使用冷迁移;二是提前打通新主机与原有存储之间的SAN网络互通;另外如果虚机使用了虚地址,在迁移完成后,要在云平台层面对原地址放行,例如HA软件等。

八、 收尾工作

1、 资产信息更新
及时闭环设备出库、部署上线及老旧设备的下线、报废流程,更新CMDB(资产配置管理系统)中的资产数据。对照部署上线流程,及时将新设备的软硬件纳管到原监控系统中。

2、 原设备数据清理
下线设备及时做好数据清理,特别是 对 服务器 本地盘或存储 磁盘 做好格式化 , 如果计划报废,则需进行磁盘物理消磁。

3、 文档整理总结
因涉及资产变动,各项流程应尽量做好留痕,无线上流程的,也应通过线下纸质方式完成各项审批及信息备份。
根据实施过程中出现的各类状况,结合 运营环境和实施流程, 总结 整理 本次 替换方案 和过程中的文档、工具、流程,完善工作制度,为后续的设备替换工作提供依据、指导 。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广