如何处理数据中心的故障?
数据中心要全天候运行,难免会出现这样那样的故障。出现故障后,如何迅速找到故障原因并故障是一个数据中心运维效率的直接体现。数据中心一旦发生故障,影响了数据业务,将给数据中心带来巨大的经济损失,有时甚至是毁灭性的打击,所以数据中心都不希望出现任何的故障。当然,愿望是美好的,现实是残酷的,数据中心包含有太多的电子设备和大量的软件,虽然部署了很多的备份技术和设备,但依然很难做到永远都不出故障。那么问题来了,一旦数据中心出现了故障,该如何处理?
一、摸清故障现象
数据中心的故障表现复杂多样,先要弄清楚故障现象是什么?一般数据中心故障都是先从应用层面表现出来,如果从这些方面开始分析,很容易走错方向。比如:应用部分反馈访问网页慢、支付系统完成不了支付、游戏业务玩不了了等等,这些应用业务的故障表现往往是片面的,不同技术水平的人和不同的业务部门的人反馈的故障现象都有差别,很容易让人不知道该从何查起。这时要对反馈的故障现象进行收集和整理,找出其中的共性。所谓摸清故障现象,就是找出此时数据中心里统一的故障现象。
二、测试并确认故障范围
根据故障现象,我们要查看这些故障是否来自于同一台服务器、同一条链路或者是同一台网络设备等。所有的应用业务都是在这些物理硬件设备上运行的,其中的任何一个环节的设备出现故障,都会导致问题。此时,各种网络探测诊断工具就派上用场了。通过使用PING、Tracert、镜像、流量统计、抓包等一系列手段,确定故障位置。经过这样一系列的诊断,可以将故障范围缩小到某一台设备或只有数台设备的网络区域。
三、尝试定 位
一个经验丰富的数据中心技术人员,往往可以根据故障表现迅速找到故障原因。这时,如果故障影响是可以容忍的,在条件允许的情况下,可以尝试定 位问题,试图找到触发此次故障的根本原因。此时技术人员一定要思路清晰,一步步来采集各种信息,深入分析。数据中心里有太多的设备,这些设备来自不同厂家,各自的技术特点也不同,没有哪个数据中心技术人员能全部掌握,如果在短时间内无法定 位问题,或者是分析来分析去已经没有任何思路,此时就要放弃继续定 位。
四、收集故障时必要信息
一定要在故障的时候收集一些设备的日志、诊断、操作记录、内部隐藏信息,很多信息是设备厂家要求在故障时收集的,要按照厂家的要求将信息收集完整,以便这些信息可以供设备厂家分析,日后找出故障发生的原因。很多时候,数据中心的技术人员急于恢复业务,往往忽略收集这些信息,这将为日后定 位问题造成了极大难度。
五、故障恢复
为了尽快故障,需要对故障进行恢复。此时不要上来就对疑似故障的设备直接重启或者更换、下电,这样极有可能会造成更为严重的故障。本来原来的故障可能只是偶尔有访问出错,有丢包,经过设备重启就可能造成整网的业务中断。故障恢复的操作应该从轻到重,逐步来尝试执行。比如路由异常,可以先对特定路由进行删除重建,不行的话,再对某一个邻居进行复位重建,还不行的话再对整个路由协议进行重建,这样一来严重也是影响这一类路由协议的转发,对其它业务并没有影响。还是不行再考虑重启框式设备的板卡,再不行再考虑重启整机设备,此时也尽量不要断电重启,很多设备只要不是断电重启还是会留下一些有意义的历史记录信息。如果数据中心的各个故障环节都是备份系统,可以暂时将业务迁移到备份系统上来,故障的主用系统继续保留,供技术人员继续排查故障,直到找到故障原因,彻底后,再将业务切换回来。
六、再次验证业务的正确性
故障恢复后,要再次对数据中心承载的业务进行各种测试,看是否所有的业务都恢复正常,同时与各个业务部门人员交流,确认业务的正确性。当得到准确反馈,所有业务都恢复正常后,再停止业务验证。
七、长时间观察
数据中心故障有时会容易反复,尤其是在没有找到故障原因的情况下,所有的故障恢复手段都可能不是很有效的,很可能会再次出现故障。这时要密切关注数据中心业务运行情况,一旦发现异常,及时处理。
八、分析故障原因,总结经验教训
故障发生后,在还未明确故障原因的情况下,及时将收集的信息发给设备厂商,协同分析,在事后故障分析上要投入大量的人力、物力,直到找到故障原因。如果无法找到故障原因,对于数据中心是可怕的事情,很可能会再次发生,造成二次的损失,所以要在故障分析上多投入,直到找到故障原因。找到故障原因后,要对产生这次故障的原因进行深入分析,结合目前数据中心的运行状况,看是否有改进的空间,及时总结故障处理过程中不足的地方,对薄弱环节进行加强,避免同样的故障再次发生。
www.kww***
一、摸清故障现象
数据中心的故障表现复杂多样,先要弄清楚故障现象是什么?一般数据中心故障都是先从应用层面表现出来,如果从这些方面开始分析,很容易走错方向。比如:应用部分反馈访问网页慢、支付系统完成不了支付、游戏业务玩不了了等等,这些应用业务的故障表现往往是片面的,不同技术水平的人和不同的业务部门的人反馈的故障现象都有差别,很容易让人不知道该从何查起。这时要对反馈的故障现象进行收集和整理,找出其中的共性。所谓摸清故障现象,就是找出此时数据中心里统一的故障现象。
二、测试并确认故障范围
根据故障现象,我们要查看这些故障是否来自于同一台服务器、同一条链路或者是同一台网络设备等。所有的应用业务都是在这些物理硬件设备上运行的,其中的任何一个环节的设备出现故障,都会导致问题。此时,各种网络探测诊断工具就派上用场了。通过使用PING、Tracert、镜像、流量统计、抓包等一系列手段,确定故障位置。经过这样一系列的诊断,可以将故障范围缩小到某一台设备或只有数台设备的网络区域。
三、尝试定 位
一个经验丰富的数据中心技术人员,往往可以根据故障表现迅速找到故障原因。这时,如果故障影响是可以容忍的,在条件允许的情况下,可以尝试定 位问题,试图找到触发此次故障的根本原因。此时技术人员一定要思路清晰,一步步来采集各种信息,深入分析。数据中心里有太多的设备,这些设备来自不同厂家,各自的技术特点也不同,没有哪个数据中心技术人员能全部掌握,如果在短时间内无法定 位问题,或者是分析来分析去已经没有任何思路,此时就要放弃继续定 位。
四、收集故障时必要信息
一定要在故障的时候收集一些设备的日志、诊断、操作记录、内部隐藏信息,很多信息是设备厂家要求在故障时收集的,要按照厂家的要求将信息收集完整,以便这些信息可以供设备厂家分析,日后找出故障发生的原因。很多时候,数据中心的技术人员急于恢复业务,往往忽略收集这些信息,这将为日后定 位问题造成了极大难度。
五、故障恢复
为了尽快故障,需要对故障进行恢复。此时不要上来就对疑似故障的设备直接重启或者更换、下电,这样极有可能会造成更为严重的故障。本来原来的故障可能只是偶尔有访问出错,有丢包,经过设备重启就可能造成整网的业务中断。故障恢复的操作应该从轻到重,逐步来尝试执行。比如路由异常,可以先对特定路由进行删除重建,不行的话,再对某一个邻居进行复位重建,还不行的话再对整个路由协议进行重建,这样一来严重也是影响这一类路由协议的转发,对其它业务并没有影响。还是不行再考虑重启框式设备的板卡,再不行再考虑重启整机设备,此时也尽量不要断电重启,很多设备只要不是断电重启还是会留下一些有意义的历史记录信息。如果数据中心的各个故障环节都是备份系统,可以暂时将业务迁移到备份系统上来,故障的主用系统继续保留,供技术人员继续排查故障,直到找到故障原因,彻底后,再将业务切换回来。
六、再次验证业务的正确性
故障恢复后,要再次对数据中心承载的业务进行各种测试,看是否所有的业务都恢复正常,同时与各个业务部门人员交流,确认业务的正确性。当得到准确反馈,所有业务都恢复正常后,再停止业务验证。
七、长时间观察
数据中心故障有时会容易反复,尤其是在没有找到故障原因的情况下,所有的故障恢复手段都可能不是很有效的,很可能会再次出现故障。这时要密切关注数据中心业务运行情况,一旦发现异常,及时处理。
八、分析故障原因,总结经验教训
故障发生后,在还未明确故障原因的情况下,及时将收集的信息发给设备厂商,协同分析,在事后故障分析上要投入大量的人力、物力,直到找到故障原因。如果无法找到故障原因,对于数据中心是可怕的事情,很可能会再次发生,造成二次的损失,所以要在故障分析上多投入,直到找到故障原因。找到故障原因后,要对产生这次故障的原因进行深入分析,结合目前数据中心的运行状况,看是否有改进的空间,及时总结故障处理过程中不足的地方,对薄弱环节进行加强,避免同样的故障再次发生。
www.kww***