您的位置:计世网 - 数据中心

航空公司数据中心频宕机:仅靠DR远远不够

邹震- 2017.02.27 10:15 0条评论 数据中心

  去年达美航空公司的宕机在平静的航空业掀起了涟漪,而后宕机事件可谓前赴后继。IT中断给乘客带来不好的用户体验外,也让航空公司遭受巨大的经济损失。那么航空公司有没有从这一起起事件中获得一些经验教训呢?

  

 

  从1月底达美航空公司的停机时间来看,比去年的事故要短,且主要耗时在灾难恢复(DR)和IT复原方面,貌似应该是从上一次事故中吸取了经验。

  对于航空公司来讲,最大的挑战是系统相互依赖,极为复杂,且必须全天性提供,不能进行停机升级和维护,而像航空公司这样的传统环境本就缺乏处理脆弱环境的能力。

  有些公司开始将目光转向云计算这类新的技术。作为全球最大的航空公司,美国航空公司已经开始将一些应用程序迁移至云端,以获取更高的灵活性、可扩展性和可靠性。此前它已与IBM签订协议,目前正在考虑其他的云业务和供应商。

  为何航空公司IT系统如此脆弱?

  前不久,联合航空公司数据中心也发生了中断,而备受航空公司依赖的飞机通信处理和报告系统(ACARS)又罢了一次工。ACARS负责处理起飞时间、着陆时间、到达时间的数据传输,也涵盖重量和平衡、天气和风力和飞行计划等信息,同时还囊括联邦航空管理局的空中交通管制数据。

  这种用相对旧的语言编写的旧系统运行在旧的硬件上,本身就如风中的稻草般脆弱。且航空公司的合并/收购致使不同系统进行集成和合并,使问题更为复杂化,鉴于现有系统的复杂,耗费大量财力物力重建IT基础设施几乎不太现实。

  造成航空公司数据中心中断的原因与其他行业并无二致:没有被检测出的故障或更新失败。因此,变化控制和测试对保护环境健康运作来讲极为关键,需要更有效的变更控制用以识别和审查变更。对于常出现人为错误的地方,自动化可以有效地帮助解决问题。

  对于航空公司来讲,6-8个小时的宕机仍是不可容忍的。通过自动化将旧的基础设施与新的基础设施连接起来,解决不同系统间手动切换的问题。自动化工具在堆栈中可以跨越和连接不同系统,将其编排到一个工作流程中。而企业DR计划也要严格进行定期测试,确保问题发生时能发挥作用,若只是为了满足政策合规那就很尴尬了。

  当然,仅拥有DR计划还远远不够,对新技术的采用以及保持IT人员与时俱进也对IT系统的弹性有着重要影响,确保IT人员对恢复工作的了解是十分必要的。(来源:运维派 Yunweipai.com)

文章评论

关注作者的人