openstack管理云时代下的企业灾备建设思路

日期:2019-07-31 16:12:40 | 人气:

  openstack管理越来越多的行业用户选择利用云计算技术构建自己的数据中心,openstack管理但业务集中、数据集中的同时,也意味着风险的集中。

  openstack管理一旦发生数据中心人为误操作、网络故障甚至灾难时,openstack管理企业及分支机构将无法对外提供服务,甚至关键数据也会丢失。

  从GitLab事件看企业灾备现状

  去年,全球知名的开源托管服务平台GitLab数据丢失事件可能大多数人还印象深刻,因为缺乏完善的灾备方案,人为误删数据库致使系统宕机,并且长时间无法恢复。庆幸的是,运维工程师利用一次偶然产出的LVM快照,使数据得以恢复到6个小时之前的状态,但中间丢失的那部分数据对用户的潜在影响是无法用数字衡量的。

  事实上,缺失灾备方案的并不只有GitLab,诸多企业均存在类似的情况。由于成本和技术等原因,企业只应用传统的本地备份方案,并且通常只针对企业重要的业务数据(数据库、电子邮件等)进行备份,而不对操作系统及应用程序进行备份。故障发生后,需要耗费大量的时间在备份文件的导入恢复和配置上。业务恢复周期长、操作复杂,很多企业在做了灾备方案后,却束之高阁,无法应用。

  因此,如何以更高的性价比实现企业业务连续性,平衡风险、效率与成本,是当前企业用户的迫切期望。

  企业灾备建设需要“因地制宜”

  不同类型的风险其影响程度、发生概率和造成的损失大小是不同的, 在讨论企业灾备建设方案之前,可以将企业各信息系统所面临的风险因素、概率、影响和应对手段进行分析,以便于企业根据风险的抵御能力以及应用系统的重要程度,评估如何采取相应的灾备措施来减低各种风险和威胁可能带来的影响和损失。

  企业应用云计算技术之前,灾备的建设更多还是解决数据层面的问题,主要是利用传统存储设备的数据复制特性,由存储设备统一完成上层业务(包括数据库系统)的跨地域数据复制。但因为技术绑定和所有业务系统共吃一个”大锅饭”的原因,建设成本高昂,灾备效率不高,兼容性和数据一致性也存在一定的风险,并且由于只是数据级的复制,依旧无法解决数据备份和业务恢复复杂度高的问题。

  那么,如何应用云计算技术解决这些问题,并且构建业务维度的灾备体系呢?

  建设以云计算技术为核心的业务连续性灾备架构

  首先对云计算技术进行定义,参考目前大型互联网公司,例如Google、Facebook、阿里、腾讯的基础设施架构和应用架构,云星数据认为下一代IT架构应该具备基础设施超融合、应用系统集群化两大特征。云计算技术就是支撑这两大关键特征的平台技术,例如分布式、虚拟化、应用编排、流量分发等。具备这样技术能力的数据中心可以称之为云数据中心。

  其次,在数据中心领域,通常会从两个方面去考虑业务可用性的实现:

  1)重新定义数据中心架构,尤其针对传统集中式架构的业务系统,例如传统ERP系统。此类系统非常关键,架构无法轻易变动,需要在基础架构层面去实现高可靠和高可用。

  由于云数据中心的超融合基础架构本身就具备高度容错能力,以云星数据企业级云的超融合基础架构为例,基础架构支持数据多副本、数据持续保护、虚拟机HA、支持数据库集群化部署等多种高可靠机制。因此,对于此类传统业务的业务连续性,重点考虑的是业务跨站点数据复制和业务切换的设计。

  2)重新定义应用架构,使之具备分布式能力,通过应用层集群和流量分发技术构建业务双活,甚至多活能力,同时基于云计算资源池化、统一编排等能力,资源调配可以非常灵活,扩展也会非常容易。

  因此,云星数据认为云数据中心灾备建设的核心在于如何构建一个弹性安全可靠的基础架构去支撑分布式的业务集群,如何基于业务要求选择合适的数据复制方式,如何对多个数据中心进行业务和流量感知,如何在出现故障时能够统一地进行灾备切换。