精华内容
下载资源
问答
  • 信息系统容灾演练实施方案.docx
  • 东莞市科技局信息系统容灾备份方案.docx
  • 某电信公司T2100网管系统联通工程的容灾方案自投入运行以来,运行正常,系统性能良好,达到了预期目标。通过Veritas容灾解决方案,不但提高了数据的存储性能,系统可以达到7X24小时不间断工作,满足了高可用性的原则...
  • 容灾方案概述

    千次阅读 2020-08-26 17:21:05
    IT运维:系统容灾,有备无患,简化IT运维工作,避免突出事件冲击 挑战 应用多样,管理不便:企业IT系统中运行的业务系统越来越多,需要作为关键业务进行容灾保护的应用也越来越多,常见的应用有Oracle、DB2、SQL...

    目录

    1、引入

    1.1 需求

    1.2 挑战

    2、几个概念

    2.1 HA

    2.2 容灾

    2.3 二者对比 

    2.3 容灾和备份

    2.4 关键指标RTO和RPO

    3、容灾系统概述

    3.1 系统级别

    3.2 容灾建设等级

    3.3 容灾解决方案

    4、容灾方案架构

    4.1 基本框架

    4.2 容灾设计模式:同步、异步结合使用

    4.3 容灾方案

    (一)主备容灾方案

    (二)两地三中心(3DC)容灾方案

    (三)双活容灾方案

    (四)阵列复制容灾方案

    (五)同城应用级容灾(物理机模式)

    (六)云计算下的灾备模式


    1、引入

    1.1 需求

    • 三大风险:数据丢失、数据破坏、业务中断。每小时业务中断导致损失以百万美元计
    • 法规遵从:金融合规,等保3,安全隔离,两地三中心,高业务连续性
    • IT运维:系统容灾,有备无患,简化IT运维工作,避免突出事件冲击

    1.2 挑战

    应用多样,管理不便:企业IT系统中运行的业务系统越来越多,需要作为关键业务进行容灾保护的应用也越来越多,常见的应用有Oracle、DB2、SQL Server、Exchange等,同时IT系统的云化趋势越来越明显,众多的虚拟机也需要提供保护,缺乏统一的管理系统。

    流程复杂,耗时易错:不同应用的配置不同,恢复流程各异,配置难度大;业务切换、恢复需要专业人士操作,耗时易错:缺乏自动化的创建和部署流程。

    黑盒运行,难以理解:传统业务切换、演练等操作流程都是设备内黑盒运行,缺乏可视效果,难于理解。 

    2、几个概念

    2.1 HA

    HA( High Availability,高可用)是指提供在本地系统单个组件故障情况下,能继续访问应用的能力。无论这个故障是业务流程、物理设施、IT软/硬件的故障。

    最好的高可用性就是数据中心的一台机器宕机了,但是使用该数据中心服务的用户完全感觉不到。但一般数据中心的机器宕机了,在该机器上运行的服务故障切换(failover)一般都需要时间,从而导致客户会有感知。

    HA 的关键指标是可用性,其计算公式是[ 1 - (宕机时间)/(宕机时间 + 运行时间)],我们常常用几个 9 表示可用性:

    • 4 个9 : 99.99% = 0.01% * 365 * 24 * 60 = 52.56 分钟/年
    • 5 个9 : 99.999% = 0.001% * 365 = 5.265 分钟/年
    • 6 个9 : 99.9999% = 0.0001% * 365 = 31秒钟/年

    对 HA 来说,往往使用共享存储,这样的话,RPO =0 ;同时往往使用 Active/Active (双活集群) HA 模式来使得 RTO 几乎0,如果使用 Active/Passive 模式的 HA 的话,则需要将 RTO 减少到最小限度。 

    2.2 容灾

    灾难(Disaster)是由于人为或自然的原因,造成一个数据中心内的信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切换到备用场地运行。

    灾难恢复(Disaster Recovery)是指当灾难破坏生产中心时在不同地点的数据中心内恢复数据、应用或者业务的能力。

    容灾是指,除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点受到破坏时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达到更高的可用性,许多用户甚至建立多个冗余站点。

    2.3 二者对比 

    维度 

    HA(High Availability)

    DR(Disaster Recovery)

    场景

    HA 是指本地的高可用系统,表示在多个服务器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能迅速切换到其它服务器上运行,即本地系统集群和热备份。

    DR 是指异地(同城或者异地)的高可用系统,表示在灾害发生时,数据、应用以及业务的恢复能力。

    存储

     

    HA 往往是用共享存储,因此往往不会有数据丢失(RPO = 0),更多的是切换时间长度考虑即 RTO。

    异地灾备的数据灾备部分是使用数据复制,根据使用的不同数据复制技术(同步、异步),数据往往有损失导致 RPO >0;而异地的应用切换往往需要更长的时间,这样 RTO >0。 

    故障

    主要处理单组件的故障导致负载在集群内的服务器之间的切换

    应对大规模的故障导致负载在数据中心之间做切换

    网络

    LAN 尺度的任务是 HA 的范畴

    WAN 尺度的任务是 DR 的范围

    HA 是一个云环境内保障业务持续性的机制

    DR 是多个云环境间保障业务持续性的机制

    目标

    HA 主要是保证业务高可用

    DR 是保证数据可靠的基础上的业务可用

    2.3 容灾和备份

    备份:备份是容灾的基础,通常指在数据中心内,将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。

    容灾:容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。

    一般意义上,容灾指的是不在同一机房的数据或应用系统备份,备份指的是本地的数据或系统备份。通常说的灾备是将容灾与备份结合,即本地备份结合远程数据复制实现完善的数据保护。

    一般所说的备份采用备份软件技术实现,而容灾通过复制或镜像软件实现,两者的根本区别在于:

    • 备份软件处理后的数据格式不一致,必须恢复后才可使用,而复制或镜像软件处理后的数据格式不发生变化,直接挂载给主机即可使用。
    • 两者的数据保护的周期不一致,复制或镜像的时间周期更短。
    • 一般备份为数据保护的最后一条防线,偏向于归档这个层面更多。

    2.4 关键指标RTO和RPO

    • RPO(Recovery Point Objective)代表了当灾难发生时允许丢失的数据量。
    • RTO(Recovery Time Object )代表了系统恢复的时间。
    • RPO 与 RTO 越小,系统的可用性就越高,当然用户需要的投资也越大。

    3、容灾系统概述

    3.1 系统级别

    级别

    定义

    RTO

    TCO

    数据级 

    通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏。

    在数据级容灾方式下,所建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。在数据级容灾这个级别,发生灾难时应用是会中断的。

    数据级容灾的恢复时间比较长,但是相比其他容灾级别来讲它的费用比较低,而且构建实施也相对简单。

    数据源是一切关键性业务系统的生命源泉,因此数据级容灾必不可少。

    RTO 最长(若干天) ,因为灾难发生时,需要重新部署机器,利用备份数据恢复业务

    最低

    应用级

    在数据级容灾的基础之上,在备份站点同样构建一套相同的应用系统,通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,这样就使系统所提供的服务是完整的、可靠的和安全的。

    RTO 中等(若干小时)

    中等。异地可以搭建一样的系统,或者小些的系统。

    业务级

    全业务的灾备,除了必要的 IT 相关技术,还要求具备全部的基础设施。其大部分内容是非IT系统(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。

     RTO 最小(若干分钟或者秒)

    最高

    3.2 容灾建设等级

    3.3 容灾解决方案

    4、容灾方案架构

    4.1 基本框架

               

    4.2 容灾设计模式:同步、异步结合使用

                   

    容灾模式

    可靠性方案

    灾备恢复

    数据备份需求

    双活

    集群+负载均衡

    自动

    实时同步复制(<100KM)

    热备份

     

    集群(cluster)

    自动

    实时同步复制(<100KM)

    暖备份

    人工干预

    手动

    异步复制(>100KM)

    冷备份

    人工强干预

    手动

    同上

    4.3 容灾方案

    (一)主备容灾方案

                                         

    容灾系统管理可视化: 支持容灾管理软件部署、调测一键式 支持容灾演练和切换一键式,协助完成定制脚本工具能力,便于管理和恢复。

    (二)两地三中心(3DC)容灾方案

                                

    容灾建设周期短,交付风险低,容灾建设周期从10个月缩短到7个月,缩短30% 多厂商配合有效管理,缩短项目交付周期 多业务多应用的有效评估与分析,保障容灾系统快速建设 

    (三)双活容灾方案

                

    双活容灾去网关化,高效实施 业务级“A-A”高可靠,数据中心级故障业务不中断,7*24小时在线 双活存储层无虚拟化网关,减少故障点,简化实施与调测。

    (四)阵列复制容灾方案

                                                 

    支持一对一容灾或多对一集中容灾,多分支机构数据独立存放,需要建立统一的容灾系统,对各个分支机构进行统一容灾保护。  支持多达31个分支机构;支持同步/异步复制方式,根据各个分支特点灵活选择,统一管理各分支容灾存储系统;不同级别阵列可互通复制,降低TCO,支持灵活在线添加/撤除分支站点 结合快照功能,可实现数据的连续保护。容灾资源共享,可大大节约成本。

    (五)同城应用级容灾(物理机模式)

                               

    应用场景为物理机模式(小型机、X86服务器),两数据中心距离 <80KM ,应用自动切换,快速恢复业务。实现本地高可用和异地应用级容灾,具有存储开放性,支持异构存储 集群节点可任意组合(集群内主机总数量<=64); 

    (六)云计算下的灾备模式

                

    生产中心与容灾中心独立部署云管理平台(两朵云),设置同步策略,定期远程复制生产中心的云管理数据和业务数据(VM)到容灾中心。用户在业务规划时,可根据实际需求,在存储上划分两种LUN:保护LUN和未保护LUN,将需要容灾的VM创建在保护LUN上,并只对保护LUN配置阵列复制,以节省容灾中心存储空间的需求。当生产中心发生故障时,容灾中心通过容灾管理软件一键式恢复虚拟机。

                                      

    展开全文
  • 数据库容灾方案

    千次阅读 2019-08-23 09:19:39
    也称数据库双活、数据库复制,即在本地或异地部署一个与生产库完全相同的灾备数据库,当生产库由于各种原因(错误操作、系统软件错误、病毒、硬件故障、断电、火灾、地震等)发生故障时,灾备数据库可以立刻接管原有...

    也称数据库双活、数据库复制,即在本地或异地部署一个与生产库完全相同的灾备数据库,当生产库由于各种原因(错误操作、系统软件错误、病毒、硬件故障、断电、火灾、地震等)发生故障时,灾备数据库可以立刻接管原有应用,对外正常提供服务。进行数据库容灾需要考虑以下问题:

    1 本地容灾还是异地容灾,异地容灾的网络带宽及稳定性。

    2 灾备数据库是否需要在线查询,是否需要效验比对某些核心数据是否与生产库一致。

    3 RTO(恢复时间目标,指生产库发生故障到灾备库投入运行期望的时间)、RPO(数据恢复点目标,指生产系统所能容忍的数据丢失量)。

    4 备份模式选择,单向备份模式(active/standby)还是双向互备模式。其中双向互备模式又分为半双工和全双工,半双工在任一时间点依然是单向模式(active/standby),只有一个数据库接受业务请求,当主库故障时允许主备自动切换。全双工模式(active /active),用于双业务中心异地互备,两个数据库同时接受业务请求。对于全双工模式需要考虑数据是否存在主键冲突。

    5 部署及维护成本,灾备库是否支持异构(不同操作系统、不同数据库版本)、是否需要在主备库安装代理程序或在数据库额外创建对象、是否需要调整表结构等。应用系统升级是否需要重新配置备份过程,是否需要人工干预等。

    灵蜂数据库复制软件Beedup提供数据库(Oracle/SQL Server/DB2/MySQL/PostgreSQL)容灾功能,具备以下特点:

    1 Beedup采用TCP连接主从数据库,支持本地或异地容灾。软件读取解析主库归档或在线日志,还原其中的DDL及DML操作在备库执行,通过将软件部署到主库所属网络,可以在备份时有效降低网络负载。软件提供断点机制增量读取解析日志,可以忍受苛刻的网络条件。

    2 Beedup采用SQL接口向从库写入DML及DDL,从库实时在线可用。另外软件提供主从表的差异比对功能,可以随时效验主从数据一致性。

    3 Beedup采用事务单元复制主库变化到从库,主库事务提交后,软件立即读取解析事务并复制变化到从库,整个过程秒级完成。当主库发生故障时,可以直接修改从库IP为主库IP接管其上业务。

    4 Beedup支持active/standby和active /active备份模式,对于active /active模式的自增主键冲突,无需调整业务系统,Beedup提供自增值到目标库的重新计算并更新相关依赖信息的功能。

    5 Beedup采用JDBC读写主备数据库,对数据库运行平台及版本无要求,当生产库采用高性能设备时,备份库可以选择普通商用配置。软件部署灵活,既可部署于主服务器,也可部署于备份服务器,或者部署到可以TCP连通主备服务器的其它任意机器。软件对主库不需要任何写入操作,通过读取解析主库归档或在线日志复制事务到备份库,对于表结构、视图、存储过程、触发器等DDL操作均可自动备份,无需人工干预。

    展开全文
  • 企业信息系统容灾风险评估报告.docx
  • 建立远程容灾系统后将使医院的数据信息安全存储在两个不同的区域,一份数据在本地,另一份数据在异地,可以有效地应对地震、火灾、洪水、冰雹、雷电、飓 风、火山爆发等突发事件导致企业信息系统的瘫痪和数据的丢失...
  • 基于Oracle Data Guard构建医院信息系统容灾备份方案.pdf
  • {管理信息化 ORACLE}Oracle 数据库异 地容灾方案概述 Oracle 数据库异地容灾方案介 2008 年 11 月 目录 第一章 需求分析4 1.1 序言 4 1.2 用户现状4 1.2.1 系统平台4 1.2.2 数据库平台 6 1.3 用户需求 7 1.3.1 日常...
  • 上海财政局容灾系统采用了DSG RealSync实现生产数据库源...DSG的容灾解决方案可实现异构系统下的N:1容灾体系结构,可实现一套容灾系统对多套生产系统提供容灾服务,减少为每套生产系统建设一套容灾系统模式下的高投入。
  • 医疗行业的远程容灾系统采用了Infortrend EonStor磁盘阵列,EonStor 磁盘阵列IOSmart技术、DrvSmart技术、SysSmart技术、Double-Take软件以更快的速度和质量为医疗、财务、行政和后勤管理服务。
  • 1. 什么是数据备份容灾平台 - 4 - 2. 方案建设背景 - 4 - 3. 方案建设目标 - 5 - 4. 方案建设应遵循的原则 - 6 - 5. 方案建设简要结论 - 8 - 6. 方案建设依据 - 9 - 二、 目前备份系统现状及需求 - 10 - 1. 莆田市...
  • 异地容灾方案解析

    千次阅读 2018-04-23 10:20:00
    一、异地容灾主要备份三种数据: 1、DB数据 2、操作系统 3、日志信息 二、恢复时间不能超过30分钟 三、图中为DB的备份方式,DB总的有四份备份:生产存储一份、移动硬盘一份、备份存储一份、灾备存储一份。备份方式为...

    一、异地容灾主要备份三种数据:

    1、DB数据

    2、操作系统

    3、日志信息

    二、恢复时间不能超过30分钟

    三、图中为DB的备份方式,DB总的有四份备份:生产存储一份、移动硬盘一份、备份存储一份、灾备存储一份。备份方式为,平时通过生产系统的介质服务器传输到移动硬盘,通过CS传输数据到灾备中心的介质服务器,在通过介质服务器传输到备份存储、灾备存储。

    生产中心发生异常时的DB切换方式为,将移动硬盘迅速转移挂载到灾备中心的介质服务器,然后再发起恢复

    img_5a21d5e754c3e205ec96147be294609f.png
    img_faca2201505f89f462886fa5fd856506.png

    四、日常对OS进行每日备份,通过CS传输到灾备中心的介质服务器,再发送给备份存储和灾备存储,即OS的备份有三份:生产存储、备份存储、灾备存储


    img_57b771b25b7e8b9c468c56a0d17997f4.png

    五、日志的备份和OS一样


    img_b359c20805d80bdeba49edfed404daca.png

    六、恢复切换步骤:日志恢复、OS恢复、修改IP和主机名、移动硬盘转移挂载


    img_f343e0d26103028e288b2321ded50a92.png
    img_50c0e4c9cb648a578664f724a8c9f5bd.png
    img_5bfbbea26d9fb0072e66d05ea6604208.png
    img_fce0993ca1a129f9905725f193d74ee8.png

    七、本地恢复


    img_c3c0bbbabc8964fe228c3c7416266129.png

    八、两地传输带宽的计算要考虑每日数据增量、每日传输量、传输可用率


    img_8ec0411dfcc4e15a23dd91d85491f57b.png
    展开全文
  • 本文将通过介绍一些业界主流的数据库高可用架构、每种方案的特性和优缺点,以及数据库高可用架构的自动化运维实现,讲讲数据库高可用容灾方案设计与实现,希望抛砖引玉,和大家一起讨论。 一、高可用数据库概述 ...

    一个系统可能包含很多模块,如数据库、前端、缓存、搜索、消息队列等,每个模块都需要做到高可用,才能保证整个系统的高可用。对于数据库服务而言,高可用的实现可能更加复杂,对用户的服务可用,不仅仅是能访问,还需要有正确性保证,因此讨论数据库的高可用方案时,在容灾之外,还要同时考虑方案中数据一致性问题。

    本文将通过介绍一些业界主流的数据库高可用架构、每种方案的特性和优缺点,以及数据库高可用架构的自动化运维实现,讲讲数据库高可用容灾方案设计与实现,希望抛砖引玉,和大家一起讨论。

    一、高可用数据库概述

    什么是高可用数据库?

    高可用数据库是由一系列数据库构成的总体系统,在任何时刻,至少有一个节点可以接受用户的请求并提供数据库服务。大多数数据库架构中,有一个主节点处理主要请求,还有若干备用节点用于容灾切换,当主节点不能提供服务时,备用节点成为主节点继续提供服务,用以保证整个系统的可用和稳定。

    高可用数据库有很多优点:

    第一,方便读写分离。数据库请求当中,一般读操作的请求次数远大于写操作,高可用数据库可以通过将写操作放在主数据库节点上进行,将读操作分担到若干从库上,来提升读操作吞吐量,进而提升读写效率; 第二,变更不停服。当整个高可用数据库架构或者主节点升级时,可以让高可用数据库先进行主库切换,让备用节点替换原主节点提供数据库服务,当主节点升级完毕后,再将主从库服务切换回来,这样能有效避免系统升级或变更时对用户服务质量产生影响; 第三,备份不影响服务性能。高可用数据库架构包含多个从库,在不影响主节点服务性能的情况下,能非常方便地实现数据的容灾备份。

    一般,高可用数据库地架构设计时,也需要考虑三个问题:

    第一,如何同步各数据库之间的节点数据?同步需要保证切换后的数据库是最新数据,以及在切换过程中数据不会丢失,同时还要考虑同步过程对主库和备库的影响。 第二,高可用数据库的容灾切换如何进行?架构不同容灾切换的复杂度也不一样,且切换以后需要保证主、从库数据的一致性,这可能需要开发者在设计之初就尽量优化和简化容灾切换逻辑。 第三,如何提高高可用的运维效率?

    二、业界典型高可用数据库架构

    按照数据同步方式,我们可以将业界主流的高可用架构划分成四种:第一种,共享存储方案;第二种,操作系统实时数据块复制;第三种,数据库级别的主从复制;第四种,高可用数据库集群。每一种数据同步方式可以衍生出不同的架构。

    方案一:共享存储

    共享存储指若干DB服务使用同一份存储,一个为主DB,其他的为备用DB,若主服务崩溃,则系统启动备用DB,成为新的主DB,继续提供服务。一般共享存储采用比较多的是SAN/NAS方案。

    这种方案的优点是没有数据同步的问题,但也有一些限制,如对于共享存储的实时性和网络性能有较高要求。因为共享存储一般是通过网络来访问存储当中的数据,在网络性能较差的情况下,数据库的性能也无法达到令人满意的效果。不过,随着硬件性能的不断提升,将计算存储分离、和DB深度结合的共享存储亦是高可用数据库未来发展的趋势之一。

    方案二:操作系统实时数据块复制

    这个方案的典型场景是DRBD,可以把它理解为远程的RAID1,如下图所示,左侧数据库写入数据以后立即同步到右侧的存储设备当中。如果左边数据库崩溃,系统可以直接激活右边的数据库存储设备,启动新的数据库服务,实现容灾切换。

    这个方案同样有一些问题,如系统只能有一个数据副本提供服务,无法实现读写分离;另外,如果系统崩溃,主库进程中断,容灾切换后需要在挂掉的数据库上做数据库崩溃恢复,系统需要的容灾恢复时间较长。

    方案三:数据库主从复制

    这种方案我认为是最经典的数据同步模式,系统采用一个主库和多个从库方式,其实现原理主要是基于日志的主从复制,主库操作以日志的形式发送给各个从库,从库接收到日志后进行数据备份。这种方式的好处是一个主库可以连接多个从库,能很方便地实现读写分离,同时,因为每个备库都在运行中,所以备库里面的数据基本上都是热数据,容灾切换也非常快。

    不过,这个方案也并非完美无缺,如容灾切换时,从库一定要同步完最新数据以后才能升级为主库,否则极有可能发生数据丢失的情况。针对传统主从架构的一些问题,业界也逐渐研发出对应的改进技术。

    改进技术一:双主架构

    问题:经典主从架构里面,原主库崩溃恢复的过程中,新的数据无法及时同步到该数据库当中,原主库恢复后,需要重新设置为从库,并将容灾过程中的数据重新同步进行。

    改进措施:为了保证容灾后的数据一致性,业界对这种架构做了一些改进,其中一种改进措施就叫双主架构,如下图所示,双主架构一般会选择两个DB做一对主库,这两个DB之间互相为对方的从库,无论往哪个DB写入数据,另一个都会自动同步。容灾时系统只需要把流量从左边切换到右边,容灾后数据同步依旧自动进行,这样,就保证了容灾后原主库的数据一致性。

    改进技术二:日志自动寻址

    问题:容灾备份时,当某一从库提升为主库后,其他备库需要自动定位新主库的日志同步点,同步新主库的日志。早期数据库日志中,MySQL是通过文件名加上文件的偏移量进行寻址,因此,主库的自动定位并不好实现。

    改进措施:为了解决此问题,MySQL提供了一种叫做GTID的全局事务标志技术,一个事务对应一个ID,所有的日志都带有唯一的标识符,主从库切换后,其余从库只要根据新主库的日志ID,就可以辨别新的日志同步点,然后根据这个日志同步数据,这对于搭建一主库多从库的架构来说寻址非常便捷。

    改进技术三:异步复制改进

    问题:默认情况下,MySQL的复制是异步的,主库将新生成的日志发送给各从库后,无需等待从库的ack回复(从库将接收到的日志写进relay log后,才会回复ack),直接就认为这次DDL/DML成功了。但在极端情况下,如主库刚提交日志,其他从库还没有接收到相关日志时,数据库发生故障,此时,该日志的内容就会全部丢失。

    改进措施:半同步复制机制。半同步复制是指主库在将新生成的日志发送给各从库前,需发送日志到一个(默认)从库,等待从库返回ack信息后,主库再提交日志发送给各从库,这就防止了上述情况下的数据丢失。半同步复制是一种提升数据一致性的有效方式,也是比较关键的技术。

    方案四:数据库高可用集群

    前面三种方案主要是通过日志的复制模式实现高可用,第四种方案则是基于一致性算法来做数据的同步,数据库提供多节点一致性同步机制,利用该机制构建多节点同步集群。这种方式比较经典的案例包括MGR(MySQL Group Replication)和Galera等,最近业内也有一些类似的尝试,如使用一致性协议算法,自研高可用数据库的架构等。

    以上示意图有五个节点,他们之间是构建成了一个一致性的同步集群,客户端可以读写其中的任何一个节点,任意一节点写入,其他节点都能够将数据进行同步,因此,理论上每个节点都可以进行读写操作。这种方式的容灾实现也比较简单,假设第二个节点出现故障,系统只需要断开客户端对第二个节点的访问路径,其他节点照常访问就可以了,这也是业界近年来比较流行的高可用集群方案。

    UCloud高可用数据库解决方案UDB

    UCloud对比了业内的各解决方案的优劣点,综合了原生MySQL兼容,不同版本、不同应用场景的覆盖等多种因素,最终选择采用基于数据库主从复制的方式实现高可用架构,并在原架构基础上,使用双主架构、半同步复制、采用GTID等措施进行了系列优化,保证数据一致性的同时,实现日志的自动寻址。

    如上图所示,最底层为数据层,使用了双主架构,主库与备主库之间通过半同步的方式实现数据同步,整个数据层是双主架构+半同步架构的模式。中间层有一个代理服务器Proxy,Proxy将流量导入到双主数据库的主节点,架构使用了GTID的模式,方便从库自动寻址。

    系统的容灾切换也非常简单,数据库崩溃前,Proxy将流量导到主DB上,发生容灾以后,只需要把Proxy从左边Master导到右边的Slave,即可快速完成切换。

    三、高可用数据库的自动化运维

    自动化运维的重点方向

    自动化运维是高可用数据库中的难点,因为企业业务不一定只有一个数据库,可能需要同时管理十几个甚至上百个数据库,如果每一个数据库都配置一个高可用数据库架构,系统则需要保证其中任何一个发生问题以后都可以进行容灾,这无疑给运维带来了极大挑战。

    那么,如何同时管理大量高可用数据库,让他们都可以进行容灾呢?这里有一些自动化运维方向的思路:1、容灾切换自动化;2、高可用数据库运行状况监控;3、健康状况自动检查和问题修复。

    1、容灾切换自动化。要实现容灾切换的自动化,首先需要考虑两个问题:

    第一,怎样准确判断需要容灾。这是实现自动容灾的基础和前提,它需要结合实际情况讨论和判断。如发生网络波动时,可能有一段时间发现无法连上主库,实际上几秒钟以后整个业务系统又恢复了,如果这时候数据库做容灾的话代价比较大,且容灾后还可能会有额外的风险。所以需要在前期准确判断是否需要容灾,并保证在最需要容灾的时候及时容灾; 第二,容灾切换时,备库数据尽量和主库数据保持一致,否则,就会带来数据丢失的问题。

    针对上述问题,MySQL已经有比较常用方案供参考,老牌的如MHA,还有一种比较新的方案叫Orchestrator,如果大家自己搭建数据库,可以考虑采用这两种方案。

    2、健康状况自动检查。健康状况检查需要通过自动监控搭配告警来做,高可用容灾中,最关心的还是高可用数据库的主库和备库数据是否一致,一般情况,导致主从库数据不一致的主要是两点:

    第一,复制有没有正常进行,如发送日志时主库与备库之间的连接突然断掉,这时候需要系统时常扫描主备库是否异常; 第二,主从延时,如果主从之间的数据延迟较大,那么切换数据库时也会比较麻烦,这方面也可以考虑使用业内比较常用的监控模块如Prometheus等工具定期采集,发现异常状况后及时调整。

    第三,异常情况自适应调整。以主从延迟为例,一般来说可能是CPU的问题或者IO的问题等,如果是IO的问题,一种办法是将IO调高,这是一种比较好的解决方案,如果IO调高以后发现还是无法降低延时,可以在从库把日志的持久化等级暂时性调低。当然,如果主从之间延迟过大,完全无法调整为正常水平,这时候就要考虑通过一些手段重做从库。

    UDB:海量高可用数据库自动化运维

    UDB拥有海量的高可用数据库,在自动化运维和管理方面,UDB采用的是高可用容灾集中式自动化管理的方式,通过自研的自动容灾逻辑,进行大规模、高并发的DB自动化容灾。同时,UDB的运维体系还可以做到自动化的问题探测以及问题修复,如自动拉起DB、恢复服务,自动恢复数据同步,自适应流量控制等。此外,UDB还会配合一些高效运维工具和巡检工具做更深层次的问题的发现和解决。

    在UDB高可用运维当中,有几点经验可以跟大家分享:

    第一,日常需要做例行巡检,保证高可用数据库的健康。主从延时是导致高可用数据库无法容灾的关键原因之一,这一点一定要在日常运维工作中重视起来; 第二,定期容灾演练很有必要。容灾演练就是在平台上跑自己的容灾逻辑,我们需要在不同场景下做切换,看数据有没有丢失、是否保持了数据的一致性等等,因为线上环境非常复杂,可能会有各种莫名其妙的问题导致切换逻辑在发生切换以后结果不一致,所以要通过定期演练把各种可能性降到最低; 第三,高可用切换需要记录日志,并且在切换失败的时候马上告警。切换日志可以做事后复盘分析,看这个DB是什么时候崩溃做的容灾。进入告警后可以保证第一时间介入并解决,缩短整个DB崩溃对用户的影响时间。

    四、总结

    高可用架构是数据库运行稳定必不可少的一部分,设计架构时要考虑诸多问题,如数据是否同步、高可用自动切换、自动化运维等等。前面讲解了四种基于数据库同步的数据库高可用架构,如果是在云环境下,推荐使用UDB云数据库这样的产品一键完成上述配置,帮助减轻业务的运维压力。

    作者介绍

    丁顺,UCloud资深存储研发工程师,在云产品、大规模海量存储方面具有丰富的经验,擅长于分布式系统、面向服务、容器化、高可用等方面的架构和软件设计。

    想要获取更多技术和活动资讯,可微信关注“UCloud技术公告牌”公众号;或搜索微信ID:ucloud_tech进行关注。 您也可以添加运营小妹微信:Likekids,欢迎交流咨询更多技术问题!9大技术交流群,等你加入!

    转载于:https://my.oschina.net/u/3675312/blog/1935142

    展开全文
  •  网络存储设备提供网络信息系统的信息存取和共享服务,其主要特征体现在:超大存储容量、高数据传输率以及高系统可用性。传统的网络存储设备都是将RAID磁盘阵列直接连接到网络系统的服务器上,这种形式的网络存储...
  • 云数据中心备份容灾设计方案

    万次阅读 2018-09-20 15:06:25
    导读:云计算中心 涵盖系统多、类型复杂、关键性...云数据中心备份容灾设计方案   本文主要内容: 数据中心业务分析 灾备技术实现 未来两地三中心规划 灾备方案实施步骤   数据中心业务分析   业务恢...
  • 目 录第 1 章 容灾技术规范1.1 容灾的总体规划1.1.1 技术指标 RPO、RTO1.1.2 国际标准 SHARE 781.1.2.1 Tier01.1.2.2 Tier11.1.2...
  • 高校容灾备份方案 2.0

    2021-03-02 10:44:57
    本文叙述了高校业务系统及数据容灾备份方案 2.0 的应用探索和实践,介绍了数据库双活、应用秒级容灾和数据级实时备份、虚拟化平台备份等综合性创新应用,满足当前教育信息化 2.0 行动计划的信息安全需求,助力高校在...
  • 方案模板适合政府公安医院等 XXXXX用户 信息系统数据安全方案建议书 上海联鼎软件股份有限公司 方案制作张成方 15221826285 上海 2015 年 10 月 技术方案 目录 1. 需求说明 4 1.1. 项目背景 4 1.2. 实现目标 4 1.3. ...
  • 标准实用文案 随着社会信息化步伐的不断加快人们对信息系统容灾备份能 JJ 提出更高的要求容灾技术冈此也日新月异研究容灾技术建 立容灾系统的体系架构提高容灾系统性能都是重要的研究方 向 近几年大量数据灾难如 ...
  • K8S容灾方案的五个关键点

    千次阅读 2019-12-14 20:27:50
    当应用程序在单个VM上运行时,容灾系统适用于这样的传统应用程序。但是,当使用Kubernetes对应用程序进行容器化管理时,这样的容灾系统就无法使用了。有效的Kubernetes容灾恢复方案必须针对容器化架构进行重新设计,...
  • 网络存储设备提供网络信息系统的信息存取和共享服务,其主要特征体现在:超大存储容量、高数据传输率以及高系统可用性。传统的网络存储设备都是将RAID磁盘阵列直接连接到网络系统的服务器上,这种形式的网络存储结构...
  • 电子邮件是企业重要的数据资产,TurboMail邮件系统为客户提供安全的数据备份功能和快捷的邮件系统容灾恢复设计,保障企业用户的邮件安全储存和邮箱服务的持续不中断。 二、TurboMail邮件服务器目录结构说明 ...
  • 企业对信息系统依赖程度与日俱增 各种灾难都会对信息业务连续性带来不同程度的风险 保证信息系统的业务连续性已是云计算中心建设的关键;信息系统灾难恢复体系建设方法论;灾备规划各阶段工作内容;信息系统灾难恢复...
  • 7月30日晚,一场HIS、EMR系统容灾切换演练在山东省妇幼保健院顺利开展,整个演练过程自动化、数据零丢失、医院秩序井然,实力演绎“一键切换”新模式! 山东大学附属山东省妇幼保健院始建于1989年,直属于省卫生...
  • 系统需求分析 如何对数据进行存储和管理至关重要。有效地存储和管理数据与信息的快速访问和有效利用相结合是医疗行业电子化发展的基本因素。世界许多成功的医疗机构已经认识到,统一访问、共享和管理与备份,并在...
  • 所以建设数据中心机房容灾方案,把有效的数据备份系统尤为重要,万一发生一些故障造成了数据丢失,还可以从备份系统中将数据还原回来,这就要使用数据备份技术,数据备份技术是将整个数据中心的数据或状态保存下来,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 21,640
精华内容 8,656
关键字:

信息系统容灾方案