精华内容
下载资源
问答
  • F5双活数据中心解决方案F5双活数据中心解决方案F5双活数据中心解决方案
  • 新华三医疗双活数据中心解决方案20170522,绝对真实...新华三医疗双活数据中心解决方案20170522,绝对真实可靠新华三医疗双活数据中心解决方案20170522,绝对真实可靠新华三医疗双活数据中心解决方案20170522,绝对真实可靠
  • E展区:联想VPLEX双活数据中心解决方案
  • 华为双活数据中心解决方案与VMware最佳实践 华为双活数据中心解决方案与VMware最佳实践
  • HC130913B 双活数据中心解决方案操作与部署.pptx
  • HC130913A 双活数据中心解决方案规划和设计.pptx
  • 华为双活数据中心解决方案存储层配置多媒体培训
  • 构建永不宕机的信息系统—— 华为双活数据中心。内容翔实。
  • 双活数据中心解决方案(最新)_图文_百度文库 双活数据中心解决方案(最新)_图文_百度文库单元化与分布式架构的切分问题 – 后端技术 by Tim Yang po...
    展开全文
  • 主要针对金融行业双活数据中心建设讨论,从网络基础层面进行详解。
  • 双活各种层级介绍双活实现方式, 网络,计算,数据库,存储
  • 双活数据中心技术架构解决方案
  • 灾备.zip双活数据中心容灾解决方案
  • 1.灾备建设的挑战与趋势;2.华为双活数据中心解决方案介绍;3.双活数据中心关键技术;4.可视化容灾管理;5.故障场景。
  • 提供VMware双活数据中心与灾备解决方案PPT版本,详细介绍了相关双活数据中心与灾备的解决方案,请参考。
  • F5双活心解决方案,主要讲的是如何在现有双数据中心运F5设备达到双活数据 数据中心目的。
  • 双活数据中心方案

    千次阅读 2017-11-20 15:36:06
    二、全局站点双活解决方案 1 2.1 互联网区站点双活方案 1 2.2 互联网区站点故障切换 1 2.2.1 站点级故障切换 1 【专业术语说明】 GSLB: 全局站点负载均衡设备 SLB:本地服务器负载均衡 LLB: 多...

    目录

    一、全局站点方案综述    1

    二、全局站点双活解决方案    1

    2.1 互联网区站点双活方案    1

    2.2 互联网区站点故障切换    1

    2.2.1 站点级故障切换    1

    【专业术语说明】

    GSLB: 全局站点负载均衡设备

    SLB:本地服务器负载均衡

    LLB: 多链路负载均衡

    一、全局站点方案综述

    全局站点的高可靠性规划主要目的是当主站点或某一个站点的某个环节或全部发生故障后,可以智能或手工进行故障切换,保证线业务的高可靠;

    针对多站点之间和站点内多链路之间的高可靠性保证和负载均衡,我们建议在主站点和备站点分别部署专业的GSLB设备和多链路负载均衡LLB设备以实现站点级别的智能故障切换和站点内链路级别的智能故障切换;

    另外在B中心双活数据中心架构下的业务引导和业务智能切换,GSLB设备起到关键性的作用;

    我们建议在两个数据中心采用全局负载均衡、链路负载均衡和本地负载均衡整体解决方案,实现B中心双活数据中心建设;

    • GSLB设备实现站点级负载均衡,
    • LLB设备实现多链路负载均衡
    • SLB设备实现站点内Web服务器负载均衡;

    在双活数据中心设计时,在业务访问层面主要考虑两个重点:

    第一:如何选择最佳站点,将外部用户的访问同时引导至两个数据中心;

    第二:业务的连续性,即如何保障业务的故障切换;

    灾备切换需要考虑以下两点:

    业务层面的切换:当某一数据中心故障后,所有得业务需要手动或自动切换到另一个数据中心,保证业务能够继续运行。针对业务层面的容灾切换,全局负载均衡技术是最佳的选择,全局负载均衡技术可以智能的将业务请求切换到正常的数据中心,保证数据中心的高可用性。

    数据层面的切换:数据层面目前采用主中心单一数据库,无需考虑切换问题。

    本环节主要讨论数据中心业务层面的故障切换,故障切换主要从一下几点分析:

    1. 数据中心内业务层系统瘫痪;主要是指主站内部某些系统全部瘫痪,此时主站点无法正常提供服——Web服务器层
    2. 整个站点瘫痪(由于天灾、掉电等因素或所有互联网链路故障)

    整个站点故障主要是指站点接入链路故障或整个数据中心因自然灾难或掉电引起的故障;。

    二、全局站点双活解决方案

    2.1 互联网区站点双活方案

    访问方式:基于域名访问的B/S模式

    实现技术:主域授权DNS配合GSLB设备的智能DNS 解析

    业务模型设计:互联网WEB层基于域名访问设计;

    工作原理:当用户在浏览器访问www.xxx.com时,首先要进行DNS 解析,即查找出www.xxx.com对应的A纪录IP 地址,然后用户与该IP地址建立TCP连接访问网站内容。在部署全局负载均衡设备后,具体的DNS解析过程交给GSLB全局负载均衡设备来完成,需要在域xxx.com的授权DNS服务器上增加多笔NS记录,即www.xxx.com的NS 纪录指向位于双站点的GSLB设备的接口IP地址,对www.xxx.com的解析将由该GSLB设备负责完成;

    授权DNS服务器域名解析配置(以双站点双链路接入为例):

    www.xxx.com NS A中心 ISP1 IP(10.10.10.10)

    www.xxx.com NS A中心 ISP2 IP(11.11.11.11)

    www.xxx.com NS B中心 ISP1 IP(12.12.12.12)

    www.xxx.com NS B中心 ISP2 IP(13.13.13.13)

    【备注:以下GSLB处理流程及DNS处理机制以阿里云DNS为例】

    假定A中心站点作为万网DNS的首选NS查询记录,DNS解析的整个过程分析如下:

    1. 用户访问www.xxx.com时,其DNS请求发到其LocalDNS 服务器; 步骤1
    2. LocalDNS查看本地是否有该域名的缓存记录,如果有,LocalDNS直接回应对应的A记录;步骤2
    3. 若LocalDNS服务器没有缓存,LocalDNS请求将域名注册商的授权DNS服务器;步骤3
    4. 授权DNS服务器收到LocalDNS的请求后,授权DNS服务器将按照配置的NS记录策略,将4笔NS记录对应的IP地址全部返回给LocalDNS;步骤4
    5. LocalDNS同时发起对四笔NS记录地址的查询,直到请求到查询结果;LocalDNS查询请求到达两个站点的GSLB设备 (LocalDNS查询NS的机制取决与运营商DNS的设置,这里按照向所有NS记录同时发查询请求的机制介绍) 步骤5
    6. 两个站点的GSLB设备收到LocalDNS的查询请求后,做全局站点优选判断,将最佳站点的IP地址作为A记录返回给LocalDNS。步骤6
    7. LocalDNS收到A记录响应后,将解析结果返回给客户端,并缓存到本地;(注:LocalDNS缓存DNS的TTL时间会学习授权域名DNS服务器的TTL时间值) 步骤7
    8. 假设GSLB设备返回的A记录为A中心站点ISP1链路对应的地址,用户将通过A中心站点的ISP1线路访问;步骤8
    9. 请求进入站点后,会先到达互联网区的WEB SLB本地负载均衡设备;步骤9
    10. SLB设备将请求负载分发至Web层服务器群;步骤10
    11. Web服务器请求内网业务区的数据库服务器;步骤11
    12. 请求响应按原路径返回,完成完整的业务访问;

    【备注:客户端被GSLB设备解析到B中心站点的访问与上述业务流程相同;】

    2.2 互联网区站点故障切换

    2.2.1 站点级故障切换

    站点级故障切换包括的因素:

    • ISP链路全部故障
    • GSLB设备全部故障
    • WEB层或SLB设备全部故障
    • 出口交换机或路由器全部故障
    • 自然灾害因素

    以上各环节,其中任何一个环节出现问题都会导致整个站点无法提供服务;

    站点级故障的业务切换主要是靠LocalDNS查询授权DNS响应的NS记录实现,如下图中第5步LocalDNS请求同时查询两个站点的GSLB的NS地址,假设A中心为故障站点,对NS查询请求无法响应,自然由B中心站点GSLB设备回应A记录实现所有用户到B中心 站点的访问;

    1. 用户访问www.xxx.com时,其DNS请求发到其LocalDNS 服务器; 步骤1
    2. LocalDNS查看本地是否有该域名的缓存记录,如果有,LocalDNS直接回应对应的A记录;步骤2
    3. 若LocalDNS服务器没有缓存,LocalDNS请求将域名注册商的授权DNS服务器;步骤3
    4. 授权DNS服务器收到LocalDNS的请求后,授权DNS服务器将按照配置的NS记录策略,将4笔NS记录对应的IP地址全部返回给LocalDNS;步骤4
    5. LocalDNS同时发起对四笔NS记录地址的查询,直到请求到查询结果;LocalDNS查询请求到达两个站点的GSLB设备 (LocalDNS查询NS的机制取决与运营商DNS的设置,这里按照向所有NS记录同时发查询请求的机制介绍)步骤5

    【故障分析】

    假设LocalDNS在查询时A中心站点瘫痪,B中心 站点工作正常,继续解析A记录;

    假设A中心站点故障后,B中心 站点的GSLB设备收到DNS查询请求后会进行多链路层面的静态或动态的就近性判断,为客户端解析最佳的运营商线路;并将该链路对应的业务地址作为A记录返回给LocalDNS。

    1. 此时,只有B中心站点的GSLB设备收到LocalDNS的查询请求,GSLB设备做完链路优选后,将本站点最佳链路的IP地址作为A记录返回给LocalDNS。步骤6
    2. LocalDNS收到A记录响应后,将解析结果返回给客户端,并缓存到本地;(注:LocalDNS缓存DNS的TTL时间会学习授权域名DNS服务器的TTL时间值) 步骤7
    3. 假设GSLB设备返回的A记录为B中心 站点ISP1链路对应的地址,用户将通过B中心 站点的ISP1线路访问,请求到达互联网区的LLB链路负载均衡设备;步骤8
    4. WEB请求到达互联网区的WEB SLB负载均衡设备;步骤9
    5. WEB层SLB设备将请求负载分发至Web层服务器群;步骤10
    6. Web服务器请求内网业务区的数据库服务器;步骤11
    7. 请求响应按原路径返回,完成完整的业务访问;

    【备注:B中心 站点故障切换过程与上述一致;】

    展开全文
  • 本文根据朱祥磊老师在〖5月6日DBAplus社群济南数据库技术沙龙〗现场演讲...为什么要讲双活数据中心?从应用系统和系统保护来说,分这么几个角度: 首先做容灾,第一个要考虑的是主备,上图左侧是最早出现的主备...

    本文根据朱祥磊老师在〖5月6日DBAplus社群济南数据库技术沙龙〗现场演讲内容整理而成。

    讲师介绍:朱祥磊

    运营商系统架构师

    • 负责业务支撑系统架构规划和建设。获国家级创新奖1项、通信行业级科技进步奖2项、移动集团级业务服务创新奖3项,申请发明专利13项。

    为什么要讲双活数据中心?从应用系统和系统保护来说,分这么几个角度:

    双活数据中心

    首先做容灾,第一个要考虑的是主备,上图左侧是最早出现的主备模式,一般是在两个中心建互备系统,比如我在B中心,容灾系统在另外一个地方,这种模式比较容易切换。假如A中心出问题了,就绑定在B中心,或者是把数据复制到B中心,容灾资源是闲置着,承担着容灾的任务。另外真的出问题了,我得需要一个定位,因为并不能确认它是否确实不能用了,所以,要确保这个业务完整,数据也不丢,定的时间加上切换流程,至少得0.5小时,甚至更长,甚至一两天,这样导致弊端很多。

    后来为了节约资源,发展到现在双中心互备,A中心一部分做生产,B中心也一部分做生产,在原来的储备方式上做了一个改进,优点是因为这两个中心都有生产业务运行,可通过资源共享技术节省资源。但仅仅是计算源,对于存储来说,由于这个存储空间必须要保证完整来做,所以没有办法充分利用起来,还是闲置状态。针对这种问题,我们现在又有了双活并行模式,同一个系统,两个中心都可以承担业务,同时对外服务,坏掉任何一方不影响。

    这是非常理想的一种状态,今天主要讲的是要实现这种架构或部分实现,需要哪些技术,需要做哪些工作,只是简单的讲,不一定很深入,也希望能够和大家一起沟通交流,看有没有更好更优的方案。

    架构

    我主要从应用到基础设施的角度来讲。因为从整个应用架构来看,咱们有一些业务可能是有接入层,下面是应用逻辑,后面包括还有一些接口,再下面是数据层,再下面是基础架构,有可能有存储和网络,这么几层,每一层都会有相应的双活实现技术。例如应用层可能有各种集群,数据层可能有一边同时可读写,或一边只能读等。再如基础架构层,在网络上对稳定性和带宽吞吐性能要求更高,甚至需要打通跨中心的大二层网络,存储方面则需改变一主一备的读写机制,实现同时可读写。

    下面从这五个方面展开谈,一个是数据层,二是存储层,三是接入/应用层,四是虚拟化/云平台;五是技术关键点。

    一、数据层

    首先讲数据层(这里指传统数据库)中的双活方式,一种叫Active Standby方式,一种方式为两个都是Active方式,此外还有数据逻辑复制软件模式。

    数据层

    Active Standby是基于Oracle ADG技术,这个模式采用从主库向备库传输redo日志方式,备库恢复数据过程可以用只读方式打开进行查询操作,实现了部分双活功能,在主节点故障后可以将备节点切为生产。

    Active—Active方式指的是两点都可以同时读写,例如通过Oracle Extend RAC实现多个集群节点同时对外提供业务访问。该方式能做到故障无缝切换,提升应用系统整体性能。这种模式理论上不需进行人工切换操作。

    数据

    另外在基于逻辑复制的软件,利用数据库在线日志中的数据变化信息,通过网络将变化信息投递到目标端,最后将目标端还原数据,从而实现源目标的数据同步。

    方式一:Oracle ADG

    首先第一个模式是Oracle ADG模式。通过网络从生产向容灾传输归档或redo日志,容灾端恢复方式同步恢复。这个数据库不断把日志写入到备库。这种方式的优点是存储支持异构。

    Oracle ADG

    应用场景:可以把这个库可以作为应急或容灾用,作为数据保护手段。

    方式二:逻辑复制

    数据库

    通过DSG、GoldenGate等逻辑复制软件技术实现跨中心数据库的相互复制,这种逻辑复制支持表级的复制,要求两个数据中心各建一套数据库,物理独立,同时能读写。基于数据库日志准实时复制数据,支持异构数据库,异构OS。可以实现一对一、一对多,多对一、双向复制等多种拓扑结构。把日志进行分析,写到这个库,是以跨中心的共享存储基础,通过共享存储资源和Oracle数据库集群软件管理,实现各个中心节点对数据库并行访问。

    方式三:Oracle 远程RAC  

    Oracle Extended RAC以跨中心共享存储为基础,通过共享存储资源和Oracle Clusterware数据库集群管理,实现各个中心节点对数据库并行访问。

    Oracle

    共享存储可以采用存储自身数据复制技术,存储虚拟网关或远程卷管理等技术,以Oracle ASM存储卷管理为例,实现数据的双向实时复制。

    要点:

    • 两个数据中心分别部署一套存储,各提供一套LUN设备给全部数据库主机。
    • 存储的SAN网络和RAC心跳网络需使用低延迟、高带宽的DWDM光纤链路。
    • 配置ASM磁盘组。每个磁盘组配置两个失效组,每个失效组对应来自一套存储的LUN设备。
    • 在第三个站点部署用于RAC的第3个投票盘,使用NFS的方式挂载到所有数据库主机。
    • 与管理普通的RAC系统类似,需要重点加强对站点间光纤链路情况的监控与应急。

    内存库双活技术

    内存库双活技术,将数据放在内存中直接操作的数据库,相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。

    应用场景:用于实时计费,读写分离场景,主要有Oracle Times Ten,Altibase商用以及华为等相关产品。内存库集群部署主要有HA模式,双活模式,线性拆分和分布式集群四种模式。

    内存库双活技术

    内存库通过复制手段,实时地复制到另外一个中心,它们之间是一个跨中心的数据,这是HA模式。另外双活模式,和这个模式是HA模式的延伸,可能一部分表是一个方向复制,另外一些表反过来。还有一种是线性拆分模式,将内存数据放在多个内存库集群中,每个内存库存放一部分数据,并互为备份,这种模式需要应用进行针对性改造。分布式集群模式,自动实现不同数据分片和副本机制,是目前比较流行的一种结构。

    数据层双活技术比较

    逻辑技术软件容易出现逻辑错误导致数据不一致,而且很难稽核。ADG模式数据在数据库级是完全一致的,当然前提是能正常同步,但是不支持两边同时能读写。从数据延迟来看,不管是ADG还是逻辑复制软件,都跟日志量有关系,后面会讲我们在不同日志量情况下做的测试延迟结果。

    二、存储层

    存储层作为双活系统核心基础架构平台,其双活技术在整个架构中起到关键作用,目前基于存储层双活方案主要有下面三种:

    • 基于远程卷管理软件的虚拟化,比如Symantec SF、IBM GPFS、Oracle ASM等。
    • 基于存储网关虚礼化,如EMC、vplex、IBM、SVC。在传统存储上面增加了一个虚拟化网关,在每个机房里面,新增存储虚拟化网关设备组成跨站点集群,并对存储卷进行重新封装,对外提供主机访问。
    • 存储卷镜像技术,将两套磁盘阵列组成一个集群,两台存储上的LUN被虚拟化为一个虚拟卷。

    流派一 远程卷管理软件

    • 数据同步:底层数据复制采用远程卷管理软件,如赛门铁克的storage Foundation(SF)、IBM的GPFS、Oracle的ASM等,通过逻辑卷镜像技术实现底层数据逻辑同步。上层应用采用Oracle Extended RAC方案实现远程多节点RAC,使生产和容灾节点都处于在线状态,应用逻辑访问的是同一个数据库。
    • 数据读写:支持双读写。
    • 数据一致性:完全一致。

    远程卷管理软件

    上面是不用远程卷管理软件的一个情况,我只需要认识到自己机房的存储就可以了。底层存储实现远程复制到容灾存储上,如果改造成远程管理软件,那么服务器既要认到本地存储也要认到对端存储,实现两边都是同时可以对存储读写的,而且还可以通过设置策略,写的话向2个存储同时写,读的话可以优先读本地的,从而可以加快读的速度。

    流派二 存储网关虚拟化

    存储网关虚拟化

    实现原理:将存储虚拟化技术和Oracle的远程RAC技术结合,实现跨中心的数据双活访问。平时两边主机分别访问本地存储,故障情况下可垮中心访问对方存储。对于同一个数据块的读写冲突机制,是由Oracle RAC来保证的。存储不能直接给服务器访问,需要先通过中间层虚拟化网关设备,再访问存储。为了防止出现两个中心间网络全断情况下,两边互相不知道谁还活着,需要建一个仲裁节点(建议在第三个中心),实现让谁作为主,让谁作为访问的仲裁机制,从而防止数据不一致这种极端情况。

    流派三 基于存储自身卷镜像

    基于存储自身卷镜像

    这是一个存储自身卷的镜像,这是一些新的设备情况,它的优点,整个网络架构没有改变,从主机到交换机到存储,也没有增加任何的设备,这种是相对来说比较易于实行(也需要一个仲裁站点)。

    存储层双活技术对比

    这是一个存储层的双活技术比较,容灾技术有2个重要参数,RPO(故障恢复点)和RTO(故障恢复时间)。这几种理论上都能实现RPO等于0,也能支持双活读写。从可靠性来看,这个数据不是完全决定的,需要根据实际情况定。从异构性来说,除了存储自身虚拟化和存储HA机制不支持外,其余都支持。但不管存储双活有哪几种,双活都需要用到远程Extend RAC。

    三、接入/应用层

    下图是一个例子,一个比较前端的系统,分为接入/接口层、应用层、主机/数据库层、存储层等,各个层面统筹考虑双活机制,才能实现零切换。首先不能像原来烟筒式的数据库连接,应考虑统一数据库访问接口,并实现应用自动重联机制,确保自动切换,减少人工切换。在应用层,则考虑双中心部署相同的应用集群方式,或跨中心的集群方式。

    从接入层看,如何把业务接入到两个中心,一般有这么几种,一种是采用全局负载均衡(如F5的GTM)、DNS、或前置CDN等技术实现跨中心灵活接入。

    • 业务多中心并行模式:通过一组GSLB来对外提供服务,GSLB监控服务的状态,并通知组内其他设备,对于每一个DNS请求返回最佳结果,好的策略选择和配置方式可以最大幅度提高客户体验。
    • 业务多中心互备模式:对于内网业务通过一组SLB来提供服务,实现DNS解析,负载分发和故障切换。
    • 前置CDN,通过CDN来进行不同中心的业务接入。

    四、虚拟化

    现在都在讲云计算,是非常热门的,其主要技术特征,首先是带来虚拟化技术,其次应用实现集群化和x86化。相应带来的问题:我们原来的双活设计模式,可能不适应这种虚拟化或应用集群化模式,需要重新考虑业务连续性双活方案。我总结了四大类:

     

    1. 继续沿用传统基于负载均衡的双活架构。每个中心部署独立的云化应用集群,通过接入层负载均衡实现双活。举个例子,有Web集群,通过前面接入增把业务分发到不同集群去。
    2. 基于分布式应用协调机制,可以建一套跨中心应用集群,通过分布式应用协调机制,实现跨中心的高可靠性集群,统一配置,统一管理和任务分配。
    3. Hadoop、MPP等的双活机制,应用写两份方式实现双活,跨中心集群方式。
    4. 虚拟化平台的跨中心双活(迁移),我们也是既可以建跨中心集群,也可以建两个独立集群,通过一些业务来分发。举个例子,我们现在可以建云资源池,建一些独立的池。

    模式一 相互独立的双集群

    在每个中心部署独立的云化应用集群:

     

    1. 如Web类应用可通过接入层和负载均衡实现双活访问;
    2. 如Hadoop或MPP集群应用可通过上层应用实现双集群数据同步,从而实现双活。

    双集群

    模式二 跨中心单集群模式

    第一种是基于分布式应用协调机制:构建一套跨中心应用集群,通过分布式应用协调如ZooKeeper实现跨中心的高可靠性集群,实现统一配置、统一管理和任务分配。

    单集群模式

    第二种是基于数据副本保护机制:如详单云和大数据的Hadoop集群、大数据的MPP集群等,通过进行合理规划设计,确保任一中心节点都是完整的数据副本,由集群自动维护两个中心的数据副本同步机制来实现双活。

    虚拟化云平台双活

    基于存储阵列双活和VMware 跨站点集群功能实现虚拟化平台数据中心容灾解决方案,在阵列双活技术支撑下,通过VMware Cluster 的HA高可用功能实现故障业务切换保护,从而达到保证业务连续性的要求。

    云平台双活

     

    • 网络站点间二层互联,采用波分传输,存储实现双活为上层提供共享存储;
    • 将两个数据中心服务器配置为一个集群,通过HA和DRS实现高可用和资源动态智能分配;
    • 服务器之间建议通过万兆以太网提供心跳服务与vMotion迁移流量,集群内的所有服务器需符合集群的兼容性规则。
    • 应用层:由四台服务器构建VMware ESXi Cluster。

     

    五、双活技术关键点

    1、跨中心大二层网络

    为了降低二层网络,evn otv必须整体在一个二层网络里,这种情况怎么实现呢?这里就需要考虑到大二层网络,有那么几种技术,一种是EVN/OTV/EVI技术,通过Mac in ip,实现了这两个中间的二层网络互通。EVN的话,以中间为界,这是一个机房,这是另外一个机房,这是它们内部接入的交换机,然后它们把这个接入到这上面,中心间也是类似的,这个P和这个P之间打通,这样就实现了互通。

    第二个方案是采用二层光纤直连技术打通。每个中心部署互联汇聚交换机,中心内的汇聚(网关)交换机通过链路聚合接入该互联汇聚交换机,互联汇聚交换机通过链路聚合接入波分设备,链路聚合保证整网无二层环路。同时在汇聚互联交换机配置二层风暴抑制。

    第三种基于MPLS网络的VPLS互联。每个中心的核心交换机与专用的MPLS域专用网络直连,通过MPLS专属网络的本地PE设备与对端中心的机房PE设备之间建立VPN,将各个PE设备所互连的二层网络通过MPLS  VPN方式建立二层互通。

    第四种为基于Overlay网络的大二层互联。

    Overlay

    以Vxlan实现方式为例,每个中心通过单独的ED设备与Underlay网络连接,在每个中心内部业务数据通过VXLAN进行业务交换,涉及到跨中心业务互访时,将通过与ED设备直连的leaf设备剥离VXLAN标签转换为VLAN业务后,由ED设备再次进行VXLAN封装,从而通过大二层透传到对端中心的ED设备剥离VXLAN标签,由对端中心的leaf设备重新封装VXLAN标签。一种是VPLS模式,这个是一个标准协议,但是技术比较复杂。大二层互联也是叠加在现有的网络之上,但是是每个厂家私有协议,在复杂的网络环境中很难实现对接。支持Overlay网络,可以跨裸光。

    2、关于Golden Gate

    还有刚才提到的Golden Gate性能瓶颈在数据同步环节,即在复制进程Replicat入库速度,因为在容灾端恢复数据过程是执行逻辑SQL,比较消耗资源。

    抽取进程(Extract) :该进程主要瓶颈在于LCR(logical change record)转换为UDF环节,主要优化建议:

    • 拆分Extract进程,建议同一个schema下表尽量在一个进程组中
    • 优化进程参数如eofdelay、flushsecs等
    • I/O部分建议增加日志读取间隔3s,增加内存刷新时间3s

    投递进程(Pump):带宽优化和IO优化:

    • 复制的表最好有主键或唯一索引,减少生产日志量
    • 数据传输过程启用数据压缩特性,减少带宽需求量
    • 适当增大TCP缓存
    • 增加队列读取间隔为3s,内存刷新时间为5s

    复制/应用进程(Replicat):该环节出现性能问题较多,需要重点优化:

    • 合并小交易减少事物数量,减少写checkpoint file/table次数
    • 大交易拆分(maxtransops参数),提高写入速度
    • 基于表或Range等拆分replicat进程

    还有就是这边变化得非常大,尤其在这方面是非常大的,如何优化中进行一定的拆分,建议同一个schema下表尽量在一个进程组中,这个独立解决也可以进行带宽优化和IO优化。合并小交易减少事物数量,减少写checkpoint file次数。大交易拆分,提高写入速度,基于表等拆分进程。这是一个表,在每分钟产生的数据量,如果在16G以下,基本上是准时的,但如果在16G以上延迟非常高,每分钟40G的话,能延迟到1小时了。所以它做的市场上的业务量大,能延迟。

    3、关于ADG

    ADG

    心

    这也是我们一个前提测试的情况,我们用了一个数据库的数据总量11G,存储总量是这些,这是它的规格,有40G,有280G左右,我们当时采用的是千兆网,传输日志平均占用带宽为16.24MB/s,单个小时内峰值为52MB/s。目前这是一个测试情况,另外一个注意的地方,需要做的好多测试参数,底层依赖于存储,他们之间设置的参数有规则,参数的超时时间不能随便设,必须保证RAC的磁盘仲裁要晚于GPFS的仲裁,使得在网络故障情况下GPFS提前RAC做出判定。这样才能避免数据的损坏。

    4、防止“脑裂”现象

    • 由于数据中心间距离远,网络稳定性相比同机房差,必须需要额外进行冗余设计,如网络连接、内部网络、san连接等。2个数据中心间网络不稳定情况下,无论存储虚拟化技术还是Oracle的RAC均可能出现“脑裂”现象,造成访问中断,数据不一致现象发生,需要仔细设计,如采用互联环状全冗余架构等、完善的仲裁机制等。
    • 对跨中心间的网络带宽、存储访问带宽利用率不能超过30%。
    • 双活由多层软硬件组成,如数据库RAC、远程文件系统、存储等,需要仔细规划它们之间的心跳参数,确保越低层的心跳超时时间越高。

    5、全面的计划内外测试场景

    双活涉及到跨中心网络层,数据层和存储层,故障场景相比较传统架构更多,更复杂,相互之间存在多种依赖关系,需要充分设计故障测试场景。如果建设的话需要重点进行测试。

    双活数据中

    这是我们建设的一个双活数据中心架构的例子,这是两个机房,它的上层是接入网,下层是Spine。下面是各个虚拟化接口,应用层,提供虚拟层跨中心迁移功能。再下面是个存储层,双活架构。

    今天分享就到这里。若有疑问,欢迎留言交流。

    文章来自微信公众号:DBAplus社群

    展开全文
  • 腾云驾雾随心所欲 双活数据中心端到端的解决方案和服务 刘志 EMC华南区咨询顾问 Copyright 2012 EMC Corporation. All rights reserved. 1 传统的两地三中心架构 通常可实现 RTO24小时 RPO同城为0异地为数分钟 ...
  • GAD不是“封装”解决方案,也不是“外部虚拟化”解决方案,而是全局动态存储虚拟化技术(包括双活镜像) 。 其基于存储实现双活,它不仅实现了IT系统管理的大幅简化与自动化,还具有高可用性特征,可确保任务关键型...
  • 针对数据中心双活解决方案如何构建,笔者把大家常见的疑问和问题进行汇总,加上我个人的见解写成一篇比较全面的文章,分享出来供大家参考。由于工作原因,可能今后近一个月的时间不能给及时大家写文章了,但是过了这...

     

    针对数据中心双活解决方案如何构建,笔者把大家常见的疑问和问题进行汇总,加上我个人的见解写成一篇比较全面的文章,分享出来供大家参考。由于工作原因,可能今后近一个月的时间不能给及时大家写文章了,但是过了这段时间过后会尽快呈现给大家。

    双活本身其实有广义和狭义之分,但是在数据中心这个前提下,我们所说的双活就是广义上的应用、网络、存储和数据的端到端的数据中心双活,顾名思义,应用、网络、存储都应该是双活状态,当然在项目部署和实施过程中,技术上支持上述部分处于双活或HA状态、部分是单点状态,只是这种方式会使整体方案的双活能力大打折扣。下面是一个典型的数据中心双活组网图。更明确的说,这是个基于阵列双活组网图。

    数据中心互联网络

    数据中心A和B之间采用网络互联,数据中心内采用传统两层或三层组网方式互联,接入层链接业务服务器、核心/汇聚层通过大二层互通技术链接到对端数据中心。大二层互联技术一方面主要解决VM在不断业务的情况下在数据中心之间在线迁移,MAC地址不变故而业务不断;另一方面解决VLAN个数的限制,在成千上万的服务器的数据中心中,为了保证数据安全和网络隔离,传统VLAN是不行的。图上大二层采用CSS+iStack方式实现,当然大二层网络的实现方式各个网络厂商各不一样,但是Trill的实现方式基本每个厂商都会支持。

    数据中心内部互联

    存储、交换机和服务器通过专门的SAN网络互联,基本都是采用冗余组网。两个数据中心的交换机通过FC互联,注意是FC而不一定非是光纤,采用FC协议的原因就是其高效率和可靠性。这个链路是用来存储之间实时同步两端数据的,当然,存储之间集群的心跳也通过该网络完成。

    双活应用部署

    服务器集群,准确的说应该是应用集群之间数据的同步,是通过大二层网络完成的,目前企业比较常见的集群应用是VMware、Hyper-V、Oracle RAC、SQL MSCS/MSFC,IBM DB2/PureScale等等,其中Oracle RAC和PureScale是Active Active集群。应用之间的心跳也是通过该网络实现。

    双活仲裁部署

    从图上我们看到了第三方仲裁,该仲裁其实是存储集群的仲裁服务器或仲裁存储,目前支持仲裁服务器的厂商比较多,因为成本低,而且还可以在仲裁服务器中安装虚拟机,在VM之间进行HA提高可靠性;当然也有厂商采用存储,EMC在VMAX3 双活中甚至采用VMAX3做仲裁,一套配置几块磁盘的高端是有些奢华,但是EMC就是喜欢玩高大上,个人觉得现在EMC屈身到DELL之后,这个策略可能要变。

    然而第三方仲裁也在技术上不一定非要放在第三个站点,虽然很多客户是没有第三个数据中心、也不愿租用第三方数据中心。很多厂商也提供优先存活站点策略,在有些情况下,如果第三方仲裁失效,我们也可以通过优先存储站点来提高业务,但是如果运气不好,优先存活站点发生故障,后果很严重。所以第三方站点仲裁更保险。

    此外,服务器应用集群之间也是需要仲裁的,但这个仲裁如何配置是跟应用的要求强相关的。仲裁链路一般情况下不要求非要大二层互通,只需要IP三层可达即可。

    双活应用的外部访问

    然而我们每个用户对双活数据中心资源访问的访问,一般是通过Internet完成,要经过服务器本地缓存、Global NDS、DNS解析定位到资源,当然为了保证负载均衡,数据中心会部署GSLB和SLB来保证每次方案都能负载均衡到相应的数据中心、相应的服务器上。GSLB和SLB之间实时同步两个数据中心IP资源情况,通过HA或本地优先方案的策略实现资源访问IP分配;当然,在DNS阶段可以对两个数据中心同时解析,把RTT时间较小IP返回给用户,用过那这个IP访问资源。

    基于网关的双活

    由于篇幅有限,该组网的细节我不打算讲的很细,后面有机会再跟大家分享。接下来我们看看基于网管的双活方案。如下图,对你没看错,这个就是华为基于VIS存储网管的双活解决方案组网图。

     

    网管的双活和存储双活的区别,一方面在于在组网上增加了硬件设备,这无疑增加了成本、同时网关的故障会引起业务切换或业务中断,相当于增加了整个方案故障点,另一方面网关的引入会可能会成为性能的瓶颈,解决该问题的方案就是增加网管集群的节点个数,还好Vplex、SVC和VIS都支持多节点集群扩展。

    还有个区别是网关双活一般需要承担存储故障后的业务切换,承担两个数据中心间数据同步工作,所以网关双活可以缓解存储性能压力。网关层双活不需要多路径进行过多支持,网关节点间通过卷镜像的方式进行数据同步。

    双活方案的基本技术条件

    双活基本技术条件有两个,一是数据实时副本,当一端的数据破环或无法访问时,可以通过另一份完全一样的副本来提高服务;另一个就是服务器、存储、网络等集群的自动切换和恢复。只要满足这两个条件,理论上就可以实现数据中心双活,所以基于应用层也可以实现应用层双活。

    基于应用层的双活

    基于应用层的双活方案目前有OracleRAC、IBMGPFS、Symantec SVC和PowerHA HyperSwap等。华为VIS可以实现双活,当然Symantec VCS也可以,只是一个基于网管而一个基于应用层;PowerHAHyperSwap配合DS8000存储复制技术的双活,具体请参考本专栏后续章节《浅析PowerHA HyperSwap双活方案》。下面是IBM GPFS双活方案。

     

    IBM GPFS双活方案采用IO Failure Group技术进行数据副本保护,采用GPFS Active Active集群实现故障切换和恢复。基于应用层的双活方案目前应用不多,主要原因是基于应用服务器创建卷镜像、基于服务器同步数据、基于服务器故障切换对应用影响太大,所以在存储技术比较泛的情况下,客户更见容易接受基于存储或网管的方案。

    基于NAS的双活

    然而目前我们看到的数据中心双活方案基本上都是基于SAN块存储,主要的原因是SAN存储的业务一般都是对性能、可靠性要求比较高的应用,如数据库、ERP、SAP等等,所以SAN双活方案应用比较广泛、支持SAN存储的双活方案厂商比较多;但是技术永远不是问题,NetApp的FAS和IBM 的GPFS却具备NAS双活方案的能力,主要的原因是很多数据库,如OracleRAC和IBMPureScale支持数据库直接部署在NAS之上。

    双活的限制和要求

    双活方案是灾备要求中级别要求最高的方案,所以双活方案的部署是有一些必要的要求。接下来我们详细讨论下。

    双活方案对距离要求,由于双活数据采用双写机制保障数据强一致性,所以一般应用可接受的距离是同hu城100-300KM之间,虽然应用对IO延时和超时可以设置,但是我们还得考虑用户体验。数据同步链路一般采用FC交换机级联,当两数据中心直线距离大于30KM以后,需要DWDM波分等设备来对光信号进行中继,色散补偿。一般DWDM波分设备最大支持3000KM距离。

    双活方案对网络要求,网络时延、带宽、误码率都会影响双活方案。由于两个数据中心数据实时复制,所以链路网络带宽必须高于高峰IO访问时的带宽;网络时延会影响整个应用系统业务响应;误码率会影响网络的利用率,误码率越高就意味着数据需要被重传,从而形象整个网络。

    双活方案对性能要求,双活应该无疑对性能是有很高要求的,所以要求两个数据中心的存储、服务器等系统都应该是对等的,否则任何一方如果成为性能瓶颈都将影响另外数据中心。在网关双活方案中,还有考虑网关不要成为性能瓶颈。

    所谓的真双活(ActiveAtive)和伪双活(ActivePassive),很多厂商讲的真双活就是两个数据中心存储上的一对镜像LUN设备,可以同时在两个数据中心接收来自一个集群应用的读写IO,数据的一致性需要存储双活集群和应用集群来保证。实际上这跟存储和应用类型关系很大,要求存储双活和应用双活都支持真双活才有意义。如果存储支持真双活,而应用是VMware(并非Active Active集群),那整个方案也只能是Active Passive模式。

    双活方案和多路径,基于存储的双活一般都需要多路径来完成在数据中心间的切换,所以一般双活方案提供商都会自己开发多路径进行一些优化。VMware就提供了PSA接口让存储厂商实现自己多路径模块,让厂商对存储方案路径和IO进行优化。然而专有多路径也并非是必须的,存储厂商也可以采用系统原生多路径实现双活,只是效果差而已。如Xenserver,Citrix没有类似VMware的PSA接口,所以无法支持第三方多路径,自带多路径Mutipath可以支持ALUA,只需要阵列也支持ALUA,也可以做到路径优化。

    最后跟大家提一点,数据中心双活是指应用、网络、存储和数据的端到端的双活,那基于应用还能不能再创建应用集群呢,答案是肯定的。例如在服务器上基于VMware集群还可以在VMware的VM上创建Oracle RAC或是SOL MSCS集群应用。今天就到此为止,如果大家对双活感兴趣,请多多支持,订阅本专栏,一起讨论更详细的双活技术。

    因为最近经常看到大家在讨论数据中心双活解决方案,所以今天把前期大家的疑问和问题进行汇总,加上我个人的见解写成一篇比较全面的文章,分享出来供大家参考。由于工作原因,可能今后近一个月的时间不能给及时大家写文章了,但是前期跟大家承诺的国内云厂商分析和昨天的投票情况,会在这段时间过后尽快呈现给大家。

    双活本身其实有广义和狭义之分,但是在数据中心这个前提下,我们所说的双活就是广义上的应用、网络、存储和数据的端到端的数据中心双活,顾名思义,应用、网络、存储都应该是双活状态,当然在项目部署和实施过程中,技术上支持上述部分处于双活或HA状态、部分是单点状态,只是这种方式会使整体方案的双活能力大打折扣。下面是一个典型的数据中心双活组网图。更明确的说,这是个基于阵列双活组网图。

     

    数据中心互联网络

    数据中心A和B之间采用网络互联,数据中心内采用传统两层或三层组网方式互联,接入层链接业务服务器、核心/汇聚层通过大二层互通技术链接到对端数据中心。大二层互联技术一方面主要解决VM在不断业务的情况下在数据中心之间在线迁移,MAC地址不变故而业务不断;另一方面解决VLAN个数的限制,在成千上万的服务器的数据中心中,为了保证数据安全和网络隔离,传统VLAN是不行的。图上大二层采用CSS+iStack方式实现,当然大二层网络的实现方式各个网络厂商各不一样,但是Trill的实现方式基本每个厂商都会支持。

    数据中心内部互联

    存储、交换机和服务器通过专门的SAN网络互联,基本都是采用冗余组网。两个数据中心的交换机通过FC互联,注意是FC而不一定非是光纤,采用FC协议的原因就是其高效率和可靠性。这个链路是用来存储之间实时同步两端数据的,当然,存储之间集群的心跳也通过该网络完成。

    双活应用部署

    服务器集群,准确的说应该是应用集群之间数据的同步,是通过大二层网络完成的,目前企业比较常见的集群应用是VMware、Hyper-V、Oracle RAC、SQL MSCS/MSFC,IBM DB2/PureScale等等,其中Oracle RAC和PureScale是Active Active集群。应用之间的心跳也是通过该网络实现。

    双活仲裁部署

    从图上我们看到了第三方仲裁,该仲裁其实是存储集群的仲裁服务器或仲裁存储,目前支持仲裁服务器的厂商比较多,因为成本低,而且还可以在仲裁服务器中安装虚拟机,在VM之间进行HA提高可靠性;当然也有厂商采用存储,EMC在VMAX3 双活中甚至采用VMAX3做仲裁,一套配置几块磁盘的高端是有些奢华,但是EMC就是喜欢玩高大上,个人觉得现在EMC屈身到DELL之后,这个策略可能要变。

    然而第三方仲裁也在技术上不一定非要放在第三个站点,虽然很多客户是没有第三个数据中心、也不愿租用第三方数据中心。很多厂商也提供优先存活站点策略,在有些情况下,如果第三方仲裁失效,我们也可以通过优先存储站点来提高业务,但是如果运气不好,优先存活站点发生故障,后果很严重。所以第三方站点仲裁更保险。

    此外,服务器应用集群之间也是需要仲裁的,但这个仲裁如何配置是跟应用的要求强相关的。仲裁链路一般情况下不要求非要大二层互通,只需要IP三层可达即可。

    双活应用的外部访问

    然而我们每个用户对双活数据中心资源访问的访问,一般是通过Internet完成,要经过服务器本地缓存、Global NDS、DNS解析定位到资源,当然为了保证负载均衡,数据中心会部署GSLB和SLB来保证每次方案都能负载均衡到相应的数据中心、相应的服务器上。GSLB和SLB之间实时同步两个数据中心IP资源情况,通过HA或本地优先方案的策略实现资源访问IP分配;当然,在DNS阶段可以对两个数据中心同时解析,把RTT时间较小IP返回给用户,用过那这个IP访问资源。

    基于网关的双活

    由于篇幅有限,该组网的细节我不打算讲的很细,后面有机会再跟大家分享。接下来我们看看基于网管的双活方案。如下图,对你没看错,这个就是华为基于VIS存储网管的双活解决方案组网图。

     

    网管的双活和存储双活的区别,一方面在于在组网上增加了硬件设备,这无疑增加了成本、同时网关的故障会引起业务切换或业务中断,相当于增加了整个方案故障点,另一方面网关的引入会可能会成为性能的瓶颈,解决该问题的方案就是增加网管集群的节点个数,还好Vplex、SVC和VIS都支持多节点集群扩展。

    还有个区别是网关双活一般需要承担存储故障后的业务切换,承担两个数据中心间数据同步工作,所以网关双活可以缓解存储性能压力。网关层双活不需要多路径进行过多支持,网关节点间通过卷镜像的方式进行数据同步。

    双活方案的基本技术条件

    双活基本技术条件有两个,一是数据实时副本,当一端的数据破环或无法访问时,可以通过另一份完全一样的副本来提高服务;另一个就是服务器、存储、网络等集群的自动切换和恢复。只要满足这两个条件,理论上就可以实现数据中心双活,所以基于应用层也可以实现应用层双活。

    基于应用层的双活

    基于应用层的双活方案目前有OracleRAC、IBMGPFS、Symantec SVC和PowerHA HyperSwap等。华为VIS可以实现双活,当然Symantec SVC也可以,只是一个基于网管而一个基于应用层;PowerHAHyperSwap配合DS8000存储复制技术的双活请参考浅析PowerHA HyperSwap双活方案。下面是IBM GPFS双活方案。

     

    IBM GPFS双活方案采用IO Failure Group技术进行数据副本保护,采用GPFS Active Active集群实现故障切换和恢复。基于应用层的双活方案目前应用不多,主要原因是基于应用服务器创建卷镜像、基于服务器同步数据、基于服务器故障切换对应用影响太大,所以在存储技术比较泛的情况下,客户更见容易接受基于存储或网管的方案。

    基于NAS的双活

    然而目前我们看到的数据中心双活方案基本上都是基于SAN块存储,主要的原因是SAN存储的业务一般都是对性能、可靠性要求比较高的应用,如数据库、ERP、SAP等等,所以SAN双活方案应用比较广泛、支持SAN存储的双活方案厂商比较多;但是技术永远不是问题,NetApp的FAS和IBM 的GPFS却具备NAS双活方案的能力,主要的原因是很多数据库,如OracleRAC和IBMPureScale支持数据库直接部署在NAS之上。

    双活的限制和要求

    双活方案是灾备要求中级别要求最高的方案,所以双活方案的部署是有一些必要的要求。接下来我们详细讨论下。

    双活方案对距离要求,由于双活数据采用双写机制保障数据强一致性,所以一般应用可接受的距离是同hu城100-300KM之间,虽然应用对IO延时和超时可以设置,但是我们还得考虑用户体验。数据同步链路一般采用FC交换机级联,当两数据中心直线距离大于30KM以后,需要DWDM波分等设备来对光信号进行中继,色散补偿。一般DWDM波分设备最大支持3000KM距离。

    双活方案对网络要求,网络时延、带宽、误码率都会影响双活方案。由于两个数据中心数据实时复制,所以链路网络带宽必须高于高峰IO访问时的带宽;网络时延会影响整个应用系统业务响应;误码率会影响网络的利用率,误码率越高就意味着数据需要被重传,从而形象整个网络。

    双活方案对性能要求,双活应该无疑对性能是有很高要求的,所以要求两个数据中心的存储、服务器等系统都应该是对等的,否则任何一方如果成为性能瓶颈都将影响另外数据中心。在网关双活方案中,还有考虑网关不要成为性能瓶颈。

    所谓的真双活(ActiveAtive)和伪双活(ActivePassive),很多厂商讲的真双活就是两个数据中心存储上的一对镜像LUN设备,可以同时在两个数据中心接收来自一个集群应用的读写IO,数据的一致性需要存储双活集群和应用集群来保证。实际上这跟存储和应用类型关系很大,要求存储双活和应用双活都支持真双活才有意义。如果存储支持真双活,而应用是VMware(并非Active Active集群),那整个方案也只能是Active Passive模式。

    双活方案和多路径,基于存储的双活一般都需要多路径来完成在数据中心间的切换,所以一般双活方案提供商都会自己开发多路径进行一些优化。VMware就提供了PSA接口让存储厂商实现自己多路径模块,让厂商对存储方案路径和IO进行优化。然而专有多路径也并非是必须的,存储厂商也可以采用系统原生多路径实现双活,只是效果差而已。如Xenserver,Citrix没有类似VMware的PSA接口,所以无法支持第三方多路径,自带多路径Mutipath可以支持ALUA,只需要阵列也支持ALUA,也可以做到路径优化。

    最后跟大家提一点,数据中心双活是指应用、网络、存储和数据的端到端的双活,那基于应用还能不能再创建应用集群呢,答案是肯定的。例如在服务器上基于VMware集群还可以在VMware的VM上创建Oracle RAC或是SOL MSCS集群应用。今天就到此为止,如果大家对双活感兴趣,请多多支持,我会抽时间跟大讨论更详细的双活技术。

    展开全文
  • 某某集团 云计算数据中心解决方案 xxxx ... 双活数据中心解决方案的优势 6 3. X- IO 双活数据中心解决方案 7 3.1. 拓扑结构图 7 3.2. 双活数据中心配置 8 3.2.1. 方案配置 8 3.2.2. 智能 DNS 多站点选择器跨数据中心基
  • 华为上一代双活解决方案是通过VIS(Virtual Intelligent Storage)产品实现,VIS是跟SVC非常相像的一个网关产品,可以通过异构虚拟化技术整合不同IP SAN、FC SAN异构存储资源并实现双活。VIS宣传可以支持最大2-16节点...
  • HPE 3PAR存储有个非常有用的特性叫Storage Federation(存储联邦),存储联邦特性主要解决多个存储数据敏捷性和流动性,主要包括Peer Motion、Online Import 和 Peer Persistence三个特性,Peer Motion和Online Import...
  • 华为双活数据中心

    2014-12-26 11:52:55
    华为对于双活数据中心发展的解决方案文档。
  • 双活数据中心

    2015-08-25 22:21:30
    双活解决方案,能够应对任何场景,并且解决双活中的难点
  • 谈到双活就必须要从IT业务连续性管理这个话题谈起。只有从根上我们知道这个需求以及技术方案是怎么生长出来的,我们才能够彻底搞清楚,用户在什么情况下适合什么样的解决方案,以及未来技术解决方案的走向。为了保证...

空空如也

空空如也

1 2 3 4 5 6
收藏数 103
精华内容 41
关键字:

双活数据中心解决方案