精华内容
下载资源
问答
  • 本文设计了基于门控循环单元的深度学习框架对云数据中心机房设备故障进行自动化的诊断, 并联合时序信息基于过去设备的运行状态信息对未来状态进行预测. 其中, 序列数据以固定时间窗分割后输入双向GRU单元层, 使网络...
  • 云数据中心市场现状与趋势分析 中国数据中心市场概况 细分市场现状与特点 数据中心用户需求分析 1 2 中国数据中心趋势分析 中国数据中心市场预测 3 4 5 目 录 数据中心策略与建议 6 Part One- 市场概况 中国数据中心...
  • IaaS私有云数据中心将逐步替代原有形态的企业数据中心,为企业日常IT等业务运营环境提供更加强有力的支持。 IaaS私有云数据中心系统设计 文/罗逸秀 当前云计算产业正在如火如荼的发展,大型互联网运营商如阿里、...

    IaaS私有云数据中心将逐步替代原有形态的企业数据中心,为企业日常IT等业务运营环境提供更加强有力的支持。

    IaaS私有云数据中心系统设计

    文/罗逸秀

    当前云计算产业正在如火如荼的发展,大型互联网运营商如阿里、百度等都已经提供了公有云业务,专门服务于中小型企业,为其提供基础IT建设与维护服务。而对部分大型企业和安全性有较高要求的用户来说,私有云则成为其自身IT建设的首选。

    在云计算的三个层面中,上层架构的PaaS与SaaS要求更加贴合企业自身的业务系统特征,因此系统设计更加注重个性化和独立化部署。而底层的IaaS结构则具有更高的通用性与普适性,可以在大多数云计算数据中心中部署,为企业提供灵活的业务部署环境。本文将重点阐述IaaS私有云数据中心较为常见的基础系统设计结构。

    1.     IaaS私有云数据中心整体系统结构

    从架构上来看,IaaS私有云数据中心主要由7个部分组成:

    ¡  计算虚拟化资源;

    ¡  共享存储资源;

    ¡  融合网络资源;

    ¡  安全防护资源;

    ¡  应用优化资源;

    ¡  统一管理平台;

    ¡  使用交付平台。

    图1.  IaaS私有云数据中心整体系统架构

    如图1所示,计算虚拟化资源与共享存储资源提供了云计算中最为基础的计算与存储系统,安全防护资源与应用优化资源提供了安全优化的附加增值服务,统一管理平台和使用交付平台为外部的用户与管理员提供了云计算资源管理使用的入口,融合网络资源通过连接整合将上述6个部分紧密结合在一起,使云计算资源能够作为一个真正的整体对外提供IaaS服务。

    2.     计算虚拟化系统设计

    为了使大量的服务器资源能够集成在一起,统一对外提供计算服务,必需部署软件的虚拟化系统来整合成云。因此在IaaS私有云数据中心内,服务器虚拟化软件平台是该系统最为核心的组成内容。

    虚拟化软件平台通常分为虚拟化业务平台和管理平台两个部分,业务平台部署在大量的物理服务器计算资源上,实现计算资源一虚多的虚拟化业务需求;而管理平台则通常会部署在统一管理平台组件内部,对业务平台所在物理服务器计算资源进行统一调度部署。

    服务器虚拟化平台主要提供分区、隔离、封装和迁移4个关键特性。

    ¡  分区:在单一物理服务器上同时运行多个虚拟机。

    ¡  隔离:在同一服务器上的虚拟机之间相互隔离。

    ¡  封装:整个虚拟机都保存在文件中,而且可以通过移动和复制这些文件的方式来移动和复制该虚拟机。

    ¡  迁移:运行中的VM可实现动态迁移到不同物理机的虚拟平台上。

    目前IaaS数据中心的虚拟化业务平台有ESX/ESXi、Hyper-V、XEN和KVM四大主流软件产品。其中ESX/ESXi是VMware公司的私有技术平台,Hyper-V是Microsoft公司的私有技术平台。而XEN和KVM则是两款主流开源虚拟化平台,有诸多厂商(如Citrix、Redhat、Amazon等)的虚拟化平台产品都是基于这两款开源平台修改实现的。H3C CAS系统也是基于KVM平台实现的服务器虚拟化功能。从基本功能支持与性能可靠性上比较,上述四款平台的差别不大。相对来说,XEN和KVM由于属于开源平台项目,更加符合目前软件行业趋于开源的整体发展方向,在IaaS私有云和公有云数据中心建设部署时被选用的也相对更多。其中XEN是2002年发布的早期虚拟化平台,KVM是2007年发布的新一代虚拟化平台, XEN在已有数据中心项目应用较多, KVM则由于其结构精简,且与Linux内核结合的更加紧密,在近些年新建的IaaS数据中心中更受欢迎,大有后来居上的趋势。

    图2.  KVM虚拟化平台结构

    以KVM为例简单分析虚拟化平台的结构与运行机制。如图2所示,最底层为物理服务器的硬件平台Platform,其上运行的是虚拟化业务处理平台Hypervisor层,最上面是运行的虚拟服务器GuestOS,Guest OS会安装主流的Windows Server或Linux等操作系统,所有的数据中心业务应用Apps都是运行在虚拟服务器的操作系统中。当业务应用下发某个CPU计算、数据读写或网络收发报文等任务时,KVM平台会首先将Guest OS发出的请求通过kvm-QEMU进行指令转换,然后再发给Hypervisor层上的硬件驱动程序Driver,最后由驱动通知硬件平台执行完成任务。当不同的Guest OS同时下发任务指令时,由Hypervisor进行任务调度,整合处理。

    3.     共享存储系统设计

    在IaaS数据中心内部,除了使用虚拟化平台对物理服务器计算资源进行整合以外,还需要对存储资源进行集中处理,以达到数据级别的资源整合。存储系统实现上有很多技术分类,根据服务规模要求,在IaaS私有云数据中心内主要使用IP SAN或FC SAN作为共享存储系统提供数据存储服务。IP SAN通常针对数据规模较小,IOPS(每秒I/O吞吐)要求较低的场景使用,投资成本相对降低。FC SAN则针对大型数据规模或高IOPS要求的场景使用,系统搭建消耗较高。近些年随着FCoE技术的发展,这种兼具了IP网络带宽优势与FC存储高IOPS特点的融合型存储系统开始受到关注,但由于厂商产品还不够成熟,大规模部署实现还需要一定的时间。几种主流的存储系统进行架构比较如图3所示。

    图3.  主流存储系统比较

    存储系统整合后,可以通过专业的软件平台为服务器集群提供数据共享服务。共享存储平台产品分为两大类,其中绝大部分是由存储设备厂商根据自身产品特性设计提供,主要在自己的产品上使用,如EMC、IBM、NetApp和Hitachi等。另外一部分是由专业的软件厂商设计,通过增加一层数据管理平台架构,可以在绝大部分存储产品上使用,如Symantec的Veritas等。具体选择取决于决策者更加看重数据中心存储管理的运维简化还是兼容异构。

    值得一提的是,在近几年,随着服务器计算能力和网络传输带宽的极大提升,整个业务系统的性能瓶颈开始向存储设备上转移,如上介绍的传统集中式存储受到带宽和I/O吞吐等硬件条件限制,发展已现颓势。新兴的分布式存储技术正在逐步走进大众的视野,该技术将原有单一磁盘阵列中的存储资源分散到大量低成本的服务器中,通过软件方式进行数据读写调度,并提供数据冗余。代表技术如Google的GFS和Hadoop的HDFS等,都已经拥有一定的使用规模。一些专业厂商也已经推出了适用于小型应用业务的产品,但由于相对于传统集中式存储技术成熟度较低,还需要时间成长。

    4.     融合网络系统设计

    如果将IaaS私有云数据中心比作为人体,计算资源就好像心脏,网络系统则是遍布全身的血管。再强健有力的心脏,如果没有繁茂通畅的血管,也无法将能量发挥出来,整个人也谈不上健康精神了。在IaaS数据中心内,网络系统将其他组件联通在一起,使所有系统密切结合为一个整体。

    如图4所示,在数据中心内部,根据位置和连接资源的不同,网络系统通常可以分为五个部分。

    ¡  接入网络:服务器到接入设备之间。

    ¡  后端网络:服务器到存储设备之间。

    ¡  前端网络:接入设备到核心设备之间。

    ¡  互连网络:数据中心之间互连部分。

    ¡  边缘网络:数据中心与外部网络互连部分。


    图4.  IaaS数据中心网络系统结构

    l  接入网络

    接入网络主要用于连接物理服务器与接入层设备,在IaaS私有云中,由于大量虚拟化技术的应用,对接入网络的挑战从传统的物理服务器间流量传输变化为如何更好的承载虚拟机之间的流量。从技术思路上来说,目前主要有两个发展方向,一是由虚拟化软件厂商主导的将流量处理工作都交由物理服务器的虚拟交换机vSwitch完成,同一物理服务器内部虚拟机交互流量由vSwitch本地转发,不同物理服务器的虚拟机通信时通过在vSwitch之间建立隧道技术完成,无需关心中间物理网络的连接方式,此类方案代表技术如VXLAN、NVP等;另一个方向由网络厂商主导的将网络流量处理仍然交给网络设备完成,服务器内部不对虚拟机的流量进行细分控制,由接入层网络设备在连接服务器的物理接口下建立对应虚拟机的虚拟接口,从而达到精细化流量控制的目的,代表技术如IEEE的802.1BR和802.1Qbg。

    进行接入网络系统架构设计时,对技术的选择主要依据服务器资源与网络资源投入情况。vSwitch处理方式明显会加剧服务器的计算资源消耗,如果所有服务器的性能都足够强大,且虚拟化之后都会预留较多计算资源供vSwitch做任务处理,则可以选择使用vSwitch处理流量的方案。如果希望将更多的计算资源用于虚拟化后的业务处理,则可以考虑将虚拟机流量放到接入设备上处理的方案,即仍由网络设备处理网络的任务。

    l  后端网络

    后端网络主要用于连接服务器资源与存储资源,可选方式以FC/IP/FCoE几种为主,设计原则依据存储资源的类型选择,前文共享存储设计中有过说明,此处不再赘述。

    值得一提的是FCoE网络由于可以与接入网络融合,从整体结构上可以简化网络设计与降低投资,同时能够兼容FC存储资源,所以在最近几年的发展中越来越被看好。

    l  前端网络

    根据数据中心的计算资源规模大小,前端网络可以选择采用二层或三层架构设计。如接入层设备采用1:40的服务器接入比例,所有服务器都使用双上行到两台接入层设备实现冗余,几种常见接入层到核心层网络结构对应规模如下:

    ¡  使用传统二层MSTP设计,网络节点规模在50以下,服务器资源需要小于1000台(50*40/2);

    ¡  使用三层OSPF设计,网络节点规模可以支持200左右,服务器资源达到4000台;

    ¡  使用大二层如TRILL设计,网络节点规模理论上可以达到500以上,对应服务器资源规模能够支持到10000台。

    上述计算都是理想情况下的结果,实际部署时考虑到带宽和管理等其他因素,对应支持的服务器资源规模还要更少一些。

    此外,较新的SDN(软件定义网络)技术如OpenFlow等,原理上将控制层面与转发层面分离,网络节点只处理转发任务,所有的路径计算与管理都由独立的控制器设备完成。此类技术理论上都是支持无限大的网络与计算资源规模,实际部署时只受限于控制器软件所在的硬件(如服务器)处理能力。但由于SDN技术相对不够成熟,真正的达到大规模实施还需要一定时间。

    l  互连网络

    受场地供电等限制以及不同地理位置用户就近接入的需求,在扩大云计算规模时,IaaS私有云中多地部署数据中心站点已经是很常见的建设方式,尤其像一些超大型全球企业,其私有云数据中心势必需要多点开花,以支撑其遍布世界各地的分支使用。

    互连网络需要根据站点的地理距离以及通信需求选择合适的网络技术进行搭建。现有技术主要是以搭建隧道为主,如二层隧道VPLS/OTV/EVI,三层隧道MPLS/GRE等。这些技术都是来自网络厂商,通过数据中心互连边缘的网络设备实现。但在计算资源虚拟化的发展下,软件厂商更加倾向于引导使用前面提到的vSwitch之间建立的隧道如VXLAN/NVP等,好处是对中间网络没有特殊需求,只要能够保证服务器的vSwitch间IP层能够实现通信即可,无论是数据中心内部的前端网络还是站点之间的互连网络,只需提供最基本的IP通信,对网络的依赖性降到最低。该方案仍然是将隧道的建立维护工作都放到了服务器内部,虽然降低了网络资源的需求与投资,但增加了对计算资源软硬件的需求及相应投资成本。

    l  边缘网络

    边缘网络用于企业用户的接入使用,由于IaaS私有云的用户群主要为企业内部雇员,因此接入方式以专线为主,相对来说此部分技术较为简单,只需要规划好接入办公地点与数据中心之间的路由即可。但随着目前移动办公的需求,互联网也成为私有云必不可少的接入方式。考虑到企业私有云的安全性,因此必须使用一些隧道技术对通过互联网接入的企业用户进行识别与保护。如中小型办公分支通常使用GRE/IPSEC结合的手段接入到私有云中,而单独的移动用户更多的使用SSL VPN方式接入。IaaS私有云还需要为业务提供统一的Portal访问门户以集中进行交付使用,具体见下文将要介绍的使用交付系统。

    5.     安全防护系统设计

    安全在云计算环境中更加重要。IaaS私有云数据中心系统设计时,要分四个方面来考虑安全防护系统设计(如图5所示)。


    图5.  IaaS私有云数据中心安全防护系统

    l  接入防护

    由于IaaS私有云数据中心是需要为终端用户提供业务服务,首先需要对接入用户进行安全防护。一是接入身份安全,通过SSL VPN/IPSEC VPN/PORTAL等手段对用户身份进行辨识确认,并分配访问权限;二是接入设备安全,通过客户端代理程序等手段对用户使用的接入设备进行安全判断,以防止存在木马病毒或不合规软件操作等问题。随着终端技术的发展,接入终端已经不再局限于传统的个人电脑,智能PAD和PHONE等都成为用户常用工具,因此BYOD(Bring Your Own Device)解决方案也应运而生。

    从技术角度分析,接入安全技术主要分为预装方式与随装方式两种,预装指在接入终端上提前安装专门的客户端软件,集接入身份认证与程序代理检查功能于一身,在用户需要连接私有云时运行,属于传统的CS(Client-Server)结构。随装方式通常是BS(Browser-Server)结构,一般通过浏览器实现WEB登录进行身份认证,当认证通过后会自动或手动下载一段代理程序到终端上,对运行环境进行安全检查,符合规则才允许接入。当用户访问业务应用时,代理程序会一直在后台运行,监控环境与用户行为,直到用户退出访问,自动终止运行并卸载。

    l  网络防护

    网络防护指数据中心内部网络中提供的流量安全防护手段,技术上通常是通过读取流量报文中的特定字段,去匹配预设内容,进而执行通过、删除或统计等动作,针对OSI模型L2-L7可以提供不同层次的检测防护。由于数据报文L2-L4的封装报文头内容较为规范,且种类较少,因此交换机和路由器等网络设备可以使用ASIC芯片对相应报文字段进行截取,解析与判断处理,即常用的ACL过滤功能。由于L4以上各层封装内容多种多样,很难将大量的判断工作由简单的ASIC完成,因此需要专门的防火墙等安全设备使用CPU进行解析处理。而病毒漏洞等特征代码往往隐藏在报文的应用层负载中,所以相应的工作也需要更专业的如IPS等安全设备来识别处理。对网络防护安全系统进行设计时,往往考虑的是需要提供何种级别的业务安全防护,以及对处理性能的要求。

    在网络防护层面,除了上述对业务流量数据报文的安全防护外,还需要考虑对网络通信协议层面的防护设计,如MAC防攻击、ARP防攻击、IP防攻击与RIP/OSPF等路由协议的认证机制。这些功能通常由网络设备如路由器和交换机等自身具备并部署。

    l  虚拟化防护

    在IaaS私有云中,虚拟化系统是计算资源必不可少的部分,因此也需要考虑在虚拟化方面进行安全防护,但从技术思路上与网络防护区别不大,主要是以在vSwitch上部署ACL等安全策略和建立虚拟防火墙vFW如VMware的vShield为主,和前面提到的在物理网络设备与防火墙/IPS上是实现的功能大致相仿。由于虚拟化防护需要额外占用较多的物理服务器自身计算资源,因此只有在服务器硬件性能充足的情况下建议部署。

    另外配合新兴的IEEE 802.1Qbg和802.1BR等标准协议,可以将虚拟机之间的流量都牵引到物理接入交换机上,此种方式可以解决虚拟防火墙占用服务器性能的问题,但由于物理服务器内部交互流量两次通过物理网卡与物理接入交换机之间的链路,部署时需要保证拥有足够的网络带宽余量。

    l  应用防护

    应用防护主要基于操作系统层面,通过软件防火墙如360、瑞星等产品或技术基于应用自身进行安全防护。在IaaS私有云中,由于数据中心以提供底层虚拟服务器环境为主要业务,因此不需要做过多考虑,其在PaaS和SaaS云计算服务中更为关键。

    6.     应用优化系统设计

    IaaS私有云数据中心内部,为了提供更好的业务应用系统访问能力,往往需要应用优化系统,典型的应用优化系统有应用负载均衡、链路负载均衡、全局负载均衡和应用加速等。这些系统可以是各自独立的物理设备,也能够以软件授权的形式部署在同一套物理设备上。

    l  应用负载均衡系统

    应用负载均衡系统提供对服务器业务访问的负载均衡能力,原理上通常使用网络地址转换NAT技术,将多个实际的业务系统IP地址转换为一个虚拟业务IP地址对外部提供业务访问。不同的用户访问到达时,负载均衡系统会自动依据预设规则(如轮转、随机和最小连接等),将这些访问请求分发到不同的实际业务系统,达到资源扩展使用的目的。

    应用负载均衡系统配合计算资源虚拟化管理平台,还可以实现弹性计算智能扩展。即配置虚拟化管理平台与负载均衡系统实现联动,当管理平台检测到当前虚拟服务器访问量较大,CPU或内存等关键指标运行超过预设阀值,则会自动创建新的虚拟服务器,并通过DHCP等技术使用不同的业务访问地址。当新的虚拟服务器启动运行后,管理平台会通知负载均衡系统,将其自动加入到现有的实际业务系统集群中,新的访问请求可以被分配到新建的虚拟服务器上,从而降低原有实际业务系统的压力。当访问量降低,虚拟机的关键运行指标低于预设阀值时,管理平台可以通知应用负载均衡系统不要再分配访问请求给一些低负载虚拟服务器,并当现有连接处理完成后关闭这部分低负载的虚拟服务器,以达到节省能耗的效果。

    应用负载均衡系统多会部署在靠近服务器的网络位置,以降低网络中的流量负载。

    l  链路负载均衡系统

    链路负载均衡系统往往部署在数据中心存在多个互联网入口的场景中。当用户请求从不同的入口进入数据中心内部返回数据时,为了能够减少数据报文在互联网中传输的距离,使用户侧的业务响应延迟更低,我们会希望数据都是从哪个接口进入,就还从哪个接口发出。

    技术原理上,链路负载均衡系统会记录不同入口收到报文的特征表项(如源目的IP和源目的端口号等)和入口下一跳设备的MAC地址,创建相应连接信息表项,当收到返回数据报文时,直接查找此表,根据特征表项对应的MAC地址进行二层报文封装,并通过对应接口发送,不会再去查找路由表做IP转发。因此链路负载均衡系统多会部署在数据中心出口位置,连接不同的互联网入口。

    l  全局负载均衡系统

    当IaaS私有云包含多个数据中心站点时,为了提供冗余与高可靠,会需要多个站点均同步部署相同的业务应用。我们为了降低业务响应延迟,让用户能够获得更好的业务访问体验,往往会希望其能够访问就近的或负载最小的数据中心站点。此时就需要通过全局负载均衡系统,对用户访问进行统一调度,为其定位最适合的响应站点。

    目前主流的业务访问模式都是使用域名的方式,通过DNS技术来解析名称所对应的IP地址,因此全局负载均衡系统的技术原理都是通过为不同用户解析不同的数据中心站点的IP地址来达到负载均衡效果。既在全局负载均衡系统上同一域名都会对应多个数据中心站点的IP地址,当DNS请求到达后,全局负载均衡系统会对各个数据中心站点的业务IP进行探测,根据存活情况以及响应时间等探测结果,结合预设的一些分配规则(如最小响应时间或最小连接数等),为用户反馈合适的IP地址。

    全局负载均衡系统可以选择部署在某个数据中心内部接近出口的位置,或者为了容灾的需要,部署在数据中心站点以外的单独位置。

    l  应用加速系统

    当前主流的BS结构业务系统中,都采用HTTP方式进行连接处理,用户进行业务访问时,与业务服务器间会存在大量TCP-HTTP连接关系,我们可以将这些连接通过中间设备代理方式进行TCP连接的合并,减少服务器上的连接维护数量,从而提升业务系统的处理能力。这种技术通常被称为TCP卸载,对应的还有SSL卸载技术,专门处理HTTPS连接的代理优化。

    另外当传输内容存在大量文本或图片等数据时,还可以使用专用的设备或软件对内容进行标准化压缩,当数据传到用户侧终端时再解压,这样可以降低中间网络的负荷,提高传输速度与减小延迟。

    应用加速系统主要针对应用进行业务优化,种类繁多,可根据业务特点进行系统设计,灵活部署,上面介绍的两种都是较为通用的技术。

    7.     统一管理系统设计

    在传统数据中心中,统一管理大多指的是将计算、存储和网络等资源管理平台,集中放置到管理区域统一进行业务处理,但实质上,各个管理平台仍然是各自为政的。当管理员完成一个业务部署时,需要面对多套平台系统进行任务下发,往往需要很高的业务技术能力要求,多方配合才能完成。

    在IaaS私有云数据中心内,真正的统一管理是指可以由一位管理员通过一套管理平台系统,方便的完成整个业务系统的部署。技术原理上,需要计算、存储和网络等资源均提供基于标准的API开放接口,统一管理平台可以通过这些标准接口下发配置,对资源实现创建、修改和删除等基本的处理动作。从架构设计上,统一管理平台可以直接和设备资源进行交互,也可以通过对应的管理平台去管理不同的资源(如图6所示)。


    图6.  统一管理平台架构

    架构一的好处是任务处理效率高,工作一次下发完成。但需要业内所有的设备厂商在其所有型号的设备上均支持统一的标准API,整合推进难度高,进展缓慢,短时期内还无法达到。

    架构二是目前使用最多的方案,各个设备厂商都可以通过自己的软件管理平台上统一管理到自身设备资源,同时开发基于RESTful/SOAP等标准的平台接口,提供给统一管理平台使用,虽然中间存在二次调度,系统较为复杂,但就目前业内发展情况而言,是最合适的设计架构,而且也已经有一些相关标准和产品完成设计投入使用。统一管理平台的代表产品如OpenStack和CloudStack等都已经拥有一些成功部署的案例,也推进了统一管理平台架构的前进。

    8.     使用交付系统设计

    使用交付系统是IaaS私有云有别于传统数据中心的专有系统组件。IaaS私有云定义提供给用户完整的虚拟服务器资源进行使用。用户需要能够对资源配给进行申请,当获得虚拟资源后,在虚拟机上能够自行安装业务系统,并对其进行启动关闭等常规服务器处理动作。因此必须有一个使用交付平台为用户提供上述业务接口,并通过统一管理平台,将这些用户行为转换成对应的指令下发给资源设备执行。

    如果只是管理员通过统一管理平台对各项资源进行配置管理与业务处理,那么仍然属于传统数据中心的架构范畴,并没有形成云的概念。只有通过使用交付系统,将数据中心整个资源进行整合,以逻辑资源形式提供给终端用户使用,才能称之为云计算。用户只关心自己使用的逻辑的计算、存储与网络资源,看到的只是一朵资源云,不会看到也不需看到数据中心内部的实际物理资源是如何在进行任务调度处理。

    在进行使用交付系统设计时,通常包括提供给用户的认证授权、资源申请、资源使用和日志统计等功能模块。

    l  认证授权模块可以结合安全防护功能,使用Portal对用户身份进行确认,通过代理程序或客户端安装软件方式检查用户终端环境,结合LDAP等工具为用户提供权限设定。

    l  资源申请模块需要根据权限设定,提供给用户可以使用的后台资源统计信息,如CPU、内存、存储和网络等。然后用户可以根据自身业务特点,定制申请使用的虚拟服务器资源。资源申请模块再将此请求发送给统一管理平台,管理员审批通过后,由统一管理平台连接各个资源设备的管理平台下发命令,创建相应虚拟服务器等资源。

    l  资源使用模块为用户管理已经创建的资源提供入口,并提供一些基本和高级的使用操作,如对虚拟机的开关机、ISO挂载和远程登录等功能。用户执行动作时,资源使用模块会根据内容将部分指令转给统一管理平台去执行,也可以提供一些资源重定向的服务将部分指令直接下发到创建好的虚拟服务器上。

    同时操作记录和性能监控等日志统计类功能也需要在使用交付系统设计时进行考虑,具体设计可以根据对业务管控的要求调整。

    9.     结束语

    随着云计算产业的发展,数据中心也已经不再是硬件设备的简单堆积。应用软件的进步和业务规模的提升,都对云计算数据中心系统设计提出了更高的要求。为了满足大中型企业的发展需要,IaaS私有云数据中心会逐步替代原有形态的企业数据中心,为企业提供更加强有力的支持。

    IaaS私有云数据中心系统涉及到的7个组件中,计算、存储和网络资源都是必要的组成部分,提供最基础的设备资源使用,与传统数据中心系统比较,主要针对虚拟化技术做出了部分专门设计;安全防护与应用优化根据业务系统的需求规划,可以较为灵活的进行设计,从而实现不同级别的安全与优化能力;统一管理平台和使用交付平台则是针对IaaS私有云进行的专业设计,有别于传统的数据中心设备级别的管理监控功能,与云计算IaaS服务层面紧密结合,达到业务应用级别的深度管控与访问交付。

     

    展开全文
  • 分布式云数据中心

    千次阅读 2019-10-25 06:48:48
    传统的大型企业数据中心是一个物理分层的架构,采用烟囱式构建基础架构的方式,存在建设与运营成本高、资源利用率低、服务SLA保证困难、管理复杂等诸多挑战 数据中心发展趋势 随着云服务业务的发展,运营商和企业...

    传统的大型企业数据中心是一个物理分层的架构,采用烟囱式构建基础架构的方式,存在建设与运营成本高、资源利用率低、服务SLA保证困难、管理复杂等诸多挑战

    数据中心发展趋势

    随着云服务业务的发展,运营商和企业的云服务形态也在不断变化,数据中心发展趋势应是建设高效节能与运营成本合理的数据中心,支持企业或机构业务的持续发展,满足对业务的全生命周期管理需求:高利用率、自动化、低功耗、管理自动化等成为新一代数据中心建设的关注点

    • 数据中心的分布化建设和集中化管理成为方向
      • 数据中心向基础设施的分布式建设和管理的集中化方向发展
      • 数据的集中化管理和数据中心的整合是当前信息化发展的方向
      • 行业需求推动的技术发展趋势将支撑数据中心的分布式建设
    • 数据中心提供整合的网络、存储和计算能力,管理工具的重构和发展将成为核心的控制点
      • 可编程的虚拟网络交换方式将带来更多挑战和机会
      • 数据中心竞争将由单个设备竞争变化为提供整个网络架构的竞争
      • 数据中心基础设施管理系统将成为未来数据中心的核心控制点
    • 数据中心向全方位服务化方向发展
        数据中心成为服务中心--通过IaaS/PaaS/SaaS等不同层级的服务,为企业用户提供方便灵活的业务选择(IT成本分析、桌面帮助、IT服务管理和数据中心基础设施监控等),是多种服务的承载容器,也是数据中心发展的必然趋势
    • 向基于云计算技术的软件定义数据中心发展
      • 资源全面池化 计算虚拟化向存储虚拟化和网络虚拟化发展,基于SDN技术为实现基于业务需求的可编程、高度弹性和动态、大规模的虚拟化网络提供技术支撑,数据中心存储虚拟化后构成统一资源池(NSA、SAN等)
      • 资源按需分配 计算、存储、网络和安全等所需资源、基于SLA的虚拟数据中心(VDC)服务,VDC部署时间下降到分钟级,资源按需快速发放
      • 混合云 未来几年,会出现以IT服务交付为服务重点的私有云服务企业,企业应评估哪些术语商品服务,并将它们转移到公有云,私有云 公有云技术的混合成为混合云
    • 安全与可靠性成为未来数据中心的基础能力
        安全性是指包括防火墙、IPS/IDS、防病毒入侵检测以及自然灾害在内的安全防范措施。在规划数据中心建设的初始阶段,就应该构建可靠的容灾方案,或建立异地灾备中心,通过技术手段保障业务的连续性和数据的安全性

    分布式云数据中心解决方案架构

    分布式云数据中心是物理分散、逻辑统一、业务驱动、云管协同、业务感知的数据中心,以融合架构(计算、存储、网络融合)作为资源池的基础单元,构建SDN业务感知网络,通过自动化管理和虚拟化平台来支撑IT服务精细化运营

    其核心理念在于:物理分散、逻辑统一。将企业分布于全球的数据中心整合起来,使其像一个统一的数据中心一样提供服务,通过多数据中心融合来提升企业IT效率;去地域化、软件定义数据中心、自动化是这个阶段的主要特征。逻辑统一由两个方面的含义:依赖DC2(分布式数据中心简称)提供统一的运维管理支撑平台将所有数据中心及其资源统一管理、调度和运维支持,分权分域管理;DC2提供统一的服务平台来对外提供服务

    DC2将多个数据中心看成一个有机整体,围绕跨数据中心管理、资源调度和灾备设计,实现跨数据中心云资源迁移的云平台、多数据中心统一资源管理和调度的运营运维管理系统、大二层的超宽带网络和软件定义数据中心能力

    分布式云数据中心的价值

    • 降低TCO,提高ROI DC2采用虚拟化技术,消除软件对运行软件的硬件的依赖性,可以将利用率不足的基础结构转变成弹性、自动化和安全的计算资源池,供程序按需使用。通过资源整合和自动化帮助企业降低运营成本;通过分布式技术实现多个数据中心资源的逻辑统一和高效利用,降低对基础架构的投资;通过灾备服务和基于资源负载均衡的跨数据中心应用迁移来提升应用的可用性和资源利用率,从而为企业节省大量资金
    • 提供业务敏捷性,加快上线速度,提高用户的满意度 DC2在虚拟化技术上,提供了资源的按需服务能力,提供全方位的管理、业务自动化能力。通过自助服务,用户可以按需自助申请所需的计算、存储、网络资源;根据用户不同应用需求提供不同的SLA水平的资源池服务,同时DC2具有灵活的弹性伸缩能力,根据用户配置的灵活调度策略,实现自动的水平、垂直弹性伸缩能力,从而保证IT能够快速响应业务变化

    分布式云数据中心提供的关键能力

    • 采用虚拟数据中心方式为租户提供数据中心即服务(DCaaS)
        虚拟数据中心(VDC)为租户提供DCaaS服务,是软件定义数据中心(SDDC)的一种具体实现。VDC的资源可以来自多个物理数据中心的不同资源池(资源类型分为虚拟化的计算、存储、网络以及Bare-metal物理机资源等);VDC内的资源支持访问权限控制;VDC的网络可以由管理员自助定义,将VDC划分为多个VPC,VPC包括多个子网,并通过VFW、VRouter等部件进行安全、网络管理;VDC服务提供部分自助运维能力,包括查看VDC告警、性能、容量、拓扑信息,提供VDC级别的资源使用计量信息,方便租户计算计费信息
    • 针对多种应用场景优化的云基础设施
        目前主要针对四大场景:标准虚拟化场景,提供对普通应用虚拟化以及桌面等虚拟化方案的基础设施;高吞吐场景,主要针对OLAP分析型应用的支持,在存储和网络方面提供了优化;高扩展场景,对于需要快速水平扩展的应用,采用计算存储一体机方案提供快速扩展能力;高性能场景,主要对于OLAP应用,X86服务器替代小机等场景
    • 基于SDN网络虚拟化技术的网络自动化和多租户
        云数据中心基于SDN虚拟化网络技术,多租户云数据中心场景下每个租户可以自助定义自己的网络并自动化实践
    • 统一灵活的数据中心管理能力

    DC2总体架构

    分布式云数据中心逻辑架构

    DC2总体架构如上图所示,分为基础设施层、虚拟化层和服务层,各层都分别向上层提供接口供上层调用或对接

    • 基础设施层 提供构建数据中心计算、存储和网络的资源能力,DC2提供针对多场景的POD配置方案,基于物理资源构建虚拟计算、虚拟存储、虚拟网络资源池
    • 数据中心管理层 数据中心管理层提供对虚拟计算、存储、网络的资源管理能力,支持镜像、服务管理、资源调度等方面能力,也提供SDN的网络虚拟化管理能力
    • 域管理层 提供对多个云数据中心的统一管理调度能力,提供以VDC为核心的DCaaS,VDC内提供多种云服务能力,也提供对虚拟物理资源的统一运维能力

    DC2逻辑部署图

    分布式云数据中心在FusionManager架构和OpenStack架构下部署方式和部件会有所不同。下图描述的是传统FusionSphere部署架构下的各部件关系,运管采用FusionManager,RD支持跨数据中心的容灾管理,同时对接异地数据中心的FusionManager

    分布式云数据中心传统架构逻辑部署图

    下图则是在OpenStack架构下各部件的部署及连接关系,其中keystone部署在domain域,实现对多个OpenStack实例的统一认证管理。OpenStack平台原生提供适配易购虚拟化平台的能力

    OpenStack架构下部件部署图

    各个部件的功能描述

    • ManageOne 提供分布式云数据中心服务中心(SC)和运维中心(OC)
      • SC 服务中心基于资源池提供的云和非云资源统一编排和自动化管理能力,包括可定制的异构和多资源池策略和编排,可定制的企业服务集成,可通过集成第三方系统补足资源池管理能力,特别是异构的传统资源自动发放能力
      • OC 运维中心面向数据中心业务,进行场景化运维操作和可视化的状态/风险/效率分析,基于分析能力提供主动和可预见的运维中心
    • FusionManager 它的定位是集成多个虚拟化软件和物理设备,提供统一硬件资源管理和虚拟化资源管理
    • FusionCompute 提供网络、存储、计算资源的虚拟化,从而实现资源的池化
    • RD(Replication Director) 提供分布式云数据中心的虚拟机容灾能力,支持主机复制方式将主虚拟机数据映射到容灾虚拟机,支持容灾切换
    • HyperDP 提供分布式云数据中心的虚拟机备份能力
    • VIS 提供存储虚拟化功能,配合系统提供双活容灾能力
    • OpenStack 开运云管理系统,由多个部件构成,采用REST接口和消息队列实现部件解耦,支持对异构虚拟化平台管理(KVM、VMware、XEN等)。主要组件包括
      • Nova 虚拟计算
      • Glance 镜像
      • cinder 虚拟磁盘
      • neutron 虚拟网络
      • swift S3存储
      • keystone 认证
      • Ceilometer 监控

    分布式云数据中心数据关系图

    服务式云数据中心概念关系

    DC2中逻辑概念的关系是

    • Domain 代表数据中心管理系统的总范围,对分布式云数据中心来说包括多个物理数据中心及包含的物理虚拟资源
    • Available Zone(AZ) AZ是对用户可见的,用户在资源申请时首先需要选择AZ。在同一个AZ区域内,存储是可达的,因此虚拟机在同一个AZ内可以迁移。AZ在同一个汇聚/核心交换机下
    • VDC 虚拟数据中心,可以跨多个AZ,包括多个VPC
    • VPC 是一个AZ内保证网络安全而划分的区域,各VPC网络间采用多种隔离技术,一个VPC仅属于一个AZ
    • Host Aggregate 概念来源于OpenStack的定义,同一个Aggregate是具有相同属性的资源集群,属性通过元数据描述。资源分发时通过Scheduler部件来根据用户需求选择合适的Aggregate分配资源,一个Aggregate属于一个AZ

    分布式数据中心解决方案关键特性

    虚拟数据中心

    • 适用场景
        企业私有云中,有独立管理租用资源并实现网络隔离需求的场景,每个VDC是一个具有自助运营、自运维能力的独立管理实体,可以支持一个或多个物理数据中心的资源。根据具体场景其划分方式可以灵活多样
        *     可以按部门划分,每个部门可以独立管理本部门资源
        *     可以按使用领域划分,例如:开发VDC、测试VDC

    部署架构

    • SC FM方式部署 FM提供云管理能力和虚拟化平台的访问接口;SC提供VDC服务和VDC内包含服务的管理能力。SC作为VDC的服务提供方,VDC管理员和用户可以登录SC门户,可以自助管理VDC内的服务、网络和自助运维等;运维层面,VDC相关的信息可以从eSight或合作厂商的部件获取性能、告警信息,然后统一在OC上呈现,运维管理员可以在OC上对运维信息进行统一处理
      FM SC方式部署
    • SC OpenStack方式部署 采用OpenStack提供的服务作为基础云管理平台,SC提供VDC服务,SC和OpenStack利用OpenStack提供的REST API进行对接

    SC OpenStack方式部署

    • 关键特性
      VDC功能概述
    • 多数据中心资源统一管理 VDC可以从多个物理数据中心的资源池中获取资源,数据中心采用Available Zone(AZ)方式提供资源池,选择不同的AZ也就选择了不同数据中心的资源池;每个AZ内部划分不同的Host Aggregate,不同Aggregate具备不同的SLA特性,由管理员根据SLA特性自助划分并对用户不可见,当用户提出SLA需求系统调度器将根据SLA需求在满足要求的Aggregate中选择资源
    • VDC间的隔离 管理隔离、网络隔离和资源隔离
    • 配额管理 VDC支持对使用的资源进行配额控制,配额种类包括:VCPU个数、内存大小、VLAN个数、VPC个数、子网个数等
    • 用户管理 每个VDC支持独立的用户管理能力。VDC管理员可以授权某用户访问VDC的权限,获得权限后,用户可以登录该VDC并申请该VDC的服务;一个用户可以获得多个VDC的授权,从而成为多个VDC的用户
    • 服务管理 VDC管理员可以对服务目录和服务生命周期进行管理
    • 模版管理 VDC内支持多种服务模版,可以帮助快速定义新服务;VDC支持的服务模版包括: VN模版、VAPP模版,可以帮助管理员实现快速部署;支持所有VDC可见的全局模版和仅本VDC可见的局部模版
    • 服务自动化 为系统提供服务自动发放上线能力
    • 自助网络管理 VDC的自助网络管理利用底层SDN提供的基础能力,主要包括的功能有:VPC、子网、VDC虚拟网络拓扑
    • 自助运维管理 容量管理、拓扑管理、性能管理、告警管理
    • 支持服务列表 用户登录VDC自助服务门户,可以在服务目录看到多种预置的云服务,包括:云主机服务、物理服务器服务、EBS服务、虚拟防火墙VFW服务(弹性公网IP、SNAT/DNAT、基于状态的报文过滤ASPF、访问控制ACL、IPSec VPN、VLB服务、VAPP服务)

    SDN网络

    SDN是一种新的网络框架,其本质是网络的可编程,SDN框架给用户提供最大的网络灵活度,租户可以灵活申请网络资源来满足自己的IT业务。在数据中心,SDN网络框架可以适用于如下场景

    • 网络自动化 通过提供向北API,由上层管理软件通过调用API接口,实现网络自动化,提供即时的网络服务,为业务快速上线部署提供网络环境
    • 灵活的业务网络 基于SDN网络架构,将物理网络虚拟化,提供不同的业务网络,实现业务网络的灵活部署;提供多租户隔离,用户西定义网络策略实现保护数据中心内部的资源安全访问

    部署架构

    分布式数据中心网络子系统采用SDN框架的网络设计,下图分别为DC2 基于 OpenStack 和 FM 的框架图

    DC2 SDN网络框架图(OpenStack)

    通过上述的SDN框架实现网络虚拟化,自动为每个租户提供所需虚拟网络环境,如下图所示

    DC2网络子系统架构图

    上图可以看出,核心交换机上配置VPN VRF和Internet VRF,VPN VRF与汇聚交换机上的VPN VRF对接,Internet VRF与汇聚交换机的 Global VRF对接,用户将租户之间的网络逻辑隔离;汇聚交换机上配置一个Global VRF,每个租户的虚拟防火墙都对接到Global VRF中实现对公网访问;汇聚交换机上配置多个VRF,用于为每个租户提供虚拟路由器,提供租户的业务网关路由功能,在VRF下配置三层网关用于提供业务网关,每个VRF将与租户的虚拟防火墙对接,实现对租户业务的保护;租户如果租用来虚拟负载均衡对接到虚拟路由器上,提供服务器的负载均衡功能,同时受虚拟防火墙的规则保护

    虚拟交换机逻辑上接入到TOR交换机端口,每个租户有自己独立的虚拟交换机;虚拟交换机上有不同的端口组,不同端口组有不同的网络属性;虚拟机网卡可任意加入不同端口组,用户不同租户之间的隔离;同时租户可以创建多个安全组,一台虚拟机(通过不同的虚网口)可以找到不同的安全组内,不同的安全组有不同的安全访问策略保证租户内的虚拟机隔离

    特性设计

    • 多租户网络设计 数据中心支持多租户管理,能够在以较低成本合理利用资源,优化资源利用率;数据中心必须具备不同租户资源的隔离设计,确保端到端的隔离以及满足租户的安全要求。DC2采用虚拟技术支持多租户,在逻辑上划分成多个(每个租户)虚拟网络环境,每个虚拟网络拥有独立的路由表、地址空间、安全服务、配置管理
    • DC内网络设计
      • 三层网络设计 在核心层或汇聚层使用VRF技术提供网络层(L3)之间隔离设计,保证每个租户有独立的路由转发表,不同VRF之间的数据流交互默认情况下将不被允许;每个VRF可以绑定多个三层网关,承载多个子网,为虚拟机或物理服务器提供网关功能。同一个VRF下的不同网关之间默认可以互相访问
      • 二层网络设计 支持VLAN ID或VXLAN两种不同二层的隔离域,一个租户内不同的二层网络之间转发需要通过网关设备才可以进行互通,不同的租户默认是无法互通的
    • 网络服务设计
      • 虚拟防火墙 将一个物理防火墙逻辑的虚拟出多个防火墙或在虚拟机上运行软件虚拟防火墙,每个虚拟防火墙有独立的路由转发表、安全服务策略、配置管理;租户修改其所属虚拟防火墙的配置时不影响其他虚拟防火墙的运行
      • 虚拟负载均衡 将物理负载均衡器逻辑的虚拟出多个负载均衡或在虚拟机上运行负载均衡软件,每个虚拟负载均衡有独立路由转发表、负载均衡策略、配置管理;租户修改其所属虚拟防火墙的配置时不影响其他虚拟防火墙的运行
    • DC间网络设计
      • Internet 数据中心之间支持Internet互连,所有租户之间的业务通过公网IP访问,可以支持跨数据中心的资源调度;由于Internet网络质量相对较差,可能会由于地理距离造成较大延迟
      • VPN或者专线 企业异地数据中心之间可以通过租用运营商的VPN或专线资源实现物理DC之间的互通,VPN或专线链路质量相对稳定,是优先推荐的互连方式

    关键特性

    • 多租户隔离 保证每个租户之间的网络资源互相隔离,拥有独立的网络控制平面、独立的数据转发平面以及独立的策略配置管理;不同租户之间的资源运行互不影响
    • 网络即服务 网络资源作为一种基础服务提供给最终用户,如subnet、虚拟防火墙、虚拟负载均衡、VPN服务
    • 网络自动化 基于网络设备功能的抽象,设计可编排的最小单元作为网络服务单元(网络对象),通过业务需求的编排组合出不同的网络模型
    • VXLAN的虚拟网络 主要的技术原理是引入一个UDP格式的外层隧道,作为数据链路层,而原有数据报文内容作为隧道净荷载来传输

    SDN控制器实现VXLAN的部署框图

    统一管理

    主要针对的场景描述如下

    • 多数据中心统一管理 存在多个物理数据中心需要进行统一管理的场景
    • 物理、虚拟统一管理 数据中心中存在虚拟资源和物理资源需要统一管理的,例如:支持对虚拟资源和物理资源的统一监控,拓扑管理等运维管理能力
    • 异构资源池统一管理 数据中心有异构的虚拟化平台需要统一管理,例如:同时有vSphere虚拟化和KVM虚拟化平台需要统一管理

    部署架构

    • 云和非云统一管理 提供云资源和非云资源的统一管理能力
      • 非云资源管理 管理物理资源的性能、告警和拓扑
      • 云资源管理 管理云资源的自动化部署、操作能力;云资源的性能、拓扑、容量管理;云资源和非云资源拓扑映射关系

    物理、虚拟资源统一管理

    • 异构虚拟化统一管理 针对不同的方案采用不同的异构虚拟化方式
      • 方案一 在采用FM作为云资源池管理节点的场景下,FM提供了对异构Hypervisor的适配能力主要包括FusionSphere和VMware的vCenter。FM对异构平台的适配采用接口调用方式,FM提供了适配VRM和vCenter北向接口
      • 方案二 采用OpenStack对多Hypervisor的适配能力来解决,目前支持KVM(OpenStack原生支持VMware、XEN、Hyper-V、KVM,目前除KVM外其他尚不能商用,商用需要各厂商对各自插件的服务支持)

    关键特性

    DC2管理子系统总体架构

    • 云资源和非云资源统一监控能力 对云资源和非云资源的统一监控体现在对虚拟平台和物理资源的告警监控能力上,根据不同运维场景可选择不同的监控软件
    • 云资源和非云资源的性能管理能力 包括获取性能数据和性能阈值告警处理等
      • 虚拟机性能 支持和FusionManager及vCenter对接,监控虚拟化平台上VM的性能指标,包括CPU利用率、内存利用率、网络带宽、磁盘IO等
      • 物理资源性能 物理资源性能依赖于eSight或CA监控部件的指标获取;主要的对象有物理服务器,网络设备(交换机、路由器、防火墙等),存储设备的性能监控;监控指标主要包括CPU利用率、内存利用率、网络带宽等,根据设备类型不同略有不同。监控采集层软件将监控结果上报给OC,由OC进行统一展现
      • 阈值告警 管理员可以定义性能阈值告警,在监控的资源性能指标超过了定义的阈值时,系统将自动产生告警,提醒管理员对响应的性能风险进行处理
    • 云资源和非云资源的拓扑管理能力
      • 物理拓扑管理 对物理资源的自动发现,物理资源连接关系的自动发现。拓扑数据的自动发现由CA部件提供,OC集成CA的拓扑数据并统一展现
      • 虚拟拓扑管理 提供VDC内部不同虚拟化部件拓扑关系的展现,由于虚拟部件和连接关系都可以由管理员自主定义,因此虚拟拓扑是根据创建的结果来定义的
      • 拓扑关系映射 虚拟网络是叠加在物理网络上的,因此存在虚拟网络设备和物理网络设备间的映射关系。例如:VFM是在哪个物理FM上创建,VLB是在哪个物理LB上创建等
    • 云资源的容量管理能力 通过OC从FusionManager获取云平台资源数据来实现;OC将统一展现当前云系统资源的使用情况;主要包括VCPU、内存、磁盘容量、带宽等资源的使用情况;缺乏对物理资源的容量管理能力,包括物理空间、存储空间、网络带宽的容量管理能力
    • 异构虚拟化平台管理能力 真的FusionSphere和OpenStack两种部署场景提供异构虚拟化平台的支持
      • FusionSphere 采用FusionManager来屏蔽异构虚拟化平台
      • OpenStack 天然支持多种虚拟化平台(KVM、XEN、VMware、LXC等)

    备份业务

    用户在部署和使用虚拟机或应用时,为应对文件、数据丢失或损坏等可能出现的意外情况,往往需要对现有数据进行备份。分布式云数据中心解决方案针对备份业务提供来虚拟机备份框架和应用备份框架,其关键价值点有:提供基于虚拟机的备份,无需专用的备份系统,用户可以在服务Portal上自助完成虚拟机备份;提供基于代理的应用备份能力,用户可以按照应用或文件粒度进行应用备份

    部署架构

    分布式云数据中心的备份子系统,主要承载分布式云数据中心数据保护的功能,其架构目标如下

    • 虚拟机备份系统采用无代理备份方式、以虚拟机为单元进行备份
    • 应用备份系统采用有代理备份,用户可以在系统内安装代理,实现应用数据的备份和恢复
    • 用户可以定义备份策略
    • 用户可以通过业务Portal实现虚拟机和应用的备份

    虚拟机备份子系统的框架及其构成

    虚拟机备份架构

    • ManageOne管理平台 提供虚拟机备份自服务Portal,用户可以通过Portal对虚拟机进行备份的自助操作
    • 虚拟化平台 FusionSphere平台,提供虚拟机快照功能,和HyperDP备份服务器配合提供虚拟机备份业务
    • HyperDP备份服务器 部署在虚拟机内,虚拟机规格为4U4G及30GB系统盘,每个HyperDP备份服务器可备份200个虚拟机,最多可部署10个备份服务器组成一个备份域
    • 备份存储 备份HyperDP虚拟机关在的虚拟磁盘,或备份到NFS/CIFS共享文件系统中

    用户通过ManageOne下发备份策略到FusionManager,由FusionManager下发到HyperDP,HyperDP根据备份策略和虚拟化平台配合,针对虚拟机完成备份

    应用备份子系统架构及其构成为

    应用备份架构

    • ManageOne 提供应用备份自服务发放Portal,用户可以通过Portal申请应用备份服务
    • 备份系统
      • Simpana 协调和管理Simpana其他组件,发起数据保护、管理和恢复操作
      • Simpana MediaAgent 在备份客户端与存储介质之间传送数据
      • Simpana Proxy 用于备份客户端与CommServe、MediaAgent间的通信转发;用于管理节点与CommServe通信,实现备份业务的开通、注销,报告获取等
      • Simpana CommCell Console 用户通过Simpana控制台,实现执行备份、查看备份历史、浏览和恢复数据等操作
      • Simpana客户端安装包 定制化的Simpana客户端代理程序安装包,供用户下载安装到需要备份的主机上
      • 下载Portal 提供Web页面供用户选择下载所需Simpana客户端安装包
    • 备份客户端
      • Simpana FS iDataAgent 用于备份和恢复主机的文件系统
      • Simpana xx iDataAgent 用于备份和恢复主机上的某种应用,比如Oracle、Exchange等,一种应用对应一种代理组件

    关键特性

    虚拟机无代理备份能力和服务

    • 云主机用户可以根据业务需要自助申请云主机备份服务,云主机备份为无代理备份,用户无需额外安装代理软件;用户可对云主机做整机备份
    • 用户可以自定义备份策略
    • 支持虚拟机整机恢复,当用户选择整机恢复室,系统将为用户创建一个新的虚拟机,并将用户的所有数据恢复到新的虚拟机上
    • 适用于服务器虚拟化、数据中心、一体机、桌面云场景下用户虚拟机的备份
    • 支持生产存储为虚拟存储(基于SAN、NAS或本地磁盘)及FusionStorage下的虚拟机备份

    虚拟机的备份采用无代理的备份,一来虚拟化平台提供的虚拟机快照技术实现;虚拟机备份是周期性进行的,每次备份备份服务器都会通过虚拟化平台提供的北向接口创建一个新的虚拟机快照,完成数据增量计算和数据下载后,删除上一次备份的虚拟机快照。其关键技术是

    • 虚拟机快照 利用FusionSpherre的写时重定向技术(Redirect on Write)实现--在虚拟机磁盘文件被修改时,可以不修改原磁盘文件,而是将修改区域记录在另一个差分磁盘中,将差分磁盘的父磁盘指向原磁盘文件,使得虚拟机在从差分磁盘文件中读取数据时,能够自动从原磁盘文件中获得需要的数据;当虚拟机生成快照时,虚拟机将当前状态保存在快照文件中,包括磁盘内容、内存和寄存器数据
    • 数据备份过程
    • 数据恢复过程
    • 约束

    应用备份能力

    • 应用备份以数据中心管理员手工操作为主;用户可以根据业务需要线下向管理员申请应用备份服务;管理员在备份系统上增加相关权限和业务配置后,通知用户下载备份代理进行相关的备份业务
    • 用户可以在备份平台上自己定义备份策略
    • 用户可以根据需要备份应用,下载不同的备份代理软件,系统可以支持应用备份和文件粒度的备份
    • 支持基于SAN、NAS或VTL作为备份存储
    • 兼容多种应用和操作系统

    容灾业务

    为保证企业的业务连续性,企业除了对业务数据做备份外,通常还需要建立容灾系统。容灾系统是指在相较远的异地建立两套或多套功能相同的系统,系统之间可以相互进行健康状态监视和功能切换,当一处系统因意外停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾系统需要具备较为完善的数据保护与灾难恢复功能,保证生成中心不能正常工作时数据的完整性及业务的连续性,并在最短时间内由灾备中心接替,恢复业务的正常运行,将损失降到最小

    部署架构

    分布式云数据中心容灾子系统,提供基于IaaS层的容灾方案,包含

    • 基于存储阵列复制的云平台主备容灾框架 通过存储系统的远程复制实现生产中心到容灾中心之间虚拟主机或应用的数据保护;根据业务的RPO要求以及生产中心与容灾中心的网络状况,可以选择同步复杂或异步复制
      基于存储阵列复制的云平台主备容灾框架
    • 基于主机复制的云平台主备容灾框架 主要是通过虚拟化平台的Hypervisor层进行IO不活与复制,实现虚拟主机数据的远程复制。具有实时IO分流复制、复制网关、可扩展和存储无关等特点

    基于主机复制的云平台主备容灾框架

    • 基于VIS的云平台双活容灾部署框架
      基于VIS的云平台双活容灾部署框架

    基于VIS的云平台双活容灾是结合VIS集群技术和云平台Active-Active模式部署技术实现的装货容灾方案。通过在云平台与存储阵列之间部署VIS集群,多个VIS节点按Active-Active模式分布在本地和远端,并结合VIS的镜像技术,可以支持本地和远端同时访问共享存储;实现容灾倒换后存储业务的无缝切换;同时云平台同一个集群内的主机按照Active-Active模式分布在本地和远端,利用虚拟的HA功能实现容灾自动倒换功能

    安全业务

    一个体系化的分布式云数据中心安全解决方案必然应该覆盖所有组成元素,且安全元素支持逻辑隔离,而不能单用传统的技术手段、物理边界实现其全部的安全保障。安全子系统架构目标

    • 模块化 从物理层安全、网络安全、主机安全、应用安全、虚拟化安全、用户安全、安全管理、安全服务八块内容进行设计
    • 端到端安全 实现用户从接入、使用、完成退出的端到端的安全防护
    • 低耦合 涉及到数据、网络、应用等各个层面的安全防护,但整个安全架构体系具备低耦合性的特点,各种安全技术之间不存在强关联性
    • 逻辑隔离
    • 易扩展
    • 合规性

    部署架构

    分布式云数据中心从分层、纵深防御思想出发,根据层次分为物理设施安全、网络安全、主机安全、应用安全、虚拟化安全、数据保护、用户管理、安全管理等几个层面,全面满足用户的各种安全需求,安全子系统架构图如下

    安全子系统架构图

    该架构中包含以下安全层面的能力

    • 物理设施安全
    • 网络安全
    • 主机安全
    • 虚拟化安全
    • 应用安全
    • 数据安全
    • 用户管理
    • 安全管理
    • 安全服务

    关键特性

    • 网络安全防护
      • 虚拟防火墙
      • 软件虚拟防火墙VSA
      • 安全组
      • 下一代防火墙统一威胁防护
      • VDC网络安全防护框架
      • 防IP及MAC仿冒
      • DHCP隔离
      • 广播报文抑制
    • 虚拟化无代理防病毒
    • TPM完整性保护

    ManageOne简介

    ManageOne在解决方案中承担CMP(Cloud Management Platforms)的职责,通过自研和集成的方式,为企业客户提供对企业私有云资源及企业租用的公有云资源统一管理的能力,包括租户自助服务节目,云产品管理和产品目录,计量,计算、存储和网络资源自动化配置,云服务和云资源的运维监控等

    ManageOnePosition

    特点

    ManageOne系统特点包括:多级VDC管理、一云多池、混合云管理、虚拟化资源池管理、主动式运维、云服务运维、多级云统一运维、开放易集成、多规模部署等

    架构

    ManageOne产品架构主要介绍ManageOne的运维面和运营面,以及ManageOne与周边系统的关系。ManageOne围绕云服务及其依赖的基础设施资源提供运营和运维监控能力

    • 提供云服务运营管理能力 ManageOne提供云产品管理、租户管理、VDC管理等能力,运营业务能力由云服务提供,从而实现云服务的统一运营管理
    • 提供云服务及虚拟资源运维监控能力 ManageOne基于南向对接系统中抽取的资源对象的告警、性能、拓扑等信息,对资源进行监控、统计、分析与预测,从而实现云数据中心资源的统一运维管理
    • 提供对基础设施的运维监控能力 ManageOne提供对计算、存储、网络设备的运维监控能力,采集和监控告警、性能等数据,从而实现基础设施的统一运维管理

    ManageOne

    小结

    文章介绍分布式云数据中心解决方案,其中涉及许多虚拟化技术,若有兴趣可深入研究

    参 考 文 献

    [1] Distributed Cloud Data Center V100R001C10

    [2] ManageOne6.5.1

    展开全文
  • 003云数据中心基础原理笔记

    千次阅读 2017-04-05 22:22:15
    云数据中心

    01 云数据中心代替传统数据中心

    1.从IBM和Amazon的2013年案例分析

    CIA项目最看重的三个主要方面的内容:
    技术的展现方面、技术的解决方案方面、服务水平保障方面
    CIA项目的业务本质:情报社区云—基于互联网架构的私有云业务,当业务出现高峰时,系统是否能够快速的水平扩展,是关键考量因素
    CIA最终选择AWS的云数据中心解决方案,而放弃了IBM的传统数据中心,是对云数据中心解决方案的认可。

    2.云数据中心和传统数据中心

    传统数据中心的模式主要特点:孤岛式、烟囱式的,从当年的PC机到X86服务器,再到小型机和大型机,2009年以前,这个模式都是主要的建设和发展模式。
    2009年之后,整个IT技术发生变化,由传统的烟囱式、孤岛式的传统数据中心的纵向扩展,向水平的横向扩展的方向演进。
    以2013的CIA的项目为转折点,可以看到整个产业链往虚拟化、云化方向发展的步伐是越来越快,云数据中心势不可挡,云数据中心代替传统数据中心市委来IT发展的方向和必然选择。

    02 传统数据中心的组成

    1.数据中心机房设施

    服务器、存储、网络—放在机房中
    机房的环境要求:保证供电,保证恒温,保证一个相对稳定的环境

    2. 传统数据中心的组成【共四部分】

    第一部分,一套集中对外提供信息服务的IT设施,像服务器、存储、网络,一般也称为基础设施层
    第二部分是保障IT设施稳定运行的环境设施。像数据通信连接,换进过的控制设备、监控设备、安全装置等。一般称为机房配套层。【独立建设】
    第三部分:应用软件层,例如:缴费软件
    第四部分:存放数据的数据库软件以及其他特定的中间件软件,一般称为平台软件层。

    如果不够,则进行相对的扩充,扩内存,CPU,扩磁盘等,要是不行,就换更好的机器,称为垂直扩展,他的特点是:越往上扩展费用越高;而且每次扩容都需要停止业务进行系统的割接;风险极高。

    3.传统数据中心的特点

    传统数据中心除了机房配套层是多业务共享之外,各个业务系统的基础设施只能给自己的业务软件使用,即使业务在波谷不用时也不能给别的系统使用,相互之间的IT建设是割裂的。长久建设下来,就形成了一个个的IT烟囱或者叫做IT孤岛。

    03 云数据中心的组成

    1.AWS云数据中心的组成

    该云数据中心是由28个大型的云数据中心+52个边缘的云数据中心互联在一起,形成的一朵云。统一的呈现,覆盖了全球的11个地区。

    2. 云数据中心是什么?

    传统的数据中心提供的是服务器、存储、网络这些设备。
    云数据中心提供的是一种IT服务,就像计算服务、存储服务、网络服务,甚至包括数据库服务、管理服务等等。它是以统一的标准的服务形态来提供的,客户需要什么样的IT能力,云就可以按需给你相应的IT服务而不是设备。无论业务延展到全球哪里,都可以获取这种IT的云服务能力。

    3. 云数据中心的水平扩展能力

    当业务需要急速扩展的时候,可以快速的通过增加IT服务进行水平的平滑扩展。
    云数据中心的水平扩展能力含义:【3层】
    【1】第一层是技术上的平滑扩展,举例:原来是X86服务,现在只需要增加更多的X86服务即可,在架构上没有断裂,不需要停止业务,也不需要割接扩容,风险就降低了。
    【2】第二层是水平扩展使用的设备是低成本的,甚至未来可以是由白牌化的通用设备,而不是昂贵的专用IT设备。所以扩容时不需要等待厂家的专门生产,扩容成本是线性可控的。
    【3】第三层含义是资源的弹性使用,当你的业务出现波谷时,可以把不用的或者闲置的IT资源释放给其他的软件使用。实现资源的共享和弹性伸缩。最终实现IT资源的削峰填谷。
    水平扩展模式的特点:
    共享资源、弹性、高效、低成本、高可靠

    4.云数据中心核心—云操作系统

    云数据中心要实现这种水平扩展的IT服务,云操作系统是关键的核心。跟传统数据中心对比,对打的不同也是这里。
    在基础设施层,由云操作系统把服务器、存储、网络、安全等IT设备能力转变为各种IT服务。向上提供给平台软件和应用软件使用。也就是说,传统数据数据中心安上了云操作系统这颗心脏,就变成了云数据中心。

    5.云数据中心的建设模式

    基础设施与上层应用、平台软件进行了解耦。一个统一的基础设施不在只为一个应用提供IT支撑,而是为企业所有的业务提供IT支撑。多业务共部署称为常态,这种聚焦在基础设施层提供的云服务,我们称为IaaS.

    6.云数据中心提供的IT服务演进

    SaaS最早 应用软件
    PaaS最慢 平台软件
    IaaS最成熟 基础设施

    04云数据中心与传统数据中心的区别

    1. 云数据中心与传统数据中心的区别

    【提供的服务以及架构方面】:
    传统数据中心是面向应用软件提供设备,是烟囱式的架构,
    而云服务数据中心是提供IT服务,是共享式服务架构。
    【应用价值上方面】:
    传统数据中心的资源虽然是业务独占的,但从整体的数据中心的角度来看,波峰波谷的忙闲是不均的,会出现资源闲置,利用率低于10%,粗腰买大量的新机器,建设期长达3-6个月。
    而云数据中心是按照分钟提供资源,他能够很好的将那些不用的资源共享给新的业务使用。资源的利用率高达60%以上。换言之,就是云数据中心可以实现企业级的资源共享,资源共享的好处就是把那些闲置的被浪费的,资源利用率低的重复利用起来。
    【可扩展性方面】:
    当数据中心的资源不够时,传统的数据中心就要去买内存,扩存储,如果还是不够就去买小型机或者大型机等,整个的建设成本是越来越高。是一种几何式跳跃式的增长。而且扩容时需要复杂的割接,往往需要停业务;
    而云数据中心采用的是X86架构,云数据中心的水平扩展除了带来低成本线性扩容优势外,就是IT服务的增加不需要停业务,

    2.云数据中心的几大特点

    云数据中心在几个方面实现了质的飞跃:
    【1】提升了资源供给的速度,先从几个月到几分钟。
    【2】提升了资源的平均使用效率,从10%到60%
    【3】改进了资源的扩容模式,从垂直向上的扩容转变为水平平滑的线性扩容。
    【4】降低了资源的建设成本,比如实现了小型机的X86化
    【5】提升了资源的维护效率3倍以上。

    3.云数据中心重点关注的问题

    【1】以降低成本为主要目的的云数据中心的高效建设问题
    【2】以提升效率为主要目标的云数据中心的高效管理问题
    【3】以缩短上线支持时间为目标的云数据中心的敏捷使用问题

    05 云数据中心建设和演进路线

    1.高效建设云数据中心的含义

    高效建设顾名思义就是建设的速度要快,建设成本低

    2.高效建设云数据中心的前提

    第一个是选好标准,就是究竟采用什么样的标准才能匹配业务目标。
    第二个就是规划蓝图,也就是同一架构,即大家要遵循统一的云数据中心的架构
    第三个就是制定好实施的路线图。

    3.云数据中心的演进方式一——全局规划

    通过云数据中心进行全局的规划,分步实施。大型企业具备技术实例,大都采用这种方法。
    实施的步骤:
    第一,是建立云数据中心的样板点,确定云服务的标准。
    第二,建立云数据中心企业级的统一调度平台,强化大脑
    第三,向周边复制云数据中心,强化网络自动化,实现多数据中心互联互通。
    第四,业务云化变迁到云数据中心之上
    第五。,持续的进行云数据中心的经营优化。

    4.云数据中心的演进方式二——通过构建资源池,以点带面,逐步渗透

    使用对象:技术能力偏弱的企业
    第一步是:通过构建资源池,然后迁移一两个业务到云上去,验证云的效果
    第二步是把建立的多个资源池互联起来,形成一朵云,随着业务的增多,可以把一部分云迁移到自己的云数据中心上。另一部分的业务迁移到公有云里面。形成一个混合的云数据中心的架构。验证混合云的效果。

    5.云转型的三条路径

    第一条路:那些初始公司,中小企业和政府都会优先选择亚马逊或者阿里云等或者政企托管云服务,直接在云上购买服务。
    第二条路:通过新建云数据中心,整合搬迁传统的数据中心,建立云数据中心的整体能力,是一种从水平角度上打地基的模式,云数据中心和云服务能力统一构建,然后再逐步的搬迁到云数据中心之上。在大企业,运营商和银行会用这种方式
    第三条路:就是跟随业务云化节奏,采取逐渐渗透的模式,先围绕外围的业务,建设云资源,然后逐渐的演进到核心业务中去,形成完整的一朵云,这种模式经常倍大中型企业选用。
    三条路不是完全分开的,是相互的交叉的。

    06 管理好云数据中心

    1.云数据中心效率提升靠管理

    Google的例子:拥有全球最大的搜索和广告业务,每天处理海量的互联网数据。
    Google采用分布式架构。在全球构建了云数据中心,首先它建立了一个全球统一的云数据中心管控平台(全局资源集中管理与大数据平台),通过这个管控平台把全球资源集中起来实现自动化,统一运维。
    当一个云数据中心有问题时,可通过这个管控平台,依托自动化技术,实现全球资源的统一弹性调度,这一切的变化,客户是无感知的。
    所以企业级的统一的云数据中心资源管控平台是管好云数据中心的关键支撑手段。

    2. 主动与被动运维模式:

    如何实现主动运维模式,把问题扼杀在摇篮里?
    第一步是解决全球资源可视化问题,要能看到哪台机器是忙的,哪台机器是坏的,哪台是需要维修的,这些信息不是靠人工检查,而是要靠技术、手段去支支持。在这个基础上还要对大量数据进行健康体检。
    很多时候,找到数据中心的热点,提前把他解除掉,不仅仅会降低系统的隐患,提升资源利用率,还能降低能耗。

    3. 数据中心健康体检可视化

    在资源运行可视化基础上,就可以实现数据中心资源的健康体检可视化,通过自动化工具把运维的经验不断的沉淀下来,再把这种经验编写成各种脚本固化下来,从而加强了整个自动化处理,同时开展大数据分析,这种主动发现问题预先处理隐患,是云数据中心健康稳定运行的关键保障措施。

    展开全文
  • 在第六届中国云计算大会数据中心与运维论坛上,中国联通云数据有限公司运维与服务部总经理康楠发表了主题为“云数据中心发展趋势与联通领先一体化运维体系”的演讲。他表示新一代数据中心=Cloud+Internet+DC,应该...
  • 火炉山蚁群 ┃ 一群自研...南方基地移动云网络运维团队针对云数据中心的网络异常行为进行特征提取和分析,并基于移动云sdn数据中心的网络架构和原理进行深度剖析,总结出一套“流表流量粗细结合”的分析策略,成功实现

    火炉山蚁群 ┃ 一群自研转型的背锅侠

    摘要:云数据中心的网络异常行为不仅对网络设备造成严重业务负荷,同时也显著影响云用户使用感知。云计算环境中的共享资源模式和云用户迥然不同的业务形态,使得云网络分析和异常行为定位极为困难。

    南方基地移动云网络运维团队针对云数据中心的网络异常行为进行特征提取和分析,并基于移动云sdn数据中心的网络架构和原理进行深度剖析,总结出一套“流表流量粗细结合”的分析策略,成功实现低成本高效率的网络异常行为发现。

    同时基于devops理念,制定了一套网络异常行为自动化检测和封堵的智能系统,实现对网络异常行为的快速处理。

    关键词:SDN 网络异常行为 自动化

    一、I n t r o d u t i o n

    前言

    在集团公司的大连接战略中,云管端服务体系是数字化转型的关键技术。作为云管端体系的重要环节,云计算得到大力发展。移动云(ecloud.10086.cn)是总部级公有云,其在南方基地节点具备2400台物理主机、450台网络设备的硬件规模。

    移动云采用前沿的openstack+SDN架构,为客户提供快捷、可靠的云服务。为实现海量的不同用户之间相互隔离,SDN在原有基础网络之上构建overlay网络来承载用户流量。

    在数据中心中,海量的用户虽相互独立,却共享着相同的网络架构与基础设施资源。在如此复杂的网络架构下,面对用户形态各异的业务,想要从网络层面分析客户的流量与业务行为,愈发困难。

    1.1、客户投诉频发

    针对云网络投诉工单分析时发现,网络异常行为引发的投诉占比较大。

    这类投诉主要有以下几类常见形态,如云主机密码被攥改 后无法登录、云主机被攻击导致拒绝服务,或者怀疑云主机被植入未知东西请求定位分析等。处理这类问题极为棘手,从回溯云主机过往流量来定位网络异常行为,进阶追踪异常流量来源,并提供有效数据让客户配合整改等,每个环节不仅需要依赖于昂贵的专业网络分析工具,同时还耗费较多的运维时间和人力。

    在网络分析工具未采集和保存相关异常流量的情况,异常流量无法深层次展开分析,会出现问题无法解决的极端情况。

    1.2、网络设备负荷大且网络使用感知差

    在云网络环境中倘若没有及时发现并封堵某个云主机的网络异常行为,不仅会导致同一区域内的其它虚拟机有感染病毒的风险,还会对给数据中心的网络设备带来较重的业务负荷。

    前期云数据中心出现过云主机发出大量小包攻击导致出口云防火墙达到处理能力极限引发设备模块异常宕机,云主机发出大量无效填充数据包导致接入网络设备链路达到最大阈值等多起网络故障。

    网络异常行为的连锁影响,会降低数据中心提供的网络服务质量,在行业和客户中带来负面印象。及时发现并有效封堵这类网络异常行为,是云计算网络运维需要尽快解决的迫切难题。

    二、Nature

    问题本质分析

    从攻击方向上来区分,云数据中心的网络异常行为可以分为外网攻击和内网攻击。外网攻击是指攻击源来自于外网,与此相反,内网攻击是指攻击源来自数据中心内部。云数据中心外网攻击问题的风险相对可控,可以通过加强边界安全防护来应对;内网攻击问题的风险和影响范围则要严重得多。

    云数据中心提供的安全可靠的云主机无故变成攻击源,用户会质疑云服务的可靠性,引发信任危机。为什么云主机变成了攻击源且没有手段及时主动发现内部攻击源,是问题关键。

    2.1、客户行为空间大,安全意识薄弱

    首先,云数据中心提供给用户的网络编排服务是极为灵活的,尤其是公有云数据中心,用户可以按需订购路由器和防火墙等网元,也可以自由定义外部的防火墙规则和内部的云主机安全组规则。不同云租户业务形态及重要性不同,负责运维的IT人员水平也不同。

    倘若有部分用户的安全防护意识不高,例如未设置合适的安全防御规则或是操作行为管控不严格,其云主机可能因植入木马或感染病毒而成为网络攻击源。由于云里面虚拟化层面的许多资源是共享的,内网IP主机受感染后会对其他内网主机、外网IP进行感染和攻击,会进一步扩大感染范围。

    2.2、现有安全防护设计集中在出口

    其次,受限于技术发展制约,现有安全设备虚拟化的进展相对较慢。目前较多的安全设备仍然采用传统模式且较为集中部在数据中心出口边界处。这种部署模式更多的是进行数据中心南北向流量的安全防御,针对数据中心内部的安全防御能力则较为薄弱。

    例如内网庞大的流量里遭遇小包攻击或者是一台虚机中了病毒开始做慢速扫描,这类网络异常行为一般很难发现和引流出来,这样就会把一些非常严重的安全事件忽略掉。

    2.3、传统网络分析手段的制约

    最后,采用传统的网络流量采集分析系统(包含数据中心内部的流量),通过其回溯和分析能力可以清晰定位网络异常行为,但这是一个昂贵的解决方案。

    大多数云数据中心内部都是使用的万兆以上的网络,服务器与服务器之间的通信流量很庞大,在上百个机柜上千台服务器的情况下,数据中心内部流量极其庞大。传统网络分析系统通常是几十G的处理能力,难以满足内部大流量需求。

    三、Measure

    云网络异常行为的处理手段

    在云数据中心构建内部和出口侧全方位一体的网络异常行为检测系统,是解决问题的第一步,也是尤为关键的一步。南方基地针对网络异常行为进行特征提取和分析,并基于移动云数据中心的网络架构和原理进行深度剖析,总结出一套“流表流量粗细结合”的分析策略,成功实现低成本高效率的网络异常行为发现。

    在云数据中心内部,数据量极为庞大的云主机数据发送端,通过匹配虚拟交换机的流表特征,初步筛选出异常虚拟机;在云数据中心核心层和出口侧,数据量相对较少的网络节点上,基于传统网络分析系统匹配用户数据包的特征,精准筛选出异常虚拟机的可疑行为,并进行深层次的问题分析。

    3.1、SDN组网环境介绍

    移动云数据中心在四期项目中采用了SDN的网络解决方案,以满足网络全自动化部署、快速配置等数据中心网络新需求。

    在网络管理平面引入了openflow流表,实现控制器对虚拟交换机的灵活控制;在网络业务平面引入了vxlan技术,即在原有underlay网络之上构建了一层overlay网络,打破vlan数量制约,显著扩展业务隔离域数量。

    图1:sdn云数据中心的具体网络架构示意图

    3.2、新的发现手段:源+出口两手结合

    我们从物理机上虚拟交换机的流表和移动云核心、出口侧的流量这两个点出发,可以实现对数据中心内部流量的全方位覆盖,并能针对具体网络流量进行全面。

    3.2.1、虚拟交换机的流表分析

    传统数据中心内,硬件服务器是最小的计算单元;云数据中心内,虚拟机才是最小的计算单元。与传统数据中心组网不同,云数据中心内虚拟交换机是名副其实的接入交换机,是网络接入的第一线。

    采用传统的网络分析方法,需要通过端口镜像的方式将流量引出到外部的网络分析系统进行异常行为的判断。端口镜像的方式,会对硬件服务器的网卡性能进行对半消耗,同时对虚拟交换机的性能也有较大影响。能否在虚拟交换机上通过其它的方式来进行网络异常行为的发现呢?剖析虚拟交换机的工作原理成为关键。

    OpenvSwitch,简称OVS,是一个虚拟交换软件。OVS的连接着物理网卡和多块虚机的虚拟网卡,并根据内部的 MAC地址映射表完成数据转发。在SDN架构下,控制器下发openflow流表指导OVS进行实现交换策略。

    图2:OVS示意图

    ovs核心工作包括数据转发和实现交换策略。数据交换工作,即负责从设备入端口接收数据包并依据流表信息对其进行管理。而OVS的OpenFlow协议支持则用于实现交换策略,即通过增加、删除、修改流表项的方式告诉数据转发通路针对不同的数据流采用不同的动作

    虚拟交换机的内核流表,能够较为直观的反应出实时流量的关键信息,如虚拟交换机端口,源目的ip,源目的端口,数据包类型等。若此时有一个ping数据包,其相对应的流表如下如示。

    图3:虚机所处物理环境

    获取到以下对应的流表:

    表1:流表数据

    虚拟机的每一个实时会话都会以一个流表项的方式呈现出来。只要针对流表项进行深度分析,就能真实复原云主机的会话详情。虚拟交换机的下联端口与云主机一一关联,若是虚拟交换机某个下联端口的流表提取特征有异常,则可以判断出该端口对应的云主机有可能存在网络异常行为。

    • 流表数量过大:单台云主机对应的流表数量超出10000条/秒。

    • 流表方向不对称:单台虚机对应的出方向流表数量大于2000条/秒,且入方向流表小于50条/秒。

    我们采用了开源监控工具zabbix设置好告警规则,包括某段时间内的平均流表数量、某段时间内的流表变化速率、收发比阈值等告警条件。在某一台虚机或物理机流表数据匹配上规则时,发出相应的告警。

    3.2.2、数据中心核心和出口侧的流量分析

    数据中心的核心层和出口侧均进行端口镜像将流量引入到后端的网络分析系统。核心层和出口侧的流量虽然相对较少,但却是数据中心的关键流量信息,例如数据中心与外部网络的交互,数据中心内部跨汇聚交换机的交互流量均能被有效采集。针对网络分析系统获取到的数据包进行下述关键特征匹配。

    • 数据包收发比:正常通讯过程中,通讯双发的数据会维持在特定的收发比例,即使下载数据过程中,数个下载数据包后总会有一个ACK包维持通信过程;根据移动云用户历史数据基准,定义符合“单台主机发包大于10000个/秒,收到小于50个/秒”的条件时,是填充数据包攻击的网络异常行为。该行为对网络影响严重,数个这样的客户端可使一条10G链路超载;通过该策略找出的异常客户端,经过事后验证,从未错误识别过一台正常主机,属于适合云环境的有效预警策略。

    图4:收发比异常流量

    • tcp同步数据包收发比:云内部不正常的SYN扫描总伴随着安全攻击和泛洪攻击。根据移动云历史基准,正常的云端主机的TCP连接行为会维持在一个稳定水平,定义符合“单台主机tcp第一个请求数据包的发包大于2000个/秒,ack应答包收到小于50个/秒”的条件时,是泛洪攻击的网络异常行为。

    图5:SYN攻击数据包

    若是数据包匹配上述规则,则触发告警,通过实时对监控链路的流量异常变化进行预警,发现异常虚机,在用户体验感受下降前,主动出击解决问题,实现运营的主动化。

    四、Intelligent means

    云网络异常行为的智能处理

    在云数据中心流程化、自动化处理网络异常行为,是抑制网络异常行为带来的影响,也是彻底刨除问题源头的重要环节。南方基地结合开源监控软件及自行开发的运维平台,自动化采集流表及流量数据,智能化告警监控,定制化开发异常流量的封堵手段。

    在抑制病毒扩散,清理病毒源的同时,实现自动化运维,提高运维效率。从被动运维,被动接投诉、接故障,到主动运维,及时发现问题,实时处理问题,实现运维角色的转换。

    4.1、自动化处理流程

    处理流程:采集—-告警—-封堵—-整改—-整体提升。对于网络异常行为,我们采用了智能化、自动化的处理方式。

    图6:自动化处理流程

    首先,对物理机上虚拟交换机的流表和移动云核心、出口侧的流量信息进行数据采集。采用zabbix自动获取物理机上虚拟交换机的流表数据,采用科来系统镜像引流核心层及出口侧的流量。

    其次,分别在zabbix、科来系统上设置阈值及关键特征等告警条件,及时发现网络异常的公网IP或客户虚机。然后,调用云数据中心openstack的API接口,为云管理平台定制化开发流量封堵功能,对网络异常的流量进行封堵。

    最后,在核实客户已完成整改后,由云管理平台解封客户虚机,整体提升数据中心的网络环境。

    4.2、数据采集

    4.2.1、zabbix工具

    流表数据采集使用zabbix系统,zabbix是一套具备分布式系统监控及网络监控功能的开源软件。为解决云环境下,客户虚机动态创建,端口流表数据采集无法提前配置的问题,我们采用zabbix自动发现规则,在物理机上配置好key,并结合OVS,实时发现虚机及对应的虚拟端口,定时收集每台虚机的流表数量、数据收发等关键数据。

    4.2.2、科来系统

    出口侧流量采集使用科来系统,科来网络回溯分析系统是一款集成数据包采集和智能分析硬件平台,分布部署在网络的关键节点,实现对数据包级的实时智能分析。我们采用端口镜像的方式,通过分光器将出口侧及核心层的业务流量复制到后端分析节点,从而获取出口侧流量数据。

    4.3、告警阈值设置

    依据上一章节的OVS流表规范及出口侧流量规范设置zabbix及科来系统的告警规则,智能发现网络行为异常的虚机和公网IP。利用其图形界面展示某段时间内虚机的流表数量、变化速率及收发比变化,以及公网IP的数据包内容及连接数量等信息,协助甄别客户虚机是否正对外发起攻击。

    图7:虚机流表数量过大告警

    图8:公网IP行为异常告警

    4.4、定制化开发流量封堵功能

    在openstack与SDN的云环境中,端口分为内网端口和外网端口,虚机对外访问的流量先经内网端口转发到外网端口后再通过外网。为保证网络异常行为不影响数据中心内部网络环境,我们需在内网端口进行流量封堵。

    同时,为保证客户能有特殊通道进入虚机进行安全整改,我们使用安全组放通特定流量。调用openstack API及监控系统API,在云管理平台定制化开发行为异常封堵功能。在发生行为异常告警时,可由云管理平台直接完成流量封堵并通知客户。

    图9:云管理平台调用控制器对虚机流量封堵示意图

    正常的流量途径是:虚机——>虚机网卡——>虚拟交换机——>物理网卡——>外部网络,其中,在虚拟交换机上经控制器下发流表对流量进行nat或隧道封装。

    简单地对虚机网卡进行流量封堵,会因客户行为引发openstack系统状态恢复而导致虚机网卡封堵失败。在物理网卡上进行流量封堵,则会导致移动云系统前后台配置不一致。

    为了精确区分每一个虚机的流量,保证封堵的效果与稳定性,采用自定义开发的脚本,通过API接口调用控制器下发openflow流表丢弃异常的虚机流量是最佳的选择。

    图10:云管理平台自动化封堵异常行为虚机

    封堵逻辑如下:云管理平台通过api接口查询openstack系统,确定网络行为异常虚机的端口信息。同时,预先定义好限速为100k的QOS及放通特定端口的安全组规则。确定端口信息后,云管理平台将预设的QOS、安全组及虚机端口下发给SDN控制器。SDN控制器自动生成openflow流表,并下发到流量异常虚机所在物理机,由流表实现异常流量的封堵。

    4.5、自动化处理思路

    移动云数据中心采用了SDN的网络解决方案,引入openflow流表、vxlan等新技术,带来网络全自动化部署等新功能,但也增加运维的复杂度。为了减少重复、繁多的运维工作,自动化是必然的发展方向。

    深入剖析openflow流表、客户网络行为、数据包结构三者之间的关系,挖掘到这些离散数据背后的规则,使自动化处理网络异常行为成为可能。移动云使用的开源软件openstack、zabbix等,更便捷地对接数据采集、监控告警、系统封堵各环节,是流程自动化的保证。

    将重复的故障处理脚本化,能为自动化平台提供原子脚本支撑,并丰富平台功能;而自动化平台的开放性与完整体系,保证大多数的运维工作都能在平台上实现。两者相辅相成,最终实现平台自动化完成重复性、规律性工作,提高整体运维效率。

    五、Achievements and Extend

    效益及推广分析

    5.1、网络攻击有效遏制

    采用该套异常流量分析系统后,网络安全事件工单数量从平均每周13单,下降了80%。安全事件工单处理时长从8小时,缩短了95%,半小时便能走完以下步骤:智能发现异常流量、历史数据判断,专业分析确定异常,自动化封堵流量。使得数据中心的异常流量得到有效控制,网络安全环境大为改善。

    5.2、发现新的分析手段

    结合ovs的流表匹配规则,不仅能收集全网虚机的网络流量数据,同时也不会侵犯客户数据隐私。该分析策略用于故障预防和快速定位,可实现运维可视化管理,用量化数据指导云数据中心建设,从科学的角度去规划、优化网络与业务系统,不仅是保证网络业务正常,还能为产品运营提供支撑,扩大运营收入。

    “更 多 背 锅 侠 的 自 研 转 型 故 事 ,尽 在 火 炉 山 蚁 群  !”

    更多相关文章阅读

    看腾讯运维应对“18岁照片全民怀旧”事件的方案,你一定不后悔!

    多么痛的领悟:十三起惨痛宕机案例

    运行无间:阿里巴巴运维保障体系的一种最佳实践

    芳华永在!一个老运维的20年奋斗史

    饿了么异地双活数据库实战

    有赞数据库自动化运维实践之路

    运维版《成都》,听哭了多少人...

    同样会 Python,他的工资比你高一倍

    阿里万亿交易量级下的秒级监控

    IT 运维的救赎——顺丰运维的理想践行


    成为认证运维开发工程师,工资翻倍竟是如此简单?

    来高维学院,28天沉浸式学习


    培训后通过考试即可获得运维开发工程师权威认证证书



    发证机构说明:工信部下属单位、技术联盟、高维学院联合认证

    成功入职大企的学员将收获高维学院奖励的超大额5000元人民币奖学金!!!

    更多企业直通车,正在路上。

    也欢迎企业和我们联系:

    刘琳,微信/电话:13910952502

    参与认证运维开发工程师课程报名、详情请点击阅读原文链接

    展开全文
  • 近年来,云数据中心的电力成本已成为实际问题,并引起了业界和学术界的极大关注。数据中心能源效率的早期工作大部分都集中在最大的电力消耗者(即计算机服务器和冷却系统)上,而没有考虑网络部分。但是,最近的研究...
  • 全球的云数据中心是电力消耗的主要来源。 能源效率可以通过 VM(虚拟机)整合方法来实现,其中选择在过载主机上运行的 VM 迁移到另一个正常负载的主机。 在本文中,我们通过考虑主机系统的多特征提出了一种节能的...
  • 看图赏鉴——阿里张北数据中心 CDCC昨天 数据中心是一个复杂的系统工程,涉及到能源、选址、规划、建筑、结构、供配电、空调、通信、消防、监控,涉及到服务器、存储和网络,涉及到运维、管理、服务、应用等等,...
  • 架构对运维系统的新需求和新挑战 引入云计算和业务需求带来运维压力 随着越来越多的企业拥抱云计算,为了支持业务系统的快速上线、灵活伸缩以及更高的SLA要求,再加上有限的IT运维成本,运维人
  • 云数据中心的电力基础架构及其关键技术 引言 信息集成是消除企业内信息孤岛、实现信息共享、提供决策支持的核心技术,而数据中心是信息集成系统的基础,具有重要的学术和应用价值,一直是近年来的研究热点,也是...
  • 精品文档 企业数据中心建设公有 VS私有分析 一 相关概念 一 定义和特征 云计算 是信息化 互联网 移动互联网对低成本海量数 据存储和大规模并行计算需求快速增长背景下出现的基于互 联网的新型 IT 服务体系架构...
  • 华为SD-DC²架构, 聚焦数据中心云

    千次阅读 2016-02-24 14:14:11
    华为云数据中心解决方案聚焦于云时代IT架构下的数据中心云化,提供整合、端到端、全层级的数据中心架构,通过持续创新、合作共赢,帮助客户创造更高价值。
  • 昨天中央新闻高调发布中国浪潮第一款基于"云计算+存储"的操作系统问世。   下面是有关新闻:     云计算中心操作系统--云计算的关键一步  云计算从前端看,用户能够按需...
  • 云计算技术与应用 云计算数据中心 1 云数据中心特征 1 云数据中心特征 高设备利用率 绿色节能 采用虚拟化技术进行系统和 数据中心整合,优化资源利 1 2 通过先进的供电和散热技术 用率简化管理 降低数据中心的...
  • 华为企业网络产品线数据中心网络领域总经理 SDN,在经历了犹豫彷徨、百家争鸣之后,目前已成为企业CTO的坚定选择。 SDN时代的网络展现出两面性:一方面让客户使用更加简单,另一方面却让运维更加...
  • 政务系统是一种联机分析处理/联机事务处理(OLAP/OLTP)的混合型系统,通过分析政务云数据中心架构特征,针对传统存储模型所造成的网络与I/O瓶颈问题,在Oracle Exadata基础上,针对集中式社会服务特点,提出了云数据中心的...
  • 数据中心一体化协同分布式管理平台建设 发表时间:2013/1/28 林强 罗欢 来源:万方数据 关键字:广东电网云计算应用 管理平台 数据中心一体化 信息化调查找茬投稿收藏评论好文推荐打印社区...
  • 什么是云计算数据中心? 现在可能会有很多人对云计算、数据...云数据中心的特点首先是高度的虚拟化,这其中包括服务器、存储、网络、应用等虚拟化,使用户可以按需调用各种资源;其次是自动化管理程度,包括对物理...
  • 传统信息化架构和运营模式面临发展瓶颈 基于架构的企业业务应用 实现云计算虚拟数据中心的技术路线 面向云计算的数据中心网络的基本特征
  • 化升级、存储全闪存化等变革之下,数据中心网络正在向全以太化的超融合架构迈进。基于物理网络的全无损以太架构、管控析一体的管理融合、以及全场景的服务化能力融合,超融合数据中心网络架构可打破协议、管理与...
  • 云计算数据中心的自动化管理使得在规模较大的情况下实现较少工作人员对...特征云自动化按需分配和收回服务器存储网络应用程序数据中心的管理需要资源的自动化调度和对业务的灵活响应即需要单个业务能自治管理也需要一...
  • 9.1 云数据中心特征9.2 云数据中心网络部署9.3 绿色节能技术9.5 容灾备份9.4 自动化管理9.1 云数据中心特征9.1 云数据中心特征Facebook谷歌亚马逊等在多地建立了自己的大规模数据中心9.1 云数据中心特征云...
  • 数据中心的BGP 说明: 这是最近在学习《BGP in the datacenter》。由于原文是全英文。所以在学习过程中,利用谷歌翻译和网易翻译,再把翻译不通的地方,加上自己理解稍微改了改。在此共享出来,需要的人可以参考...
  • 数据中心操作系统的特征;数据中心操作系统PAAS技术架构演进;数据中心操作系统发展历程; 数据中心操作系统应用历程;集团公司要求;第一部分;关键技术选型-服务注册及引流;关键技术选型-任务调度;关键技术选型-应用封装...
  • 9.1 云数据中心特征;6;7;9;9.2 云数据中心网络部署;11;14;9.2 云数据中心网络部署;17;18;9.2 云数据中心网络部署;21;9.2 云数据中心网络部署;9.2 云数据中心网络部署;27;28;29;本章未完待续;百度排名首位的大数据...
  • 数据中心网络架构 — SD-WAN

    万次阅读 2019-08-06 11:26:57
    文章目录目录前文列表云网融合SD-WANSD-WAN 的应用场景企业组网互联 SD-EN数据中心互联 SD-DCI组网互联 SD-CX企业接入场景数据中心场景多云互联场景SD-WAN 的技术架构参考文章 前文列表 《数据中心网络架构...
  • 9.1 云数据中心特征9.2 云数据中心网络部署9.3 绿色节能技术9.5 容灾备份9.4 自动化管理云计算数据中心的耗能越来越大解决云计算数据中心的高能耗问题已经成为一个环境问题构建绿色节能的云计算数据中心也成为一个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 30,376
精华内容 12,150
关键字:

云数据中心的特征