精华内容
下载资源
问答
  • 高可用性和高可靠性的规划与设计
    千次阅读
    2019-09-21 15:37:18

    高可用性和高可靠性的规划与设计

    可用性(availability)是系统能够正常运行的时间比例。经常用两次故障之间的时间长度或在出现故障时系统能够恢复正常的速度来表示。

    可靠性(reliability)是软件系统在应用或系统错误面前,在意外或错误使用的情况下维持软件系统的功能特性的基本能力。

    由于可靠性指标直接影响可用性指标,所以一般我们将这两个指标一并分析与讨论。

    高可用性(High Availability)通常用来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。

    计算机系统的可用性用平均无故障时间( MTTF)来度量,即计算机系统平均能够正常运行多长时间,才发生一次故障。系统的可用性越高,平均无故障时间越长。可维护性用平均维修时间(MTTR)来度量,即系统发生故障后维修和重新恢复正常运行平均花费的时间。系统的可维护性越好,平均维修时间越短。计算机系统的可用性定义为:MTTF/ (MTTF+MTTR) *100%。由此可见,计算机系统的可用性定义为系统保持正常运行时间的百分比。所以,想要提高一个系统的可用性,要么提升系统的单次正常工作的时长,要么减少故障修复时间。常见的可用性战术如下:
    错误检测:用于错误检测的战术包括命令/响应、心跳和异常。
    错误恢夏:用于错误恢复的战术包括表决、主动冗余、被动冗余。
    错误预防:用于错误预防的战术包括把可能出错的组件从服务中删除、引入进程监视器。

    更多相关内容
  • 小型企业网组网 同时实现高可靠性

    千次阅读 多人点赞 2021-04-10 00:14:22
    小型企业网如何组网?应具备高可靠性

    我是艺博东 ,一个思科出身专注于华为的网工。

    组网拓扑

    在这里插入图片描述

    上图为一个小型企业网的组网图,路由器R1和路由器R2作为企业的出口,核心交换机LS1和核心交换机LS2作为企业的用户网关,不同部门的接入交换机上配置不同的vlan以隔离二层,接入交换机到汇聚交换机使用链路聚合。核心交换机作为DHCP服务器,PC主机,client打印机通 过DHCP接入网络。

    可以用到的技术有哪些以及配置

    企业出口路由器R1和路由器R2,接入交换机和核心交换机上,用到的技术有哪些以及配置哪些内容?

    1、在LSW3、LSW4、LSW5、LSW6下行端口配置为Access端口,上行端口配置为Trunk口。
    2、在LSW3、LSW4、LSW5、LSW6创建相应的 VLAN,下行端口添加到对应的vlan,上行放行相关业务的vlan
    3、接入交换机(LSW3、LSW4、LSW5、LSW6)和核心交换机(LSW1、LSW2)之间的链路配置成 eth-trunk
    4、在LSW1、LSW2 创建所有需要用到的VLAN,分别创建3个不同的 vlanif,分别与不同之间 vlan 道信,以及与核心层通信,在 LSW1、LSW2 上行端口配口 ACCESS 端口加入相应的 vlan。
    5、在LSW1、LSW2创建 dhcp 地址池,防止打印机频繁改变地址,可以设置静态IP地址+MAC地址绑定。
    6、在LSW3、LSW4、LSW5、LSW6分别在下行端口开启全局 dhcp 命令,获取 IP 地址
    7、在LSW1、LSW2上可以使用ACL
    8、在R1、AR2、LSW1、LSW2可以使用IGP协议(RIP,OSPF,IS-IS)
    9、使用DHCP安全技术,现实企业内部网络的安全性
    10、在LSW1、LSW2使用VRRP技术
    11、在AR1、AR2分别写一条静态路田指向ISP1、ISP2,并在AR1、AR2在一条路田分别指向LSW1、LSW2
    12、在AR1、AR2单臂路由技术
    13、在AR1、AR2上配置NAT技术
    14、在LSW1、LSW2必须要时需要写一条指向NULL0的路由
    15、也可以选择MSTP+VRRP进行
    16、在LSW1、LSW2分别上写一条静态路由指向AR1、AR2
    17、当然也可以使用这些技术:istack,CSS,SVF,M-LAG,smart link

    相关技术的配置

    1、VLAN

    port link-type trunk 
    Port trunk allow-pass vlan all 
    

    2、Eth-trunk

    lacp int eth-trunk 12 
    Mode manual load-balance 
    Load-balance src-dst-mac 
    Trunkport g 0/0/22 0/0/23 0/0/24 
    Least active-link number 1 
    

    3、RSTP/MSTP

    stp mode RSTP/MSTP 
    Stp region-configuration 
    Region-name mstp 
    Revision-level 0 
    Instance 1 vlan 10 
    Instance 2 vlan 20 
    Active region-configuration 
    

    4、网关-核心

    dhcp enable ip pool 160 
    gateway-list 192.168.160.1 
    network 192.168.160.0 mask 255.255.255.0 
    lease day 3 hour 0 minute 0 
    dns-list 114.114.114.114 
    

    5、DHCP-核心接口下

    int g0/0/0 
    dhcp select global 
    

    6、NAT

    nat address-group 1 10.1.1.10 10.1.1.20 
    Acl 2000 Rule 5 permit source 10.0.0.0 0.0.0.255 
    

    7、ACL

    Int g0/0/1 
    Nat outbound 2000 address-group 1 
    

    8、静态路由|默认路由

    动态路由也可以,但是会增加设备的处理压力,所以推 荐静态

    ip route-static 0.0.0.0 0.0.0.0 12.1.1.2 
    

    9、DHCP snooping

    1)防止 DHCP 服务器的仿冒者攻击

    int g0/0/1 
    dhcp snooping enable 
    dhcp snooping trusted 
    

    2)防止 DHCP 报文泛洪攻击

    dhcp snooping enable 
    dhcp snooping check dhcp-rate enable vlan 100 
    dhcp snooping check dhcp-rate enable 
    

    3)防止 DHCP 服务器拒绝服务攻击(饿死攻击)

    dhcp snooping max-user-number 100 
    int g0/0/1 dhcp snooping max-user-number 100
    

    4)防止仿冒 DHCP 报文攻击

    dhcp snooping check dhcp-request enable vlan 100 
    dhcp snooping alarm threshold 100 
    int g0/0/2 dhcp snooping alarm dhcp-request threshold 100 vlan 100 
    dhcp snooping check dhcp-request enable 
    

    5)防止非 DHCP 用户攻击

    static-bind ip 192.168.200.99 mac-address 5489-982E-1E954 
    

    10、EP 端口

    Stp edged-port default 
    Int g0/0/12 
    Stp edged-port disable 
    

    11、单臂路由

    int g0/0/0.10 Dot1q terminate vid 10 
    Ip add 1.1.1.1 24 
    Arp broadcast enable 
    

    12、VRRP

     int vlanif 10 
     Ip add 10.1.1.1 24 
     Vrrp vrid 1 virtual-ip 10.1.1.254 
     Vrrp vrid 1 priority 120 
    

    13、打印机

    支持 DHCP:静态 IP+MAC 绑定
    不支持 DHCP,只用静态 IP

    最可怕的敌人,就是没有坚强的信念。——罗曼·罗兰


    在这里插入图片描述
    好了这期就到这里了,如果你喜欢这篇文章的话,请点赞评论分享收藏,如果你还能点击关注,那真的是对我最大的鼓励。谢谢大家,下期见!

    展开全文
  • 高可靠性系统中软件容错技术的应用 摘要: 2016年3月,我公司承担了国家某安全中心漏洞挖掘系统的开发工作,我在该项目中承担系统架构设计师的职务,主要负责系统的架构设计。该项目的主要目的是依托大数据...

     

    论高可靠性系统中软件容错技术的应用

    摘要:

        2016年3月,我公司承担了国家某安全中心漏洞挖掘系统的开发工作,我在该项目中承担系统架构设计师的职务,主要负责系统的架构设计。该项目的主要目的是依托大数据平台从互联网流量中挖掘未知漏洞。

     

        本文以漏洞挖掘系统为例,从多个角度对系统的可靠性进行了分析,重点讨论了两种软件容错技术。针对互联网流量的需要实时捕获,在流量捕获模块中采用了双机热备技术;针对漏洞数据需要永久存储不丢失,在数据存储方面采用了RAID5机制;针对漏洞识别的准确性,在漏洞判定部分采用了N版本程序设计方法;此次之外还对采取恢复块方法、防御式程序设计及集群部署等方法。通过以上多种措施,保证了系统的可靠性。目前系统已稳定运行一年多,从而验证了该项目采用可靠性技术的正确性。

     

    正文:

           随着互联网的快速发展,网络上出现的安全问题越来越多,从互联网发展至今,已经爆发了众多的网络攻击事件,如网络蠕虫病毒感染、主机被控制、数据库被非法访问、非法电子银行转账等等。针对这些安全问题,很有必要开发一种web漏洞的发现和利用技术。2016年3月我公司承接了国家某安全中心漏洞挖掘系统的开发工作。该项目通过对互联网中的流量进行特征分析,从中提取出相关的攻击内容,并将这些内容存储到大数据平台,结合大数据分析技术,对攻击者进行跟踪分析,从而捕获出未知漏洞。通过这种漏洞挖掘技术可以极大的解决大数据,大流量背景下web攻击入侵,帮助用户做好“事中”的安全工作,协助安全厂商对互联网攻击进行针对性过滤。

     

        系统在整体架构上采用了面向服务的架构SOA。前端采用了PHP进行开发,后台流量分析工作采用运行性较教高的c语言在Linux服务器上开发,流量包存储使用了企业磁盘阵列,数据存储采用了mysql。通过将系统拆分为多个子模块,各个子模块的构建上用服务进行了封装,它们之间通过消息进行通信。经过对客户需求的分析,我将该系统拆分为了流量捕获模块(负责从互联网中捕获流量)、pcap文件存储模块(负责将互联网中的流量存储到大数据平台)、流量分析模块(负责对流量进行分析验证)、数据库模块(负责漏洞数据的存储)和web管理模块(负责下发漏洞规则和查看漏洞信息)。

     

        按照合同规定该项目开发工作必须在一年内完成,在保证系统功能及性能的基础上,对系统的可靠性提出了要求。在可靠性方面要求:1. 实时捕获流量要求系统出现故障宕机不能超过5分钟;2. 系统提取出的漏洞及对应的流量不能丢失;3. 系统对漏洞识别准确率需要达到90%以上。

     

        系统的可靠性是系统在规定时间内及规定的环境条件下,完成规定功能的能力,也就是系统无故障运行的概率。为了保证系统的可靠性,必须采取相应的容错机制。容错技术分为结构冗余、信息冗余、时间冗余等。其中结构冗余包括硬件冗余和软件冗余。信息冗余是通过校验码来实现,时间冗余通过重复多次进行相同的计算来实现。提高系统可靠性的技术主要有N版本程序设计、恢复块方法、防卫式程序设计、双机热备、集群技术及冗余设计。项目中我根据客户对系统可靠性的要求从以下几个方面进行了分析。

     

        针对系统需要实时捕获流量,流量捕获系统7*24小时正常运行。我们在流量捕获模块采用了双机热备。在系统中部署两台流量捕获系统,一台作为主流量捕获系统,一台作为备用系统,两个系统之间通过心跳线连接。当流量捕获主系统出现故障的时候,立即将流量捕获工作切换到备用系统中,实现了系统的无缝切换,从而保证系统的可靠性。针对捕获的有价值漏洞原始数据和漏洞数据不丢失,我对数据存储采取了企业磁盘阵列,采用了raid5 N+1网络存储技术,即便磁盘坏了一个,也可以进行恢复。由于每天需要处理的网络流量大约30TB,在这里我们才用了5台10TB硬盘挂载到服务器上。除硬件上采取的措施外,软件上我们也做了特别的容错技术来提高系统的可靠性。下面从软件容错的两种方法详细讨论它在可靠性的中应用。

     

           N版本程序设计

           N版本程序设计的思想是相同的需求,使用不同的人来做设计和编码。开发出几个不同的版本,各自验证正确后,通过表决器比较各个版本执行的结果。采用少数服从多少的策略,这样可以将某个偶然出现的错误屏蔽掉,这种方法实时性非常高,实现代价也比较大。一般只会用在程序模块的重要性特别高,一旦计算错误将会出现严重后果的模块。在本项目中,考虑到本项目开发人员的紧缺性,使用该方法虽然可以提高漏洞识别率,但是将增加项目成本。而客户又对漏洞判定的准确性提出了很高的要求。基于以上考虑,我将系统中特别重要的漏洞判别模块采用了该方法,在本项目针对sql注入漏洞的判别,不同的安全开发工程师都有各自不同的理解及各自的判定方法,通过将判定工作分给三名安全开发工程师进行背对背开发,开发出三个不同版本的漏洞判定程序,每个程序对漏洞判定都设定了高危(积分为5分)、风险(积分为3分)和未知(积分为1分)和安全(积分为0分)4个不同级别。当3个版本的总积分大于等于8分则认定为高危漏洞;当总积分小于4分认定为安全。通过该方法大大提高了漏洞的识别率。

     

           恢复块方法

           恢复块方法的思想是首先设计好几个备用块,选取其中一个作为主块。首先执行主块,当主块执行不合格后,再执行后备块1,后备块1执行不合格,再执行后备块2,依次类推,直到输出正确结果为止。它是一种后向恢复的策略(将系统恢复到一个正确的状态,继续执行),其特点是由于主块可能执行不合格,可能要执行多个恢复块,故实时性比较差。这种方法对验证模块的正确性要求也非常高,实现代价也比较大。在该项目中,由于系统对流量的处理要求在12小时内处理完成,对系统的实时性要求不是很高。在该项目中进行流量抓包的时候,可能捕获到异常的包,有的甚至不是一个完整的http请求,程序在处理这类异常包的时候,只对能获取五元组的数据包进行分析。在使用恢复块方法中,主块用于处理完整的http请求,并根据请求的动作和漏洞规则匹配输出正确结果;后备块1用于处理只有http请求的包,根据请求规则例如sql注入、xss跨站攻击等行为进行匹配输出,输出正确结果,后备块2用于处理只有http响应的包,根据响应的规则例如数据库账号,进行匹配输出,后备块3用于处理其他异常的包,并进行五元组统计。通过该中方法,大大提高了系统的可靠性。

     

           除了以上几个方面的考虑外,对整个系统采用了防卫式程序设计、防御式编程技术,同时也考虑了集群技术。在指定预算的情况下,针对系统的性能,对使用高性能主机和使用分布式集群进行了思考。但是考虑到系统的可扩展性及可靠性,我使用了分布式集群技术。通过使用消息队列,对流量分析模块进行了分布式部署,各个模块通过从消息队列中取出消息进行处理。通过使用该分布式集群部署流量分析模块,当其中一台服务器出现故障的时候,其他服务器还可以从消息队列中取出消息进行处理,避免了因为服务器单点故障导致系统性能及可靠性下降。除了采取以上的措施外,我们还通过加强测试,增加检查机制来保证系统的可靠性。

     

           该项目开发工作于2016年8月完工,系统上线后,我们的安全分析人员和客户使用该系统对互联网流量进行漏洞挖掘,一共产生了150种以上的web流量攻击流量特征和5个未知web漏洞。在国家某安全中心网研室的其他项目中起到了支撑作用,尤其是某变量覆盖漏洞、某文件写入漏洞,某sql注入漏洞在项目使用过程中取得了一定得效果,得到了好评。为开展互联网安全事件得防御、发现、预警和协调处置等工作提供了数据依据,更好的维护了国家公共互联网安全,保障基础信息网络和重要信息系统的安全运行。

     

           在项目开发完成进行漏洞挖掘期间,系统的运行非常好,除了常规系统维护,很少出现系统故障,满足了客户对系统的可靠性要求。该项目在保证系统可靠性方面使用了双机热备、RAID5磁盘阵列、N版本程序设计、恢复块方法、防御式程序设计及集群技术。经过验证,这些措施都十分正确的。

    展开全文
  • 高并发高可靠性系统架构

    千次阅读 2017-09-19 23:38:45
    负载均衡贯穿每一环节

    负载均衡贯穿每一环节

    展开全文
  • 记笔记--hadoop的高可靠性

    千次阅读 2018-03-13 10:18:54
    hadoop为什么具有高可靠性,靠的是下面的策略:冗余副本策略、机架感知策略、心跳机制、安全模式、校验和、回收站、元数据保护、快照机制等。
  • HDFS实现其高可靠性的策略及机制

    千次阅读 2015-08-13 21:47:48
    分布式文件系统(HDFS)的高可靠性主要是由多种策略及机制共同作用实现的。 主要有: 冗余副本策略 可以指定数据文件的副本数量,默认是3; 保证所有的数据块都有副本,不至于在一个datanode宕机后,数据的丢失...
  • 前沿技术文章:高可靠性SSD推动智能社会向前发展 在全球范围内,通过采用物联网、人工智能和大数据等数字技术,社会正在变得“更智能”。在智能社会,包括工业设备、基础设施和物联网设备在内的所有领域的电子...
  • 系统可靠性分析与设计

    千次阅读 2022-04-23 22:34:46
    可靠性分析与设计的重要内容是建立可靠性模型,以及可靠性指标的预计与分配。在系统分析与设计过程中,系统分析师及相关人员要反复地进行可靠性预计和分配,并不断深化,以选择合适的方案,预测系统可靠性水平,找出...
  • 可靠性一般指产品可靠性,是元件、产品、系统在一定时间内、在一定条件下无故障地执行指定功能的能力或可能性。 光看定义比较抽象,下面看一个具体的例子。 如果某个系统在每小时崩溃1ms,那么它的可用性就超过99....
  • 当SG故障时,部署新的SG时不用在进行一遍配置,只需将原有的在SMS上做的配置重新下发给新的SG即可,方便业务快速上线,当SMS设备故障时,可以做SMS主备保障高可靠性,在SMS上做的配置可以进入底层gaia系统将配置保存...
  • HDFS,为Hadoop这个分布式计算框架提供高性能、高可靠、高可扩展的存储服务。HDFS的系统架构是典型的主/从架构,早期的架构包括一个主节点NameNode和多个从节点DataNode。 HDFS HA的解决方案可谓百花齐放,Linux ...
  • 高可靠性隔离型RS422接口的设计方案

    千次阅读 2016-10-15 20:54:38
    高可靠性隔离型RS422接口的设计方案 http://www.eeworld.com.cn/qrs/2011/0519/article_5241.html
  • Socket高可靠性数据传输

    千次阅读 2018-03-10 09:30:32
    在计算机网络中,TCP/IP保证了数据的可靠性传输,但是该可靠性传输时建立在链路可用的情况下的,也就是说在链路可用的情况下,该协议可用保证数据可靠的传输到对端。 socket就是在TCP/IP协议(当然还包含其他协议)...
  • 系统可靠性设计

    万次阅读 2019-10-26 14:14:47
    目录一:系统可靠性的定义及包含的4个子特性,并简要指出提高系统可靠性技术一般采用什么技术软件可靠性技术容错设计技术检错设计检错设计和容错技术的差异降低复杂度设计软件可靠性分析故障树分析方法失效模式与效应...
  • 电子设计硬件可靠性设计--总结

    千次阅读 2020-09-15 00:38:22
    质量和可靠性的区别 质量:产品特性满足要求的程度,可以以参数衡量。 可靠性:产品维持质量的持久程度,无法以参数衡量。 产品寿命和产品个体故障之间的关系 产品寿命和产品个体故障之间均为一种统计数据,产品寿命...
  • 可用性和可靠性的区别

    万次阅读 多人点赞 2019-06-15 19:40:24
    可靠性(reliability):在规格时间间隔内和规定条件下,系统或部件执行所要求功能的能力。例如: QA1:在客户端与服务器端通信时,如果网络故障,系统不能出现故障。 可用性(availability):软件系统在投入使用时...
  • 网络的可靠性是设计出来的

    千次阅读 2017-08-03 10:42:55
    网络可靠性的定义 根据国家标准GB-6583的规定,产品的可靠性是指:设备在规定的条件下、在规定的时间内完成规定的功能的能力。对于网络系统的可靠性,除了耐久性外,还有容错性和可维护性方面的内容。 1、耐久...
  • 互联网时代,数据的可靠性至关重要,丢失数据损失惨重。 我们有神器来应对,它就是——云硬盘!...今天,我们就来一探究竟,说说云硬盘高可靠性的秘密。 点击“了解更多”,超级可靠的云硬盘服务等着您! ...
  • kafka数据可靠性深度解读

    万次阅读 多人点赞 2017-05-02 19:19:32
    Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持...
  • 华为HCIA-datacom 学习笔记9——网络的可靠性 网络的可靠性 1、简述 网络的可靠性是指当设备或者链路出现单点或者多点故障时能保证网络服务不间断的能力。 2、链路聚合 2.1 提升链路带宽 设备之间存在多条链路时,...
  • 可靠性,可扩展性,可维护性

    千次阅读 2020-05-24 11:36:39
    本文主要介绍如何设计一个可靠性、可扩展性 、可维护性数据系统。 1 可靠性(Reliability) 应用程序表现出用户所期望的功能。 允许用户犯错,允许用户以出乎意料的方式使用软件。 在预期的负载和数据量下,性能...
  • 提高系统可靠性的措施

    千次阅读 2019-04-24 16:56:18
    防止故障造成系统失效的两种技术是 故障掩蔽技术和系统重组技术 ,故障掩蔽技术是指 ...但联机备份比较复杂,需要对系统的核心有比较深刻的认识,对备份策略进行反复的测试,才能最终确定它的正确和可用
  • kel不只将连接器视为零部件,更注重安全,安心,易用性,还将连接器视为实现各种功能性与可靠性的安全保障,致力于安全生产有利于环境与人类的产品。 随着各类设备向小型化和功能化发展,为了减少在基板安装螺丝钉...
  • 数据系统 ...可靠性 是指系统在困境中也可以正常工作,讲包括故障和失效 故障 指系统的一部分状态偏离其标准 硬件故障:磁盘可以提供 RAID;双路电源;热插拔 CPU 等等可以解决 软件故障:系统错误,特定
  • 可靠性测试

    千次阅读 2021-07-23 11:42:40
    可靠性测试就是为了评估产品在规定的寿命期间内,在预期的使用、运输或储存等所有环境下,保持功能可靠性而进行的活动。是将产品暴露在自然的或人工的环境条件下经受其作用,以评价产品在实际使用、运输和储存的环境...
  • 分布式高可靠:负载均衡

    万次阅读 2021-12-26 21:44:28
    分布式高可靠:负载均衡前言什么是负载均衡?服务请求的负载均衡方法轮询策略顺序轮询加权轮询随机策略哈希和一致哈希策略对比分析知识扩展:如果要考虑请求所需资源不同的话,应该如何设计负载均衡策略呢?总结 ...
  • 如何让 UDP 保证其可靠性

    千次阅读 2019-04-20 15:43:56
    TCP 如何保证可靠性 UDP 如何实现可靠性传输? UDP 不属于连接性协议,因而具有资源消耗小,处理速度快的优点,所以通常音频、视频和普通数据在传输时使用 UDP 较多,因为它们即使偶尔丢失一两个包,也不会对接收...
  • 通信系统的可靠性

    千次阅读 2018-02-08 19:38:13

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 676,306
精华内容 270,522
关键字:

高可靠性