精华内容
下载资源
问答
  • CAP 理论

    2020-11-17 17:20:36
    CAP理论CAP理论概述CAP的定义Consistency 一致性Availability 可用性Partition Tolerance分区容错性CAP权衡 CAP理论概述 一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性...

    CAP理论概述

    一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项。
    在这里插入图片描述

    CAP的定义

    Consistency 一致性

    一致性指“all nodes see the same data at the same time”,即所有节点在同一时间的数据完全一致。

    一致性是因为多个数据拷贝下并发读写才有的问题,因此理解时一定要注意结合考虑多个数据拷贝下并发读写的场景。

    对于一致性,可以分为从客户端和服务端两个不同的视角。

    客户端
    从客户端来看,一致性主要指的是多并发访问时更新过的数据如何获取的问题。

    服务端
    从服务端来看,则是更新如何分布到整个系统,以保证数据最终一致。

    对于一致性,可以分为强/弱/最终一致性三类

    从客户端角度,多进程并发访问时,更新过的数据在不同进程如何获取的不同策略,决定了不同的一致性。

    强一致性
    对于关系型数据库,要求更新过的数据能被后续的访问都能看到,这是强一致性。

    弱一致性
    如果能容忍后续的部分或者全部访问不到,则是弱一致性。

    最终一致性
    如果经过一段时间后要求能访问到更新后的数据,则是最终一致性。

    Availability 可用性

    可用性指“Reads and writes always succeed”,即服务在正常响应时间内一直可用。

    好的可用性主要是指系统能够很好的为用户服务,不出现用户操作失败或者访问超时等用户体验不好的情况。可用性通常情况下可用性和分布式数据冗余,负载均衡等有着很大的关联。

    Partition Tolerance分区容错性

    分区容错性指“the system continues to operate despite arbitrary message loss or failure of part of the system”,即分布式系统在遇到某节点或网络分区故障的时候,仍然能够对外提供满足一致性或可用性的服务。

    CAP权衡

    通过CAP理论,我们知道无法同时满足一致性、可用性和分区容错性这三个特性,那要舍弃哪个呢?

    CA without P:如果不要求P(不允许分区),则C(强一致性)和A(可用性)是可以保证的。但其实分区不是你想不想的问题,而是始终会存在,因此CA的系统更多的是允许分区后各子系统依然保持CA。

    CP without A:如果不要求A(可用),相当于每个请求都需要在Server之间强一致,而P(分区)会导致同步时间无限延长,如此CP也是可以保证的。很多传统的数据库分布式事务都属于这种模式。

    AP wihtout C:要高可用并允许分区,则需放弃一致性。一旦分区发生,节点之间可能会失去联系,为了高可用,每个节点只能用本地数据提供服务,而这样会导致全局数据的不一致性。现在众多的NoSQL都属于此类。

    对于多数大型互联网应用的场景,主机众多、部署分散,而且现在的集群规模越来越大,所以节点故障、网络故障是常态,而且要保证服务可用性达到N个9,即保证P和A,舍弃C(退而求其次保证最终一致性)。虽然某些地方会影响客户体验,但没达到造成用户流程的严重程度。

    对于涉及到钱财这样不能有一丝让步的场景,C必须保证。网络发生故障宁可停止服务,这是保证CA,舍弃P。貌似这几年国内银行业发生了不下10起事故,但影响面不大,报道也不多,广大群众知道的少。还有一种是保证CP,舍弃A。例如网络故障事只读不写。

    孰优孰略,没有定论,只能根据场景定夺,适合的才是最好的。

    展开全文
  • CAP理论

    2021-02-23 15:44:56
    之前有找过一些关于CAP理论的文章,今天偶然看到下面对于CAP理论的描述,个人觉得还是写的比较简单易懂的,所以摘录下来分享。 什么是 CAP 理论呢?这是 2000 年University of California, Berkeley 的计算机教授...

    之前有找过一些关于CAP理论的文章,今天偶然看到下面对于CAP理论的描述,个人觉得还是写的比较简单易懂的,所以摘录下来分享。

    什么是 CAP 理论呢?这是 2000 年University of California, Berkeley 的计算机教授Eric Brewer(也是谷歌基础设施 VP)提出的理论。所谓 CAP,是以下 3 个单词的首字母缩写,它们都是分布式系统最核心的特性:

    Consistency 一致性

    Availability 可用性

    Partition tolerance 分区容错性

    我们通过以下 3 张示意图,快速理解下这 3 个词的意义。下图中 N1、N2 两台主机上运行着 A 进程和 B 进程,它们操作着同一个用户的数据(数据的初始值是 V0),这里 N1 和 N2 主机就处于不同的 Partition 分区中,如下所示:

     

    正常情况下,当用户请求到达 N1 主机上的 A 进程,并将数据 V0 修改为 V1 后,A 进程将会把这一修改行为同步到 N2 主机上的 B 进程,最终 N1、N2 上的数据都是 V1,这就保持了系统的 Consistency 一致性。

     

    然而,一旦 N1 和 N2 之间网络异常,数据同步行为就会失败。这时,N1 和 N2 之间数据不一致,如果我们希望在分区间网络不通的情况下,N2 能够继续为用户提供服务,就必须容忍数据的不一致,此时系统的 Availability 可用性更高,系统的并发处理能力更强,比如 Cassandra 数据库。

     

    反之,如果 A、B 进程一旦发现数据同步失败,那么 B 进程自动拒绝新请求,仅由 A 进程独立提供服务,那么虽然降低了系统的可用性,但保证了更强的一致性,比如 MySQL 的主备同步模式。

    展开全文
  • cap理论

    2020-11-24 10:29:45
    CAP理论,被戏称为“帽子理论”,CAP是Eric Brewer在2000年ACM研讨会上出了一个想法:“一致性、可用性和分区容错性三者无法在分布式系统中被同时满足,并且最多只能满足其中两个!” 2002年,Seth Gilbert和...

    转发

    https://mp.weixin.qq.com/s/3fK7ScVhUGWoTHZ9eBVyJQ  

     

    CAP的前世今生     -

    1.1 起源

    CAP理论,被戏称为“帽子理论”,CAP是Eric Brewer在2000年ACM研讨会上出了一个想法:“一致性、可用性和分区容错性三者无法在分布式系统中被同时满足,并且最多只能满足其中两个!”

     

    2002年,Seth Gilbert和Nancy Lynch采用反正法证明了猜想:“如果三者可同时满足,则因为允许P的存在,一定存在Server之间的丢包,如此则不能保证C。” 在该证明中,对CAP的定义进行了更明确的声明。

     

    C:一致性被称为原子对象,任何的读写都应该看起来是“原子”,或串行的。写后面的读一定能读到前面写的内容,所有的读写请求都好像被全局排序。

    A:对任何非失败节点都应该在有限时间内给出请求的回应。(请求的可终止性)

    P:允许节点之间丢失任意多的消息,当网络分区发生时,节点之间的消息可能会完全丢失。

     

    但是只证明了CAP三者不可能同时满足,并没有证明任意二者都可满足的问题;所以该证明被认为是一个收窄的结果,在之后10年里受到各种质疑。

     

    1.2 重新诠释

    2012年,Brewer和Lynch针对所有的质疑进行了回应,重新诠释CAP。“3个中的2个”表述是不准确的,在某些分区极少发生的情况下,三者也能顺畅地配合。CAP不仅仅是发生在整个系统中,可能是发生在某个子系统或系统的某个阶段。把CAP理论的证明局限在原子读写的场景,并申明不支持数据库事务之类的场景。一致性场景不会引入用户agent,只是发生在后台集群之内。把分区容错归结为一个对网络环境的陈述,而非之前一个独立条件。引入了活(liveness)和安全属性(safety),在一个更抽象的概念下研究分布式系统,并认为CAP是活性与安全属性之间权衡的一个特例。其中的一致性属于liveness,可用性属safety。

    网络存在同步、部分同步;一致性性的结果也从仅存在一个到存在N个(部分一致);引入了通信周期round,保证N个一致性结果。

     

    总结:缩小CAP适用的定义,消除质疑的场景;展示了CAP在非单一一致性结果下的广阔的研究结果。

     

    -     CAP的分析     -

    2.1 组成

    Consistency:一致性

    Availability:可用性

    Partition tolerance:分区容忍性

    2.2 Consistency

    从论文上看:操作之后的读操作,必须返回该值。

    从百科上看:在分布式系统中的所有数据备份,在同一时刻是否同样的值。

    总结:在分布式系统中,C代表任何人在任何地点、任何时间,访问任何数据 结果都是一致的。

    2.3 Availability

    从论文上看:只要收到用户的请求,服务器就必须给出回应。

    从百科上看:在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。

    总结:在分布式系统中,A代表服务在任何时候都要是可用的、可访问。

    2.4 Partition tolerance

    从论文上看:直译叫“分区容错”,意思是区间通信可能失败。

    从百科上看:分区相当于对通信的时限要求。

    总结:分区容错=分区+容错。分布式系统因为多实例部署,面临多个子网络,多个子网络存在网络通讯的需求;因为网络通讯的不可靠性造成分区的存在。而分区的存在,不可避免出现数据和可用性问题,需要有容错机制来处理。

    -     实践分析     -

    3.1 A与P的差异

    从上述的描述中,因为两者都有容错可用的描述,我们很容易将A 跟 P 混淆在一起。接下去,咱们从各个维度去分析C 与P的差异。

    1、从关注点来说,A关注的是用户对分布式系统的可用要求;P关注的是分布式系统实例间的网络连通性。

    2、从要求上来看,A从外部的视角,要求分布式系统在正常响应时间内一直可用;P从实例节点的视角出发,在遇到某节点或节点间通信故障的时候,要求分布式系统整体对节点的容错及恢复性。

    3、从受众上分析,A针对的是用户,P针对的是服务实例。

     

    3.2 CP与AP

    三者的组合,产生了AC、AP、CP三个组合。但在分布式环境中,多实例部署是基本条件,因为网络的不可靠性,造成了P成了硬性条件。所以结果就转化成了CP、AP两个分支。

     

    CP、AP分支代表的是硬性条件,在这个基础上去追求利益化才是这个分支的本质问题。如果是粗暴的对另外一个选项直接放弃,那这个世界就太simple、easy了,而且也不符合咱们对系统的期望和基本使用。这就是2012年重新诠释后CAP的最终状态意义,“三选二”是一个伪命题。

     

    基于这个2012年CAP的最终意义,咱们发现CP不是简单的放弃A,而是保障CP的硬性条件去追求A。所以产生了过半写入这样非常经典的使用方式:过半写入后,分布式节点可以根据少数服从多数完成数据的一致性要求。因此产生了最大的效益

    1、分布式实例的更高可用性,对所有实例不在全部写入成功才认为是成功。

    2、分布式实例的更快响应性,使用广播快速获取过半结果后直接认定结果。依靠补充手段实现数据的一致性。

     

    说完CP的改变,再说说AP的对应调整升级。咱们为了高可用放弃数据的一致性,其实这个说法是不严谨,也是错误的。数据一致性是系统的基本要求。那么要怎么理解AP,应该从脏读、幻读来说,场景允许数据的短暂不一致,接受数据的最终一致性。

    1、数据的严谨性是系统的一个要求,但允许数据的一定延迟是AP存在的意义。

    2、系统的高可用可以满足更多的群体,从这个的目标上,所以AP是比较友好的

     

    因为分布式系统,系统是多层面的组合型存在,所以我们并不会说一个系统是AP还是CP。我们是根据系统的业务场景去选择CP和AP,但是高可用是互联网分布式应用的特性,所以我们绝大部分情况是追求AP,尽量让系统满足更多的用户。然后基于某些场景数据的强一致性必要性去选择CP。

     

    总结

    在分布式环境下,对cap的要求。不管cp 还是ap,并不是完全丢弃另一个,而是优先级问题;在满足C或者A的基础上去追求另外一个,结论如下:

    1、CP--在强一致性的底线上追求可用性 (案例-过半写入)。

    2、AP—在高可用的基础上追求数据的一致性(案例-最终一致性)。

    3、系统以AP为基调,在一些数据高即时、一致性场景使用CP进行补充。

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,590
精华内容 1,836
关键字:

cap理论