本文翻译自Quora上的一个回答
我认为在了解Paxos前,可以先谈谈其他解决共识问题的方法,在这个基础上再理解Paxos会简单些。
结婚誓言是一种达成共识的直观方式。
现在假设这场婚姻不是发生在两个人之间,而是一个男人和多个女人之间。这个男人要么娶所有人,要么一个也不能娶。那么,结婚誓言也要相应地改成下面的样子:
如果其中一个女人没有回应“我愿意!”,那么婚礼将无法进行。
计算机科学家称之为两阶段提交。
两阶段提交(2PC)过程如下:
注意表决仅仅针对本次提出的值,节点可以回应是或者不是,而不能提出一个替代值。如果一个节点想要提出一个值,它应该开始自己的2PC。显然,这个算法是管用的,一个节点提出的值要由所有节点同意;同时,这个算法的效率较低下,对于一个拥有N个节点的集群,完成共识需要传输3N条信息。
如果某个节点挂掉了呢?比如,在阶段1中,协调者向部分节点(不是全部节点)发送提议后挂掉。
在第二阶段,如果协调者向部分节点发送提交的消息后挂掉,类似的问题一样会存在。通过另外一个协调者在监测到timeout时接管可以解决部分问题;这个节点和其他的节点保持通信来发现其他节点的表决(需要节点持久化表决结果)从而结束事务。但是这个流程也有可能发生失败从而导致事务可能无法恢复。结语:在发生节点失败的情况下2PC并不可靠。
2PC的关键问题在于,当协调者挂掉时,没有其他的角色能够完成协议。这可以通过添加一个额外的步骤来完成:
假如协调者在上面的任何一个步骤挂掉,其他的任意参与者都可以接管这个角色,查询其他节点的状态。
从上面可以看出,3PC可以很好地处理节点失败的情况。代价是多了一个步骤,导致了系统更高的延迟。
在发生网络分区的情况下,3PC也处理的不够好。假设所有接收到“准备提交”的RM都在分区1,其他的RM在分区2。这个会导致每个分区都会选举出各自的恢复节点,恢复节点要么提交事务,要么取消事务。万一网络分区消失,系统就会处于不一致的状态。
首先问一个问题,有比3PC更好的算法吗?3PC面临的唯一问题是网络分区,对吧?要想回答这个问题,让我们假设网络分区是唯一的问题(实际并不是,后面会提到)。由网络分区导致的一致性问题值得解决吗?
首先,随着云计算的兴起,为了服务的可扩展性,可能会将服务部署在不同的大陆上;这种情况下,的确需要一个容忍网络分区的算法。
第二,网络分区并不是3PC面临的唯一问题。处理节点临时故障,最常见的情况是故障-恢复-继续上次执行。这种fail-recover模式也可以用来描述一个异步的网络模型,在这个模型中,无法规定节点用于响应消息的时间上限,因为永远不能假定一个节点已经挂了--它们可能会很慢,或者网络可能会很慢。不能对这个模型采用超时机制。
3PC能处理fail-stop,但不能处理fail-recover。不幸的是,现实情况需要处理fail-recover,因此,我们需要一个更通用的方案。Paxos就是这样的方案。
Paxos的工作过程和2PC很像:
和2PC不同的关键在于,2PC需要所有节点同意,Paxos只需要大多数节点同意。这个想法很有意思,因为在两个不同的大多数节点集合中,至少会有一个节点同时在这两个集合中。这就可以保证,如果大多数节点都同意某个值,随后任何想做出提议的节点都能从其他节点发现这个值并同意。这意味着,即使一半的急诶单无法回复,Paxos算法也能进行下去。
当然,leader本身可能也会挂掉。为此,Paxos不会在给定的时间点授予当个节点leader职责。算法允许任意节点成为leader,并且协调事务。这自然意味着在给定的时间点,可能存在多个认为自己是leader的节点。在这种情况下,两个leader也许会提出不同的值。那么,如何在这种情况下达到共识呢?Paxos为此设计了两种机制:
在Paxos算法中,如果我们指定集群中同一时间只能有一个leader,并且要求所有节点都要投票呢?是的,我们就得到了2PC。2PC是Paxos的一个特例。
如上所述,Paxos比2PC更能容忍失败:
Paxos也比3PC更能容忍失败,尤其是在网络分区的情况下。在3PC中,如果两个分区分别同意一个值,那么当分区消失时,系统会处于不一致的状态。在Paxos中,这个问题不会存在,因为同意一个值需要大多数的节点参与。除非一个分区里面的节点占大多数,否则共识不能达成。如果占有多数节点的分区达成共识,这个共识需要另外一个分区的节点接受。
Paxos可能出现的问题是,当两个leader由于节点不能获知彼此的存在时,不停地提出比原来提议序列号高的提议,这会导致Paxos不能终止。最终两个leader获知了彼此的存在,其中一个做出让步。
这是一个一致性和实时性之间的妥协。Paxos保证了一致性,一旦共识达成,值就不会被修改。但是,Paxos不保证可用,在某些极端情况下可能无法达成共识。事实上,一个异步算法不能保证既安全又实时。这被称之为FLP不可能结果。
延伸阅读