安然写字的地方

拜占庭将军问题

什么是拜占庭将军问题

如果要保证分布式系统一致性和可用性,就必须处理错误节点,防止系统出现用户可以观察到的错误。拜占庭将军问题在我看来是提出了一个错误模型。即错误节点可以做任意事情(不受protocol限制),比如不响应、发送错误信息、对不同节点发送不同决定、不同错误节点联合起来干坏事等等。总之就是说,没有节点会出现比这更严重的错误。很显然,拜占庭错误是overly pessimistic的模型,因为这种错误实际环境中比较少见。那么为什么要研究这个模型呢?其中最简单的一个原因是,如果某个一致性算法能够保证在系统出现f个拜占庭错误时保持系统一致,那么这个算法也就能够保证在出现f个任意其他错误的时候也保持系统一致。错误模型有上限,肯定也就有一个下限(overly optimistic,没有比它还要弱的模型)。这个下限就是‘fail-stop’模型。这个模型的假设是:当一个节点出错,这个节点会停止运行,并且其他所有节点都知道这个节点发生了错误。用同样的逻辑,如果某个一致性算法不能保证在系统出现f个错误的时候保持一致,那么这个算法也就没法处理其他f个任意其他问题。

参考