拜占庭将军问题

Feb 7, 2018

什么是拜占庭将军问题

如果要保证分布式系统一致性和可用性，就必须处理错误节点，防止系统出现用户可以观察到的错误。拜占庭将军问题在我看来是提出了一个错误模型。即错误节点可以做任意事情（不受protocol限制），比如不响应、发送错误信息、对不同节点发送不同决定、不同错误节点联合起来干坏事等等。总之就是说，没有节点会出现比这更严重的错误。很显然，拜占庭错误是overly pessimistic的模型，因为这种错误实际环境中比较少见。那么为什么要研究这个模型呢？其中最简单的一个原因是，如果某个一致性算法能够保证在系统出现f个拜占庭错误时保持系统一致，那么这个算法也就能够保证在出现f个任意其他错误的时候也保持系统一致。错误模型有上限，肯定也就有一个下限（overly optimistic，没有比它还要弱的模型）。这个下限就是‘fail-stop’模型。这个模型的假设是：当一个节点出错，这个节点会停止运行，并且其他所有节点都知道这个节点发生了错误。用同样的逻辑，如果某个一致性算法不能保证在系统出现f个错误的时候保持一致，那么这个算法也就没法处理其他f个任意其他问题。

什么是拜占庭将军问题

参考