Raft论文读书笔记

Raft是当前分布式领域最重要的一致性算法之一，今天我们就来好好研究研究这个算法的[论文][1], 还有对应[网站][2], [动画][3], 不想看英文的也有中文的[翻译][4]，所以我这边就不翻译了，主要还是记录一下论文重点和自己的心得。

Raft算法作者的初衷是对标Paxos算法（过去十年分布式一致性的事实标准），但是要比它更易理解，主要手段有：
1. 分解，把整个一致性问题拆分为**Leader选举**、**日志复制**和**安全机制**这**三大方面**还有**角色改变**这个小方面。所以**模块化**是一个软件系统可维护、理解和扩展的不二手段。
2. 减少状态空间的状态，相比于Paxos，Raft减少了非确定性和服务器之间可以处于不一致的方式。所以在复杂的问题上**做减法**，可以减少很多不必要的繁琐的步骤。

Raft使用了更强的Leader，感觉这和我之前看的[OceanBase][5]是相似的，就是增强Leader（UpdateServer）或者说**单点**的作用，加重中心化（这也是社会的运作方式，没有Leader就是大家一盘散沙，文明是达不到今天这个程度的），要做决策就先选择一个Leader，然后让他去协调所有的决议，会更加简单快速，而Paxos就是P2P或者说弱Leader的方式。事实上，我们之所以使用分布式系统也是迫不得已，如果单台机器能搞定还要这么多系统干嘛？所以我们也要看到单点系统的好处，那就是一致性很容易保证，所以在**分布式系统中使用一个增强（能力和责任）的单点**既利于一致性的保证也能获得分布式的优势。

Leader全权负责管理日志复制，从而实现一致性，所以有了Leader这一机制，一致性问题就可以被分解为上述三大方面了，下面分别说明。

1. Raft 的 Leader 是有 Term 时间限制的，类似于[租约机制][6]，这个机制能完善单纯的心跳(因为有的机器太忙可能发不出或没法响应心跳)。
随机的选举超时时间可以使得 **Leader 选举**很少有选票平分的时候，按 `Term number` 最大和先来先服务原则可以使得每一个 Term 内最多有一个 Leader（如果没有 Leader 就会超时进入下一个 Term 进行新的选举）。Leader 保持身份并阻止其他节点成为 Leader 的方法是不停地向其他节点发送心跳消息（也包含需要复制的日志）。

2. Leader 为客户端服务，处理所有客户端请求亦即**所有的系统变更**，并把**日志复制**分发给其他节点（包含失败重试），leader 处理日志不一致的手段是强制follower 复制自己的日志，所以 follower 中与 leader 冲突的日志会被覆盖，leader 不删除自己的日志（只附加原则）。

3. leader选举和日志复制都需要一些**安全机制**来保证每个状态机都按照相同的顺序来执行相同的指令：
①. 选举限制，除了1中的条件，还要求 candidate 具有已经提交的所有日志条目，所以 voter 会主动拒绝日志没有自己新（通过Term Number 和日志长度两个指标进行比较）的候选人的投票请求。
②. 提交之前Term内的日志条目时，Leader 会使用这个条目的原始Term Number，而不是使用当前的Term Number，这样更容易辨别日志，而且要提交之前Term（如 2 ）的日志时必须同时提交当前Term（如 4）的日志，保证得到复制日志的 follower A 下次更有可能成为Leader而不是那些只有较旧日志但是新于A得到的旧日志（如 3 新于 2 ）的follower

如果 follower 或者 candidate 崩溃了，那么后续发送给他们的请求都会失败。Raft 中处理这种失败就是简单的通过无限的重试，因为Raft的这种请求都是幂等的，所以这样重试不会造成任何问题。比如，一个follower如果收到附加日志请求但是他已经包含了这一日志，那么他就会直接忽略这个新的请求。

Leader 选举是 Raft 中对时间要求最为关键的方面。只要系统满足下面的时间要求：

> 广播时间（broadcastTime） << 选举超时时间（electionTimeout） << 平均故障间隔时间（MTBF）

Raft 就可以选举并维持一个稳定的Leader。当**Leader崩溃后，整个系统会大约相当于选举超时的时间里不可用**，广播时间和平均故障间隔时间是由系统决定的，但是选举超时时间是我们自己选择的， Raft的请求要接收方将信息持久到存储中去，所以广播时间大约是 0.5 毫秒到 20 毫秒，取决于存储的技术。因此，选举超时时间可能需要在 10 毫秒到 500 毫秒之间。大多数的服务器的平均故障间隔时间都在几个月甚至更长，很容易满足时间的需求。

集群状态切换通过一个**共同一致**（新老配置的结合）的中间状态转换实现，这样**基于两阶段**的做法可以使得集群平滑地进行状态迁移。

阅读原文：[Mageekchiu][7]

[1]: https://ramcloud.atlassian.net/wiki/download/attachments/6586375/raft.pdf
[2]: https://raft.github.io/
[3]: http://thesecretlivesofdata.com/raft/
[4]: https://github.com/maemual/raft-zh_cn
[5]: https://segmentfault.com/a/1190000013522687#articleHeader4
[6]: https://segmentfault.com/a/1190000014503967#articleHeader8
[7]: http://mageek.cn/archives/101/

原创文章，转载请注明： 转载自并发编程网 – ifeve.com本文链接地址: Raft论文读书笔记

并发编程网 - ifeve.com

让天下没有难学的技术