ETCD 概述

约 2751 字大约 9 分钟

大数据分布式中间件分布式存储

2023-09-26

ETCD 是一个高度一致的分布式键值存储，它提供了一种可靠的方式来存储需要由分布式系统或机器集群访问的数据 ( 高可用，强一致性 ) 全局的配置服务中心。本文将介绍其特性、相关操作和常见的应用场景。

ETCD logo

全文较长，如果你对 ETCD 已经有所了解，可以通过右侧导航直接跳到你感兴趣的部分。

架构及原理

BoltDB

是一个单机的支持事务的 kv 存储，ETCD 的事务是基于 BoltDB 的事务实现的。BoltDB 为每一个 key 都创建一个索引 ( B+树 ) 。该 B+ 树存储了 key 所对应的版本数据 ( 储存 key 的历史版本信息，每个 key 对应一个索引，索引对对应 B+ 树 ) 。

WAL ( Write Ahead Log )

预写式日志实现事务日志的标准方法。执行写操作前先写日志，跟 MySQL 中 Redo Log 类似。WAL 实现的是顺序写，而若按照 B+ 树写，则涉及到多次 I/O 以及随机写。

Snapshot 快照
数据用于其他节点同步主节点数据从而达到一致性地状态。类似 Redis 中主从复制使用 RDB 数据恢复。
1. leader 生成 Snapshot。
2. leader 向 follower 发送 Snapshot。
3. follower 接收。
gRPC Server
ETCD 集群间以及 client 与 ETCD 节点间都是通过 gRPC 进行通讯。

应用场景

ETCD 严格意义上并不是一个 NoSQL 数据库。它的主要用途是一个分布式键值存储系统，设计目标是高可用性和一致性，而不是大规模的数据处理功能。主要场景还是存储配置。

共享配置

有一个定义良好且面向用户的 API ( gRPC ) 。有些语言的客户端不支持 gRPC 通信协议，此时就可以使用 gRPC-Gateway 对外提供的 HTTP API 接口。通过 HTTP 请求，实现与 gRPC 调用协议同样的功能。

服务注册与发现

服务注册是指服务实例启动时将自身信息注册到服务注册与发行中心，并在运行时通过心跳等方式向其汇报自身服务状态。

服务发现是指服务实例向服务注册与发现中心获取其他服务实例信息，用于远程调用。

服务注册与发现中心：

管理当前注册到服务注册与发现中心的微服务实例元数据信息，包括服务实例的服务名、IP 地址、端口号、服务描述和服务状态等。
与注册到服务发现与注册中心的微服务实例维持心跳，定期检查注册表中的服务实例是否在线，并剔除无效服务实例信息。
提供服务发现能力，为服务调用方提供服务提供方的服务实例元数据。

本质上来说，服务发现就是想要了解集群中是否有进程在监听 UDP 或 TCP 端口，并且通过名字就可以查找和连接。

解决服务发现的问题：

一个强一致性、高可用的服务存储目录。基于 Raft 算法的 ETCD 天生就是一个强一致性、高可用的服务存储目录。
一种注册服务和监控服务健康状态的机制。用户可以在 ETCD 中注册服务，并且对注册的服务设置 key TTL，定时保持服务的心跳以达到监控健康状态的效果。
一种查找和连接服务的机制。通过在 ETCD 指定的主题下注册的服务也能在对应的主题下查找到。为了确保连接，我们可以在每个服务机器上都部署一个 Proxy 模式的 ETCD，这样就可以确保能访问 ETCD 集群的服务都能互相连接。lease 保持心跳，实时反应任务执行情况，watch 监控。

消息发布和订阅

构建一个配置共享中心，数据提供者在这个配置中心发布消息，而消息使用者则订阅他们关心的主题，一旦主题有消息发布，就会实时通知订阅者。

分布式锁

分布式锁应该具备条件

互斥性。在任意时刻，对于同一个锁，只有一个客户端能持有，从而保证一个共享资源同一时间只能被一个客户端操作。
安全性。即不会形成死锁，当一个客户端在持有锁的期间崩溃而没有主动解锁的情况下，其持有的锁也能够被正确释放，并保证后续其它客户端能加锁。
可用性。当提供锁服务的节点发生宕机等不可恢复性故障时，"热备"节点能够接替故障的节点继续提供服务，并保证自身持有的数据与故障节点一致。
对称性。对于任意一个锁，其加锁和解锁必须是同一个客户端，即客户端 A 不能把客户端 B 加的锁给解了。

ETCD　提供的技术支持

Lease 机制。

即租约机制 ( TTL, Time To Live ) 。ETCD 可以为存储的 Key-Value 对设置租约，当租约到期，Key-Value 将失效删除。同时也支持续约，通过客户端可以在租约到期之前续约，以避免 Key-Value 对过期失效。Lease 机制可以保证分布式锁的安全性，为锁对应的 Key 配置租约。即使锁的持有者因故障而不能主动释放锁，锁也会因租约到期而自动释放。

Revision 机制。

每个 Key 带有一个 Revision 号，每进行一次事务便加一，因此它是全局唯一的。如初始值为 0，进行一次 put ( key, value ) ，Key 的 Revision 变为 1。同样的操作，再进行一次，Revision 变为 2。换成 key1 进行 put ( key1, value ) 操作，Revision 将变为 3。这种机制有一个作用：通过 Revision 的大小就可以知道写操作的顺序。在实现分布式锁时，多个客户端同时抢锁，根据 Revision 号大小依次获得锁，可以避免「羊群效应」，实现公平锁。

Prefix 机制。

即前缀机制，也称目录机制。例如，一个名为 /mylock 的锁，两个争抢它的客户端进行写操作，实际写入的 Key 分别为: key1="/mylock/UUID1"，key2="/mylock/UUID2"。其中，UUID 表示全局唯一的 ID，确保两个 Key 的唯一性。很显然，写操作都会成功，但返回的 Revision 不一样。

那么，如何判断谁获得了锁呢？通过前缀 "/mylock" 查询，返回包含两个 Key-Value 对应的 Key-Value 列表，同时也包含它们的 Revision。通过 Revision 大小，客户端可以判断自己是否获得锁。如果抢锁失败，则等待锁释放 ( 对应的 Key 被删除或者租约过期 ) ，然后再判断自己是否可以获得锁。

Watch 机制。

即监听机制。Watch 机制支持监听某个固定的 Key，也支持监听一个范围 ( 前缀机制 ) 。当被监听的 Key 或范围发生变化，客户端将收到通知。

在实现分布式锁时，如果抢锁失败，可通过 Prefix 机制返回的 Key-Value 列表获得 Revision 比自己小且相差最小的 Key ( 称为 Pre-Key ) 。对 Pre-Key 进行监听，因为只有它释放锁，自己才能获得锁。如果监听到 Pre-Key 的 DELETE 事件，则说明 Pre-Key 已经释放，自己已经持有锁。

具体实现

使用 IF-Then-Else 语句 ( 事务 ) ，IF 语言判断 ETCD 服务端是否存在指定的 key，通过该 key 创建的版本号 create_revision 是否为 0 来检查 key 是否已存在。如果该 key 存在，版本号不为 0。客户端请求在获取到分布式锁后，如果发生异常，需要及时将锁释放掉，因此需要租约，长时间使用需要续约。

本文参考资料