HDFS 分布式文件系统

约 4649 字大约 16 分钟

2024-06-25

如果你也是一名大数据方向的工作者，那么就一定听说过分布式文件系统：。本文将介绍，详细阐述其中的重要概念、体系架构、存储原理和读写过程，如果你希望从零开始了解这个系统，那么可以阅读本篇文章。

简介

为了解决大数据量下的高效存储问题，谷歌开发了分布式文件系统：，通过网络实现文件在多态及其上的分布式存储。而 Hadoop 分布式文件系统：则是针对的开源实现，和 MapReduce 一起成为 Haddop 两大核心组成部分。总的而言，实现了以下目标:

兼容廉价的硬件设备。DFS 将硬件节点失效的情况视为"正常"情况，设计了快速检测应急教案故障和自动恢复的机制，也开源持续监视，容错处理等。可以实现在硬件出错的情况下也能实现数据的完整性。
流数据读写。
大数据集。
简单的文件模型。采用"一次写入，多次读取"的简单文件模型，文件一旦完成写入并关闭后就只能读取。
强大的跨平台兼容。采用 Java 语言实现，具有良好的跨平台兼容，任何支持 JVM 的机器都可以运行。

但是也有一定的局限性：

不适合低延迟的访问。主要面对大规模批量处理的数据，采用流式数据读取，具有很高的吞吐率，但是同时意味着有较高的延迟。
无法高效存储大量小文件。一个块的较大，而文件大小如果小于一个块则无法高效存储。具体原因在文章后面有具体的讨论。
不支持多用户写入以及任意修改文件。只允许一个文件的写入者，不允许多个用户对同一个文件进行写操作。并且无法执行随机写操作，只能追加。

体系结构

在本小节我们将简要介绍的体系结构，然后介绍命名空间管理、通信协议、客户端，最后会讨论体系的局限性。

概述

采用的是一个 主从结构 模型，一个集群包含一个名称节点（有且仅有一个）和若干个数据节点。

名称节点作为中心服务器，负责管理文件系统的 命名空间 以及 客户端对文件的访问。数据节点一般是一个节点运行一个数据节点进程，负责文件系统客户端的读写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据事实上保存在其本地的 Linux 文件系统中。数据节点会向名称节点发送心跳来报告自己的状况，没有按时发送心跳的数据节点会被标注为"宕机"，不会再分配任何 I/O 请求。

在系统内部，文件会被切分为若干个数据块，这些数据块会被分布到若干个数据节点上。当客户端需要访问一个文件时，首先把文件名发送给名称节点，名称节点会根据文件名找到对应的所有数据块，再根据每个数据块的信息找到实际存储这些数据块的数据节点，并把数据节点位置返还给客户端。最后客户端直接访问这些数据节点获取数据。可以看到，在这个过程中名称节点并不直接参与数据的传输。

命名空间管理

HDFS的命名空间包括：目录、文件和块。命名空间管理是指：命名空间支持对HDFS中的目录、文件和块进行类似文件系统的创建、修改和删除等基本操作。

当前的体系结构中，整个集群只有一个命名空间，并且只有唯一一个命名节点，该节点负责对这个命名空间进行管理。

局限

目前还未实现磁盘配额和文件访问权限等功能，也不支持文件的硬链接和软连接。

命名空间的限制。名称节点是保存在内存中的，受到硬件内存的限制。
性能瓶颈。整个分布式系统的吞吐量受到单个名称节点的吞吐量的限制。
隔离问题。由于集群中只有一个名称节点，只有一个命名空间，无法对不同的程序进行隔离。
集群可用性。一旦名称节点发生故障，会导致整个集群不可用。

存储原理

数据的冗余存储

为了保证系统的容错性和可用性，采用了多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分布到不同的数据节点上。这种多副本方法有以下优点：

加快数据传输。当多个客户端需要访问同一个文件时，可以让客户端从不同的副本中读取数据。
容易检查数据错误。
保证数据可靠性。

数据存取策略

数据的存取策略是分布式文件系统的核心内容，很大程度上会影响到整个分布式文件系统的读写性能。

数据存放

采用了以机架为基础的数据存放策略。

节点在同一个机架和不同机架的区别

不同机架之间的数据通信需要经过交换机或者路由器，同一个机架中不同机器之间的通信不需要经过交换机和路由器。

这意味着同一个机架中不同机器之间的通信要比不同机架之间的通信带宽大。

默认策略是每个数据节点都在不同的机架上。这样做有优点也有缺点：

优点

高可靠性。一个机架出现故障可以使用其他机架上的副本。
读取速度高。多个副本可以并行读取。
更容易实现负载均衡和错误处理。

缺点

写入数据时无法充分利用同一个机架内部的带宽。
默认的复制因子是 3，每个文件块都会被同时复制到三个地方，其中有两个副本放在同一个机架的不同机器上，第三个副本放在不同机架的机器上。
数据读取。提供了一个 API 可以确定一个数据节点所属的机架 ID，客户端可以调用 API 获取自己所属的机架 ID。当客户端读取数据时，从名称节点获取数据块不同副本的存放位置列表，可以调用 API 来确定客户端和这些数据节点所属的机架 ID。如果在同一个机架，则可以优先读取该副本。
数据复制。数据复制采用了流水线复制的策略。当客户端写入一个文件时：
1. 首先文件被写入本地，并被切分成不同的数据块。
2. 每个块都向名称节点发起写请求。
3. 名称节点根据数据节点使用情况选择一个数据节点列表返回给客户端。
4. 客户端将数据首先写入列表的第一个数据节点，并将列表传递给第一个数据节点。
5. 第一个数据节点接受到 4 KB 数据时，写入本地，并向列表的第二个数据节点发起连接请求，将自己已经接受到的 4 KB 数据传给第二个数据节点。
6. 第二个数据节点也以此类推，在接收到 4 KB 时向第三个数据节点进行请求，形成流水线。

当文件写完的时候，数据复制也会同时完成。

数据错误与恢复

拥有非常高的容错性，使得它可以兼容廉价的硬件设备。将硬件设备出错堪称时一种常态而非异常，并设计了相应的机制检测数据错误和进行自动恢复。分为以下三种情况：

名称节点出错。
名称节点保存着所有的元数据信息，其中包含最核心的 EditLog 和 FsImage，如果发生损坏则整个实例失效。
Hadoop 采用两种机制来确保名称节点的安全:
1. 把名称节点的元数据信息同步存储到其他文件系统。比如远程挂载 NFS。
2. 运行一个第二名称节点。
数据节点出错。
每个数据节点会定期向名称节点发送"心跳"信息，向名称节点报告自己的状态。当数据节点发生故障或者网路出现断网时，名称节点会把收不到"心跳"的数据节点标记为"宕机"，节点上所有的数据都标记为"不可读"，名称节点后续不会再发送任何 I/O 请求。
而标注完"宕机"后，会有部分数据块的副本数量小于冗余因子，此时名称节点会定期检测这种情况，一旦发现则会启动数据冗余复制。
数据出错。
网络传输和磁盘都会导致数据错误。客户端在读取数据后会采用 md5 和 shal 对数据进行校验，以确保读到的时正确的数据。而此处校验的信息是客户端在文件被创建的时候写入同一个路径的隐藏文件夹下的。
当客户端校验出错，客户端会请求其他数据节点的数据块副本，并向名称节点报告该数据块有错误。名称节点会定期检查并重新复制这个数据块。