HDFS

实用工具

发布日期: 2019-11-27

文章字数: 1.5k

阅读时长: 5 分

阅读次数:

HDFS基础

分布式文件系统

分布式文件系统把文件分布存储在多个计算机节点上，成千上万的计算机节点构成计算机集群

HDFS简介与相关概念

HDFS简介

实现目标：

兼容廉价的硬件设备
流数据读写
大数据集
简单的文件模型
强大的跨平台兼容性

局限

不适合低延迟数据访问
无法高效存储大量小文件
不支持多用户写入及任意修改文件

HDFS结构

图：hdfs结构

HDFS命名空间管理

命名空间包含目录、文件和块
使用的是传统的分级文件体系

通信协议

在TCP/TP协议之上
客户端通过一个可配置的端口向NameNode主动发起TCP连接，并使用客户端协议与NameNode进行交互
NameNode与DataNode之间使用数据节点协议交互
客户端与DataNode使用RPC（remote procedure call）实现

客户端

HDFS在部署时提供了客户端
客户端是一个库，暴露HDFS文件系统接口
客户端支持打开、读取、写入等常见操作，提供类shell的命令行访问数据

HDFS-1.0-局限性

命名空间的限制：NameNode保存在内存中，受到内存空间大小限制
性能的瓶颈：受限单个NameNode的吞吐量
隔离问题：集群中只有一个NameNode，只有一个命名空间，因此没法对不同程序进行隔离
集群的可用性：一旦唯一的NameNode发生故障，则导致整个集群不可用

HDFS存储原理

冗余数据保存

多副本对数据进行冗余保存，一般默认冗余保存3份
优点
1. 加快数据传输速度
2. 容易检查数据错误
3. 保证数据可靠性

数据存取策略

数据存放

第一个副本：放置在上传文件的数据节点；如果在集群外提交，则随机挑选机器存放
第二个副本：放置在与第一个副本不同的机架（rack）的节点上
第三个副本：与第一个副本相同机架的不同节点上

数据读取

当客户端读取数据时，从NameNode获得数据块不同副本的存放位置列表，通过API来获取这些存放位置的机架ID与客户端对应机架ID，如果ID相同，则优先选择该副本，反之随机读取

数据错误与恢复

NameNode出错

使用SecondaryNameNode进行数据恢复

DataNode出错

心跳机制：每个DataNode会定期向NameNode发送心跳信息
当DataNode出错时，NameNode收不到心跳，则会将他们标记为“宕机”，其节点上所有数据标记为“不可读”，也不会再给他们发送任何IO请求
NameNode还会检查，当某个数据库的副本数量小于冗余因子，就会启动数据冗余复制，产生新副本

数据出错

网络传输和磁盘错误等因素，会造成数据错误
当文件本创建时，客户端会对每一个文件进行信息摘录，并写入到同一路径的隐藏文件中
当客户端读取文件的时候，会先读取信息摘录文件，然后对读取的数据块进行校验，如果检验出错，客户端则会请求到另外一个DataNode读取文件块，并向NameNode报告这个文件块有错误，然后NameNode会重新复制这个块

HDFS数据读写过程

读过程-JAVA

JAVA读过程

图：JAVA读HDFS过程

写过程-JAVA

JAVA写过程

图：JAVA写HDFS过程

HDFS进阶

HDFS编程实践

编程实践

参考书籍

大数据技术原理与应用

疑难解答

Myhaa

https://myhaa.github.io/2019/11/27/shi-yong-gong-ju-zhi-hdfs/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Myhaa !

HDFS

实用工具之spark

Spark自学笔记

2019-12-12 实用工具

spark

计算广告之理论

关于计算广告学课程的一些笔记

2019-11-22 计算广告

理论

HDFS基础

分布式文件系统

HDFS简介与相关概念

HDFS简介

实现目标：

局限

相关概念

块

NameNode

功能：

数据结构

启动

内存全景

DatanNode（廉价机器）

功能

HDFS结构

HDFS命名空间管理

通信协议

客户端

HDFS-1.0-局限性

HDFS存储原理

冗余数据保存

数据存取策略

数据存放

数据读取

数据错误与恢复

NameNode出错

DataNode出错

数据出错

HDFS数据读写过程

读过程-JAVA

写过程-JAVA

HDFS进阶

HDFS编程实践

参考书籍

疑难解答

HDFS基础

分布式文件系统

HDFS简介与相关概念

HDFS简介

实现目标：

局限

相关概念

块

NameNode

功能：

数据结构

启动

内存全景

DatanNode（廉价机器）

功能

HDFS结构

HDFS命名空间管理

通信协议

客户端

HDFS-1.0-局限性

HDFS存储原理

冗余数据保存

数据存取策略

数据存放

数据读取

数据错误与恢复

NameNode出错

DataNode出错

数据出错

HDFS数据读写过程

读过程-JAVA

写过程-JAVA

HDFS进阶

HDFS编程实践

参考书籍

疑难解答

感谢您的赏识！