当前位置：首页 > news >正文

Hadoop伪分布式hbase学习

news 2025/9/16 20:05:37

Hadoop全方位学习指南：从核心概念到生态系统
引言：为什么需要Hadoop？
在当今大数据时代，我们面临着前所未有的数据挑战——数据量巨大（Volume）、数据类型繁多（Variety）、处理速度要求快（Velocity）。传统的单机系统在存储和处理如此规模的数据时已力不从心。

Hadoop应运而生。它是一个由Apache基金会所开发的分布式系统基础架构，其核心设计思想是：将数据和大规模计算分散到成百上千台廉价的商用计算机集群中，从而实现可靠的、可扩展的分布式计算。

简单来说，Hadoop让你能用一群普通的PC机，完成只有大型服务器才能完成的大数据任务。

一、Hadoop核心组成：三驾马车
Hadoop最初主要由两个部分组成：存储系统HDFS和计算框架MapReduce。后来，资源调度管理组件YARN被分离出来，形成了现在的“三驾马车”。

HDFS (Hadoop Distributed File System) - 存储的基石
HDFS是Hadoop的分布式文件系统，负责数据的存储。它的设计遵循“一次写入，多次读取”的理念。

核心架构：主从模式 (Master/Slave)

NameNode (主节点 - Master)：

职责：存储文件的元数据(metadata)，如文件名、目录结构、文件块列表、块所在的DataNode等。相当于文件的“索引”或“目录”。

特点：是HDFS的单点故障(SPOF)所在，非常重要。生产环境必须配置高可用(HA)。

DataNode (从节点 - Slave)：

职责：存储实际的数据块(Block)。定期向NameNode发送心跳报告和块列表。

特点：通常每个块会有3个副本（可配置），分散在不同的机架上，提供极高的数据可靠性。

关键特性：

分块存储：大文件会被切分成固定大小的块（默认为128MB），分散存储在不同的DataNode上。这是实现分布式存储和并行计算的基础。

数据复制：每个块有多个副本，提供容错能力。即使某个DataNode损坏，数据也不会丢失。

高容错性：能够自动处理节点故障。

YARN (Yet Another Resource Negotiator) - 集群的资源大管家
YARN负责整个集群的资源管理和作业调度，让Hadoop从单一的MapReduce计算框架，演变成一个支持多种计算框架（如Spark, Flink）的通用大数据平台。

核心架构：

ResourceManager (RM - 主节点)：整个集群资源的最终决策者。负责管理所有应用程序的资源分配。

NodeManager (NM - 从节点)：每个节点上的代理，负责管理单个节点上的资源和任务执行。向RM汇报资源情况。

ApplicationMaster (AM)：每个应用一个的“项目经理”。负责向RM申请资源，并与NM协作来监控和管理应用程序的生命周期。

Container：对资源（CPU、内存等）的封装抽象，是YARN分配资源的基本单位。

工作流程：客户端提交一个应用（如MapReduce作业）到RM -> RM为该应用分配一个Container来启动AM -> AM向RM申请运行任务所需的Containers -> RM分配资源 -> AM与NM通信在获得的Containers中启动任务。

MapReduce - 分布式的计算框架
MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。其核心思想是 “分而治之”。

核心阶段：

Map阶段 (映射)：“分”。将输入数据拆分成多个小数据块，由多个Map任务并行处理。每个Map任务处理一个块，输出一系列的中间 <key, value> 对。

例如：统计词频时，Map任务读取一行文本，拆分成单词，输出 <word, 1>。

Shuffle阶段 (洗牌)：“合”。这是MapReduce的“神奇”所在。系统会自动将Map阶段输出的所有中间结果，按照key进行排序和分组，并将相同key的value集合在一起，发送给同一个Reduce任务。

例如：将所有 <hadoop, 1>、<hadoop, 1> 发送到同一个Reduce节点。

Reduce阶段 (归约)：“治”。Reduce任务接收Shuffle阶段送来的属于自己key的数据，进行汇总计算，并产生最终结果。

例如：接收 <hadoop, [1,1,1,...]>，计算总和，输出 <hadoop, 3>。

特点：编程接口简单，但计算效率相对较低（因为涉及大量的磁盘I/O）。

二、Hadoop生态系统：众星拱月
Hadoop早已超越其最初的三个模块，成长为一个庞大的生态系统，集成了各种强大的工具。

组件主要用途说明
Hive 数据仓库通过SQL（HQL）来查询和分析HDFS上的大数据。本质是将SQL转换为MapReduce/Tez/Spark作业。降低使用门槛。
HBase 分布式NoSQL数据库建立在HDFS之上的列式存储数据库，提供随机、实时的读写访问能力。弥补了HDFS只能批量读写的不足。
Spark 分布式内存计算框架使用内存计算，速度比MapReduce快100倍。提供了更丰富的操作API（RDD, DataFrame）。可运行在YARN上。
ZooKeeper 分布式协调服务解决分布式环境下的数据一致性、统一命名、状态同步等问题。是HBase和高可用HDFS的依赖。
Sqoop 数据迁移工具用于在Hadoop和结构化关系型数据库（如MySQL, Oracle）之间高效地传输批量数据。
Flume 日志采集工具一个高可用的、高可靠的分布式日志收集系统，用于将大量日志数据从Web服务器等源头采集到HDFS中。
Oozie 工作流调度器管理和调度多个Hadoop作业（如MapReduce, Hive, Pig, Sqoop等），组成一个复杂的工作流。
Kafka 分布式消息队列高吞吐量的发布订阅消息系统，常用于构建实时数据管道和流式应用。
三、核心总结与学习路径
Hadoop的核心优势
高可靠性：数据多副本，计算节点容错。

高扩展性：可通过增加节点线性扩展集群的存储和计算能力。

低成本：使用廉价的商用硬件构建集群。

生态丰富：拥有一个非常成熟和庞大的开源生态系统。

查看全文

http://www.wxhsa.cn/company.asp?id=5939