当前位置: 首页 > news >正文

基于WSL下载Hadoop和HBASE

正常操作
步骤 1:安装 WSL
启用 WSL 功能:

以管理员身份打开 PowerShell 或 命令提示符,输入以下命令并回车:

powershell
wsl --install
这个命令会自动启用所需的 Windows 功能、下载并安装默认的 Ubuntu 发行版。

(如果上述命令无效,可以手动启用):

powershell
dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart
设置用户账号:

安装完成后,系统会提示你重启电脑。重启后,首次启动安装的 Ubuntu 应用,它会要求你创建一个纯英文的 UNIX 用户名和密码。

步骤 2:在 WSL 中安装 Hadoop
现在,你拥有了一个 Ubuntu 终端,接下来的所有操作都和在真正的 Linux 系统中一模一样。

更新软件包列表:

bash
sudo apt update
安装 Java (Hadoop 的依赖):

bash
sudo apt install openjdk-11-jdk -y
安装后验证:java -version

下载并安装 Hadoop:

bash

进入用户主目录

cd ~

使用 wget 下载 Hadoop (以 3.3.6 为例,可替换为最新版)

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

解压

tar -xzvf hadoop-3.3.6.tar.gz

重命名并移动到常用位置(可选)

mv hadoop-3.3.6 hadoop
sudo mv hadoop /usr/local/
配置环境变量和 Hadoop:

编辑 ~/.bashrc 文件:

bash
nano ~/.bashrc
在文件末尾添加:

bash
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # Java 路径可能不同,可用 update-alternatives --config java 查看
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:source ~/.bashrc
可能出现错误
image
成功启用Windows功能,但是下载并安装Linux系统这一步遇到了网络连接超时错误

可以尝试手动安装
下载 Linux 内核更新包(必需步骤):
访问微软官方 WSL 文档的下载页:https://aka.ms/wsl2kernel
找到并下载 WSL2 Linux 内核更新包(例如:wsl_update_x64.msi)。
下载后,双击运行安装它。
手动下载并安装 Ubuntu 系统:
打开 Microsoft Store (微软应用商店)。
在搜索框中搜索 Ubuntu。
安装完成后,从开始菜单打开刚刚安装的 Ubuntu 应用。
系统会要求你等待几分钟进行初始解压,然后为你创建一个新的用户名和密码(这个用户名和密码是 WSL Linux 子系统内部的,用于 sudo 命令,可以与你的 Windows 账户密码不同)。

如何验证安装成功?
安装完成后,重新打开一个普通的 PowerShell 或命令提示符窗口(不需要管理员身份),输入命令:
powershell
wsl -l -v
如果成功,你会看到类似下面的输出,表明 Ubuntu 正在运行,并且版本是 WSL 2:
text
NAME STATE VERSION

  • Ubuntu Running 2

请直接运行:
bash
sudo apt update
sudo apt install openjdk-11-jdk -y
会出现这个图像

下载 Hadoop
现在我们可以下载 Hadoop 了。请回到用户主目录,然后使用 wget 命令下载(以 3.3.6 版本为例):

bash
cd ~
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
3. 解压并移动到合适的位置
bash
tar -xzvf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
4. 设置环境变量
接下来需要配置环境变量,让系统知道 Hadoop 的位置。编辑 ~/.bashrc 文件:

bash
nano ~/.bashrc
在文件的最后,添加以下内容(如果不会用 nano 编辑器,可以搜索一下基本用法:Ctrl+X 退出,按 Y 确认保存,回车确认文件名):

bash
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后让配置生效:

bash
source ~/.bashrc
image
配置 Hadoop 本身
这是最复杂的一步,我们需要修改几个 Hadoop 的配置文件。所有配置文件都位于 /usr/local/hadoop/etc/hadoop/ 目录下。

4.1 配置 core-site.xml
这个文件指定 HDFS 的默认访问地址和临时目录。

bash
nano $HADOOP_HOME/etc/hadoop/core-site.xml
标签内的内容替换为:

xml


fs.defaultFS
hdfs://localhost:9000


hadoop.tmp.dir
/home/$(whoami)/hadoop_tmp


4.2 配置 hdfs-site.xml
这个文件指定 HDFS 的副本数量(单机模式设为1)。

bash
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
替换为:

xml


dfs.replication
1


4.3 配置 mapred-site.xml
这个文件指定 MapReduce 运行在 YARN 框架上。

bash
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
替换为:

xml


mapreduce.framework.name
yarn


4.4 配置 yarn-site.xml
这个文件配置 YARN 资源管理器。

bash
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
替换为:

xml


yarn.nodemanager.aux-services
mapreduce_shuffle


免密登录
设置 SSH 免密登录
Hadoop 的启动脚本需要通过 SSH 连接到本地机器来启动各种守护进程(如 DataNode, NodeManager)。设置免密登录后,脚本就不需要手动输入密码了。

安装 SSH 客户端和服务器:

bash
sudo apt install openssh-client openssh-server -y
生成 SSH 密钥对(一直按回车即可,所有提示都使用默认值):

bash
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
将公钥授权给本机:

bash
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
修改授权文件权限(这是一个安全要求):

bash
chmod 0600 ~/.ssh/authorized_keys
测试 SSH 免密登录是否成功:

bash
ssh localhost
格式化 HDFS NameNode
注意:这是第一次安装时必须执行的操作,且只能做一次!它会清除所有已有的 HDFS 数据。

这相当于初始化 Hadoop 的文件系统。

bash
hdfs namenode -format
您会看到大量日志输出。如果格式化成功,最后几行通常会出现 Storage directory ... has been successfully formatted 之类的信息。

启动 Hadoop 集群
现在,一切准备就绪,可以启动 Hadoop 了!

启动 HDFS(包含 NameNode, DataNode, SecondaryNameNode):

bash
start-dfs.sh
启动 YARN(包含 ResourceManager, NodeManager):

bash
start-yarn.sh
使用 jps 命令验证所有进程是否都已启动:

bash
jps
如果启动成功,您应该能看到类似以下的 6个 关键进程(顺序可能不同):

text
1234 NameNode
5678 DataNode
9012 SecondaryNameNode
3456 ResourceManager
7890 NodeManager
1112 Jps
Jps 进程本身是用来查看Java进程的工具,可以忽略。只要前5个都在,就说明集群启动成功了!
可能出现问题
image
Hadoop 从 3.x 版本开始,出于安全考虑,不允许直接使用 root 用户来启动和管理服务。

错误信息非常明确:

text
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
我们需要在环境变量中明确指定运行 Hadoop 服务的用户。

解决方案:配置 Hadoop 用户环境变量
请按照以下步骤操作:

编辑 ~/.bashrc 文件,添加必要的用户环境变量:

bash
nano ~/.bashrc
在文件的最末尾,添加以下配置行(这些变量会告诉 Hadoop 脚本使用哪个用户来启动服务):

bash

Hadoop User Definitions (Required for Hadoop 3.x+)

export HDFS_NAMENODE_USER="root"
export HDFS_DATANODE_USER="root"
export HDFS_SECONDARYNAMENODE_USER="root"
export YARN_RESOURCEMANAGER_USER="root"
export YARN_NODEMANAGER_USER="root"
由于我们就是在 root 用户下操作的,所以这里都设置为 "root"。

保存并退出 nano 编辑器 (Ctrl+X -> Y -> Enter)。

让新的环境配置立即生效:

bash
source ~/.bashrc
现在,重新启动 Hadoop 集群:

bash
stop-dfs.sh
stop-yarn.sh
start-dfs.sh
start-yarn.sh
再次使用 jps 命令验证进程是否都已成功启动:

bash
jps

image
看到这个错误 ERROR: JAVA_HOME is not set and could not be found.,这表明 Hadoop 启动脚本无法找到 Java 安装路径。虽然您之前可能已经设置了 JAVA_HOME,但可能设置不正确或者没有生效。

让我们一步步解决这个问题:

解决方案:正确设置 JAVA_HOME

  1. 首先,确认 Java 确实已安装并找到其准确路径
    bash
    update-alternatives --config java
    或者

bash
which java
执行这些命令后,您会看到 Java 的安装路径,例如:

text
/usr/lib/jvm/java-11-openjdk-amd64/bin/java
请记下这个路径(去掉末尾的 /bin/java),例如:/usr/lib/jvm/java-11-openjdk-amd64

  1. 编辑 Hadoop 的环境配置文件
    Hadoop 有自己的环境配置文件,我们需要在其中设置 JAVA_HOME:

bash
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
在这个文件中,找到 export JAVA_HOME= 这一行(大约在第54行左右),取消注释并将路径设置为您刚才找到的 Java 路径:

bash

将原本的行修改为:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
请确保将路径替换为您实际找到的 Java 安装路径。

保存并退出编辑器(Ctrl+X → Y → Enter)。

  1. 同时确保 ~/.bashrc 中的 JAVA_HOME 也正确设置
    bash
    nano ~/.bashrc
    检查 JAVA_HOME 的设置是否正确,应该与上面设置的路径一致。

然后让配置生效:

bash
source ~/.bashrc
4. 验证 JAVA_HOME 设置
bash
echo $JAVA_HOME
应该输出您设置的 Java 路径。

  1. 现在重新启动 Hadoop
    bash
    stop-all.sh
    start-dfs.sh
    start-yarn.sh
  2. 检查进程是否正常运行
    bash
    jps
    出现下面的图像HADOOP就算完成了
    image

下载HBASE
1.在Ubuntu 终端中执行:

bash
cd ~

以 HBase 2.4.18 为例(请检查官网是否有更新版本)

wget https://downloads.apache.org/hbase/2.4.18/hbase-2.4.18-bin.tar.gz
1.2 解压和安装
bash

解压

tar -xzvf hbase-2.4.18-bin.tar.gz

移动到合适位置并重命名

sudo mv hbase-2.4.18 /usr/local/hbase
1.3 设置环境变量
编辑 ~/.bashrc 文件:

bash
nano ~/.bashrc
在文件末尾添加:

bash

HBase Configuration

export HBASE_HOME=/usr/local/hbase
export PATH=$PATH:$HBASE_HOME/bin
使配置生效:

bash
source ~/.bashrc
第 2 步:配置 HBase
2.1 配置 hbase-site.xml
这是 HBase 的主要配置文件:

bash
nano $HBASE_HOME/conf/hbase-site.xml
将以下配置替换文件内容(确保 Hadoop 正在运行):

xml

hbase.cluster.distributedtruehbase.rootdirhdfs://localhost:9000/hbasehbase.zookeeper.property.dataDir/home/$(whoami)/zookeeperhbase.zookeeper.quorumlocalhost2.2 配置 Java 路径 编辑 HBase 的环境配置文件:

bash
nano $HBASE_HOME/conf/hbase-env.sh
找到并设置 JAVA_HOME:

bash
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
第 3 步:启动和测试 HBase
3.1 确保 Hadoop 正在运行
bash
jps
您应该看到 NameNode、DataNode、ResourceManager 等进程。

3.2 启动 HBase
bash
start-hbase.sh
3.3 验证 HBase 进程
bash
jps
您现在应该看到额外的 HBase 进程:

HMaster - HBase 主节点

HRegionServer - HBase 区域服务器

3.4 启动 HBase Shell 进行测试
bash
hbase shell
进入 HBase 交互式命令行界面,提示符变为 hbase(main):001:0>。就算成功了

http://www.wxhsa.cn/company.asp?id=4785

相关文章:

  • 应用多、交付快,研发运维怎么管?看云效+SAE 如何一站式破局
  • revit二次开发之 钢筋功能详细分析
  • java-wxj02
  • 停止win10自动升级操作
  • vue3 - elementPlus
  • GAS_Aura-Target Data
  • windows 把恢复分区调整到 c 盘前面
  • wso2~对已发布api的元信息管理
  • 利用Myo臂环采集肌电信号和角速度来实现实时手势识别
  • 实用指南:leetcode 966. 元音拼写检查器 中等
  • 三轴传感开发新纪元:exvib扩展库让精准检测触手可及!
  • List与Dictionary区别
  • OpenStack Cinder 架构
  • 完整教程:IC(输入捕获)
  • HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
  • 如何统计DrawMeshInstancedIndirect绘制物体的Triangle数据
  • VK1S68C点钟LED驱动控制专用芯片高抗干扰数显驱动IC 可支持134的点阵LED显示面板
  • 基于MATLAB的海洋中尺度涡旋诊断
  • 从混乱到有序:Tita 项目一体化管理的全场景赋能
  • SpringBoot入门指南:让Java开发变得像搭积木一样简单 - 教程
  • 汇编语言[王爽]-13 int指令【中断实现loop、jmp】
  • Supabase云同步架构:Flutter应用的数据同步策略
  • 汇编语言[王爽]-12 内中断
  • 【SPIE出版】第五届先进制造技术与电子信息国际学术会议(AMTEI 2025)
  • 2025.9.15 考试总结
  • 汇编语言[王爽]-01 基础知识
  • 贪心外套计数
  • 汇编语言[王爽]-02 寄存器
  • 汇编语言[王爽]-03 寄存器(内存访问)
  • 汇编语言[王爽]-05 [BX]和loop指令