2.大数据系列之Hadoop HDFS初探

2021-05-14 04:43:38 4

+关注

Hadoop 学习之旅：伪分布式模式详解

什么是伪分布式？

伪分布式，顾名思义，就是模拟分布式环境。它的主要用途是学习和测试，而真实的生产环境则需要真正的分布式系统。

要了解更多详细信息，可以访问 Hadoop 的官方网站：Hadoop 官方文档

实验过程

准备工作

准备一台云主机：本次实验使用的是移动云提供的云主机。
确保 JDK 和 Hadoop 安装正确：确保 JDK 已正确安装并且环境变量配置无误；同样地，确保 Hadoop 安装正确并配置好环境变量。

步骤一：配置核心配置文件

配置 core-site.xml 文件： xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
配置 hdfs-site.xml 文件：默认情况下，HDFS 使用三个副本，但可以根据需要调整为一个副本。 xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

步骤二：配置 SSH 免密登录

为了使 HDFS 能够顺利启动，需要确保 SSH 命令能成功执行且不需要密码。 bash ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys

步骤三：验证结果

格式化 HDFS： bash bin/hdfs namenode -format
启动 HDFS： bash sbin/start-dfs.sh
创建 HDFS 目录，用于 MapReduce 作业： bash bin/hdfs dfs -mkdir /user bin/hdfs dfs -mkdir /user/root
将本地目录中的所有 XML 文件复制到 HDFS 的 input 目录中： bash bin/hdfs dfs -mkdir input bin/hdfs dfs -put etc/hadoop/*.xml input
运行 Hadoop 内置示例程序，验证 HDFS 处理数据的能力： bash bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'
查看处理后的数据： bash bin/hdfs dfs -cat output/*
结束实验后，停止 HDFS 服务： bash sbin/stop-dfs.sh

步骤四：访问 HDFS 的 Web 界面

若想访问 Hadoop 的 Web 界面，可以通过浏览器访问该云主机的公网 IP 加上端口 50070，例如 http://33.162.68.xx:50070。

实验总结

本地操作：Hadoop 的本地操作是基于默认的 file:// 协议完成的，即在本地目录下创建 input 文件，然后将实验数据复制到 input 文件中，处理后的数据会保存在本地的 output 目录中。
HDFS 操作：Hadoop 的 HDFS 操作则是基于 core-site.xml 中配置的 hdfs:// 路径进行的。本地目录中不会出现 input 或 output 文件，可以通过登录 HDFS 的 Web 界面查看 input 或 output 文件。