2.大数据系列之Hadoop HDFS初探
作者头像
  • 2021-05-14 04:43:38 4

Hadoop 学习之旅:伪分布式模式详解

什么是伪分布式?

伪分布式,顾名思义,就是模拟分布式环境。它的主要用途是学习和测试,而真实的生产环境则需要真正的分布式系统。

要了解更多详细信息,可以访问 Hadoop 的官方网站:Hadoop 官方文档

实验过程

准备工作
  1. 准备一台云主机:本次实验使用的是移动云提供的云主机。
  2. 确保 JDK 和 Hadoop 安装正确:确保 JDK 已正确安装并且环境变量配置无误;同样地,确保 Hadoop 安装正确并配置好环境变量。
步骤一:配置核心配置文件
  1. 配置 core-site.xml 文件xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>

  2. 配置 hdfs-site.xml 文件:默认情况下,HDFS 使用三个副本,但可以根据需要调整为一个副本。 xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

步骤二:配置 SSH 免密登录

为了使 HDFS 能够顺利启动,需要确保 SSH 命令能成功执行且不需要密码。 bash ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys

步骤三:验证结果
  1. 格式化 HDFS: bash bin/hdfs namenode -format
  2. 启动 HDFS: bash sbin/start-dfs.sh
  3. 创建 HDFS 目录,用于 MapReduce 作业: bash bin/hdfs dfs -mkdir /user bin/hdfs dfs -mkdir /user/root
  4. 将本地目录中的所有 XML 文件复制到 HDFS 的 input 目录中: bash bin/hdfs dfs -mkdir input bin/hdfs dfs -put etc/hadoop/*.xml input
  5. 运行 Hadoop 内置示例程序,验证 HDFS 处理数据的能力: bash bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'
  6. 查看处理后的数据: bash bin/hdfs dfs -cat output/*
  7. 结束实验后,停止 HDFS 服务: bash sbin/stop-dfs.sh
步骤四:访问 HDFS 的 Web 界面

若想访问 Hadoop 的 Web 界面,可以通过浏览器访问该云主机的公网 IP 加上端口 50070,例如 http://33.162.68.xx:50070

实验总结

  1. 本地操作:Hadoop 的本地操作是基于默认的 file:// 协议完成的,即在本地目录下创建 input 文件,然后将实验数据复制到 input 文件中,处理后的数据会保存在本地的 output 目录中。
  2. HDFS 操作:Hadoop 的 HDFS 操作则是基于 core-site.xml 中配置的 hdfs:// 路径进行的。本地目录中不会出现 inputoutput 文件,可以通过登录 HDFS 的 Web 界面查看 inputoutput 文件。

希望这些内容对你有所帮助!

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
初探系列数据HadoopHDFS
    下一篇