伪分布式,顾名思义,就是模拟分布式环境。它的主要用途是学习和测试,而真实的生产环境则需要真正的分布式系统。
要了解更多详细信息,可以访问 Hadoop 的官方网站:Hadoop 官方文档
配置 core-site.xml 文件:
xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
配置 hdfs-site.xml 文件:默认情况下,HDFS 使用三个副本,但可以根据需要调整为一个副本。
xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
为了使 HDFS 能够顺利启动,需要确保 SSH 命令能成功执行且不需要密码。
bash
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
bash
bin/hdfs namenode -format
bash
sbin/start-dfs.sh
bash
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/root
input
目录中:
bash
bin/hdfs dfs -mkdir input
bin/hdfs dfs -put etc/hadoop/*.xml input
bash
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'
bash
bin/hdfs dfs -cat output/*
bash
sbin/stop-dfs.sh
若想访问 Hadoop 的 Web 界面,可以通过浏览器访问该云主机的公网 IP 加上端口 50070,例如 http://33.162.68.xx:50070
。
file://
协议完成的,即在本地目录下创建 input
文件,然后将实验数据复制到 input
文件中,处理后的数据会保存在本地的 output
目录中。core-site.xml
中配置的 hdfs://
路径进行的。本地目录中不会出现 input
或 output
文件,可以通过登录 HDFS 的 Web 界面查看 input
或 output
文件。希望这些内容对你有所帮助!