一文解决伪分布式hadoop集群搭建-技术圈

◆ ◆ ◆ ◆ ◆

注意！！！

阅读此文章前，必须掌握虚拟机搭建，linux基本命令，请戳下面链接学习：

环境准备

1.关闭防火墙及开机自启动

/*普通用户：切换为root用户*/$ su - root
/*root用户：关闭防火墙及开机自启动*/# systemctl stop firewalld.service# systemctl disable firewalld.service

2.查看、修改主机名与主机IP映射

# vim /etc/hostnamemaster# vim /etc/hosts192.168.XXX.XXX master

3.配置免密登录

# su - yan$ cd $ ssh-keygen -t rsa$ ssh master$ ssh-copy-id master$ ssh master  --不需要再输入密码即表示免密登录配置成功

4.上传并解压安装文件

第一步：创建文件夹

/*普通用户：切换到家目录，创建文件目录*/$ cd$ mkdir hadoop$ mkdir hadoopdata$ cd hadoop

第二步：直接拖拽安装包到SecureCRT，或rz上传即可

/*需要上传的介质*/hadoop-2.7.7.tar.gzjdk-8u144-linux-x64.tar.gz

第三步：解压安装包

$ tar -zxvf hadoop-2.7.7.tar.gz$ tar -zxvf jdk-8u144-linux-x64.tar.gz$ lltotal 394764drwxr-xr-x. 10 yan yan       161 Feb 12 16:36 hadoop-2.7.7-rw-r--r--.  1 yan yan 218720521 Dec 17  2018 hadoop-2.7.7.tar.gzdrwxr-xr-x.  8 yan yan       255 Jul 22  2017 jdk1.8.0_144-rw-r--r--.  1 yan yan 185515842 Oct 17  2017 jdk-8u144-linux-x64.tar.gz

第四步：配置环境变量

$ cd$ vim .bash_profileexport JAVA_HOME=/home/yan/hadoop/jdk1.8.0_144export HADOOP_HOME=/home/yan/hadoop/hadoop-2.7.7export PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH$ source .bash_profile
/*查看是否生效*/$ java -versionjava version "1.8.0_144"Java(TM) SE Runtime Environment (build 1.8.0_144-b01)Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode)
$ hadoop versionHadoop 2.7.7Subversion Unknown -r c1aad84bd27cd79c3d1a7dd58202a8c3ee1ed3acCompiled by stevel on 2018-07-18T22:47ZCompiled with protoc 2.5.0From source with checksum 792e15d20b12c74bd6f19a1fb886490This command was run using /home/yan/hadoop/hadoop-2.7.7/share/hadoop/common/hadoop-common-2.7.7.jar

集群配置

/*切换到hadoop配置文件目录*/$ cd /home/yan/hadoop/hadoop-2.7.7/etc/hadoop

1.hadoop-env.sh

$ vim hadoop-env.shexport JAVA_HOME=/home/yan/hadoop/jdk1.8.0_144

2.mapred-env.sh

$ vim mapred-env.shexport JAVA_HOME=/home/yan/hadoop/jdk1.8.0_144

3.yarn-env.sh

$ vim yarn-env.shexport JAVA_HOME=/home/yan/hadoop/jdk1.8.0_144

4.core-site.xml

$ vim core-site.xml<configuration> <property> <name>fs.defaultFSname> <value>hdfs://master:9000value> property> <property> <name>hadoop.tmp.dirname> <value>/home/yan/hadoopdatavalue> property>configuration>

5.hdfs-site.xml

$ vim hdfs-site.xml<configuration><property><name>dfs.replicationname><value>1value>property>configuration>

6.yarn-site.xml

$ vim yarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.addressmaster:18040yarn.resourcemanager.scheduler.addressmaster:18030yarn.resourcemanager.resource-tracker.addressmaster:18025

7.mapred-site.xml

/*创建一个副本*/$ cp mapred-site.xml.template mapred-site.xml$ vim mapred-site.xmlmapreduce.framework.nameyarn

8.slaves文件

$ vim slavesmaster

9.格式化文件系统并启动集群

$ cd/*格式化文件系统*/$ hdfs namenode -format/*启动集群*/$ start-all.sh

10.验证是否启动成功

方法一：jps查看进程（出现6个，缺一不可）$ jps9713 DataNode10071 ResourceManager10505 Jps9915 SecondaryNameNode9596 NameNode10175 NodeManager方法二：web端查看（观察界面是否出现）http://master:50070/http://master:8088/

牛刀小试

1.计算PI值

$ cd /home/yan/hadoop/hadoop-2.7.7/share/hadoop/mapreduce$ hadoop jar hadoop-mapreduce-examples-2.7.7.jar pi 5 5

2.词频统计

$ cd$ vim word.txtHello YanWuhan WinI love U$ hadoop fs -mkdir /test$ hadoop fs -put word.txt /test$ cd /home/yan/hadoop/hadoop-2.7.7/share/hadoop/mapreduce$ hadoop jar hadoop-mapreduce-examples-2.7.7.jar wordcount /test/word.txt /output$ hadoop fs -cat /output/part-r-00000

电脑太卡了！！！就写到这吧~#END#

———— 下次见 ————

注意！！！

阅读此文章前，必须掌握虚拟机搭建，linux基本命令，请戳下面链接学习：

《图文详解虚拟机安装、配置及远程登录》

python爬虫人工智能大数据公众号