本文旨在提供最基本的,可以用于在生產(chǎn)環(huán)境進(jìn)行Hadoop、HDFS分布式環(huán)境的搭建,對(duì)自己是個(gè)總結(jié)和整理,也能方便新人學(xué)習(xí)使用。
一、基礎(chǔ)環(huán)境
在Linux上安裝Hadoop之前,需要先安裝兩個(gè)程序:
1.1 安裝說明
1. JDK 1.6或更高版本(本文所提到的安裝的是jdk1.7);
2. SSH(安全外殼協(xié)議),推薦安裝OpenSSH。
下面簡(jiǎn)述一下安裝這兩個(gè)程序的原因:
1. Hadoop是用Java開發(fā)的,Hadoop的編譯及MapReduce的運(yùn)行都需要使用JDK。
2. Hadoop需要通過SSH來啟動(dòng)salve列表中各臺(tái)主機(jī)的守護(hù)進(jìn)程,因此SSH也是必須安裝的,即使是安裝偽分布式版本(因?yàn)镠adoop并沒有區(qū)分集群式和偽分布式)。對(duì)于偽分布式,Hadoop會(huì)采用與集群相同的處理方式,即依次序啟動(dòng)文件conf/slaves中記載的主機(jī)上的進(jìn)程,只不過偽分布式中salve為localhost(即為自身),所以對(duì)于偽分布式Hadoop,SSH一樣是必須的。
1.1 JDK的安裝與配置
1、上傳壓縮包
我這里使用的是WinScp工具 上傳jdk-7u76-linux-x64.tar.gz壓縮包
2、解壓壓縮包
tar -zxvf jdk-7u76-linux-x64.tar.gz
3、將解壓的目錄移動(dòng)到/usr/local目錄下
mv /lutong/jdk1.7.0_76/ /usr/local/
4、配置環(huán)境變量
vim /etc/profile
5、重新加載/etc/profile,使配置生效
source /etc/profile
6、查看配置是否生效
echo $PATH
java -version
出現(xiàn)如上信息表示已經(jīng)配置好了。
二、Host配置
由于我搭建Hadoop集群包含三臺(tái)機(jī)器,所以需要修改調(diào)整各臺(tái)機(jī)器的hosts文件配置,進(jìn)入/etc/hosts,配置主機(jī)名和ip的映射,命令如下:
vim /etc/hosts
如果沒有足夠的權(quán)限,可以切換用戶為root。
三臺(tái)機(jī)器的內(nèi)容統(tǒng)一增加以下host配置:
可以通過hostname來修改服務(wù)器名稱為master、slave1、slave2
hostname master
三、Hadoop的安裝與配置
3.1 創(chuàng)建文件目錄
為了便于管理,給Master的hdfs的NameNode、DataNode及臨時(shí)文件,在用戶目錄下創(chuàng)建目錄:
/data/hdfs/name
/data/hdfs/data
/data/hdfs/tmp
然后將這些目錄通過scp命