`
aijuans
  • 浏览: 1548093 次
社区版块
存档分类
最新评论

hadoop(1.2) 分布式部署

阅读更多

1. 部署环境

系统:  CentOS 6.3

需要安装jdk.

JDK的RPM下载地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

hadoop手册地址: http://hadoop.apache.org/docs/r1.2.1/index.html

关闭iptables和selinux

1
2
3
4
/etc/init.d/iptables stop
chkconfig iptables off
sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config
setenforce 0

 

2. SSH配置

1
2
3
4
5
6
7
8
9
useradd hadoop
echo 123456 | passwd --stdin hadoop
su - hadoop
 
ssh-keygen -t rsa                                      #生成密钥对
ssh-copy-id user@ip                                    #将ssh公钥copy到指定的主机
 
cd .ssh #每台服务器本机也需要配置ssh免密码登录
cat id_rsa.pub  >> authorized_keys

 

3. 部署hadoop

官网: http://hadoop.apache.org/

下载: http://mirror.bit.edu.cn/apache/hadoop/common/

1
2
wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
tar xf hadoop-1.2.1.tar.gz

 

修改配置

     1.    conf/hadoop-env.sh

这是一个脚本文件,主要是用来初始化hadoop环境的.

修改JAVA_HOME变量, 告诉在那里可以找到java ,  这里安装的是oracle jre的rpm,如下配置..

1
2
vi hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_67

 

    2.    conf/core-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
<configuration>
  <property>
    <name>fs.default.name</name>                      #指定名称节点在哪里...
    <value>hdfs://hadoop1:9000</value>                #名称节点是hadoop1, 也可以写成ip地址.
  </property>
 
  <property> 
    <name>hadoop.tmp.dir</name>                       #指定hadoop的临时文件目录,如果不指定会使用/tmp
    <value>/home/hadoop/hadoop-1.2.1/tmp</value>      #要记得创建目录 mkdir /home/hadoop-1.2.1/tmp
  </property>
 
  <property>
   <name>fs.trash.interval</name>                     #指定回收站的清空间隔
   <value>21600</value>                               #单位是分钟
   <description>
     Number of minutes between trashcheckpoints. If zero, the trash feature is disabled
   </description>
  </property>
</configuration>

 

     3.  conf/hdfs-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
<configuration>
  <property>
    <name>dfs.replication</name>                          #定义hdfs的复制因子,保存多少副本数
    <value>2</value>                                      #如果是1的话,不复制..
  </property>
 
  <property>
    <name>dfs.block.size</name>
    <value>67108864</value>
    <description>The default block size for new files.</description>
  </property>
</configuration>

 

    4. conf/mapred-site.xml

1
2
3
4
5
6
<configuration>
  <property>
    <name>mapred.job.tracker</name>                       #指定jobtracker的地址和监听端口
    <value>hadoop1:9001</value>
  </property>
</configuration>

 

     5.  conf/masters

1
hadoop1                                               #在文件中指定充当master的主机名称

 

     6.  conf/slaves

1
2
hadoop2                                               #在文件中指定充当salve的主机名称
hadoop3

 

    7.  修改hosts

1
2
3
4
vi /etc/hosts
192.168.188.210 hadoop1
192.168.188.220 hadoop2
192.168.188.230 hadoop3

 

    8. 将hadoop目录scp到其他的设备上

所有的hadoop的内容都是一样的,直接scp -r过去就可以了

1
2
cd /home/hadoop
scp -r hadoop-1.2.1 ip:/home/hadoop

 

    9. 格式化名称节点

1
2
3
4
5
cd hadoop-1.2.1
./bin/hadoop namenode -format
 
如果最后面的信息有下面这样的表示成功...
14/08/30 11:37:05 INFO common.Storage: Storage directory /home/hadoop/hadoop-1.2.1/tmp/dfs/name has been successfully formatted.

 

4.  启动hadoop

1
./bin/start-all.sh

 

如果第一次启动不成功,可以运行jps命令查看进程

如果安装的是oracle jdk 的rpm

/usr/java/jdk1.7.0_67/bin/jps  如果有hadoop的进程,可以运行kill命令将其杀掉,然后在启动..

启动后的日志在logs目录中

jobtracker  namenode  secondarynamenode 日志默认都在master上...

tasktracker  datanode    在所有slave的logs中.

 

5.  启动后的检查

通过jps命令查看,    java的进程统计列表

1
/usr/java/jdk1.7.0_67/bin/jps

 

 

总结:

1. 配置hosts文件

2. 建立hadoop运行账号

3. 配置ssh免密码登录

4. 下载并解压hadoop安装包

5. 配置namenode, 修改site文件

6. 配置hadoop-env.sh

7. 配置masters和slaves文件

8. 向各节点复制hadoop

9. 格式化namenode

10. 启动hadoop

11. 用jps检验各后台进程是否成功启动

3
0
分享到:
评论
1 楼 378629846 2014-11-26  
感谢楼自己分享,我的hadoop-0.20.2版本也部署成功

相关推荐

    HBase 1.2 分布式安装分享

    HBase 1.2 分布式安装分享

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    1.2 HA定义 1.3 HDFS HA原因分析及应对措施 1.3.1 可靠性 1.3.2 可维护性 1.4 现有HDFS HA解决方案 1.4.1 Hadoop的元数据备份方案 1.4.2 Hadoop的SecondaryNameNode方案 1.4.3 Hadoop的Checkpoint ode方案 1.4.4 ...

    hadoop 1.2.1 api 最新chm 伪中文版

    hadoop 1.2 api 伪中文版。支持即时查询,高级查询。方便编码学习。 大数据炙手可热!hadoop是一个大数据分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分...

    hadoop2.2.0部署

    4 伪分布式部署spark 20 4.1 下载spark 20 4.2 解压安装 20 4.3 安装scala. 20 4.4 配置spark的启动参数 21 4.5 启动并验证spark是否配置 21 5 搭建zookeeper集群 23 5.1 下载解压 23 5.2 参数配置 23 5.2.1 23 ...

    Linux环境Hadoop2.6+Hbase1.2集群安装部署

    Spark分布式集群搭建

    Hadoop入门实战手册

    1.2 .......................................................................................4 为什么要选择Hadoop? 1.2.1 ...................................................................................

    大型分布式网站架构与实践

     1.2 基于HTTP协议的RPC 9  1.2.1 HTTP协议栈 9  1.2.2 HTTP请求与响应 15  1.2.3 通过HttpClient发送HTTP请求 16  1.2.4 使用HTTP协议的优势 17  1.2.5 JSON和XML 18  1.2.6 RESTful和RPC 20  1.2.7...

    开源数据质量解决方案ApacheGriffin.zip

    核心优势:主要功能:企业应用:Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。...

    Hbase实验报告.pdf

    1.2实验要求: 用Hbase shell操作创建一个student表,其结构如下表所示 Row Key address score province city street Java Hadoop Math zhangsan guangdong guangzhou yinglonglu 85 80 90 lisi guangxi guilin ...

    云计算第二版

    6.2 Hadoop分布式文件系统HDFS 190 6.2.1 设计前提与目标 190 6.2.2 体系结构 191 6.2.3 保障可靠性的措施 192 6.2.4 提升性能的措施 194 6.2.5 访问接口 195 6.3 分布式数据处理MapReduce 196 6.3.1 逻辑模型 196 ...

    大数据中台架构栈.doc

    近来数据中台概念大火,大家对它的定义也五花八门,不一而足。但无论怎么定义,一 个完善的数据技术架构必不可少。了解这些架构里每个局部的位置,功能和含义,... HDFS HDFS 作为 Hadoop 里的分布式文件系统,为 HBase

    Spark的Shuffle总结分析

    Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段...

    大数据的存储管理技术.doc

    当前大数据领域中,分布式文件系统的使用主要以Hadoop HDFS为主。HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度,除此 之外,HDFS还具有兼容的廉价设备、流数据读写、大数据集、简单的数据模型、...

    大数据与互联网经济解读.pptx

    第一章 大数据概念与应用 of 40 7 1.1 大数据的概念与意义 2)计算:运算速度越来越快 分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光; HDFS为海量的数据提供了存储; MapReduce则为海量的数据提供了...

Global site tag (gtag.js) - Google Analytics