1. 部署环境
1
2
3
4
|
/etc/init .d /iptables stop
chkconfig iptables off sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config
setenforce 0 |
2. SSH配置
1
2
3
4
5
6
7
8
9
|
useradd hadoop
echo 123456 | passwd --stdin hadoop
su - hadoop
ssh -keygen -t rsa #生成密钥对
ssh -copy- id user@ip #将ssh公钥copy到指定的主机
cd . ssh #每台服务器本机也需要配置ssh免密码登录
cat id_rsa.pub >> authorized_keys
|
3. 部署hadoop
1
2
|
wget http: //mirrors .hust.edu.cn /apache/hadoop/common/hadoop-1 .2.1 /hadoop-1 .2.1. tar .gz
tar xf hadoop-1.2.1. tar .gz
|
1. conf/hadoop-env.sh
1
2
|
vi hadoop- env .sh
export JAVA_HOME= /usr/java/jdk1 .7.0_67
|
2. conf/core-site.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
<configuration> <property>
<name>fs.default.name< /name > #指定名称节点在哪里...
<value>hdfs: //hadoop1 :9000< /value > #名称节点是hadoop1, 也可以写成ip地址.
< /property >
<property>
<name>hadoop.tmp. dir < /name > #指定hadoop的临时文件目录,如果不指定会使用/tmp
<value> /home/hadoop/hadoop-1 .2.1 /tmp < /value > #要记得创建目录 mkdir /home/hadoop-1.2.1/tmp
< /property >
<property>
<name>fs.trash.interval< /name > #指定回收站的清空间隔
<value>21600< /value > #单位是分钟
<description>
Number of minutes between trashcheckpoints. If zero, the trash feature is disabled
< /description >
< /property >
< /configuration >
|
3. conf/hdfs-site.xml
1
2
3
4
5
6
7
8
9
10
11
12
|
<configuration> <property>
<name>dfs.replication< /name > #定义hdfs的复制因子,保存多少副本数
<value>2< /value > #如果是1的话,不复制..
< /property >
<property>
<name>dfs.block.size< /name >
<value>67108864< /value >
<description>The default block size for new files.< /description >
< /property >
< /configuration >
|
4. conf/mapred-site.xml
1
2
3
4
5
6
|
<configuration> <property>
<name>mapred.job.tracker< /name > #指定jobtracker的地址和监听端口
<value>hadoop1:9001< /value >
< /property >
< /configuration >
|
5. conf/masters
1
|
hadoop1 #在文件中指定充当master的主机名称
|
6. conf/slaves
1
2
|
hadoop2 #在文件中指定充当salve的主机名称
hadoop3 |
1
2
3
4
|
vi /etc/hosts
192.168.188.210 hadoop1 192.168.188.220 hadoop2 192.168.188.230 hadoop3 |
8. 将hadoop目录scp到其他的设备上
1
2
|
cd /home/hadoop
scp -r hadoop-1.2.1 ip: /home/hadoop
|
9. 格式化名称节点
1
2
3
4
5
|
cd hadoop-1.2.1
. /bin/hadoop namenode - format
如果最后面的信息有下面这样的表示成功... 14 /08/30 11:37:05 INFO common.Storage: Storage directory /home/hadoop/hadoop-1 .2.1 /tmp/dfs/name has been successfully formatted.
|
4. 启动hadoop
1
|
. /bin/start-all .sh
|
5. 启动后的检查
1
|
/usr/java/jdk1 .7.0_67 /bin/jps
|
相关推荐
HBase 1.2 分布式安装分享
1.2 HA定义 1.3 HDFS HA原因分析及应对措施 1.3.1 可靠性 1.3.2 可维护性 1.4 现有HDFS HA解决方案 1.4.1 Hadoop的元数据备份方案 1.4.2 Hadoop的SecondaryNameNode方案 1.4.3 Hadoop的Checkpoint ode方案 1.4.4 ...
hadoop 1.2 api 伪中文版。支持即时查询,高级查询。方便编码学习。 大数据炙手可热!hadoop是一个大数据分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分...
4 伪分布式部署spark 20 4.1 下载spark 20 4.2 解压安装 20 4.3 安装scala. 20 4.4 配置spark的启动参数 21 4.5 启动并验证spark是否配置 21 5 搭建zookeeper集群 23 5.1 下载解压 23 5.2 参数配置 23 5.2.1 23 ...
Spark分布式集群搭建
1.2 .......................................................................................4 为什么要选择Hadoop? 1.2.1 ...................................................................................
1.2 基于HTTP协议的RPC 9 1.2.1 HTTP协议栈 9 1.2.2 HTTP请求与响应 15 1.2.3 通过HttpClient发送HTTP请求 16 1.2.4 使用HTTP协议的优势 17 1.2.5 JSON和XML 18 1.2.6 RESTful和RPC 20 1.2.7...
核心优势:主要功能:企业应用:Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。...
1.2实验要求: 用Hbase shell操作创建一个student表,其结构如下表所示 Row Key address score province city street Java Hadoop Math zhangsan guangdong guangzhou yinglonglu 85 80 90 lisi guangxi guilin ...
6.2 Hadoop分布式文件系统HDFS 190 6.2.1 设计前提与目标 190 6.2.2 体系结构 191 6.2.3 保障可靠性的措施 192 6.2.4 提升性能的措施 194 6.2.5 访问接口 195 6.3 分布式数据处理MapReduce 196 6.3.1 逻辑模型 196 ...
近来数据中台概念大火,大家对它的定义也五花八门,不一而足。但无论怎么定义,一 个完善的数据技术架构必不可少。了解这些架构里每个局部的位置,功能和含义,... HDFS HDFS 作为 Hadoop 里的分布式文件系统,为 HBase
Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段...
当前大数据领域中,分布式文件系统的使用主要以Hadoop HDFS为主。HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度,除此 之外,HDFS还具有兼容的廉价设备、流数据读写、大数据集、简单的数据模型、...
第一章 大数据概念与应用 of 40 7 1.1 大数据的概念与意义 2)计算:运算速度越来越快 分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光; HDFS为海量的数据提供了存储; MapReduce则为海量的数据提供了...