RHadoop（一） -一个渣渣

Hadoop主要用来存储海量数据，R语言完成MapReduce 算法，用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者，有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题，可能会一去不复返了。
最近的一本新书Big Data Analytics with R and Hadoop是关于R和Hadoop实践的第一本图书。
RHadoop的发布页：https://github.com/RevolutionAnalytics/RHadoop/wiki

RHadoop实践系列文章：http://blog.fens.me/series-rhadoop/

Haddop环境准备
但JDK一定要用Oracle SUN官方的版本，请从官网下载，操作系统的自带的OpenJDK会有各种不兼容。JDK请选择1.6.x的版本，JDK1.7版本也会有各种的不兼容情况。
http://www.oracle.com/technetwork/java/javase/downloads/index.html

Haddop环境准备http://www.oracle.com/technetwork/java/javase/downloads/index.html

完全分步式的Hadoop集群，这个选择5台一样配置的虚拟机，通过内网的一个DNS服务器，指定5台虚拟机所对应的域名。
每台虚拟机，1G内存，系统硬盘2G，外接硬盘16G。hadoop会存储在外接硬盘上面。

外接硬盘，需要先进行格式化，然后创建目录，再mount到操作系统，通过修改/etc/fstab配置，系统每次重起都是自动加载外接硬盘。
(如果用户操作系统的硬盘够大，不用外接硬盘，这步可以省略)

接下来，为hadoop集群创建访问账号hadoop，创建访问组hadoop，创建用户目录/home/hadoop，把账号，组和用户目录绑定。

再为hadoop的hdfs创建存储位置/hadoop/conan/data0，给hadoop用户权限。

设置SSH自动登陆，从nn.qa.com虚拟机开始，通过ssh-keygen命令，生成id_rsa.pub，再合并到 authorized_keys的文件。再通过scp把authorized_keys复制到其他的虚拟机。循环生成authorized_keys并合并文件。使得5台虚拟机，都有了相互的SSH自动登陆的配置。
1：下载RHadoop相关软件包，放置在/mnt/mydisk/R/目录下
http://www.r-project.org/
R语言包
https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloads
rhdfs R使用HDFS相关软件包
rmr R使用MapReduce相关软件包
rhbase R使用Hbase相关软件包

转载自原文链接, 如需删除请联系管理员。

原文链接：RHadoop（一），转载请注明来源！