2019-10-01 10:54:27 zwh18013202115 阅读数 37
  • 第四章:Hadoop编程

    MapReduce Shuffle过程 使用MRUnit进行单元测试过程 MapReduce 数据压缩:Snappy,Gzip,LZO MapReduce Partitioner,Combiner实现及应用 MapReduce编程:实现数据去重,数据二次排序,倒排索引 使用MapReduce实现微博情感分析与单元测试 使用MapReduce用户终端情况分析与单元测试

    437 人正在学习 去看看 CSDN就业班

编译hadoop2.X源码和snappy压缩

1.前期工作准备

 **1.CentOS联网** 

配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的
注意:采用root角色编译,减少文件夹权限出现问题
2. jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)
(1)hadoop-2.7.4-src.tar.gz
(2)jdk-8u144-linux-x64.tar.gz
(3)apache-ant-1.9.9-bin.tar.gz(build工具,打包用的)
(4)apache-maven-3.0.5-bin.tar.gz
(5)protobuf-2.5.0.tar.gz(序列化的框架)
(6)snappy-1.1.1.tar.gz

2. jar包安装

注意:所有操作必须在root用户下完成

2.1.JDK解压、配置环境变量 JAVA_HOME和PATH,验证java-version(如下都需要验证是否配置成功)

[root@hadoop101 software] # tar -zxf jdk-8u144-linux-x64.tar.gz -C /opt/module/

[root@hadoop101 software]# vi /etc/profile
#JAVA_HOME:
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=PATH:PATH:JAVA_HOME/bin

[root@hadoop101 software]#source /etc/profile
验证命令:java -version

2.2.Maven解压、配置 MAVEN_HOME和PATH

[root@hadoop101 software]# tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/module/

[root@hadoop101 apache-maven-3.0.5]# vi conf/settings.xml

nexus-aliyun central Nexus aliyun http://maven.aliyun.com/nexus/content/groups/public

[root@hadoop101 apache-maven-3.0.5]# vi /etc/profile
#MAVEN_HOME
export MAVEN_HOME=/opt/modules/apache-maven-3.0.5
export PATH=PATH:PATH:MAVEN_HOME/bin

[root@hadoop101 software]#source /etc/profile
验证命令:mvn -version

2.3ant解压、配置 ANT _HOME和PATH

[root@hadoop101 software]# tar -zxvf apache-ant-1.9.9-bin.tar.gz -C /opt/module/

[root@hadoop101 apache-ant-1.9.9]# vi /etc/profile
#ANT_HOME
export ANT_HOME=/opt/modules/apache-ant-1.9.9
export PATH=PATH:PATH:ANT_HOME/bin

[root@hadoop101 software]#source /etc/profile
验证命令:ant -version

2.4安装 glibc-headers 和 g++ 命令如下

[root@hadoop101 apache-ant-1.9.9]# yum install glibc-headers
[root@hadoop101 apache-ant-1.9.9]# yum install gcc-c++

2.5安装make和cmake

[root@hadoop101 apache-ant-1.9.9]# yum install make
[root@hadoop101 apache-ant-1.9.9]# yum install cmake

2.6 解压protobuf ,进入到解压后protobuf主目录,/opt/module/protobuf-2.5.0,然后相继执行命令

[root@hadoop101 software]# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/module/
[root@hadoop101 opt]# cd /opt/module/protobuf-2.5.0/

[root@hadoop101 protobuf-2.5.0]#./configure
[root@hadoop101 protobuf-2.5.0]# make
[root@hadoop101 protobuf-2.5.0]# make check
[root@hadoop101 protobuf-2.5.0]# make install
[root@hadoop101 protobuf-2.5.0]# ldconfig

[root@hadoop101 hadoop-dist]# vi /etc/profile
#LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/opt/modules/protobuf-2.5.0
export PATH=PATH:PATH:LD_LIBRARY_PATH

[root@hadoop101 software]#source /etc/profile
验证命令:protoc --version

2.7安装openssl库

[root@hadoop101 software]#yum install openssl-devel

2.8安装 ncurses-devel库

[root@hadoop101 software]#yum install ncurses-devel
到此,编译工具安装基本完成。

3 编译源码

1**. 解压源码到/opt/目录**
[root@hadoop101 software]# tar -zxvf hadoop-2.7.4-src.tar.gz -C /opt/module/
2. 进入到hadoop源码主目录
[root@hadoop101 hadoop-2.7.4-src]# pwd
/opt/hadoop-2.7.4-src
3. 通过maven执行编译命令
[root@hadoop101 hadoop-2.7.2-src]#mvn package -Pdist,native -DskipTests -Dtar //这个命令是编译hadoop本身

4.安装snappy
[root@hadoop101 module]# tar xf snappy-1.1.1.tar.gz
[root@hadoop101 snappy-1.1.1]#cd snappy-1.1.1
./configure
make && make install
查看snappy是否安装完成
ll /usr/local/lib/ | grep snappy

记住编译snappy要在hadoop-2.7.2-src目录下输入以下命令

[root@hadoop101 hadoop-2.7.2-src]#mvn package -Pdist,native,docs -DskipTests -Dtar -Drequire.snappy

如果有说明安装成功

最后把生成的libsnappy.so相关文件复制到/opt/module/hadoop-2.7.4/lib/native的目录下 最后如下
-rw-r–r--. 1 root root 1210676 10月 1 09:48 libhadoop.a
-rw-r–r--. 1 root root 1487268 10月 1 09:48 libhadooppipes.a
lrwxrwxrwx. 1 root root 18 11月 14 2018 libhadoop.so -> libhadoop.so.1.0.0
-rwxr-xr-x. 1 root root 716420 10月 1 09:48 libhadoop.so.1.0.0
-rw-r–r--. 1 root root 582048 10月 1 09:48 libhadooputils.a
-rw-r–r--. 1 root root 364852 10月 1 09:48 libhdfs.a
lrwxrwxrwx. 1 root root 16 11月 14 2018 libhdfs.so -> libhdfs.so.0.0.0
-rwxr-xr-x. 1 root root 229121 10月 1 09:48 libhdfs.so.0.0.0
-rw-r–r--. 1 root root 233386 10月 1 07:59 libsnappy.a
-rwxr-xr-x. 1 root root 953 10月 1 07:59 libsnappy.la
lrwxrwxrwx. 1 root root 18 10月 1 07:59 libsnappy.so -> libsnappy.so.1.2.0
lrwxrwxrwx. 1 root root 18 10月 1 07:59 libsnappy.so.1 -> libsnappy.so.1.2.0
-rwxr-xr-x. 1 root root 147622 10月 1 07:59 libsnappy.so.1.2.0

  1. 成功的64位hadoop包在/opt/hadoop-2.7.4-src/hadoop-dist/target下
    [root@hadoop101 target]# pwd
    /opt/hadoop-2.7.4-src/hadoop-dist/target
  2. 编译源码过程中常见的问题及解决方案
    (1)MAVEN install时候JVM内存溢出
    处理方式:在环境配置文件和maven的执行文件均可调整MAVEN_OPT的heap大小。(详情查阅MAVEN 编译 JVM调优问题,如:http://outofmemory.cn/code-snippet/12652/maven-outofmemoryerror-method)
    (2)编译期间maven报错。可能网络阻塞问题导致依赖库下载不完整导致,多次执行命令(一次通过比较难):
    [root@hadoop101 hadoop-2.7.4-src]#mvn package -Pdist,nativeN -DskipTests -Dtar
    (3)报ant、protobuf等错误,插件下载未完整或者插件版本问题,最开始链接有较多特殊情况,同时推荐
    2.7.0版本的问题汇总帖子 http://www.tuicool.com/articles/IBn63qf
2019-11-07 21:26:37 weixin_45651336 阅读数 17
  • 第四章:Hadoop编程

    MapReduce Shuffle过程 使用MRUnit进行单元测试过程 MapReduce 数据压缩:Snappy,Gzip,LZO MapReduce Partitioner,Combiner实现及应用 MapReduce编程:实现数据去重,数据二次排序,倒排索引 使用MapReduce实现微博情感分析与单元测试 使用MapReduce用户终端情况分析与单元测试

    437 人正在学习 去看看 CSDN就业班

Hadoop源码编译支持Snappy压缩


8.1.1 资源准备

1.CentOS联网
配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的
注意:采用root角色编译,减少文件夹权限出现问题
2.jar包准备(hadoop源码、JDK8 、maven、protobuf)
(1)hadoop-2.7.2-src.tar.gz
(2)jdk-8u144-linux-x64.tar.gz
(3)snappy-1.1.3.tar.gz
(4)apache-maven-3.0.5-bin.tar.gz
(5)protobuf-2.5.0.tar.gz

8.1.2 jar包安装

注意:所有操作必须在root用户下完成
1.JDK解压、配置环境变量JAVA_HOME和PATH,验证java-version(如下都需要验证是否配置成功)

[root@hadoop101 software] # tar -zxf jdk-8u144-linux-x64.tar.gz -C /opt/module/
[root@hadoop101 software]# vi /etc/profile
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
[root@hadoop101 software]#source /etc/profile
验证命令:java -version

2.Maven解压、配置 MAVEN_HOME和PATH

[root@hadoop101 software]# tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/module/
[root@hadoop101 apache-maven-3.0.5]# vi /etc/profile
#MAVEN_HOME
export MAVEN_HOME=/opt/module/apache-maven-3.0.5
export PATH=$PATH:$MAVEN_HOME/bin
[root@hadoop101 software]#source /etc/profile
验证命令:mvn -version

8.1.3 编译源码

1.准备编译环境

[root@hadoop101 software]# yum install svn
[root@hadoop101 software]# yum install autoconf automake libtool cmake
[root@hadoop101 software]# yum install ncurses-devel
[root@hadoop101 software]# yum install openssl-devel
[root@hadoop101 software]# yum install gcc*

2.编译安装snappy

[root@hadoop101 software]# tar -zxvf snappy-1.1.3.tar.gz -C /opt/module/
[root@hadoop101 module]# cd snappy-1.1.3/
[root@hadoop101 snappy-1.1.3]# ./configure
[root@hadoop101 snappy-1.1.3]# make
[root@hadoop101 snappy-1.1.3]# make install

查看snappy库文件

[root@hadoop101 snappy-1.1.3]# ls -lh /usr/local/lib |grep snappy

3.编译安装protobuf

[root@hadoop101 software]# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/module/
[root@hadoop101 module]# cd protobuf-2.5.0/
[root@hadoop101 protobuf-2.5.0]# ./configure 
[root@hadoop101 protobuf-2.5.0]#  make 
[root@hadoop101 protobuf-2.5.0]#  make install

查看protobuf版本以测试是否安装成功

[root@hadoop101 protobuf-2.5.0]# protoc --version

4.编译hadoop native

[root@hadoop101 software]# tar -zxvf hadoop-2.7.2-src.tar.gz
[root@hadoop101 software]# cd hadoop-2.7.2-src/
[root@hadoop101 software]# mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy

执行成功后,/opt/software/hadoop-2.7.2-src/hadoop-dist/target/hadoop-2.7.2.tar.gz即为新生成的支持snappy压缩的二进制安装包。

2020-02-14 09:35:26 weixin_38754799 阅读数 26
  • 第四章:Hadoop编程

    MapReduce Shuffle过程 使用MRUnit进行单元测试过程 MapReduce 数据压缩:Snappy,Gzip,LZO MapReduce Partitioner,Combiner实现及应用 MapReduce编程:实现数据去重,数据二次排序,倒排索引 使用MapReduce实现微博情感分析与单元测试 使用MapReduce用户终端情况分析与单元测试

    437 人正在学习 去看看 CSDN就业班

Hadoop源码编译支持Snappy压缩

那美团offer,Hive基础篇,进阶篇。请关注公众号:1001次重燃

资源准备

1)CentOS 联网
配置 CentOS 能连接外网。Linux 虚拟机 ping www.baidu.com 是畅通的
注意:采用 root 角色编译,减少文件夹权限出现问题

2)jar 包准备(hadoop 源码、JDK8 、maven、protobuf)
(1)hadoop-2.7.2-src.tar.gz
(2)jdk-8u144-linux-x64.tar.gz
(3)snappy-1.1.3.tar.gz
(4)apache-maven-3.0.5-bin.tar.gz
(5)protobuf-2.5.0.tar.gz

jar 包安装

0)注意:所有操作必须在 root 用户下完成
1)JDK 解压、配置环境变量 JAVA_HOME 和 PATH,验证 java-version(如下都需要验证是否配置成功)
[root@hadoop101 software] # tar -zxf jdk-8u144-linux-x64.tar.gz -C /opt/module/
[root@hadoop101 software]# vi /etc/profile

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

[root@hadoop101 software]#source /etc/profile
验证命令:java -version

2)Maven 解压、配置 MAVEN_HOME 和 PATH。
[root@hadoop101 software]# tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/module/
[root@hadoop101 apache-maven-3.0.5]# vi /etc/profile

#MAVEN_HOME
export MAVEN_HOME=/opt/module/apache-maven-3.0.5
export PATH=$PATH:$MAVEN_HOME/bin

[root@hadoop101 software]#source /etc/profile
验证命令:mvn -version

编译源码

1)准备编译环境
[root@hadoop101 software]# yum install svn
[root@hadoop101 software]# yum install autoconf automake libtool cmake
[root@hadoop101 software]# yum install ncurses-devel
[root@hadoop101 software]# yum install openssl-devel
[root@hadoop101 software]# yum install gcc*
2)编译安装 snappy
[root@hadoop101 software]# tar -zxvf snappy-1.1.3.tar.gz -C /opt/module/
[root@hadoop101 module]# cd snappy-1.1.3/
[root@hadoop101 snappy-1.1.3]# ./configure
[root@hadoop101 snappy-1.1.3]# make
[root@hadoop101 snappy-1.1.3]# make install

查看 snappy 库文件

[root@hadoop101 snappy-1.1.3]# ls -lh /usr/local/lib |grep snappy

3)编译安装 protobuf
[root@hadoop101 software]# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/module/
[root@hadoop101 module]# cd protobuf-2.5.0/
[root@hadoop101 protobuf-2.5.0]# ./configure
[root@hadoop101 protobuf-2.5.0]# make
[root@hadoop101 protobuf-2.5.0]# make install

查看 protobuf 版本以测试是否安装成功

[root@hadoop101 protobuf-2.5.0]# protoc --version

4)编译 hadoop native
[root@hadoop101 software]# tar -zxvf hadoop-2.7.2-src.tar.gz
[root@hadoop101 software]# cd hadoop-2.7.2-src/
[root@hadoop101 software]# mvn clean package -DskipTests -Pdist,native -Dtar-Dsnappy.lib=/usr/local/lib -Dbundle.snappy
执行成功后,/opt/software/hadoop-2.7.2-src/hadoop-dist/target/hadoop-2.7.2.tar.gz 即为新生成的支持
snappy 压缩的二进制安装包。

2020-03-26 13:55:22 qq_37714755 阅读数 20
  • 第四章:Hadoop编程

    MapReduce Shuffle过程 使用MRUnit进行单元测试过程 MapReduce 数据压缩:Snappy,Gzip,LZO MapReduce Partitioner,Combiner实现及应用 MapReduce编程:实现数据去重,数据二次排序,倒排索引 使用MapReduce实现微博情感分析与单元测试 使用MapReduce用户终端情况分析与单元测试

    437 人正在学习 去看看 CSDN就业班

前言

hadoop的类库中是不带有snappy的,但是考虑到snappy的优点(压缩速度较快,压缩比率较好,虽然不支持切片,但是满足在mr中的shuffle阶段和map输出结果压缩!多job串联情况,保证reduce输出能切片能提高MR效率)后面我会再整理下hadoop常用压缩格式,以及各自的优劣点!

资源准备

CentOS联网

配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的,以为需要用到Yum来进行安装!Yum安装
注意:采用root角色编译,减少文件夹权限出现问题

jar包准备(hadoop源码、JDK8 、maven、protobuf)

(1)hadoop-2.7.2-src.tar.gz
(2)jdk-8u144-linux-x64.tar.gz
(3)snappy-1.1.3.tar.gz
(4)apache-maven-3.0.5-bin.tar.gz
(5)protobuf-2.5.0.tar.gz

jar包安装

注意:所有操作必须在root用户下完成

JDK解压、配置环境变量JAVA_HOME和PATH,验证java-version(如下都需要验证是否配置成功)

[root@hadoop101 software] # tar -zxf jdk-8u144-linux-x64.tar.gz -C /opt/module/
[root@hadoop101 software]# vim /etc/profile

JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
[root@hadoop101 software]#source /etc/profile

验证命令:java -version

Maven解压、配置 MAVEN_HOME和PATH

[root@hadoop101 software]# tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/module/
[root@hadoop101 apache-maven-3.0.5]# vim /etc/profile
#MAVEN_HOME
export MAVEN_HOME=/opt/module/apache-maven-3.0.5
export PATH=$PATH:$MAVEN_HOME/bin
[root@hadoop101 software]#source /etc/profile

验证命令:mvn -version

编译源码

准备编译环境

[root@hadoop101 software]# yum install svn
[root@hadoop101 software]# yum install autoconf automake libtool cmake
[root@hadoop101 software]# yum install ncurses-devel
[root@hadoop101 software]# yum install openssl-devel
[root@hadoop101 software]# yum install gcc*

编译安装snappy

[root@hadoop101 software]# tar -zxvf snappy-1.1.3.tar.gz -C /opt/module/
[root@hadoop101 module]# cd snappy-1.1.3/
[root@hadoop101 snappy-1.1.3]# ./configure
[root@hadoop101 snappy-1.1.3]# make
[root@hadoop101 snappy-1.1.3]# make install

查看snappy库文件

[root@hadoop101 snappy-1.1.3]# ls -lh /usr/local/lib |grep snappy

编译安装protobuf

[root@hadoop101 software]# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/module/
[root@hadoop101 module]# cd protobuf-2.5.0/
[root@hadoop101 protobuf-2.5.0]# ./configure 
[root@hadoop101 protobuf-2.5.0]#  make 
[root@hadoop101 protobuf-2.5.0]#  make install

查看protobuf版本以测试是否安装成功

[root@hadoop101 protobuf-2.5.0]# protoc --version

编译hadoop native

[root@hadoop101 software]# tar -zxvf hadoop-2.7.2-src.tar.gz
[root@hadoop101 software]# cd hadoop-2.7.2-src/
[root@hadoop101 software]# mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy

执行成功后,/opt/software/hadoop-2.7.2-src/hadoop-dist/target/hadoop-2.7.2.tar.gz即为新生成的支持snappy压缩的二进制安装包。

2018-06-04 08:30:58 wangshuminjava 阅读数 2675
  • 第四章:Hadoop编程

    MapReduce Shuffle过程 使用MRUnit进行单元测试过程 MapReduce 数据压缩:Snappy,Gzip,LZO MapReduce Partitioner,Combiner实现及应用 MapReduce编程:实现数据去重,数据二次排序,倒排索引 使用MapReduce实现微博情感分析与单元测试 使用MapReduce用户终端情况分析与单元测试

    437 人正在学习 去看看 CSDN就业班


1. 功能说明


使用snappy压缩来提升mapreduce和hbase的性能。其实就是用CPU换IO吞吐量和磁盘空间。配置并使用snappy有如下几点要求:

  • 首先需要hadoop集群的native库已经收到编译好,并且添加了对snappy的支持。编译hadoop源码之前安装了snappy并且编译时指定-Drequire.snappy参数。(我使用的版本是hadoop-2.5.0-cdh5.3.3伪分布式)
  • 安装了maven(我使用的版本是3.0.5)
  • jdk已经成功安装并设置了JAVA_HOME(我使用的版本是1.7.0_75)


2. MapReduce配置snappy


配置过程参考官网(但是有所区别)

https://github.com/electrum/hadoop-snappy


2.1 测试MR


为了与后期配置完成snappy后进行对比我们先测试一个简单mapreduce程序,然后记录map的输出bytes大小

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.3.jar wordcount /wordcount/in /wordcount/out
  • 1

这里写图片描述


2.2 安装依赖


首先在服务器上安装snappy,而安装snappy需要一系列的依赖,为了避免麻烦我们首先安装好这些依赖

$ sudo yum -y install gcc c++ autoconf automake libtool
  • 1


2.3 下载snappy安装包


从官网下载snappy的安装包

http://pkgs.fedoraproject.org/repo/pkgs/snappy/snappy-1.1.1.tar.gz/8887e3b7253b22a31f5486bca3cbc1c2/snappy-1.1.1.tar.gz


2.4 上传部署


将snappy-1.1.1.tar.gz上传到服务器解压重命名为snappy-1.1.1,【SNAPPY_HOME】为【/usr/local/cdh-5.3.3/snappy-1.1.1】


2.5 安装snappy


进入【SNAPPY_HOME】目录下安装snappy

$ sudo ./configure
$ sudo make
$ sudo make install
  • 1
  • 2
  • 3

注:一定要确保全程无Error!

如果安装成功的话进入【/usr/local/lib】目录下(默认位置),可以看到已经生成了snappy的库文件

$ cd /usr/local/lib
$ ll
  • 1
  • 2

这里写图片描述


2.6 下载hadoop-snappy


从github上将hadoop-snappy压缩包下载下来

https://github.com/electrum/hadoop-snappy


2.7 上传部署


将hadoop-snappy-master.zip部署到服务器解压重命名为hadoop-snappy-master

$ unzip hadoop-snappy-master.zip
  • 1


2.8 编译hadoop-snappy


进入hadoop-snappy-master,使用maven进行编译

$ cd hadoop-snappy-master
$ mvn clean package
  • 1
  • 2

这里写图片描述

注:如果你的snappy是使用其他方式安装的请一定找到snappy的安装路径,并在编译的时候添加参数-Dsnappy.prefix=SNAPPY_INSTALLATION_DIR,不指定的话默认为【/usr/local】目录。

编译好的tar包在当前目录下的target目录下(hadoop-snappy-0.0.1-SNAPSHOT.tar.gz)

这里写图片描述


2.9 配置


2.9.1 配置native


将2.7中编译得到的hadoop-snappy-0.0.1-SNAPSHOT.tar.gz解压,拷贝需要的jar包和native到hadoop的lib目录下

$ tar -zxvf hadoop-snappy-0.0.1-SNAPSHOT.tar.gz
$ cp hadoop-snappy-0.0.1-SNAPSHOT/lib/hadoop-snappy-0.0.1-SNAPSHOT.jar $HADOOP_HOME/lib
$ cp hadoop-snappy-0.0.1-SNAPSHOT/lib/native/Linux-amd64-64/* $HADOOP_HOME/lib/native/
  • 1
  • 2
  • 3


2.9.2 配置core-site.xml


配置hadoop集群的的core-site.xml文件,添加如下参数:

<property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec
,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec</value>
</property>
  • 1
  • 2
  • 3
  • 4
  • 5


2.9.3 配置mapred-site.xml


配置hadoop集群的mapred-site.xml,添加如下参数:

<property>
    <name>mapreduce.map.output.compress</name>
    <value>true</value>
</property>
<property>
    <name>mapreduce.map.output.compress.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

注:为了测试方便我们只配置map的输出压缩。


2.9.4 重启hadoop集群


修改完core-site.xml和mapred-site.xml文件后重启hadoop集群。


2.10 验证MapReduce


重新运行2.1节中的mapreduce程序

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.3.jar wordcount /wordcount/in /wordcount/out2
  • 1

这里写图片描述


2.11 错误记录


问题描述

在2.9.1节中配置native库时按照官方文档是将整个编译解压后的snappy lib目录下的所有内容都拷贝到HADOOP_HOME/lib目录下

$ cp -r hadoop-snappy-0.0.1-SNAPSHOT/lib/* $HADOOP_HOME/lib
  • 1

但是在测试MR的时候提示无法加载到snappy的library

Caused by: java.lang.RuntimeException: native snappy library not available: SnappyCompressor has not been loaded.
        at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:69)
        at org.apache.hadoop.io.compress.SnappyCodec.getCompressorType(SnappyCodec.java:132)
        at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:148)
        at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:163)
        at org.apache.hadoop.mapred.IFile$Writer.<init>(IFile.java:114)
        at org.apache.hadoop.mapred.IFile$Writer.<init>(IFile.java:97)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1602)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:873)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1525)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

解决办法

按照2.9.1节中配置native库即可,其实就是将Linux-amd64-64文件夹下的snappy库文件都直接放到$HADOOP_HOME/lib/native目录下。网上说的各种配置环境变量什么的都试过了,没有起到作用。


3. HBase配置snappy



3.1 配置native


参照2.9.1中步骤将hadoop-snappy-0.0.1-SNAPSHOT.jar和snappy的library拷贝到HBASE_HOME/lib目录下即可

$ cp hadoop-snappy-0.0.1-SNAPSHOT/lib/hadoop-snappy-0.0.1-SNAPSHOT.jar $HBASE_HOME/lib
$ mkdir $HBASE_HOME/lib/native
$ cp -r hadoop-snappy-0.0.1-SNAPSHOT/lib/native/Linux-amd64-64/* $HBASE_HOME/lib/native/
  • 1
  • 2
  • 3

注: 如果创建失败则使用如下命令

$ cp hadoop-snappy-0.0.1-SNAPSHOT/lib/hadoop-snappy-0.0.1-SNAPSHOT.jar $HBASE_HOME/lib
$ mkdir $HBASE_HOME/lib/native/Linux-amd64-64
$ cp -r hadoop-snappy-0.0.1-SNAPSHOT/lib/native/Linux-amd64-64/* $HBASE_HOME/lib/native/Linux-amd64-64/
  • 1
  • 2
  • 3


3.2 重启HBase集群


重启HBase集群


3.3 验证


先使用以下命令测试snappy对hbase是否可用

$ bin/hbase org.apache.hadoop.hbase.util.CompressionTest hdfs://hadoop-main.dimensoft.com.cn:8020/wordcount/out2/part-r-00000 snappy
  • 1

这里写图片描述

注:hdfs://hadoop-main.dimensoft.com.cn:8020/wordcount/put2/part-r-00000是在2.10节中验证MapReduce使用snappy时候的输出文件

进入HBase的CLI创建数据表,指定压缩方式

> create 'company', { NAME => 'department', COMPRESSION => 'snappy'}
> describe 'company'
  • 1
  • 2

这里写图片描述

插入数据

> put 'company', '001', 'department:name', 'develop'
> put 'company', '001', 'department:address', 'sz'
  • 1
  • 2

查询

> scan 'company'
  • 1

这里写图片描述


4. Uber模式使用Snappy


配置了uber模式后使用上述的snappy压缩配置方法后mapreduce程序运行报错:

2015-06-17 04:27:48,905 FATAL [uber-SubtaskRunner] org.apache.hadoop.mapred.LocalContainerLauncher: Error running local (uberized) 'child' : java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z
    at org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy(Native Method)
    at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:63)
    at org.apache.hadoop.io.compress.SnappyCodec.getCompressorType(SnappyCodec.java:132)
    at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:148)
    at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:163)
    at org.apache.hadoop.mapred.IFile$Writer.<init>(IFile.java:114)
    at org.apache.hadoop.mapred.IFile$Writer.<init>(IFile.java:97)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1602)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.flush(MapTask.java:1482)
    at org.apache.hadoop.mapred.MapTask$NewOutputCollector.close(MapTask.java:720)
    at org.apache.hadoop.mapred.MapTask.closeQuietly(MapTask.java:2012)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:794)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
    at org.apache.hadoop.mapred.LocalContainerLauncher$EventHandler.runSubtask(LocalContainerLauncher.java:370)
    at org.apache.hadoop.mapred.LocalContainerLauncher$EventHandler.runTask(LocalContainerLauncher.java:295)
    at org.apache.hadoop.mapred.LocalContainerLauncher$EventHandler.access$200(LocalContainerLauncher.java:181)
    at org.apache.hadoop.mapred.LocalContainerLauncher$EventHandler$1.run(LocalContainerLauncher.java:224)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23

这是因为在uber模式下无法加载到snappy的native,解决办法是在mapred-site.xml中添加如下配置:

<property>
    <name>yarn.app.mapreduce.am.env</name>
    <value>LD_LIBRARY_PATH=$HADOOP_HOME/lib/native</value>
</property>
  • 1
  • 2
  • 3
  • 4

https://issues.apache.org/jira/browse/MAPREDUCE-5799

注:如果是CM安装的CDH版本hadoop则snappy的native在【/opt/cloudera/parcels/CDH/lib/hadoop/lib/native】目录下。

文章标签: H

Snappy压缩源码编译

阅读数 286

Snappy Installer

阅读数 165

没有更多推荐了,返回首页