精华内容
下载资源
问答
  • 压缩方式越接近“最好”:压缩效果越好(压缩后文件越小)、压缩速度越慢、压缩时占用内存和cpu越多 压缩速度快: 字典越小:压缩效果越差(压缩后文件越大)、压缩速度越快、压缩时占用内存和cpu越少 压缩方式越...

    直接回答问题

    1. 字典大小和压缩方式

    压缩效果好:
    字典越大:压缩效果越好(压缩后文件越小)、压缩速度越慢、压缩时占用内存和cpu越多

    压缩方式越接近“最好”:压缩效果越好(压缩后文件越小)、压缩速度越慢、压缩时占用内存和cpu越多

    压缩速度快:
    字典越小:压缩效果越差(压缩后文件越大)、压缩速度越快、压缩时占用内存和cpu越少

    压缩方式越接近“存储”:压缩效果越差(压缩后文件越大)、压缩速度越快、压缩时占用内存和cpu越少

    1. rar和rar4和rar5和zip的不同、用哪个好?

    首先说明一点:现在的rar就是指rar5以及之后的版本,如下图当前所选中的rar,而rar4则是老版本,下文默认指rar5以及之后的版本

    我本人在这里推荐rar和zip配合,看情况使用
    原因:

    rar并不是所有电脑都自带解压工具,而解压zip和rar4的工具基本上电脑都自带,(要是去演讲,资料文件弄半天打不开得多尴尬?)所以使用rar压缩时要考虑目标电脑能否解压的问题。

    谈到rar4,确实能力有限,rar4压缩字典最大只有4096kb,最小只有64kb,压缩效果比不过rar,压缩速度比不过zip,正在逐渐被淘汰。

    推荐使用:
    想要压缩速度最快用zip的“32kb”字典大小和“存储”压缩方式
    想要压缩效果最好(压缩后文件最小)用rar的1024mb字典和“最好”压缩方式
    懒得想的话用rar默认的“32mb”字典大小和”标准“压缩方式就好了,压缩效果不错、压缩速度也不错,性价比 比较大

    注意:字典大小过大时 压缩会占用较大的内存

    再提一点:压缩时消耗的cpu和内存远高于解压时,因为压缩时计算机在进行大量的运算,而解解压时主要就是按解压顺序存放到存储空间中就好了所以消耗cpu和内存不多

    在这里把压缩怎么选讲清楚就好了,就不介绍各个压缩技术的背景什么的了。

    1. 实际效果展示

    最后给 屏幕前的帅哥\靓女 看下几种压缩的实际效果,以方便您更愿意给我一个赞,将会是对我莫大的鼓励

    这是我的一个装web代码的文件夹,里面全都是h5、js、php、mysql等代码,可以当成一堆文本文件,一堆文本文件的几种压缩效果摆在这里了

    成绩(按耗时升序):
    zip"32kb"字典大小"存储"压缩方式耗时一分三十秒左右,压缩大小比1.03
    rar"1mb"字典大小"存储"压缩方式耗时两分钟左右,压缩大小比1.01
    rar4"64kb"字典大小"存储"压缩方式耗时一分四十秒左右,压缩大小比1.01
    rar"32mb"字典大小"标准"压缩方式耗时四分三十秒左右,压缩大小比0.39
    rar"1024mb"字典大小"最好"压缩方式耗时六分钟左右,压缩大小比0.39
    (压缩大小比=压缩后大小/压缩前大小)

    分析:可以看到前三个压缩文件的压缩大小比甚至会大于1,此时压缩目的仅为减少文件数量,占用空间反而更大,不过压缩速度非常快。rar"32mb"字典大小"标准"压缩方式rar"1024mb"字典大小"最好"压缩方式 压缩大小比非常接近,但是耗时却有所增加的,所以如果不追求极致压缩没必要设置那么大字典。

    感谢阅读~~~

    展开全文
  • 压缩文件的原理

    千次阅读 2017-06-22 22:01:23
    简单的说,就是经过压缩软件压缩文件压缩文件压缩的原理是把文件的二进制代码压缩,把相邻的0,1代码减少,比如有000000,可以把它变成6个0 的写法60,来减少该文件的空间。 基本原理 压缩文件的基本...
    很久以前就好奇压缩文件是怎么实现的。在网上搜索了下发现压缩的原理还是很容易理解的,将搜索的结果整理如下:

    简单的说,就是经过压缩软件压缩的文件叫压缩文件,压缩的原理是把文件的二进制代码压缩,把相邻的0,1代码减少,比如有000000,可以把它变成6个0 的写法60,来减少该文件的空间。

    • 基本原理

    压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,比如在文件里有几处有一个相同的词"中华人民共和国"用一个代码表示并写入"词典"文件,这样就可以达到缩小文件的目的。
    把文件的二进制代码压缩,把相邻的0,1代码减少,比如有000000,可以把它变成6个0 的写法60,来减少该文件的空间
    由于计算机处理的信息是以二进制数的形式表示的,因此压缩软件就是把二进制信息中相同的字符串以特殊字符标记来达到压缩的目的。

    • 压缩可以分为有损和无损压缩两种

    1. 如果丢失个别的数据不会造成太大的影响,这时忽略它们是个好主意,这就是有损压缩。有损压缩广泛应用于动画、声音和图像文件中,典型的代表就是影碟文件格式mpeg、音乐文件格式mp3和图像文件格式jpg。对于有损压缩,在文件压缩后您无法将其复原成原始文件的样子。您必须接受压缩程序对原始文件的重新解释。因此,如果需要完全重现原来的内容(例如软件应用程序、数据库和总统就职演说),则不应该使用这种压缩形式。
    2. 无损压缩格式,比如常见的zip、rar等。压缩软件(compression software)自然就是利用压缩原理压缩数据的工具,压缩后所生成的文件称为压缩包(archive),体积只有原来的几分之一甚至更小。当然,压缩包已经是另一种文件格式了,如果想使用其中的数据,首先得用压缩软件把数据还原,这个过程称作解压缩。

    • 有两种形式的重复存在于计算机数据中,zip就是对这两种重复进行了压缩

    1. 一种是短语形式的重复,即三个字节以上的重复,对于这种重复,zip用两个数字:1.重复位置距当前压缩位置的距离;2.重复的长度,来表示这个重复,假设这两个数字各占一个字节,于是数据便得到了压缩,这很容易理解。一个字节有 0 - 255 共 256 种可能的取值,三个字节有 256 * 256 * 256 共一千六百多万种可能的情况,更长的短语取值的可能情况以指数方式增长,出现重复的概率似乎极低,实则不然,各种类型的数据都有出现重复的倾向,一篇论文中,为数不多的术语倾向于重复出现;一篇小说,人名和地名会重复出现;一张上下渐变的背景图片,水平方向上的像素会重复出现;程序的源文件中,语法关键字会重复出现(我们写程序时,多少次前后copy、paste?),以几十 K 为单位的非压缩格式的数据中,倾向于大量出现短语式的重复。经过上面提到的方式进行压缩后,短语式重复的倾向被完全破坏,所以在压缩的结果上进行第二次短语式压缩一般是没有效果的。
    2. 第二种重复为单字节的重复,一个字节只有256种可能的取值,所以这种重复是必然的。其中,某些字节出现次数可能较多,另一些则较少,在统计上有分布不均匀的倾向,这是容易理解的,比如一个 ASCII 文本文件中,某些符号可能很少用到,而字母和数字则使用较多,各字母的使用频率也是不一样的,据说字母 e 的使用概率最高;许多图片呈现深色调或浅色调,深色(或浅色)的像素使用较多(这里顺便提一下:png 图片格式是一种无损压缩,其核心算法就是 zip 算法,它和 zip 格式的文件的主要区别在于:作为一种图片格式,它在文件头处存放了图片的大小、使用的颜色数等信息);上面提到的短语式压缩的结果也有这种倾向:重复倾向于出现在离当前压缩位置较近的地方,重复长度倾向于比较短(20字节以内)。这样,就有了压缩的可能:给 256 种字节取值重新编码,使出现较多的字节使用较短的编码,出现较少的字节使用较长的编码,这样一来,变短的字节相对于变长的字节更多,文件的总长度就会减少,并且,字节使用比例越不均匀,压缩比例就越大。

    • 压缩率
    如果文件有大量重复模式,那么压缩率通常会随着文件大小的增加而增加
    展开全文
  • hive优化-文件存储格式和压缩方法

    千次阅读 2019-06-29 15:45:42
    需要结合实际的业务,数据的类型,分布,质量状况等来实际的考虑如何进行系统性的优化,hive底层是mapreduce,所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑,数据的压缩与存储,sql的...

            hive调优是比较大的专题,需要结合实际的业务,数据的类型,分布,质量状况等来实际的考虑如何进行系统性的优化,hive底层是mapreduce,所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑,数据的压缩与存储,sql的优化,hive参数的优化,解决数据的倾斜等。

    主要分为以下几块:

    第一:数据的压缩与存储格式

    对分析的数据选择合适的存储格式与压缩方式能提高hive的分析效率:

    1)压缩方式

          压缩可以节约磁盘的空间,基于文本的压缩率可达40%+; 压缩可以增加吞吐量和性能量(减小载入内存的数据量),但是在压缩和解压过程中会增加CPU的开销。所以针对IO密集型的jobs(非计算密集型)可以使用压缩的方式提高性能。 几种压缩算法:

    Hadoop编码/解码器方式,如下表所示 

    è¿éåå¾çæè¿°

    2)hive中压缩设置的方法

    1. Hive中间数据压缩

      hive.exec.compress.intermediate:默认该值为false,设置为true为激活中间数据压缩功能。HiveQL语句最终会被编译成Hadoop的Mapreduce job,开启Hive的中间数据压缩功能,就是在MapReduce的shuffle阶段对mapper产生的中间结果数据压缩。在这个阶段,优先选择一个低CPU开销的算法。 
      mapred.map.output.compression.codec:该参数是具体的压缩算法的配置参数,SnappyCodec比较适合在这种场景中编解码器,该算法会带来很好的压缩性能和较低的CPU开销。设置如下:

    set hive.exec.compress.intermediate=true
    set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec
    set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

    2. Hive最终数据压缩

      hive.exec.compress.output:用户可以对最终生成的Hive表的数据通常也需要压缩。该参数控制这一功能的激活与禁用,设置为true来声明将结果文件进行压缩。 
      mapred.output.compression.codec:将hive.exec.compress.output参数设置成true后,然后选择一个合适的编解码器,如选择SnappyCodec。设置如下:

    set hive.exec.compress.output=true 
    set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

    3)压缩模式说明

    1. 压缩模式评价

    1. 压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好。
    2. 压缩时间:越快越好。
    3. 已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化。

    2. 压缩模式对比

    1. BZip2有最高的压缩比但也会带来更高的CPU开销,Gzip较BZip2次之。如果基于磁盘利用率和I/O考虑,这两个压缩算法都是比较有吸引力的算法。
    2. LZO和Snappy算法有更快的解压缩速度,如果更关注压缩、解压速度,它们都是不错的选择。 LZO和Snappy在压缩数据上的速度大致相当,但Snappy算法在解压速度上要较LZO更快。
    3. Hadoop的会将大文件分割成HDFS block(默认64MB)大小的splits分片,每个分片对应一个Mapper程序。在这几个压缩算法中 BZip2、LZO、Snappy压缩是可分割的,Gzip则不支持分割。

    4)Hive中文件格式说明

      常见的hive文件存储格式包括以下几类:TEXTFILE、SEQUENCEFILE、RCFILE、ORC。其中TEXTFILE为默认格式,建表时默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。SequenceFile、RCFile、ORC格式的表不能直接从本地文件导入数据,数据要先导入到TextFile格式的表中,然后再从TextFile表中用insert导入到SequenceFile、RCFile表中。

    3.1 TextFile

    1. Hive数据表的默认格式,存储方式:行存储。
    2. 可以使用Gzip压缩算法,但压缩后的文件不支持split
    3. 在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。

    建表代码

    ${建表语句}
    stored as textfile;
    ##########################################插入数据########################################
    set hive.exec.compress.output=true; --启用压缩格式
    set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  --指定输出的压缩格式为Gzip 
    set mapred.output.compress=true;   
    set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;     
    insert overwrite table textfile_table select * from T_Name;

    3.2 Sequence Files

    1. 压缩数据文件可以节省磁盘空间,但Hadoop中有些原生压缩文件的缺点之一就是不支持分割。支持分割的文件可以并行的有多个mapper程序处理大数据文件,大多数文件不支持可分割是因为这些文件只能从头开始读。Sequence File是可分割的文件格式,支持Hadoop的block级压缩。
    2. Hadoop API提供的一种二进制文件,以key-value的形式序列化到文件中。存储方式:行存储。
    3. sequencefile支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,RECORD是默认选项,通常BLOCK会带来较RECORD更好的压缩性能。
    4. 优势是文件和hadoop api中的MapFile是相互兼容的

    建表代码

    ${建表语句}
    SORTED AS SEQUENCEFILE;    --将Hive表存储定义成SEQUENCEFILE
    ##########################################插入数据########################################
    set hive.exec.compress.output=true; --启用压缩格式
    set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; --指定输出的压缩格式为Gzip 
    set mapred.output.compression.type=BLOCK;   --压缩选项设置为BLOCK
    set mapred.output.compress=true; 
    set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
    insert overwrite table textfile_table select * from T_Name;

    3.3 RCFile

    存储方式:数据按行分块,每块按列存储。结合了行存储和列存储的优点:

    1. 首先,RCFile 保证同一行的数据位于同一节点,因此元组重构的开销很低
    2. 其次,像列存储一样,RCFile 能够利用列维度的数据压缩,并且能跳过不必要的列读取
    3. 数据追加:RCFile不支持任意方式的数据写操作,仅提供一种追加接口,这是因为底层的 HDFS当前仅仅支持数据追加写文件尾部。
    4. 行组大小:行组变大有助于提高数据压缩的效率,但是可能会损害数据的读取性能,因为这样增加了 Lazy 解压性能的消耗。而且行组变大会占用更多的内存,这会影响并发执行的其他MR作业。 考虑到存储空间和查询效率两个方面,Facebook 选择 4MB 作为默认的行组大小,当然也允许用户自行选择参数进行配置。

    建表代码

    ${建表语句}
    stored as rcfile;
    -插入数据操作:
    set hive.exec.compress.output=true; 
    set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
    set mapred.output.compress=true; 
    set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
    insert overwrite table rcfile_table select * from T_Name;

    3.4 ORCFile

    存储方式:数据按行分块,每块按照列存储。 
    压缩快,快速列存取。效率比rcfile高,是rcfile的改良版本。

    5)具体使用用例

    hive文件存储格式包括以下几类:

    1、TEXTFILE

    2、SEQUENCEFILE

    3、RCFILE

    4、ORCFILE(0.11以后出现)

    其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;

    SEQUENCEFILE,RCFILE,ORCFILE格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用insert导入SequenceFile,RCFile,ORCFile表中。

    前提创建环境:

    hive 0.8

    创建一张testfile_table表,格式为textfile。

    create table if not exists testfile_table( site string, url  string, pv   bigint, label string) row format delimited fields terminated by '\t' stored as textfile;

    load data local inpath '/app/weibo.txt' overwrite into table testfile_table;

    1、TEXTFILE
    默认格式,数据不做压缩,磁盘开销大,数据解析开销大。
    可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,
    从而无法对数据进行并行操作。
    示例:

    create table if not exists textfile_table( site string, url string, pv bigint, label string) \

    row format delimited fields terminated by '\t' stored as textfile;

     

    插入数据操作:

    set hive.exec.compress.output=true; set mapred.output.compress=true;

    set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

    set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

     

    insert overwrite table textfile_table select * from testfile_table;

    2、SEQUENCEFILE
    SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。
    SequenceFile支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,一般建议使用BLOCK压缩。
    示例:

    create table if not exists seqfile_table( site string, url string, pv bigint, label string) \

    row format delimited fields terminated by '\t' stored as sequencefile;

     

    插入数据操作:

    set hive.exec.compress.output=true; set mapred.output.compress=true;

    set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

    set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

    SET mapred.output.compression.type=BLOCK;

     

    insert overwrite table seqfile_table select * from testfile_table;

    3、RCFILE
    RCFILE是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。
    RCFILE文件示例:

    create table if not exists rcfile_table( site string, url string, pv bigint, label string) \

    row format delimited fields terminated by '\t' stored as rcfile;

     

    插入数据操作:

    set hive.exec.compress.output=true; set mapred.output.compress=true;

    set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

    set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

     

    insert overwrite table rcfile_table select * from testfile_table;

    四、ORCFILE
    

    ORCFILE文件示例:

    create table if not exists orcfile_table( site string, url string, pv bigint, label string) \

    row format delimited fields terminated by '\t' stored as orc;

     

    插入数据操作:

    set hive.exec.compress.output=true; set mapred.output.compress=true;

    set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

    set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

     

    insert overwrite table orcfile_table select * from testfile_table;


    五、再看TEXTFILE、SEQUENCEFILE、RCFILE三种文件的存储情况:

    [hadoop@node3 ~]$ hadoop dfs -dus /user/hive/warehouse/*
    hdfs://node1:19000/user/hive/warehouse/hbase_table_1 0
    hdfs://node1:19000/user/hive/warehouse/hbase_table_2 0 hdfs://node1:19000/user/hive/warehouse/orcfile_table 0 hdfs://node1:19000/user/hive/warehouse/rcfile_table 102638073 hdfs://node1:19000/user/hive/warehouse/seqfile_table 112497695 hdfs://node1:19000/user/hive/warehouse/testfile_table 536799616 hdfs://node1:19000/user/hive/warehouse/textfile_table 107308067 [hadoop@node3 ~]$ hadoop dfs -ls /user/hive/warehouse/*/ -rw-r--r-- 2 hadoop supergroup 51328177 2014-03-20 00:42 /user/hive/warehouse/rcfile_table/000000_0 -rw-r--r-- 2 hadoop supergroup 51309896 2014-03-20 00:43 /user/hive/warehouse/rcfile_table/000001_0 -rw-r--r-- 2 hadoop supergroup 56263711 2014-03-20 01:20 /user/hive/warehouse/seqfile_table/000000_0 -rw-r--r-- 2 hadoop supergroup 56233984 2014-03-20 01:21 /user/hive/warehouse/seqfile_table/000001_0 -rw-r--r-- 2 hadoop supergroup 536799616 2014-03-19 23:15 /user/hive/warehouse/testfile_table/weibo.txt -rw-r--r-- 2 hadoop supergroup 53659758 2014-03-19 23:24 /user/hive/warehouse/textfile_table/000000_0.gz -rw-r--r-- 2 hadoop supergroup 53648309 2014-03-19 23:26 /user/hive/warehouse/textfile_table/000001_1.gz

    总结:
            相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方式,数据加载时性能消耗较大,但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取,因此,整体来看,RCFILE相比其余两种格式具有较明显的优势。

    6)小结

    1. TextFile默认格式,加载速度最快,可以采用Gzip进行压缩,压缩后的文件无法split,即并行处理。
    2. SequenceFile压缩率最低,查询速度一般,将数据存放到sequenceFile格式的hive表中,这时数据就会压缩存储。三种压缩格式NONE,RECORD,BLOCK。是可分割的文件格式。
    3. RCfile压缩率最高,查询速度最快,数据加载最慢。
    4. 相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方式,数据加载时性能消耗较大,但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取,因此,整体来看,RCFILE相比其余两种格式具有较明显的优势。
    5. 在hive中使用压缩需要灵活的方式,如果是数据源的话,采用RCFile+bz或RCFile+gz的方式,这样可以很大程度上节省磁盘空间;而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用RCFile+snappy的方式,这样可以整体提升hive的执行速度。至于lzo的方式,也可以在计算过程中使用,只不过综合考虑(速度和压缩比)还是考虑snappy适宜。

     

    参考:https://blog.csdn.net/qq_36753550/article/details/82825207

    展开全文
  • 入门学习Linux常用必60个命令实例详解doc/txt

    千次下载 热门讨论 2011-06-09 00:08:45
    halt执行时,杀死应用进程,执行sync(将存于buffer中的资料强制写入硬盘中)系统调用,文件系统写操作完成后就停止内核。若系统的运行级别为0或6,则关闭系统;否则以shutdown指令(加上-h参数)来取代。  ...
  • HDFS的文件压缩格式

    千次阅读 2018-08-01 12:43:59
    Hadoop默认支持Gzip和BZip2的解压缩方式,可直接读取(hadoop fs -text命令),但hive只能用TEXTFILE格式的表加载,然后再insertoverwrite 到其他格式的表(比如SEQUENCEFILE表),如果hive其他格式的表想要直接加载...

    Hadoop默认支持Gzip和BZip2的解压缩方式,可直接读取(hadoop fs -text命令),但hive只能用TEXTFILE格式的表加载,然后再insertoverwrite 到其他格式的表(比如SEQUENCEFILE表),如果hive其他格式的表想要直接加载压缩格式数据,需要重写INPUTFORMAT和OUTPUTFORMAT文件类。

    BZip2和LZO(提供block级的压缩)支持文件切分,Gzip和Snappy则不支持。 不支持则hadoop不能并行的进行map操作。

    hadoop中支持的压缩格式
    DEFLATEorg.apache.hadoop.io.compress.DefaultCodec
    gzip org.apache.hadoop.io.compress.GzipCodec
    bzip org.apache.hadoop.io.compress.BZip2Codec
    Snappy org.apache.hadoop.io.compress.SnappyCodec
    LZO:
    org.apache.hadoop.io.compress.LzopCodec或者com.hadoop.compression.lzo.LzopCodec;
    org.apache.hadoop.io.compress.LzoCodec或者com.hadoop.compression.lzo.LzoCodec;

    可以查看目前hive已加载的所以编解码器
    set io.compression.codecs;

    中间结果压缩
    set hive.exec.compress.intermediate=true;
    set hive.intermediate.compression.codec=org.apache.Hadoop.io.compress.LzoCodec;
    map结果压缩最好使用snappy的,因为压缩的前提是map输出非常大,影响io,如果中间结果数据集比较小反而会拖慢速度。

    设置map输出结果压缩
    Set mapred.map.output.compression.codec=org.apache.Hadoop.io.compress.SnappyCodec;

    最终输出结果压缩
    hive.exec.compress.output和mapred.output.compression.codec是hive-site.xml中的配置参数,
    而mapred.output.compress 和mapred.output.compression.codec 是hdfs-site.xml的配置参数。
    都可以配置实现。

    Hive格式各种格式下不同压缩算法的比较

    Hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)

    Hive各种文件格式与压缩方式的结合测试

    Hive支持的文件格式与压缩算法

    展开全文
  • Hive中压缩使用详解与性能分析

    千次阅读 多人点赞 2019-01-05 22:16:50
    所以HIVE可以使用hadoop自带的InputFormat和Outputformat实现从不同的数据源读取文件和写出不同格式的文件文件系统中。同理,HIVE也可以使用hadoop配置的压缩方法对中间结果或最终数据进行压缩。 1.什么是压缩及...
  • MacOS开发-用命令行压缩文件

    千次阅读 2019-08-14 12:19:52
    在Mac OS X中,你可以通过右键上下文菜单中的”压缩xxx“选项制作压缩文件,但是,该方式创建的压缩文件和通过命令行zip创建的压缩文件不同。 这种区别至少影响了Apple提供的一项服务操作,那就是无法接受通过zip...
  • MySQL 面试题

    万次阅读 多人点赞 2019-09-02 16:03:33
    因为 MySQL 还有部分内容和运维相关度比较高,所以本文我们分成两部分【开发】【运维】两部分。 对于【开发】部分,我们需要掌握。 对于【运维】部分,更多考验开发的知识储备情况,当然能回答出来是比较好的...
  • PowerShell-压缩压缩文件

    千次阅读 2019-06-25 11:47:42
    PowerShell-压缩压缩文件。本文介绍了Powershell进行压缩压缩的几种方法。附示例代码。
  • Spark读取压缩文件

    万次阅读 2018-06-05 22:40:02
    本文讲如何用spark读取gz类型的压缩文件,以及如何解决我遇到的各种问题。 1、文件压缩 下面这一部分摘自Spark快速大数据分析:   在大数据工作中,我们经常需要对数据进行压缩以节省存储空间和网络传输开销...
  • Linux总结

    千次阅读 多人点赞 2020-01-14 20:36:45
    一 、从认识操作系统开始 1.1 操作系统简介 1.2 操作系统简单分类 二 、初探Linux 2.1 Linux简介 2.2 Linux诞生简介 2.3 Linux的分类 ...三 、Linux文件系统概览 ...3.1 Linux文件系统简介...4.3 文件的操作命令(增删...
  • 多线程 -之对Zip压缩文件的解析

    千次阅读 2018-06-30 09:52:15
    接到需求是要对商家提供的数据文件解析为对应我们业务需要的对象,由于商家给的文件是zip文件,大小在10-100M直接,如果用单个线程处理解析势必会影响处理速度, 以下是我们解析时候写的代码。大概思路是这个样子:...
  • Sql server 2008压缩日志及数据文件

    千次阅读 2018-09-22 18:27:41
    压缩日志及数据库文件大小 /*--特别注意 请按步骤进行,未进行前面的步骤,请不要做后面的步骤 否则可能损坏你的数据库. 一般不建议做第4,6两步 第4步不安全,有可能损坏数据库或丢失数据 第6步如果日志达到上限,...
  • 文件压缩算法详细分析(ZIP)及解压实例解释

    万次阅读 多人点赞 2017-12-27 14:59:46
    最近自己实现了一个ZIP压缩数据的解压程序,觉得有必要把ZIP压缩格式进行一下详细总结,数据压缩是一门通信原理和计算机科学都会涉及到的学科,在通信原理中,一般称为信源编码,在计算机科学里,一般称为数据压缩,...
  • C++解压zip压缩文件

    千次阅读 2018-10-29 18:38:23
    最近做项目需要用到网络下载压缩文件并解压至指定文件夹,本意是使用zlib库,但是花费许久时间仍没有编译通过官网的文件,于是放弃,转而寻求其他方法,在之前的博客中有说道用system调用shell命令的方式使用winrar解压,...
  • Linux 命令面试题

    万次阅读 多人点赞 2019-07-24 09:40:04
    Linux面试题: 1.Linux常用系统安全命令 ...chmod // 用来变更文件或目录的权限 setfacl // 设置文件访问控制列表 2.Linux常用进程管理命令 w // 用于显示已经登陆系统的用户列表,并显示用户正在执行的指令。 top ...
  • Huffman编码之文件的解/压缩

    千次阅读 2016-06-16 00:00:25
    史上最具人性化的文件压缩详述,基于Huffman算法的文件压缩项目,还在为找练习项目而苦恼?还在为Huffman算法困惑?还在为文件压缩一头雾水?来吧,,,一起学习,共同进步.....
  • powershell压缩与解压缩zip文件powershell一些小使用技巧能在开发过程中带来便捷。powerShell v5 以前这里先介绍powershell v5之前的做法:1.解压缩zipfunction UnzipFile([string]$souceFile, [string]$target...
  • Hive query将运算好的数据写回hdfs(比如insert into语句),有时候产生大量的小文件,如果不采用CombineHiveInputFormat就对这些小文件进行操作的话产生大量的map task,耗费大量集群资源,而且小文件过多对...
  • 索引压缩

    千次阅读 2017-08-10 16:59:27
    就拿最常见的倒排索引来说,特别是当用户查询的关键词是常用词时,这些词所对应的倒排列表可以达到几百兆,而将这样庞大的索引由磁盘读入内存,势必严重增加检索响应时间,影响用户的搜索体验。为了解决这样的问题...
  • Redis面试题

    千次阅读 多人点赞 2019-07-17 17:55:38
    全量RDB持久化,在指定时间,fork一个子进程,将数据写入到临时文件,完成后替换之前的文件,用二进制压缩存储。 1.1 可以灵活设置备份频率和周期,适合冷备份,恢复快,性能最大化。 1.2 在完成持久化之前宕机,...
  • U盘重装Win10系统视频教程

    万次阅读 多人点赞 2019-01-13 01:30:22
    重装系统将C盘中的东西格式化,如果C盘有有用的文件,请备份到其他地方 装系统前考虑清楚是否需要将其他盘如D、E盘删除,如果需要请将有用文件备份到网盘或移动硬盘 一、下载纯净专业版win系统 目前网上有很多win...
  • 几种贴图压缩方式详解

    千次阅读 2014-10-17 11:32:23
    文章大部分摘自:... 一、前言  游戏场景里,贴图是影响真实性的重要因素。通常贴图越大,也就越精细,但其占用的内存空间也就更大。 貼圖大小 16 bits 16 bits mipmap 24 bits
  • 转载自:http://blog.csdn.net/harryweasley/article/details/51955467   转载请注明出处,谢谢:...Android中图片是以bitmap形式存在的,那么bitmap所占内存,直接影响到了应用所占内存大小,首先要知道bitma
  • AIX 上总有一种压缩方式适合你

    千次阅读 2015-06-02 15:55:07
    AIX 上总有一种压缩方式适合你 当今世界每天产生大量的数据,有些数据我们需要进行压缩,压缩数据的好处不言而喻:节省空间;方便传输;加密保护等等。很多压缩工具应运而出,每种工具都有自己的特点。对于...
  • Hive压缩说明

    千次阅读 2016-11-13 21:50:18
    Hive压缩使用
  • 常见的图像文件格式 无损压缩

    万次阅读 2016-03-03 09:38:47
    常见的图像文件格式  一、BMP格式 BMP是英文Bitmap(位图)的简写,它是Windows操作系统中的标准图像文件格 式...这种格式的特点是 包含的图像信息较丰富,几乎不进行压缩,但由此导致了它与生俱生来的缺 点--占
  • 使用java实现多种方式解决图片压缩的问题

    万次阅读 多人点赞 2016-07-18 17:20:18
    前端时间在使用对图片加水印后,由于需加水印的图片的宽度和高度都非常的大,加了水印后图片从几百KB,变成了几MB,严重影响了图片在页面的加载速度! 经过仔细的琢磨,决定先对图片进行压缩,再加水印。采用这种...
  • 史上最管用的C盘深度清理秘籍

    万次阅读 多人点赞 2019-03-09 15:37:43
    使用电脑的用户都知道,使用电脑一段时间后,堆积很多无用的文件,不仅占用磁盘空间,而且导致系统运行速度变慢,所以清理c盘垃圾是非常有必要的。 无论我们给C盘分多大的分区,Windows都有办法把它填满。像休眠...
  • Caffe简介

    千次阅读 多人点赞 2018-08-19 16:15:54
    选择支持双通道的内存以及高频率的内存有利于训练,GPU训练下,内存频率不是重要影响因素。 *硬盘选择 caffe采用单独线程异步方式从硬盘中顺序读取数据,需要根据实际情况看是否考虑固态硬盘(SSD),硬盘容量...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 204,177
精华内容 81,670
关键字:

压缩方式会影响文件吗