精华内容
下载资源
问答
  • 压缩软件大家都得多了,老司机们从网上下载个什么资源,很多情况下都会下载到压缩文件压缩文件的好处有很多,一来减少体积节省流量,二来打包方便可以一次性容纳N个文件,要使用这些压缩文件,压缩软件往往是必...

               压缩软件大家都用得多了,老司机们从网上下载个什么资源,很多情况下都会下载到压缩文件。压缩文件的好处有很多,一来减少体积节省流量,二来打包方便可以一次性容纳N个文件,要使用这些压缩文件,压缩软件往往是必不可少的。

    压缩软件使用简单,但其实很多朋友并没有意识到,这里面也存在一些大坑。今天,就来讲讲压缩软件的故事吧。

    方法/步骤

    1. 压缩软件的原理

      为什么压缩软件能够减少文件体积?无论是什么压缩软件,其目的就只有一个——减少冗余数据。这是什么意思呢?例如某行字是“000011111”,就可以压缩为“0(4)1(5)”,在保证数据没有受损的同时,减少其占用的体积。

      哪种压缩格式/软件最好?看完秒懂

    2. 上面的例子比较简单,实际上压缩软件的算法是复杂且多种多样的。

      不同的压缩软件会使用不同的字典,用来查找压缩冗余的数据,算法结合字典在很大程度上决定了压缩的效率。

      我们经常会看到不同的压缩文件格式,例如ZIP、RAR、7Z等,实际上这只是不同的压缩规范,就算是同样的格式,例如大家都是ZIP,其中的压缩算法可能也是不一样的,ZIP就可以使用Shrinking、Reducing、Deflate等算法。

      某个压缩文件压缩率高不高,不但要看其文件格式,更要看其具体使用的算法(例如ZIP和7Z都可以使用Deflate算法)。

      至于用哪个压缩软件最高效,实际上绝大多数的压缩软件,都没有自己的压缩算法,本质上只是马甲。

      主流的压缩文件格式大致有三种,分别是ZIP、RAR和7Z,它们分别来自Winzip、Winrar以及7-Zip,下面我们来说说这三种格式及其背后的压缩软件吧。

    3. ZIP:事实上的标准格式

      这是一个历史非常悠久的压缩格式,也是事实上的标准格式。

      你可以看到各大软件商发布软件时,提供的往往都是ZIP格式的压缩文件包,各大操作系统也对ZIP格式有着比较好的支持,例如Win系统中就可以直接访问ZIP文件中的内容。

      不过,这个最被广泛支持、被最多人认同的格式,其开发者的命运却有点悲情——ZIP格式的发明者Philip Katz英年早逝,37岁就因为酗酒去世了。

       

    4. 在DOS操作系统仍在盛行的时代,最流行的压缩格式是ARC。ARC效率慢且封闭,使用对应的压缩软件还要付费,Philip Katz对其不满,于是Philip Katz开发出了PKARC这款完全兼容ARC的软件。

      不料因为此事,Philip Katz被ARC告上法庭并败诉,不得不放弃PKARC的开发。

      Philip Katz并没有放弃压缩软件的钻研,他随后开发出了PKZIP这款软件,首创了ZIP格式。就算到了今天,你开启任何ZIP文件,仍可以在文件头中看到“PK”的字样,这就是Philip Katz名字的缩写。

      ZIP的表现全方面压制了ARC,速度更快压缩比更高,而且Philip Katz开放了ZIP格式,任何压缩软件都可以创建ZIP。很快,ZIP就成为了最流行的压缩标准。

      ZIP是一种开放的格式,Philip Katz的PKWare公司并没有为ZIP格式注册专利。ZIP格式被多家软件商所利用,Winzip这款软件也是在那时候崛起的。Nico Mak利用开放的ZIP格式开发了Winzip,兼容Win系统。借着Win崛起的东风,Winzip成为了最流行的压缩软件之一。

    5. 再例如大家都很熟悉的Winrar,也使用了ZIP的算法,同时没有开放RAR算法给其他软件,这令Winrar一度成为最全能的压缩软件,一跃成为主流。

      Philip Katz的结局并不好,在2000年,他在一家汽车旅馆中去世,死时还握着酒瓶。

      ZIP的开放令其成为了最流行的格式,也是事实上的标准格式,家家户户都支持它。不过它也存在一些缺点。例如,它的压缩率相比RAR和7Z偏低,对Unicode字符支持并不好,缺乏修复功能,加密安全性一度堪忧等,RAR和7Z都令ZIP感到巨大的竞争压力。

      哪种压缩格式/软件最好?看完秒懂

    6. RAR:起于江湖盛行于中国

      在国外,其实RAR的流行程度和ZIP有差距;但在中国,RAR当之无愧是最流行的压缩格式。RAR格式源于Winrar这款软件,和ZIP不同,RAR格式并不开放,只免费发放了其解压组件。

      这意味着别的压缩软件只能解压RAR,不能创建RAR。和Winzip相比,RAR能压缩、解压ZIP和RAR,Winzip却不能压缩RAR,因此Winrar利用专利,取得了竞争优势。

    7. 这其实尚不足以让RAR流行起来,毕竟和ZIP对比,RAR的专利算法虽然压缩率更高一些,但速度也较慢。令RAR真正崛起的契机是破解组织的力挺——破解游戏往往使用了Winrar来压缩,而中国又是盗版游戏最横行的市场,RAR由此在中国开始流行。

    8. 游戏盗版行业可谓是不折不扣的灰色地带,RAR绝对称得上是起于江湖。

      为什么破解游戏喜欢使用RAR呢?

      首先,RAR对Unicode字符支持好,很多游戏都不是英文版,用ZIP压缩可能会出现乱码,而RAR不会;其次,RAR很早就支持分卷压缩,不少破解游戏体积都很大,要把它们装进盗版光盘,就得用RAR分卷。

      而RAR的分卷文件,一度只能用Winrar开启。于是,盗版游戏玩家们纷纷成为了Winrar的拥簇,在中国Winrar成为了最万能的压缩软件,流行度完全盖过了Winzip。

       

      哪种压缩格式/软件最好?看完秒懂

    9. RAR的成功,一方面是由于专利保护,令其处在了竞争的有利位置上;另一方面它的确也比较先进。RAR压缩率稍高,对分卷压缩支持好,早早支持AES加密安全性好,而且还自带修复功能——不少由于光盘划花导致的数据错误,就是靠RAR的CRC修复得而完璧归赵的。

      不过,RAR的封闭始终是个问题,它最开始是收费软件,现在针对中国发行了带广告的免费版,但人们还是更倾向于使用破解版。随着7-ZIP的出现,万能压缩软件越来越多,虽然RAR格式仍在流行,但很多人已经不再使用Winrar这款软件。

    https://sparanoid.com/lab/7z

     

    10. 7-Zip在国内不流行的一大原因可能是界面太简陋,但就是这样的风格,社会你7哥,人狠话不多

    最良心的一点是,7-Zip和7Z是完全开源的!因此,它的内核被很多其他压缩软件所使用,国产压缩软件通常就是7-Zip的忠实拥簇,压缩软件中的“坑”也由此而来。

    7-Zip开源,但它使用了LGPL开源协议,某个软件如果使用了7-Zip的源码,按理来说也必须开源。但国内的“X压”等软件非但没有开源,还在压缩文件的文件头中故意加入无助于压缩的私货,让其他压缩软件无法解压。

    用了人家的代码还故意制造不兼容,对于这种行为,只想说一句,“我从未见过如此厚颜无耻之人”!

    11. 总结

    总体来说,在压缩文件格式方面,笔者是比较推荐大家压缩成ZIP格式的,毕竟这个格式拥有着最广泛的支持。

    在压缩软件的选择上,大家可以优先考虑7-Zip,对分卷压缩有特殊要求的朋友,则可以使用Winrar。对于某些不厚道的国产压缩软件,大家还是少碰为好,这种坑不仅坑自己,也会坑到别人。

    其他压缩软件对比:

    WinRAR、7-Zip、好压、360压缩、快压 五软件性能对比
    1:谁压的最小(好压、360压缩自有格式压缩文本)非常优秀。快压整体成绩高,但zip格式和自有格式大小相同。

    2:谁压的最快:7-Zip和好压速度名列前茅,快压则比较慢(个人认为快压算法可能自主格式和zip是一样的,360压缩速度最快和文件最小,实际zip和7Z格式)。

    3:谁格式最全:7-Zip超强资源提取工具,exe、dll等都可以解压出来。
    (一)WinRAR特点:
    1:预测功能:未开始压缩前,可预测压缩后大小和时间。
    2:超强文件管理工具,可做资源管理器使用。
    3:超强修复功能,尤其是RAR的修复。
    (二)好压
    1:可以挂载光盘镜像。

    2:丰富插件扩展,在压缩包内查看图片。
    (三)360压缩
    1:不仅解压,在压缩时也支持RAR格式。
     (四)快压
    1:自有的KZ格式,具有超强的压缩能力,即使像jpg图片也能继续压缩。
    2:支持虚拟光驱。

    在上述分析当中,我会推荐7-Zip和好压两个软件(WinRAR是收费的,算法没有什么改观)。

    1:7-Zip为首选软件,最干净压缩率极高,提取功能优异,为很多压缩软件效仿。

    2:其次是好压,简单易用功能全面。

    3:360压缩整体性能比其他软件弱,不过对使用者习惯上还很有一套。
    总之,国产软件都有不错成绩,希望以此为荐,做出更好的产品。

    个人推荐2345好压和7-zip 这两个可以一起下载,对于做CTF和日常使用都不错,用好压是因为不用解压就能看到图片,还有其他小功能。

     

    展开全文
  • 针对WINZIP压缩文件,黑客最常使用的工具就是Elcomsoft公司的“Advanced ZIP Password Recovery”(简称AZPR),AZPR提供了一个图形化的用户界面,黑客经过几个简单的步骤就可以破解ZIP压缩文件包的密...

    压缩文件密码破解

    如果你想要破解是很难的,不知道你的密码长度有多少,破解所需的时间是根据你的密码长度来算的,方法我给你:

    1.WINZIP压缩文件的破解

    针对WINZIP压缩文件,黑客最常使用的工具就是Elcomsoft公司的“Advanced ZIP Password Recovery”(简称AZPR),AZPR提供了一个图形化的用户界面,黑客经过几个简单的步骤就可以破解ZIP压缩文件包的密码。

    第一步:配置破解工具

    首 先在“ZIP password-encrypted file”打开被加密的ZIP压缩文件包,可以利用浏览按钮或者功能键F3来选择将要解密的压缩文件包;在“Type of attack”中选择攻击方式:包括“Brute-force”(强力攻击)、“mask”(掩码搜索)、“Dictionary”(字典攻击)等;在 “Brute-force range options”设定强力攻击法的搜索范围,如果用户了解口令的组合特点,通过设定以下选择可以大大缩短搜索时间;在“Start from”中 ,当用户知道口令的起始字符序列时,可以设定该选项。例如,当用户知道口令全部使用小写字母,长度是5,并且以字母“k”开头,那么可以在该项填写 “kaaaa”,AZPR将从这个口令开始依次向后搜索所有的可能密码;在“Password length”中可以设定口令长度,这也是一个决定搜索时间的重要选项; “Auto-save”:自动存储选项的功能是定期自动保存软件当前设置与当前工作状态,这些关键参数将会定期自动保存在一个名为 “~azpr.ini”,用户可以自行指定保存参数的文件名、自动保存的时间间隔等等,该选项使得用户能够继续上次中断的解密进程。
    第二步:开始破解

    经 过以上几个关键的选项的设置,黑客就可以开始破解你的ZIP文件了,点击“Start”按钮即可进行解密运算,由于AZPR有以上保存参数和状态的功能, 用户随时可以中断或者继续运算过程。当密码找到后,用户会在结果窗口中看到密码内容、试探密码总数、破解消耗时间、平均运算速度等信息。如果没有找到密 码,也会有相应的提示信息。

    2.WINRAR压缩文件的破解

    针对WINRAR压缩文件,Elcomsoft公司也推 出了“Advanced RAR Password Recovery”,该软件解密速度很快,可以帮你找回RAR文件的密码,注册后可以解开多达128位密码。它提供有预估算出密码所需要的时间;可中断计 算与恢复继续前次的计算。然而到黑客手里也就变成了一个破解的工具,其具体使用方法与“Advanced ZIP Password Recovery”大致相同,这里不多介绍了。
    3. 当心“多功能密码破解软件”作祟

    此外,目前还有一款名为“多功能密码破 解软件”的工具值得大家注意,也是黑客经常使用的。该软件可以破解Access97/2000/xp密码,Word/Excel97/2000/xp、 QQ(本地和在线)、SQLSERVER(本地和远程)、windows98登陆密码、ZIP/RAR文件密码,星号密码察看,可以察看任何显示为*的密 码内容(网页除外)。ZIP/RAR文件密码也难逃该软件一“劫”!下面看看黑客到底是如何利用这个工具兴风作浪的。

    黑客安装并运行该软件,切换到“ZIP/RAR”选项
    点击“浏览”按钮找到本地硬盘上要破解的ZIP/RAR文件,然后需要进行以下的设置:

    (1)“破解位数设置”:你可以设置好密码最小长度和密码最大长度。

    (2)“破解字符设置”:你可以选择是用数字、小写字母、大写字母中一个或者多个,这需要根据设置的压缩包的密码来进行选择,当然,如果都选的话,那么破解的速度肯定更慢,花费的时间也更长。

    设置完毕后,点击“开始”按钮即可进行破解,经过一段时间的破解后,最后在“进度”框中显示破解的密码,
    三、巧妙设置,让压缩文件无懈可击

    除 了用来压缩文件,我们还常常把WinRAR、WINZIP当作一个加密软件来使用,在压缩文件的时候设置一个密码就可以达到保护数据的目的了。正因为如 此,专门针对压缩文件密码的破解软件也是遍地开花。密码的长短对于现在的破解软件来说,已经不是最大的障碍了。那么,怎样才可以让压缩加密的文件牢不可破 呢? 除了做好日常的安全防范工作外,我们还要巧妙进行以下设置:

    现在的破解软件在破解加密文件密码的时候总要指定一个Encrypted File(目标文件),然后根据字典使用穷举法来破解密码。但是如果我们将多个需要加密的文件压缩在一起,然后为每一个文件设置不同的密码,那破解软件就无可奈何了,具体操作如下:

    1.按照常规的方法把它压缩并且设置一个密码;
    2.准备一个其他文件(当然这个文件小一点最好了,因为我们只是利用它来迷惑破解软件而已);
    3.在WinRAR的工作窗口中打开我们第一步已经压缩好的加密文件,在“命令”菜单中选择“添加文件到压缩包”菜单选项
    4.在弹出的“请选择要添加的文件”对话框中选择我们准备的“其他文件”,点击“确定”按钮后回到“压缩文件名字和参数”对话框;

    5.在“高级”选项卡标签中点击“设置密码”按钮设置一个不同的密码,然后开始压缩即可
    经 过以上步骤,现在两个密码已经设置完成了(如果添加了多个文件,也可以给每个文件设置不同的密码,如果你担心自己会忘记,只设两个密码也可以达到目的)。 打开压缩文件可以看到每一个文件名的右上角都有一个表示加密的星号,但是打开其中不同的文件都需要相对应的密码,使用破解软件是得不到正确密码的。这种方 法对用WinZip加密的文件同样适用。

    我上网下载了rar压缩文件,有密码,用arpr工具怎么破解不了,

    ARPR这个东西很难弄到正版的,所以一般只能三位密码以内的破解,即使弄到正版的你不知道加密时用的密码库,密码位数,给你连续破一年也不一定解出来,所以最好联系加密的人。毕竟也是加了密的,自己破解也不合法

     

    用ARPR破解压缩包为什么破解的密码只有A

    你是下的那个所谓的汉化版吧...哪个版本有问题的...首先我反对这些软件...不过你想要的话留下邮箱我发给你

    如何破解RAR文件的压缩密码?

    上网找破解工具啊,下面是我Www.BKJIA.com以前收集过的不知道还能不能下,呵呵,你看看,如果不能你可以自己上网搜搜的

    多功能密码破解软件:
    http://www.onlinedown.net/soft/38220.htm

    Advanced RAR Password Recovery
    http://www.onlinedown.net/soft/8271.htm

    RAR Password Cracker
    http://www.onlinedown.net/soft/4895.htm

    Turbo ZIP Cracker V0.3
    ZIP密码暴破工具,支持由WinZIP、PKZIP以及其它兼容ZIP格式的软件(比如WinRAR等)加密的ZIP压缩包,破解速度比较理想。
    http://www.skycn.com/soft/22909.html

    展开全文
  •  在一台电脑把一个rar压缩文件复制到另一台电脑上,解压时出现“这个压缩文件格式未知或者数据已经被损坏”错误。 原因:  有可能是复制的不完全,压缩文件真的坏了,但也有可能是另一种情况,如在win10的系统中...

    出现情况:

                在一台电脑把一个rar压缩文件复制到另一台电脑上,解压时出现“这个压缩文件格式未知或者数据已经被损坏”错误。

    原因:

                有可能是复制的不完全,压缩文件真的坏了,但也有可能是另一种情况,如在win10的系统中把压缩文件复制到了win7的系统中,因为winrar版本差异太大导致无法解压,这时候只需要到网上下载WinRar最新版到本地,再解压,问题解决。

    展开全文
  • HIVE 文件格式压缩格式 一: mapreduce 的压缩 mapreduce 压缩 主要是在shuffle阶段的优化。 shuffle 端的 –partition (分区) – sort (排序) – combine (合并) – compress (压缩) – group (分组) 在...

    HIVE 文件格式与压缩格式

    在这里插入图片描述

    一: mapreduce 的压缩

    mapreduce 压缩 主要是在shuffle阶段的优化。
    shuffle 端的
    –partition (分区)
    – sort (排序)
    – combine (合并)
    – compress (压缩)
    – group (分组)
    在mapreduce 优化shuffle 从本质上是解决磁盘的IO 与网络IO 问题。
    减少 集群件的文件传输处理。
    二: hive 的压缩:
    压缩的和解压需要cpu的,hive 的常见的压缩格式:
    bzip2,gzip,lzo,snappy等
    cdh 默认采用的压缩是snappy

    压缩比:bzip2 > gzip > lzo bzip2 最节省存储空间。
    注意: sanppy 的并不是压缩比最好的

    解压速度: lzo > gzip > bzip2 lzo 解压速度是最快的。
    注意:追求压缩速率最快的sanppy
    压缩的和解压需要cpu 损耗比较大。

    集群分: cpu 的密集型 (通常是计算型的网络)
    hadoop 是 磁盘 IO 和 网络IO 的密集型, 网卡的双网卡绑定。
    三: hadoop 的检查 是否支持压缩命令
    bin/hadoop checknative
    3.1 安装使支持压缩:
    tar -zxvf 2.5.0-native-snappy.tar.gz -C /home/hadoop/yangyang/hadoop/lib/native
    3.2 命令检测:
    bin/hadoop checknative
    3.3 mapreduce 支持的压缩:
    CodeName:
    zlib : org.apache.hadoop.io.compress.DefaultCodec
    gzip : org.apache.hadoop.io.compress.GzipCodec
    gzip2: org.apache.hadoop.io.compress.Bzip2Codec
    lzo : org.apache.hadoop.io.compress.LzoCodec
    lz4 : org.apache.hadoop.io.compress.Lz4Codec
    snappy: org.apache.hadoop.io.compress.SnappyCodec
    3.4 mapreduce 执行作业临时支持压缩两种方法:
    1.在执行命令时候运行。
    -Dmapreduce.map.output.compress=true
    -Dmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
    如:
    bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount -Dmapreduce.map.output.compress=true -Dmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.DefaultCodec /input/dept.txt /output1
    可以在bin 的前面加一个time, 会在查看运行的时间

    测试job 的任务:

    测运行job 的总时间
    查看压缩的频率,压缩后的文件大小。
    更改配置文件:
    更改mapred-site.xml 文件

    mapreduce.map.output.compress
    true

    mapreduce.map.output.compress.codec
    org.apache.hadoop.io.compress.DefaultCodec

    更改完成之后重新启动服务就可以
    四. hive的支持压缩
    4.1 更改临时参数使其生效
    hive > set —> 查看所有参数
    hive > set hive.exec.compress.intermediate=true – 开启中间 压缩

    set mapred.map.output.compression.codec = CodeName
    set hive.exec.compress.output=true
    set mapred.map.output.compression.type = BLOCK/RECORD
    在hive-site.xml 中去增加相应参数使其永久生效
    4.2:hive 支持的文件类型:
    4.2.1 行存储与列式存储区别
    数据库列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因 此整个数据库是自动索引化的。
      按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就 更容易为这种聚集存储设计更好的压缩/解压算法。
    image_1ak7j9l59fq1k819ek15eeqq9.png-173kB

    4.2.2 hive 支持的文件类型:
    修改hive 的默认文件系列参数:
    set hive.default.fileformat=Orc

    TextFile:默认的类型,行存储
    rcfile:按行块,每块再按列存储
    avro:二进制
    ORC rcfile:的升级版,默认是zlib,支持snappy 其格式不支持
    parquet
    4.2.3 ORC格式(hive/shark/spark支持)
    image_1ak7jnb7p1ko3128h2u9b0kqulm.png-108.9kB

    使用方法:
    create table Adress (
    name string,
    street string,
    city string,
    state double,
    zip int
    )stored as orc tblproperties (“orc.compress”=“NONE”) —>指定压缩算法
    row format delimited fields terminated by ‘\t‘;
    4.2.4 PARQUET格式(twitter+cloudera开源,Hive、Spark、drill,Impala、
    Pig等支持)
    image_1ak7k27pbsvu1lmo1hp6tus9e013.png-124.4kB

    使用方法:
    create table Adress (
    name string,
    street string,
    city string,
    state double,
    zip int
    )stored as parquet —> 指定文本类型
    row format delimited fields terminated by ‘\t‘;
    五:hive日志分析,各种压缩的对比
    5.1 在hive 上面创建表结构:
    5.1.1 textfile 类型:
    create table page_views_textfile(
    track_time string,
    url string,
    session_id string,
    refere string,
    ip string,
    end_user_id string,
    city_id string
    )
    row format delimited fields terminated by ‘\t‘
    STORED AS textfile ; —> 指定表的文件类型
    image_1ak7u3id314bq57q11rhp60dhh9.png-17.9kB

    加载数据到表中
    load data local inpath ‘/home/hadoop/page_views.data‘ into table page_views_textfile ;
    image_1ak7u5tbjqql1mfv1ic61ffquqam.png-12.5kB

    5.1.2 orc 类型:
    create table page_views_orc(
    track_time string,
    url string,
    session_id string,
    refere string,
    ip string,
    end_user_id string,
    city_id string
    )
    row format delimited fields terminated by ‘\t‘
    STORED AS orc ;
    image_1ak7ulou44mhq501efc1jktboa13.png-17.5kB

    插入数据:
    insert into table page_views_orc select * from page_views_textfile ;
    image_1ak7urdk31sf97971edt1it81qtm1g.png-54.7kB
    5.1.3 parquet 类型
    create table page_views_parquet(
    track_time string,
    url string,
    session_id string,
    refere string,
    ip string,
    end_user_id string,
    city_id string
    )
    row format delimited fields terminated by ‘\t‘
    STORED AS parquet ;
    image_1ak7uu3rmgd5umk5sleh1t2a1t.png-17.1kB

    插入数据:
    insert into table page_views_parquet select * from page_views_textfile ;
    image_1ak7uuuuh1e31iktc1g1q971pg22a.png-62.1kB

    六:比较:
    6.1 文件大小统计
    hive (yangyang)> dfs -du -h /user/hive/warehouse/yangyang.db/page_views_textfile ;

    hive (yangyang)> dfs -du -h /user/hive/warehouse/yangyang.db/page_views_orc ;

    hive (yangyang)> dfs -du -h /user/hive/warehouse/yangyang.db/page_views_parquet ;
    image_1ak7vb3havvabfa1mdsien1g282n.png-21.2kB

    从上面可以看出orc 上生成的表最小。
    6.2 查找时间测试比较:
    hive (yangyang)> select count(session_id) from page_views_textfile ;
    hive (yangyang)> select count(session_id) from page_views_orc;

    hive (yangyang)> select count(session_id) from page_views_parquet;
    6.3 textfile 文件类型:
    image_1ak800moc1ov711mhkk11nk44eo3u.png-7.2kB
    image_1ak801ugb1n2v1mhk3f1qshems4b.png-6.8kB

    6.4 orc 文件类型:
    image_1ak8056dcd8o1ei83vp9hupo84o.png-22.9kB
    image_1ak807ni71fi3dpm1ccb18an155755.png-6.7kB

    6.5 parquet 类型:
    image_1ak8091ilmeqing1qunurc5to5i.png-15.9kB
    image_1ak80a3441aj99hih2u7n6fd25v.png-6.6kB

    七 hive 创建表与指定压缩:
    7.1 orc+snappy 格式:
    create table page_views_orc_snappy(
    track_time string,
    url string,
    session_id string,
    refere string,
    ip string,
    end_user_id string,
    city_id string
    )
    row format delimited fields terminated by ‘\t‘
    STORED AS orc TBLPROPERTIES(“orc.compression”=“Snappy”);
    image_1ak81oqnp1sd01nq01tj6htdnh06c.png-21kB

    插入数据:
    insert into table page_views_orc_snappy select * from page_views_textfile ;
    image_1ak81sl3k1pa16un267186g1uu96p.png-34.8kB

    7.2 parquet+snappy 格式:
    set parquet.compression=Snappy ;
    set hive.exec.compress.output=true ;
    create table page_views_parquet_snappy(
    track_time string,
    url string,
    session_id string,
    refere string,
    ip string,
    end_user_id string,
    city_id string
    )
    row format delimited fields terminated by ‘\t‘
    STORED AS parquet ;
    image_1ak826m0hu73195t97i4qrj680.png-24kB

    插入数据:
    insert into table page_views_parquet_snappy select * from page_views_textfile ;
    image_1ak8277pv12vi16unbag10q01sfm8d.png-62.9kB

    7.2.1:实例
    --创建数据表:
    create table if not exists textfile_table(
    site string,
    url  string,
    pv   bigint,
    label string)
    row format delimited fields terminated by '\t'
    stored as textfile;
    --插入数据:
    set hive.exec.compress.output=true; --启用压缩格式 
    set mapred.output.compress=true;    
    set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  --指定输出的压缩格式为Gzip  
    set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;      
    insert overwrite table textfile_table select * from T_Name;
    

    7.3 对比测试:
    7.3.1 文件大小对比:
    hive (yangyang)> dfs -du -h /user/hive/warehouse/yangyang.db/page_views_orc_snappy ;

    hive (yangyang)> dfs -du -h /user/hive/warehouse/yangyang.db/page_views_parquent_snappy ;
    image_1ak82jdklbniq9bhei129b1hde8q.png-15.4kB

    7.3.2 查询对比:
    hive (yangyang)> select count(session_id) from page_views_orc_snappy;

    hive (yangyang)> select count(session_id) from page_views_parquet_snappy;
    image_1ak832dfdg2v1vvm15umjmd4us97.png-58.7kB

    image_1ak833gls106i1hjg1sg1ljn1ud39k.png-58.7kB

    展开全文
  • HDFS的文件压缩格式

    千次阅读 2018-08-01 12:43:59
    text命令),但hive只能TEXTFILE格式的表加载,然后再insertoverwrite 到其他格式的表(比如SEQUENCEFILE表),如果hive其他格式的表想要直接加载压缩格式数据,需要重写INPUTFORMAT和OUTPUTFORMAT文件类。...
  • HDFS文件压缩

    千次阅读 2020-01-04 18:06:11
    前言 新搭建的集群,需要进行各种测试,于是让一个同事导入一些测试数据,大约1.4T左右。我进行了一个简单的hive测试 ...原来同事从ftp拉取过来的数据是gzip格式的,他直接如到Hive表中…,而gzip格式的...
  • Java 将文件压缩为GZIP格式

    千次阅读 2017-01-10 15:44:02
    From: ... /* 将文件压缩为GZIP格式,使用GZIPOutputStream的write()方法将array of bytes写入压缩文件中 */ import java.io.*; import java.util.zip.GZIPOu
  • 数字音源,也就是数字音频格式,最早指的是CD,CD经过压缩之后,又衍生出多种适于在随身听上播放的格式,这些压缩过的格式,我们可以分为两类:有损压缩的和无损压缩的。这里所说的压缩,是指把PCM编码的或者是WA
  • MP4视频格式相信是大家接触的最多的一种视频格式,当我们在刷视频的时候看待一个好看的视频文件想发送给自己的好友一起观看,但传输的过程由于视频过无法上传或者上传速度很慢的时候该怎么办呢?应该如何在不缩短...
  • 哈夫曼实现文件压缩压缩(c语言)

    万次阅读 多人点赞 2019-01-23 17:04:47
    写一个对文件进行压缩和解压缩的程序,功能如下: ① 可以对纯英文文档实现压缩和解压; ② 较的界面程序运行的说明。 介绍哈夫曼: 效率最高的判别树即为哈夫曼树 在计算机数据处理中,霍夫曼编码...
  • 什么压缩文件/压缩包?

    万次阅读 2020-08-12 14:13:24
    什么压缩文件呢? 首先我们需要知道什么压缩文件 什么是压缩? 计算机是以二进制的形式来储存所有的文件的,也就是00000001111111类似这种形式,压缩文件就会以一种类似编码的形式来储存这些文档,比如四个0连...
  • 按照传统的处理办法需要将数据先存储到本地磁盘,再从磁盘读文件压缩成zip文件。 传统方法需要多次磁盘IO,性能很低,如果跳过文件存储,直接将内存的数据压缩保存,会大大减少磁盘IO,提升性能。 不
  • 常见的图像文件格式 无损压缩

    万次阅读 2016-03-03 09:38:47
    常见的图像文件格式  一、BMP格式 BMP是英文Bitmap(位图)的简写,它是Windows操作系统中的标准图像文件格 式,能够被多 种Windows应用程序所支持。随着Windows操作系统的流行与丰富的 Windows应用程序的...
  • linux下五种常见的格式文件压缩

    千次阅读 2017-10-10 21:43:04
    .zip压缩命令(压缩文件和目录没有任何毛病): 常用压缩格式:.zip .gz .bz2 .tar.gz .tar.bz2 格式:zip 压缩文件名(可以不写压缩名,但是严格意义上区分压缩文件名) 源文件名 zip -r 压缩文件名 源文件名 压缩...
  • Java多文件压缩下载解决方案

    万次阅读 2018-09-07 18:00:33
    会员运营平台经过改版后页面增加了许多全部下载链接,上周上线比较仓促,全部下载是一个直接下载ZIP压缩文件的链接,每个ZIP压缩文件都是由公司运营人员将页面需要下载的文件全部压缩成一个ZIP压缩文件,然后通过...
  • 本篇使用的解压软件为 360压缩 解压文件时不选择“一键解压” 而选择 “解压到” 选项 打开“高级选项” 选择“ 保留损伤文件”选项即可 这样解压出来的文件文件会保留下来,但是文件可能会播放到某一段...
  • Mac中如何压缩文件成RAR格式

    万次阅读 2019-05-27 16:41:00
    作为一款非常专业的解压缩工具,BetterZip包含unrar功能,允许我们打开和提取rar格式压缩文件。如果要创建和保存RAR存档,我们可以从其网站下载并安装rar命令行工具,或者我们也可以告诉BetterZip已安装它的位置。...
  • Hadoop文件压缩格式分析和比较

    千次阅读 2017-07-10 08:29:22
    Hadoop支持压缩格式压缩格式 可分割 算法 扩展名 Linux工具 gzip 否 DEFLATE .gz gzip lzo 是(加索引) LZO .lzo lzop ...
  • linux大文件压缩及解压需要注意问题

    千次阅读 2019-09-09 03:30:02
    压缩大文件,如何后台进行,如何防止终端关闭导致压缩停止,如何输出压缩过程日志,如何使用7z只打包,不压缩,分包压缩
  • Linux 使用ffmpeg修改和压缩视频文件格式1.安装 ffmpeg2. 使用ffmpeg修改和压缩视频文件格式 这里使用的ffmpeg是使用命令行进行修改和压缩视频文件格式。 我们使用的操作系统是ubuntu 16.04, ffmpeg使用命令安装默认...
  • rar压缩技术的版权是归WinRAR的,前段时间WinRAR收回了各个压缩软件的rar压缩版权。 也许你发现了,360压缩、2345压缩等本来都是可以压缩rar的,后来突然...现在已知的可以rar格式压缩的正规压缩软件只有WinRAR了。
  • 怎么压缩图片文件大小?

    万次阅读 2018-10-15 14:58:57
    现在的科技发展迅速,图片的像素很高,这样也就导致了图片比较大,我们想要将图片上传作为网站的头像都比较麻烦,今天教给大家一种压缩图片文件大小的方法。 1:首先将压缩软件安装到自己的电脑中,打开压缩软件...
  • Zip解压-可设置压缩文件编码方式

    热门讨论 2015-09-19 22:32:24
    jdk自带的ZipEntry类解压zip文件,中文文件会出现乱码,jar包是根据Apache的解压缩包进行改造的,也适合于Android使用
  • Java实现文件压缩与解压缩-----.7z1. 压缩1.1 实现代码1.2 maven依赖 Java中实现.7z的压缩与解压缩 Java中实现.zip的压缩与解压缩 1. 压缩 本代码可以实现文件夹下多个文件的.7z压缩~ 1.1 实现代码 import org....
  • ...这一章我们来讲我们非常熟悉的一种文件格式。...在我们windows当中压缩文件可以说非常常见的一种文件格式,我们在下载软件、资料、安装包一般来说都是压缩文件的格式。那在我们linux系统当中有哪...
  • 毕业论文文件大小超出要求,压缩文件大小。
  • 一.使用Parquet存储数据 数据使用列存储之前是普通的行存储,下面是行...下面具体讲parquet存储数据的代码以及加载数据的格式。 数据库代码: create table if not exists db_yhd.track_log_parquet( id STRING...
  • 现在的需求是对手机拍照进行预处理首先就是图像压缩,直接调用我推荐luban算法算是安卓中比较好的开源压缩算法还有一个takephoto也是一款不错的调用相机处理的工具 现在进入正题,thumbnailator是java中一个比较...
  • 《 Linux下zip格式文件的解压缩压缩操作命令详解 》 zip格式文件的解压缩压缩操作: 1、把/home目录下面的huazai目录压缩为huazai.zip  zip -r huazai.zip huazai #压缩huazai目录  2、把/home目录...
  • qt 压缩解压缩文件和文件夹源码

    热门讨论 2011-10-18 11:39:32
    可是使用quazip类库实现文件和文件夹的压缩与解压缩,经测试可以使用

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 474,508
精华内容 189,803
关键字:

压缩大文件用什么格式比较好