精华内容
下载资源
问答
  • 常见的数据压缩
    千次阅读
    2013-03-07 09:16:28
    更多相关内容
  • 本文分析了DCS 模拟量在计算机中存储和表示方法及其特点,对原始数据进行预处理,使数据表现出较明显的冗余信息,然后对数据的不同部分,采用不同的压缩方法,每种压缩算法压缩模拟量数据的一部分。  与DCS 接口中...
  • 数据压缩算法 - 数据压缩

    千次阅读 2020-11-02 17:58:48
    数据压缩算法,考虑点: 压缩比(压缩率的倒数) 压缩/解压缩需要资源(内存) 压缩/解压缩需要时间。 常用:https://www.cnblogs.com/tommyli/p/4350672.html 压缩:有损,无损,(可逆,非可逆) 压缩...

    数据压缩算法,考虑点:

    压缩比(压缩率的倒数)

    压缩/解压缩需要资源(内存)

    压缩/解压缩需要时间。

     

    常用:https://www.cnblogs.com/tommyli/p/4350672.html

     

    压缩:有损,无损,(可逆,非可逆)

    压缩解压:对称,非对称

     

    常见的图片格式,都是使用了特定压缩算法的应用。

    一般来说,JPEG格式的文件是非可逆压缩,因此还原后有部分图像信息比较模糊。GIF 是可逆压缩

    mpeg

    几种压缩算法的速度比较:https://blog.csdn.net/leilonghao/article/details/73200859

     

    常用的压缩算法:

    LZO一个开源的无损压缩C语言库,其优点压缩和解压缩比较迅速占用内存小等特点(网络传输希望的压缩和解压缩速度比较快,压缩率不用很高)。压缩率(0.5%~50%)

     

    说明:

    同一个压缩算法,(例如LZO),对于不同类型文件,压缩比范围很大(压缩比差异很大)。

    展开全文
  • Hive常见压缩格式

    千次阅读 2021-01-05 10:31:52
    压缩格式 Hive支持的压缩格式有bzip2、gzip、deflate、snappy、lzo等。Hive依赖Hadoop的压缩方法,所以Hadoop版本越高支持的压缩方法越多,可以在$HADOOP_HOME/conf/core-site.xml中进行配置: <property> &...

    压缩格式

    Hive支持的压缩格式有bzip2、gzip、deflate、snappy、lzo等。Hive依赖Hadoop的压缩方法,所以Hadoop版本越高支持的压缩方法越多,可以在$HADOOP_HOME/conf/core-site.xml中进行配置:

    <property>  
            <name>io.compression.codecs</name>  
            <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec
            </value>  
    </property>  
    

    常见的压缩格式有:

    其中压缩比bzip2 > zlib > gzip > deflate > snappy > lzo > lz4,在不同的测试场景中,会有差异,这仅仅是一个大概的排名情况。bzip2、zlib、gzip、deflate可以保证最小的压缩,但在运算中过于消耗时间。

    从压缩性能上来看:lz4 > lzo > snappy > deflate > gzip > bzip2,其中lz4、lzo、snappy压缩和解压缩速度快,压缩比低。

    所以一般在生产环境中,经常会采用lz4、lzo、snappy压缩,以保证运算效率。

    Native Libraries

    Hadoop由Java语言开发,所以压缩算法大多由Java实现;但有些压缩算法并不适合Java进行实现,会提供本地库Native Libraries补充支持。Native Libraries除了自带bzip2, lz4, snappy, zlib压缩方法外,还可以自定义安装需要的功能库(snappy、lzo等)进行扩展。

    而且使用本地库Native Libraries提供的压缩方式,性能上会有50%左右的提升。

    使用命令可以查看native libraries的加载情况:

    hadoop checknative -a
    

    完成对Hive表的压缩,有两种方式:配置MapReduce压缩、开启Hive表压缩功能。因为Hive会将SQL作业转换为MapReduce任务,所以直接对MapReduce进行压缩配置,可以达到压缩目的;当然为了方便起见,Hive中的特定表支持压缩属性,自动完成压缩的功能。

    结束语

    如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。

    我所有的大数据技术内容也会优先发布到公众号中。如果对某些大数据技术有兴趣,但没有充足的时间,在群里提出,我为大家安排分享。

    公众号自取:

    公众号

    展开全文
  • 栅格数据压缩

    千次阅读 2020-04-17 14:22:52
    栅格数据压缩   在栅格数据属性一文中,我们已经了解影像/栅格数据所占的空间可以通过像元深度和行列数推算出来。可是常常遇到的情况是我们在Windows的资源管理器里面看到的影像大小与计算出来的不等,这又是...

    栅格数据压缩

     

    栅格数据属性一文中,我们已经了解影像/栅格数据所占的空间可以通过像元深度和行列数推算出来。可是常常遇到的情况是我们在Windows的资源管理器里面看到的影像大小与计算出来的不等,这又是怎么一回事儿呢?

     

    之前我们说到的都叫未压缩大小(Uncompressed Size)。而在绝大多数情况下,影像的数据量都非常大,为了节省磁盘空间就需要把影像数据压缩一下,也就出现了上面所说的大小不等的情况。压缩影像的好处是显而易见的,不仅是节省了磁盘空间,在通过网络传输时也大大节省了带宽,提高了网络服务的性能。但是任何事物都有两面性,影像压缩也不例外。压缩影像是不能够直接在屏幕上显示出来的,都必须经历一个解压缩的过程。一般情况下,影像的压缩比率越大,解压缩的时间也就越长。也就是说,将影像压缩到非常小的时候,虽然节省了空间,但是在使用时会占用非常大的系统资源。要求快速显示的话,对CPU要求是非常高的。

     

    影像压缩算法分成两种,有损压缩和无损压缩。我们常见的JPEG,JPEG2000都属于有损压缩。而LZ77和Run-Length Encoding(RLE)则是无损压缩。

     


    这两种压缩有什么区别呢,从有损这个字眼也能够看出来图像会有损失。简单的说就是使用无损压缩的影像能够通过解压缩完全还原到影像压缩前的状态,而有损压缩则会造成影像的失真。

     

    ArcGIS中支持的压缩类型见下表:

     


    除了上面列出来的,影像压缩的算法可谓是琳琅满目,层出不穷。在这里一一说明白是不可能的了。所以特找出几个比较典型的压缩类型来简单说说,不涉及算法的代码。内容可能有点枯燥,觉得无聊的可以直接跳到小结部分。

     

    我们来看看RLE是怎样压缩影像的。

    假使我们有这样一张1bit的黑白影像,B表示1,W表示0。

    WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW

    在使用RLE压缩算法以后,我们得到的就是:

    12W1B12W3B24W1B14W。

    很显然,这种算法并没有改变影像的像元值,也就是进行了无损压缩。但是采用重新编码的方式能够压缩的幅度并不大。

     

     

    再来看看最常见的有损压缩JEPG。

    JPEG之所以在日常生活中被广泛的应用,肯定是因为其益处大大的好。好在哪里呢,当然就是其强大的压缩比率。对于一个常见的256色的8bit彩色影像,一般无损压缩能达到的压缩比率为1/2到1/3。但是同样的影像使用jpeg压缩,在保证视觉上无差异的情况下可以达到1/20 至1/40。如果对影像质量要求不高,象是用于缩略图或者索引图,更可以压缩到1/100。举个例子,如果一景影像使用Jpeg压缩,得到的影像大小仅与1/10大小的拇指图所占空间一样,但是这样却不妨碍压缩后的影像显示出比拇指图更多的细节。

     

    要实现如此大的压缩比率,显然通过编码的方式是行不通的。正如上面提到过的,jepg是保证视觉无差异的情况下进行的压缩。

    先讲个小知识。除了RGB的渲染方式外,颜色也可以通过YCbCr的方式进行渲染,其中Y代表亮度,Cb和Cr则代表色度、饱和度。由于人类的眼睛,至少是绝大多数人的眼睛对亮度的细微变化非常敏感,但是对色彩的改变就没那么在意。所以对一张图片/影像来说,相对Cb和Cr,Y值更重要一些。

    JPEG压缩的原理就是通过余弦变换的方式对Cb和Cr部分取值来增大压缩的程度。具体实现的算法也有很多种,这里就不深入的说了,有兴趣的童鞋可以自行google.

     


    另外还有一种就是GIS筒子们所喜闻乐见的MrSID格式了。

    这是一种基于离散小波变换的压缩模式,同jpeg2000和ecw格式。原理是将原始图像分割成多个不同分辨率下的小图像,然后再提取其主要信息。为啥专业人员更喜欢它呢,因为即使在1/100的压缩比率下,压缩后的影像仍然能够保证很小的视觉失真。是的,你没有看错,MrSID也会造成数据的损失。即使在较小的(1/20或1/30)的压缩比率下,压缩后的影像看上去完全没有视觉差异,但是像元值与原始数据仍然有差异,所以不建议对MrSID格式的数据进行分析。BUT,对于巨大的卫星影像来说,MrSID的格式仍然被广泛使用。因为MrSID可以实现更高效,压缩比率更大且视觉差异很小的压缩结果(与jpeg的压缩方式相比),而这样是非常方便网络传输的。并且,MrSID压缩与解压缩速度更快一些。

     

    在ArcGIS的老版本中(9.3和9.3.1),提供了Raster to MrSID的影像压缩功能。在ArcCatalog中一个为压缩大小不超过50M的影像上右键,可以看到这个选项。在ArcGIS 10的版本中,就不再有这个“测试版”的MrSID压缩功能了。但是呢,我们仍然可以借助强大的GDAL来实现大影像的MrSID格式的压缩。

     

    压缩质量的选择

     

    在ArcGIS中导出影像成JPEG或者TIFF格式的时候,会发现JPEG压缩还有不同的比例选择,Compression Quality (1-100)。这个值表示了啥呢?首先要说的是,这个数值并不代表压缩大小的比率,也不是保留的信息的比率,只体现了结果数据的质量。简单的说选择的数值越小,压缩的越多,图像质量越差。直观视觉感受见下图。


     


    另外呢,对于全彩色的影像,建议的最佳的选择是75%。这个值是在看不出差异的标准下能得到的最大的压缩比率。需要注意的一点是,由于jpeg对于亮度的压缩比率很小,和彩色的影像相比较,灰度图的压缩比率就很有限了。在人眼看不出差异的标准下,一般只能压缩10%-25%的大小。

     

     

    小结一下

    影像的质量与大小是鱼和熊掌不可兼得矣。如果需要更高的质量,那么就需要更多的磁盘空间。如果需要快速的看到影像,就需要损失一定的影像质量。这两者之间需要有一个取舍。

     

    经常发生这样一个情况,用作底图的是一个范围很大的数据,但是我们只会查看到某个部分的影像,而不是全图显示。对于这个一框选,就出来的需求我们要如何选择影像的存储格式呢?

     

    首先,和矢量一样,要通过索引快速定位到要返回的内容,原始影像得有内部分区。这样没有内部分区的JPG格式的就可以pass了。其次,不管是本地还是服务器上的数据,取的数据要小以便传输。这样,我们就需要做压缩。此外,除了影像传输要消耗时间,将压缩后的影像解压缩并显示出来也需要时间。综合上面这两点,建议在单张影像<300M (高程数据<100M)的时候,请一定使用75%jpeg压缩的Tiled Tiff。对于某些单张影像>1G的超大数据,如果只在较大比例尺先预览,可以考虑MrSID。

     

    最后就是,有损压缩适用于作为矢量背景图的影像,需要快速加载获取的影像。相对的呢,无损压缩适用于需要进行空间分析的影像/栅格,需要推导出新数据的影像/栅格。

    展开全文
  • 一、数据压缩的原理 规则压缩:已知数据的排列组合模式,通过抽象用数学公式来表示。比如矢量图,3D模型的顶点数据等。 对于未知规则的数据:则是采用一种更高效的编码来代替原有数据的编码。一种方法是找出数据中...
  • 图像数据压缩方法

    千次阅读 2021-03-03 21:40:32
    数据压缩方法 数据能够进行压缩,是因为数据中存在或多或少的冗余信息,而对于视频和音频等多媒体信息,更可以利用人类自身的感知冗余(失真)特点来实现更高的压缩比例。衡量压缩算法的三个主要性能指标如下: ...
  • 数据重删和数据压缩主流技术分析

    千次阅读 2020-07-01 11:23:46
    数据压缩 随着计算能力的不断提升,当代社会正在产生越来越巨量的数据,数据压缩也被应用在生活的方方面面,如在网上打开的图片、视频、音频等都是经过压缩的。 压缩可以分为无损压缩和有损压缩。无损压缩可以通过...
  • 深入解析数据压缩算法

    万次阅读 多人点赞 2018-05-06 10:30:45
    1、为什么要做数据压缩? 数据压缩的主要目的还是减少数据传输或者转移过程中的数据量。2、什么是数据压缩?... 3、常见数据压缩算法(1).LZW压缩 LZW压缩是一种无损压缩,应用于gif图片。适用...
  • 数据压缩知识点整理

    千次阅读 2017-04-27 16:57:20
    数据压缩 是指在不丢失有用信息的前提下, 缩减数据量 以减少存储空间, 提高传输、存储和处理效率, 或按照一定的算法对数据进行重新组织, 减少数据的冗余和存储的空间的一种技术.
  • 几种常见压缩算法原理

    千次阅读 2020-10-01 11:17:14
    图 2.1 显示了一个如何使用 RLE 算法来对一个数据流编码的例子,其中出现六次的符号‘ 93 ’已经用 3 个字节来代替:一个标记字节(‘ 0 ’在本例中)重复的次数(‘ 6 ’)和符号本身(‘ 93 ’)。 RLE 解码器遇到...
  • 数据压缩第二周作业 TIFF格式概述 特点 组成 图像文件头(Image File Header - IFH) Byteorder Version Offest to first IFD 图像文件目录(Image File Directory - IFD) Directory Entry Count Directory Entry ...
  • 数据压缩算法—2无损压缩算法

    千次阅读 2018-12-12 20:55:43
    几个常见的编码算法 (一) 字典算法   字典算法是最为简单的压缩算法之一。它是把文本中出现频率比较多的单词或词汇组合做成一个对应的字典列表,并用特殊代码来表示这个单词或词汇。例如:   有字典列表:  ...
  • C#数据压缩

    千次阅读 2017-12-25 11:45:33
    在这里我们讲述通过C#实现数据压缩。 一、GZipStream压缩 微软提供用于压缩和解压缩流的方法。 此类表示 GZip 数据格式,它使用无损压缩和解压缩文件的行业标准算法。 这种格式包括一个检测数据损坏的循环冗余...
  • HDFS的数据压缩格式

    千次阅读 2019-09-18 16:46:13
    目前在Hadoop中用得比较多的有lzo,gzip,snappy,bzip2这4种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便大家在实践中根据实际情况选择不同的压缩格式。 1.gzip压缩 优点: 压缩...
  • 数据压缩的历史、常用算法原理

    万次阅读 2019-05-28 14:58:13
    数据压缩的概念相当古老,可以追溯到发明了摩尔斯码的19世纪中期。 摩尔斯码的发明,是为了使电报员能够通过电报系统,利用一系列可听到的脉冲信号传递字母信息,从而实现文字消息的传输。摩尔斯码的发明者意识到,...
  • shuffle阶段数据压缩机制

    千次阅读 2019-11-20 13:45:56
    在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多 文件压缩有两大好处...
  • 一些数据压缩手段

    千次阅读 2018-10-22 17:29:29
    甚至有时我们需要用 CPU 换硬盘,即宁可多消耗些 CPU 时也要减少硬盘访问量,一方面 CPU 性能更好,另一方面是 CPU 比硬盘更容易并行,现代计算机的 CPU 核数常常远远超过硬盘的并发访问能力,数据密集型的任务应当...
  • 传感网会受到能源的限制和常见的攻击,因此保证其数据收集的安全有效是至关重要的问题。压缩数据收集是基于压缩感知理论的一项重要突破,由于其体积低的特性,已经在传感网络中被采用了数据收集的方法。然而,由于...
  • 怎么样压缩数据

    千次阅读 2020-02-07 12:33:10
    文章目录基本定义RLE 算法莫尔斯编码莫尔斯 VS 哈夫曼可逆压缩 与 非可逆压缩Windows95/98处于16色或256色状态可逆以及不可逆算法适用的情况分析 基本定义 文件: 是将数据存储在磁盘等存储媒介中的一种形式。程序...
  • 常见数据处理方法

    千次阅读 2021-05-14 09:09:29
    有时候更多数据处理从语言角度,调用不同api处理数据。但是从业务的角度想就很少了,最近从业务的角度了解了下常见数据处理的方法,总结如下:
  • 大数据里常见的几种压缩格式压缩

    千次阅读 2019-04-16 19:38:01
    离线处理流程: 为什么使用压缩 当使用MapReduce经过ETL后落到HDFS上时,若使用普通文本格式TXT ...缺点:需要占用cpu资源进行压缩与解压,且,压缩与解压需要时间。 !!!所以如果整个集群cpu利用率非常高,不要...
  • 常见压缩算法学习

    千次阅读 2020-09-25 13:54:40
    文章目录无损压缩算法理论基础信息熵熵编码字典编码综合通用无损压缩算法相关常见名词说明java对几种常见算法实现Snappydeflate算法Gzip算法huffman算法Lz4算法Lzo算法使用方式 无损压缩算法理论基础 信息熵 信息熵...
  • 数据压缩编码方法

    万次阅读 2016-12-18 12:57:55
    经典的数据压缩算法 三大类:预测编码、变换编码、统计编码 常用的解除相关性的措施是预测和变换,其实质都是进行序列的映射。 一般,预测编码有可能完全解除序列的相关性,但须确知序列的概率特性;变换编码一般...
  • 多媒体压缩技术.pptx

    2022-06-27 12:41:43
    多媒体压缩技术 第 7 章 7.1 多媒体数据压缩基础知识 数据压缩的必要性 数据压缩的可能性 数据压缩基本原理 7.2 数据压缩编码算法 统计编码 预测编码 变换编码 7.3 常见多媒体数据压缩标准 音频压缩标准 静态图像...
  • 浅析数据压缩算法

    千次阅读 2017-05-17 15:51:17
    数据压缩是减少信息传输量最经济直接的办法,所以这篇文章将讲解一些经典的数据压缩算法。 一 热身:基因组 对于生物学的基因研究中,A、C、T、G是是用来表示生物DNA的四种碱基,对基因序列的处理实际上是对这四种...
  • 数据压缩算法,文本压缩算法 几种压缩算法原理介绍- https://blog.csdn.net/clevercode/article/details/46691645 文本压缩算法的对比和选择- https://blog.csdn.net/horkychen/article/details/75174035 数据压缩...
  • 压缩HTTP请求和响应数据的方法

    千次阅读 2021-09-29 14:14:25
    HTTP响应数据压缩 使用Gzip压缩文本 浏览器和服务器之间会使用主动协商机制,浏览器向服务器发送请求的时候,其请求标头中会含有Accept-Encoding字段,其中包含了客户端支持的压缩算法,以及各自的优先级,服务器则...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 231,703
精华内容 92,681
热门标签
关键字:

常见的数据压缩