精华内容
下载资源
问答
  • C++信息编码表示

    千次阅读 2020-10-05 09:29:31
    要使计算机能处理这些信息,首先必须要将各类信息转换成0与1表示代码,这一过程称为编码。 数据 ​ 能被计算机接受和处理符号集合都称为数据。 比特 ​ 比特/位 (Bit ——二进制位数)是1位二进制数码...

    一、基本概念

    编码

    ​ 计算机要处理的数据除了数值数据以外,还有各类符号、图形、图像和声音等非数值数据。而计算机只能识别两个数字0,1。要使计算机能处理这些信息,首先必须要将各类信息转换成0与1表示的代码,这一过程称为编码。

    数据

    ​ 能被计算机接受和处理的符号的集合都称为数据。

    比特

    ​ 比特/位 (Bit ——二进制位数)是指1位二进制的数码(即0或1).比特/位 是计算机中表示信息的数据编码中的最小单位。

    字节

    ​ 字节(Byte)是计算机数据处理的基本单位。字节表示被处理的一组连续的二进制数字。通常用8位二进制数字表示一个字节,即一个字节有8个比特组成。

    ​ 字(word)通常由一个或若干个字节组成。字是计算机进行数据处理时一次存取、加工和传送的数据长度。由于字长是计算机一次所能处理信息的实际位数,所以它决定了计算机数据处理的速度,是衡量计算机性能的一个重要指标,字长越长,计算机的性能越好。

    计算机中的数据换算

    ​ 计算机中数据的换算都是以字节为基本单位以2^10 = 1024为进率。常见的数据单位及其换算关系如下:

    单位 KB MB GB TB PB
    换算关系 1KB=1024B 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB

    字符的表示

    ​ 字符是人与计算机交互过程中不可缺少的重要信息。要是计算机能处理、存储字符信息,首先必须用二进制0和1代码对字符进行编码。

    ASCII编码

    ​ ASCII编码是由美国国家标准委员会制定的一种包括数字、字母、通用符号和控制符号在内的字符编码集,全称位美国国家信息交换标准代码(American Standard Code for Information Interchange)。ASCII 码是一种7位二进制编码,能表示2^7=128种国际上最通用的西文字符,是目前计算机中,特别是微型计算机中使用最普遍的字符编码集。

    ​ ASCII编码包括4类最常用的字符。

    1. 数字“0” ~ “9”.ASCII编码的值分别为0110000B ~ 0111001B,对应十六进制数为30H ~ 39H。

    2. 26个英文字母。大写字母"A" ~ “Z"的ASCII编码值为41H ~ 5AH,小写字母"a” ~ “z”的ASCII编码值为61H ~ 7AH。

    3. 通用符号。如“+” 、“-”、“=”、“ * ”和“/”等共32个。

    4. 控制符号。如空格符和回车符等共34个。

    ​ ASCII码是一种7位编码,它存储时必须占全一个字节,也即占用8位:b7、b6、b5、b4、b3、b2、b1、b0,其中b7恒为0,其余几位为ASCII码值。

    ​ 人们可以通过键盘输入和显示器显示不同的字符,但在计算机中,所有信息都是用二进制代码表示的。n位二进制代码能表示2^n个不同的字符,这些字符的不同的组合就可以表示不同的信息。为使计算机使用的数据能共享和传递,必须对字符进行统一的编码。ASCII码和扩充的ASCII码中,把二进制位最高位为0的数字都称为基本的ASCII码,其范围是0 ~ 127;把二进制最高位为1的数字都成为拓展的ASCII码,其范围是128 ~ 255。

    内码和外码

    内码

    ​ 对于输入计算机的文本文件,机器是存储其相应的字符的ASCII码(用一个ASCII码存储一个字符需8个二进制位,即一个字节),这些可被计算机内部进行存储和运算使用的数字代码称内码。如输入字符“A",计算机将其转成内码65后存于内存。

    外码

    计算机与人进行交换的自行符号称为外码,如字符”A“的外码是”A“。通常一个西文字符占一个字节(半角),一个中文字符占两个字节。

    汉字信息编码

    汉字交换码

    ​ 汉字交换码是指不同的具有汉字处理功能的计算机系统之间在交换汉字信息时使用的代码标准。自国家标准GB2312-80公布以来,我国一直沿用该标准所规定的国际标准码作为统一的汉字信息交换码(GB5007-85图形字符代码)。

    ​ GB2312-80标准包括了6763个汉字,按其使用频率分为一级汉字3755个和二级汉字3008个。一级汉字按拼音顺序,二级汉字按部首排序。该标准还包括标点符号、数种西文字母、图形、数码等符号682个。

    ​ 区位码的区码和位码均采用从01到94的十进制,国标码采用十六进制的21H到73H(数字后面加H表示其为十六进制数)。区位码和国标码的换算关系是:区码和位码分别加上十进制数32。如”国“字在表中的25行90列,其区位码为2590,国标码是397AH。

    字形存储码

    ​ 字形存储码是指计算机输出汉字(显示或打印)用的二进制信息,也称字模。通常,采用的数字化点阵字模。

    ​ 一般的点阵规模有16 * 16、24 * 24等,每一个点在存储器中用一个二进制位(bit)存储。在16 * 16的点阵中,需8*32bit的存储空间,每8bit为1字节,所以,需32字节的存储空间。在相同点阵中,不管其壁画繁简,每个汉字所占的字节数相等。

    ​ 为了节省存储空间,普遍采用字形数据压缩技术。所谓矢量汉字,是指用矢量方法将汉字点阵字模进行压缩后得到的汉字字形数字化信息。

    展开全文
  • 数字电视为何采用信源编码和信道编码?信源编码主要是解决图片信号压缩和保存问题,信道编码主要是解决图片...所谓冗余信号是那些与信息无关或对图像质量影响不大多余部分,这就是MPEG - 2 图像压缩原理...

    数字电视为何采用信源编码和信道编码?

    信源编码主要是解决图片信号的压缩和保存问题,信道编码主要是解决图片信号的传输问题。

    信源编码和信道编码都采用的MPEG2技术

    采用信源编码可以有效的利用有限的宽带:图像信号的数据量大, 如不进行压缩, 数字电视信号就无法实时传送, 而压缩的主要方式就是除去冗余信号。所谓冗余信号是指那些与信息无关的或对图像质量影响不大的多余部分,这就是MPEG - 2 图像压缩的原理。

    (1)空间冗余。一幅图像由数十万个像素组成,相邻两个甚至几个像素之间有很大的相似性(或称相关性), 在传送时会出现连续传送许多相同数据的情况, 称之为空间冗余, 利用某种编码方法(如正交变换编码), 去掉空间上的冗余信息, 减少传输和记录码率。

    (2)时间冗余。电视图像也有很强的时间相关性, 对于25帧/ s的图像来说,通常情况下前一帧图像和后一帧图像的差别很小, 大部分画面内容相同, 这表明相邻两幅图像的相关性非常大, 而图像之间相隔较远时, 其图像的相关性才逐步减小, 而且这种相关性很强的图像变化时一般都是有规律的,也就是说每一幅图像的变化是可预测的。利用图像的时间冗余特性,把图像信号在时间上的冗余信息去掉, 也可以减小传输和记录码率。

    (3)统计冗余。图像和声音信号数字化后遵循一定的统计规律, 如在图像预测编码系统下, 当前像素信号的预测值是由前几个相邻像素值或该像素在前一段上的时间值预测出来的。根据图像的空间相关性和时间相关性可知预测误差小的信号出现的概率大,相反则出现概率小。采用统计编码的方法, 对出现概率大的小误差信号值用短码, 而对出现概率小的大误差信号值用长码, 这样就去掉了信号在统计上的冗余信息。

    (4)知觉冗余。人的视听器官都具有某些不敏感性。知觉冗余是指处于人们视觉和听觉分辨力不敏感或达不到的视音频信号, 对这些无关紧要的信息给与较大的失真处理, 人们并不会明显地感到图像和声音质量的降低,甚至毫无觉察。因此在编码时可以分长码和短码来对不同的内容进行编码, 这叫作有所为和有所不为, 从而达到减小码率的目的。

    信道编码:提升信号传输的可靠性:由于数字信号具有很复杂的频率成分,频率特性也很不相同,直接传输会产生误码,降低可靠性。信道编码就是针对这种情况而提出的,信道编码传输的图像信号适应传输信道对频率特性的要求,抑制信道噪声对信号的干扰。

    主要实现方式:

    伪随机序列进行扰码

    奇偶校验码

    卷积交织码

    里德-所罗门码

    展开全文
  • 编码的奥秘

    2017-05-05 11:29:21
    在本书中,“编码”通常一种在人和机器之间进行信息转换系统。换句话说、编码即是交流。有时我们将编码看得很神秘,其实大多数编码并非都是这样。大多数的编码都需要被很好地理解,因为它们是人类交流基础。―...
  • 编码通常在人和机器之间进行信息转换一种体系,是人们在实践中逐步创造一种用较少符号来表达较复杂信息的表示方法。比如我们前面谈到数字,实际上就是一种编码,用一串数符代表规模更大数。人们用0 ~ 9...

    1.3 非数值信息的编码

    编码通常指在人和机器之间进行信息转换的一种体系,是人们在实践中逐步创造的一种用较少的符号来表达较复杂信息的表示方法。比如我们前面谈到的数字,实际上就是一种编码,用一串数符代表规模更大的数。人们用0 ~ 9这十个数字的组合,表达的概念远比10要丰富得多。编码的基本目的是为了信息交流,人们研究编码是为了以更简便的形式表达更丰富的信息。
    随着现代计算机运用的深入,计算机不仅仅用于科学计算,实际上更大量的工作是用于处理人们日常工作和生活中最常使用的信息形式,也就是所谓的非数值型数据。计算机中使用不同的编码来表示和存储数字、文字符号、声音、图片和图像(视频)等不同类型的信息。计算机科学中研究编码的目的是为了方便计算机表示、处理和存储各种类型的信息。由于计算机硬件能够直接识别和处理的只是0、1这样的二进制信息,因此必须研究在计算机中如何通过二进制编码来表示和处理这些非数值型数据。由于非数值型数据所使用的二进制编码并不表示数值,所以也将非数值型数据称为符号数据。
    数字计算机的存储器按位存储,所以在计算机上处理的信息必须按位的形式表示。而世界上大量堆积的信息是文本形式的,就像装满图书馆的书报和杂志。通过对二进制编码的研究,使得计算机不仅能处理数字,还能表示、存储、处理和提供人类交流中所使用的各种信息,包括视觉信息(如文字和图片)、听觉信息(如语言、声音及音乐),还有混合信息(如动画和电影)等。所有这些信息类型都要求使用各自的编码方式。

    1.3.1 字符的编码

    1. ASCII码
      字符是非数值型数据的基础,字符与字符串数据是计算机中用得最多的非数值型数据。在使用计算机的过程中,人们需要利用字符与字符串编写程序、表示文字及各类信息,以便与计算机进行交流。为了使计算机硬件能够识别和处理字符,必须对字符按一定规则用二进制进行编码,使得系统里的每一个字符有唯一的编码;文本中还存在数字和标点符号,所以也必须有它们的编码。简单地说,所有字母、数字和符号都要编码,这样的系统称作字符编码集,每一个编码称作字符编码。注意文本中的数字与前面我们讨论的数值是不一样的。在文本中的数字,计算机将其视为字符,而不能进行算术运算。

    电子计算机是美国人首先发明的,他们最先制定了符合他们使用习惯的美国标准信息交换标准码(American Standard Code for Information Interchange),简称ASCII码。
    ASCII编码是由美国国家标准学会(American National Standard Institute,简称ANSI)制定的标准单字节字符编码方案,用于基于文本的数据。它最初是美国国家标准,供不同计算机在相互通信时用作共同遵守的西文字符编码标准,后来被国际标准化组织(International Organization for Standardization,简称ISO)定为国际标准,称为ISO 646标准,适用于所有拉丁字母。
    ASCII 码使用指定的7位或8位二进制数组合来表示128或256种可能的字符。标准 ASCII码也称为基础ASCII码,使用7位二进制数来表示所有的大写和小写字母、数字0到9、标点符号,以及在美式英语中使用的特殊控制字符。如图1?3所示为标准ASCII表。
    其中:0 ~ 32及127(共34个)是控制字符或通信专用字符(其余为可显示字符),如控制符LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(振铃)等;通信专用字符SOH(文头)、EOT(文尾)、ACK(确认)等。ASCII值为8、9、10 和13分别转换为退格、制表、换行和回车字符,它们并没有特定的图形显示,但会对文本显示有不同的影响。33 ~ 126 (共94个)是字符,其中48 ~ 57为0 ~ 9十个阿拉伯数字; 65 ~ 90为26个大写英文字母,97 ~ 122为26个小写英文字母,其余为一些标点符号、运算符号等。
    同时还要注意,在标准ASCII中,其最高位(b7)用作奇偶校验位。所谓奇偶校验是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数则在最高位添1。偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数则在最高位添1。
    后128个称为扩展ASCII码,许多系统都支持使用扩展ASCII。扩展ASCII 码允许将每个字符的第8位用于确定附加的128个特殊符号字符、外来语字母和图形符号。

    进制 十六进制 十
    进制 字符 八
    进制 十六进制 十
    进制 字符 八
    进制 十六进制 十
    进制 字符 八
    进制 十六进制 十
    进制 字符
    00 00 0 nul 40 20 32 sp 100 40 64 @ 140 60 96 '
    01 01 1 soh 41 21 33 ! 101 41 65 A 141 61 97 a
    02 02 2 stx 42 22 34 " 102 42 66 B 142 62 98 b
    03 03 3 etx 43 23 35 # 103 43 67 C 143 63 99 c
    04 04 4 eot 44 24 36 $ 104 44 68 D 144 64 100 d
    05 05 5 enq 45 25 37 % 105 45 69 E 145 65 101 e
    06 06 6 ack 46 26 38 & 106 46 70 F 146 66 102 f
    07 07 7 bel 47 27 39 ` 107 47 71 G 147 67 103 g
    10 08 8 bs 50 28 40 ( 110 48 72 H 150 68 104 h
    11 09 9 ht 51 29 41 ) 111 49 73 I 151 69 105 i
    12 0a 10 nl 52 2a 42 * 112 4a 74 J 152 6a 106 j
    13 0b 11 vt 53 2b 43 + 113 4b 75 K 153 6b 107 k
    14 0c 12 ff 54 2c 44 , 114 4c 76 L 154 6c 108 l
    15 0d 13 er 55 2d 45 - 115 4d 77 M 155 6d 109 m
    16 0e 14 so 56 2e 46 . 116 4e 78 N 156 6e 110 n
    17 0f 15 si 57 2f 47 / 117 4f 79 O 157 6f 111 o
    20 10 16 dle 60 30 48 0 120 50 80 P 160 70 112 p
    21 11 17 dc1 61 31 49 1 121 51 81 Q 161 71 113 q
    22 12 18 dc2 62 32 50 2 122 52 82 R 162 72 114 r
    23 13 19 dc3 63 33 51 3 123 53 83 S 163 73 115 s
    24 14 20 dc4 64 34 52 4 124 54 84 T 164 74 116 t
    25 15 21 nak 65 35 53 5 125 55 85 U 165 75 117 u
    26 16 22 syn 66 36 54 6 126 56 86 V 166 76 118 v
    27 17 23 etb 67 37 55 7 127 57 87 W 167 77 119 w
    30 18 24 can 70 38 56 8 130 58 88 X 170 78 120 x
    31 19 25 em 71 39 57 9 131 59 89 Y 171 79 121 y
    32 1a 26 sub 72 3a 58 : 132 5a 90 Z 172 7a 122 z
    33 1b 27 esc 73 3b 59 ; 133 5b 91 [ 173 7b 123 {
    34 1c 28 fs 74 3c 60 < 134 5c 92 174 7c 124 |
    35 1d 29 gs 75 3d 61 = 135 5d 93 ] 175 7d 125 }
    36 1e 30 re 76 3e 62 > 136 5e 94 ^ 176 7e 126 ~
    37 1f 31 us 77 3f 63 ? 137 5f 95 _ 177 7f 127 del

    图1?3 标准ASCII表
    ASCII码是计算机世界里最重要的标准,但它存在严重的国际化问题。ASCII码只适用于美国,它并不完全适用于其他以非英语为主要语言的国家,如希腊文、阿拉伯文、希伯来文和西里尔文,对于东方以汉字为代表的象形文字这一巨大的集合更是无能为力。

    1. 汉字的编码
      汉字也是字符,与西文字符比较,汉字数量大,字形复杂,同音字多,这就给汉字在计算机内部的存储、传输、交换、输入、输出等带来了一系列问题。为了能直接使用西文标准键盘输入汉字,还必须为汉字设计相应的输入编码,以适应计算机处理汉字的需要。

    (1)国标码
    1980年我国颁布了《信息交换用汉字编码字符集基本集》代号为GB2312-80,是国家规定的用于汉字信息处理使用的代码依据,这种编码称为国标码。在国标码的字符集中共收录了6 763个常用汉字和682个非汉字字符(图形、符号),其中一级汉字3 755个,以汉语拼音为序排列,二级汉字3 008个,以偏旁部首进行排列。
    国标GB2312-80规定,所有的国标汉字与符号组成一个94×94的矩阵,在此方阵中,每一行称为一个“区” (区号为01 ~ 94),每一列称为一个“位”(位号为01 ~ 94),该方阵实际组成了一个具有94个区,每个区内有94个位的汉字字符集,每一个汉字或符号在码表中都有一个唯一的位置编码,称为该字符的区位码。
    使用区位码方法输入汉字时,必须先在表中查找汉字并找出对应的代码才能输入。区位码输入汉字的优点是无重码,而且输入码与内部编码的转换方便。
    (2)机内码
    汉字的机内码是计算机系统内部对汉字进行存储、处理、传输统一使用的代码,又称为汉字内码。汉字内码是与ASCII码对应的,用二进制对汉字进行的编码。由于汉字数量多,一般用两个字节来存放汉字的内码,即双字节字符集(double-byte character set,简称DBCS)。在计算机内汉字字符必须与英文字符区别开,以免造成混乱。英文字符的机内码是用一个字节来存放ASCII码,一个ASCII码占一个字节的低7位,最高位为“0”,为了区分,汉字机内码中两个字节的最高位均置“1”。
    例如,汉字“中”的国标码为5650H (0101011001010000)2,机内码为D6D0H (110101101101 0000)2。
    需要注意的是,在汉字字符集中,为了显示和打印等排版的需要,也定义了英文和其他语言中的符号,这些符号在计算机中是作为中文文字处理的,不再是它原来语种的符号。这些符号称为全角符号,比如字符“A”与字母“A”之间的区别。
    (3)汉字的输入编码
    汉字输入通常有键盘输入、语音输入、手写输入等方法,都有一定的优缺点。键盘输入方式:将每个汉字用一个或几个英文键表示,这种表示方法称为汉字的“输入编码”。输入编码与内码不同,它是专为解决汉字输入设计的,汉字输入后仍是以内码存储在计算机中,这种转换由系统中特殊的部分自动进行。输入编码的基本元素是标准键盘上可见的字母符号。汉字输入编码种类很多,根据输入编码的方式大体可将汉字输入编码分为四类:
    1)数字编码。如电报码、区位码等。特点:难于记忆,不易推广。
    2)字音编码。如拼音码等。特点:简单易学,但重码多。
    3)字形编码。如五笔字型、表形码等。特点:重码少,输入快,但不易掌握。
    4)音形编码。如自然码、快速码等。特点:规则简单,重码少,但不易掌握。

    1. Unicode码
      尽管多年来ASCII码占据主要地位,但是现在其他更具扩展性的代码也越来越普及,这些代码能够表示各种语言的文档资料。其中之一是Unicode,它是由硬件及软件的多家主导厂商共同研制开发的,并很快得到计算界的支持。这种代码采用唯一的16位模式来表示每一个符号。因此,Unicode由65 536个不同的位模式组成——足以表示用中文、日文和希伯来文等语言书写的文档资料。

    Unicode即统一码,又称万国码,是一种以满足跨语言、跨平台进行文本转换、处理的要求为目的设计的计算机字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码。Unicode 的编码方式与 ISO 10646 的通用字元集(亦称通用字符集)概念相对应,使用16位的编码空间,也就是每个字符占用两个字节。实际上目前版本的 Unicode 尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展。上述16位 Unicode 字符构成基本多文种平面(Basic Multilingual Plane,简称 BMP)。Unicode 中定义了16个辅助平面,辅助平面字符占用4字节编码空间,共需占据32位,理论上最多能表示231个字符,完全可以涵盖一切语言所用的符号。
    对于中文而言,Unicode 16编码已经包含了GB18030的所有汉字(27 484个字),目前Unicode标准准备把康熙字典的所有汉字放入Unicode编码中。
    总之,Unicode扩展自ASCII字元集。Unicode使用16位元编码,并可扩展到32位,这使得Unicode能够表示世界上所有书写语言中可能用于计算机通信的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充,可能的话,最终将代替它。
    1.3.2 静态图像的编码
    静态图像是与动态图像相对应的概念,专门指单幅的图形。在计算机应用中经常需要用到各种图像的显示与处理,比如统计图、照片等。

    1. 位图图像
      在用位图表示图像的方法中,图像被分成像素矩阵,也称点阵,每个像素是一个小点。像素的大小取决于分辨率。同样大小的图像,分辨率越高,意味着每个点越小,图像质量越精细,显示得更加清楚,但是需要更多的内存来存储图像。一般用单位长度的点数来描述图像分辨率,比如一般屏幕显示的分辨率为72 dpi(Dot Per Inch,每英寸的点数)。打印机通常可以支持300 ~ 600 dpi。

    在把图像分成像素之后,每一个像素被赋值为一个位模式。模式的尺寸和值取决于图像。对于一个仅有黑白点组成的图像(如棋盘),一个1位模式已足够表示一个像素。0模式表示黑像素,1模式表示白像素。然后,模式被依次记录并存储在计算机中。
    对于多级灰度的图像,可以通过增加位模式的长度来表示灰色级。例如,可以使用2位模式来显示四重灰度级。黑色像素被表示成00,深灰色像素被表示成01,浅灰色像素被表示成10,白色像素被表示成11。位模式越大,能够表示的明暗变化越细致。
    如果是表示彩色图像,则每一种彩色像素被分解成3种主色:红、绿和蓝(RGB),然后将测出每一种颜色的强度,并用一种位模式(通常8位)分配给它。换句话说,每一个像素有3位模式:一个用于表示红色的强度,一个用于表示绿色的强度,一个用于表示蓝色的强度。常用的彩色模式为8位和24位。8位模式能够提供256种可用颜色,具备一定的色彩,且文件不是很大。24位模式又称为真彩模式,它能够提供1 677万色(256×256×256=16 777 216),能够真实体现自然的所有颜色,是颜色质量最高的格式之一。
    位图文件的基本编码格式为BMP(bitmap的缩写)文件。BMP是一种与硬件设备无关的图像文件格式,使用非常广泛。它采用位映射存储格式,图像深度可选l位、4位、8位及24位等模式。由于没有采用任何压缩技术,BMP文件所占用的空间很大。BMP文件存储数据时,图像的扫描方式是按从左到右、从下到上的顺序。在有些资料中也将位图格式称为光栅格式。
    标签图像文件(Tagged Image File Format,TIFF)格式是图像专业领域使用较广泛的一种编码形式,主要用来存储照片和艺术图等对图像质量要求较高的平面图像。该格式支持256色、24位真彩色、32位色、48位色等多种色彩位,同时支持RGB、CMYK以及YCbCr等多种色彩模式,支持多平台。

    1. 图像压缩编码
      为了存储和传输数据,在保留原有内容的条件下,缩小所涉及数据的大小是有益的(有时也是必须的)。这个技术称为数据压缩。数据压缩方案有两类。一类是无损压缩,一类是有损压缩。无损方案在压缩过程中是不丢失信息的,如文本数据的压缩。有损方案在压缩过程中是会发生信息丢失的。通常有损技术比无损技术提供更大的压缩,因此在可以忽略小错误的数据压缩中应用很广泛,如图像和音频。

    图形压缩编码主要考虑到位图文件体积太大,对存储和传输都产生很大压力,因此人们研究通过编码的形式,在保证图像具备一定质量的前提下,缩小图像文件的大小。TIFF文件不压缩时,文件体积较大;同时它支持RAW、RLE、LZW、JPEG、CCITT3/4等多种压缩编码方式,可以将文件体积压缩到较小的尺寸。
    压缩编码按其对图像质量的影响可分为无损压缩和有损压缩两类。所谓无损压缩是指压缩后图像质量没有下降,只是文件大小减小,压缩后再需要显示时,能够百分之百地还原成未压缩时的图像状态。有损压缩是指在不影响图像使用的前提下,为加大压缩效率,尽可能减小文件的大小,且可以接受一些图像质量上的损失,有损压缩后不能够百分之百地还原。
    当前最主流的图像压缩方式是JPEG(Joint Photographic Experts Group,联合图像专家组)编码格式,文件后缀名为“.jpg”或“.jpeg”。前面介绍过,TIFF文件也可以使用该压缩编码实现。JPEG压缩技术十分先进,既能支持无损压缩,也支持大压缩比的有损压缩。JPEG是一种很灵活的格式,具有调节图像质量的功能,允许用不同的压缩比例对文件进行压缩,支持多种压缩级别,压缩比率通常在10 : 1到40 : 1之间,压缩比越大,品质就越低;可以根据需要在图像质量和文件尺寸之间找到平衡点。JPEG格式压缩的主要是高频信息,对色彩的信息保留较好,适合应用于互联网,可减少图像的传输时间。
    随着高素质数码相机的普及,RAW格式文件应用越来越多。RAW格式文件被称为数字底片(digital negative),即拍摄时从影像传感器得到的电信号在模数转换(A/D转换)后,不经过其他处理而直接存储的影像文件格式,反映的是从影像传感器中得到的最原始的信息。其优点是影像质量最高,具有很大的动态范围和很宽的色域度,很多参数可以在不影响画质的情况下进行后期调整。其缺点是RAW格式文件占用存储空间较大,其字节数通常是拍摄像素数的1.5倍左右,以2 000万像素的数码相机为例,对于同一幅照片其RAW文件大小可能会有30 MB以上,而JPEG格式的文件通常只有5 MB大小。另外,RAW格式不同于BMP、JPEG等格式,RAW的代码中没有头文件,这使得很多软件不支持对它的读取和编辑,通用性差。随着技术的进步,越来越多的软件支持对RAW格式的浏览和编辑。

    1. 矢量图
      位图图像表示法存在的问题是,一幅特定的图像采用精确位模式表示后,必须存储在计算机中。随后,如果想重新调整图像的大小,就必须改变像素的大小,这将产生波纹状或颗粒状的图像。而矢量图表示方法并不存储位模式,它是将图像分解成一些曲线和直线的组合,其中每一曲线或直线由数学公式表示。例如,一根直线可以通过它的端点坐标来作图,圆则可以通过它的圆心坐标和半径长度来作图。这些公式的组合都被存储在计算机中。当图像要显示或打印时,将图像的尺寸作为输入传给系统,系统重新设计图像的大小并用相同的公式画出图像。在这种情况下,每一次画图像,公式也将重新估算一次。

    一般工程制图软件都使用矢量图方式保存,以便于按图元的方式对图像进行编辑。典型的格式是Auto Desk公司的AutoCAD所使用的DWG格式。
    1.3.3 动态数据的编码

    1. 音频
      音频包括各种声音信息形式。基本思想即将音频转换成数字的数据,并使用位模式存储它们。音频实际上是模拟量,它是连续性的,而计算机中的数字并不是连续的,需要通过一个过程将连续的音频转化为数字,我们称之为采样。采样的具体方法是以相等的间隔来测量信号的值,并量化采样值。采样的时间间隔称为采样频率。量化就是给采样值分配值(从一个值集中),将采样值做近似处理。具体原理大家可以参考信号处理技术中的采样定理。

    与描述静态图像类似,采样频率越高,相当于图像分辨率越高,则音频文件越大;采样量化越精细,相当于像素深度越大,音频文件也越大。采样频率一般有11 025 Hz(11 kHz)、22 05 0Hz
    (22 kHz)和44 100 Hz(44 kHz)三种,采样位数一般是8位或16位。音频文件的尺寸通常很大,在计算机中也是以压缩编码形式存在为主。未压缩音频文件的大小可按下面的公式估算:
    音频文件大小=(采样频率×量化位数×声道)×时间/8(1 Byte= 8bit)
    其中,声道是音频文件一个特殊之处。声道是在空间上区分音频来源的一种技术,通过多声道合成技术可以形成逼真的立体现场感觉,一般话音使用单声道就可以了,普通的音乐使用双声道可以产生立体声效果,高级的方式可以使用4 ~ 6个声道甚至8个声道来合成高保真的立体声环境。以单声道为基准,多一个声道,文件的大小几乎增加一倍。
    音频编码方式也有非压缩编码和压缩编码两类,压缩编码又分为有损压缩和无损压缩两种。基本的音频编码是PCM(Pulse Code Modulation,脉冲编码调制)。PCM编码的最大优点就是音质好,最大的缺点就是未压缩导致体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。基本的WAV文件通常都使用PCM编码,因此它们通常都很大。目前公认的无损音频编码是APE,在真正无损的前提下提供50% ~ 70%的压缩比。
    MP3(MPEG Audio Layer-3)是目前最为普遍的音频压缩编码格式,是MPEG-1的衍生编码方案。MP3可以做到12:1的压缩比并保持音质基本可接受。

    1. 视频
      视频是单幅图像在时间上的连续表示,是典型的动态数据类型。一部电影就是一系列的帧一张接一张地播放而形成运动的图像。动态视频的基础是前面讨论过的静态单幅图像,在这里称为帧。通过研究,发现帧与帧之间的图像内容通常有很大相关性,动态视频压缩的基础理论就是在单幅图像压缩的基础上,再结合帧与帧之间的相关性,进行进一步压缩。其基本思想是:如果前一帧包含的内容,下一帧可以不记录,只记录与前一帧的变化即可以通过适当处理前一帧生成后一帧。显然,这种思想对处理能力有相当高的要求。这也是为什么视频是在计算机硬件发展到一定程度后才大量运用的原因之一。另外,在动态图像应用中,音频通常是伴随进行的,现在很难想象一部没有声音的动画或电影能受到欢迎。

    目前最有影响的视频编码技术是MPEG(Moving Pictures Experts Group,动态图像专家组),它是国际标准化组织(ISO/IEC)制定的技术标准。MPEG标准主要有MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等5个。MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码在信息表示方面减小了统计冗余度。这几种技术的综合运用大大增强了压缩性能。
    随着高清视频的发展,ISO/IEC与国际电联(ITU-T)联合组建的联合视频组(JVT)共同制定了新数字视频编码标准,发布了H.264高性能的视频编解码技术,ISO/IEC称之为MPEG-4 AVC(Advanced Video Coding,高级视频编码),成为MPEG-4标准的第10部分即MPEG-4 Part 10(标准号ISO/IEC 14496-10)。
    H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的两倍以上,是MPEG-4的1.5 ~ 2倍。通常MPEG-2压缩比为25 : 1,而H.264的压缩比达到惊人的102 : 1!H.264是在MPEG-4技术的基础之上建立起来的,其编解码流程主要包括5个部分:帧间和帧内预测(Estimation)、变换(Transform)和反变换、量化(Quantization)和反量化、环路滤波(Loop Filter)、熵编码(Entropy Coding)。H.264/MPEG-4 AVC(H.264)是最新、最有前途的视频压缩标准,被普遍认为是最有影响力的行业标准。它保留了以往压缩技术的优点和精华又具有其他压缩技术无法比拟的许多优点:
    1)低码流(Low Bit Rate):在同等图像质量下,采用H.264技术压缩后的数据量只有MPEG-2的1/8、MPEG-4的1/3。
    2)高质量的图像:H.264能提供连续、流畅的高质量图像(DVD质量)。
    3)容错能力强:H.264有效地处理在不稳定网络环境下容易发生的丢包等错误。
    4)网络适应性强:H.264提供了网络适应层(Network Adaptation Layer),使得H.264的文件能容易地在不同网络上传输(如互联网、移动通信网等)。
    目前,H.264最直接的应用是在网络视频领域,通过互联网或无线网络传输,提供高质量视频服务,包括视频点播、视频会议、远程监控等。

    展开全文
  • UA MATH636 信息论5 信道编码定理的证明Random Coding Scheme平均错误率最大错误率逆命题的证明 信道编码定理说的是所有小于CCC的传输率是可实现的。...因此这个表述指的是 C=max⁡p(X)I(X;Y)=max⁡{R:R ...

    UA MATH636 信息论5 信道编码定理的证明


    信道编码定理说的是所有小于CC的传输率是可实现的。这里的CC就是我们之前定义的
    C=maxp(X)I(X;Y)C = \max_{p(X)} I(X;Y)
    因此这个表述指的是
    C=maxp(X)I(X;Y)=max{R:R is achievable}C = \max_{p(X)} I(X;Y) = \max\{R:R\ is\ achievable\}
    这一篇主要就证明一下这个定理和它的逆命题。

    先简单描述一下符号和设定:
    因为M=2nRM=2^{nR},记codebook为C={Xn(i)}i=12nR\mathcal{C}=\{\mathcal{X}^n(i)\}_{i=1}^{2^{nR}},注意这个codebook是从总体p(X)p(X)中随机生成的。假设信号是{1,2,,M}\{1,2,\cdots,M\}上的均匀分布,假设某一次信源发出的信号为ww,则信源编码器传送到噪声信道上的码为Xn(w)\mathcal{X}^n(w)。经过噪声信道传输到接收端的解码器上的码为yny^n
    p(ynXn(w))=i=1np(yiXn(w))p(y^n|\mathcal{X}^n(w)) = \prod_{i=1}^n p(y^i|\mathcal{X}^n(w))
    经过解码后得到信号ww的估计量w^\hat{w},它满足Xn(w^)\mathcal{X}^n(\hat{w})是唯一能与yny^n构成joint typical的码。
    上面这个系统叫做一个random coding scheme。

    Random Coding Scheme

    平均错误率

    记事件w^w\hat{w} \ne wE\Epsilon,则
    p(E)=Cp(C)pe(n)(C)p(\Epsilon)=\sum_{\forall \mathcal{C}} p(\mathcal{C}) p_{e}^{(n)}(\mathcal{C})
    因为平均错误率比最大错误率更好分析,所以先从平均错误率开始。
    p(E)=Cp(C)[12nRw=12nRλw(C)]=12nRw=12nR[Cp(C)λw(C)]p(\Epsilon)=\sum_{\forall \mathcal{C}} p(\mathcal{C}) \left[\frac{1}{2^{nR}} \sum_{w=1}^{2^{nR}} \lambda_{w}(\mathcal{C})\right] =\frac{1}{2^{nR}} \sum_{w=1}^{2^{nR}} \left[ \sum_{\forall \mathcal{C}} p(\mathcal{C} )\lambda_w(\mathcal{C})\right]
    因为中括号里面的求和式对所有可能的codebook的,所以实际上这个量会与ww无关,不失一般性可以将上式写成
    p(E)=Cp(C)λ1(C)=p(ϵw=1)p(\Epsilon)=\sum_{\forall \mathcal{C}} p(\mathcal{C} )\lambda_1(\mathcal{C}) = p(\epsilon|w=1)
    (Xn(i),yn)Aϵ(n)(\mathcal{X}^n(i),y^n) \notin A_{\epsilon}^{(n)}时,错误会发生。记事件Ei={(Xn(i),yn)Aϵ(n)}E_i = \{(\mathcal{X}^n(i),y^n) \in A_{\epsilon}^{(n)}\},则根据Bonferroni不等式
    p(Ew=1)=p(E1CE2E2nR)p(E1Cw=1)+i=22nRp(Eiw=1)p(\Epsilon|w=1) = p(E_1^C \cup E_2 \cup \cdots E_{2^{nR}}) \\ \le p(E_1^C|w=1) + \sum_{i=2}^{2^{nR}} p(E_i|w=1)
    根据Joint AEP的性质1:
    p(E1Cw=1)=p(Xn(i),yn)Aϵ(n))ϵp(E_1^C|w=1) = p(\mathcal{X}^n(i),y^n) \notin A_{\epsilon}^{(n)}) \le \epsilon
    考虑p(Eiw=1)=p(Xn(i),yn)Aϵ(n)) p(E_i|w=1) = p(\mathcal{X}^n(i),y^n) \notin A_{\epsilon}^{(n)})
    因为yny^n是码Xn(1)\mathcal{X}^n(1)经过噪声信道传输到接收端的解码器的,并且Xn(1)\mathcal{X}^n(1)Xn(i)\mathcal{X}^n(i)是独立的,因此Xn(i),yn\mathcal{X}^n(i),y^n是独立的,所以根据Joint AEP性质3:
    p(Eiw=1)2n(I(X;Y)3ϵ) p(E_i|w=1) \le 2^{-n(I(X;Y)-3\epsilon)}
    带入到错误率中
    p(E1Cw=1)ϵ+2nR2n(I(X;Y)3ϵ)=ϵ+2n(I(X;Y)R3ϵ)p(E_1^C|w=1) \le \epsilon + 2^{nR} 2^{-n(I(X;Y)-3\epsilon)}=\epsilon + 2^{-n(I(X;Y)-R-3\epsilon)}
    要让这个上界收敛,需要2n(I(X;Y)R3ϵ)2^{-n(I(X;Y)-R-3\epsilon)}ϵ\epsilon控制,从而
    R<I(X;Y)3ϵR < I(X;Y) - 3\epsilon
    这里就可以看出信道容量的形式了,错误率也被控制住了。下面再从平均错误率到最大错误率,看看结论会不会变。

    最大错误率

    已经证明了p(E)2ϵp(\Epsilon) \le 2\epsilon,因此
    p(E)=Cp(C)p(EC)2ϵp(\Epsilon)=\sum_{\forall \mathcal{C}} p(\mathcal{C}) p(E|\mathcal{C}) \le 2\epsilon
    C\exists \mathcal{C}^*p(EC)2ϵp(\Epsilon|\mathcal{C}^*) \le 2 \epsilon。其中
    p(EC)=12nRi=12nRλi(C)p(\Epsilon|\mathcal{C}^*) = \frac{1}{2^{nR}} \sum_{i=1}^{2^{nR}} \lambda_i(\mathcal{C}^*)
    根据这个表达式我们可以判断,在这2nR2^{nR}个错误率λi(C)\lambda_i(\mathcal{C}^*)中,至少有一半是比4ϵ4\epsilon更小的。将更小的这一半作为一个新的codebook,则新的codebook共有2nR12^{nR-1}个code,最大错误率会比4ϵ4\epsilon小。注意到此时的传输率为
    log22nR1/n=R1nR\log_2 2^{nR-1}/n = R - \frac{1}{n} \to R
    即传输率不会受到影响,定理结果不变。

    逆命题的证明

    考虑wXn(w)ynw^w \to \mathcal{X}^n(w) \to y^n \to \hat{w}这个数据过程是一个Markov Chain。根据Fano不等式:
    H(E)h(p(E))+p(E)log2(M)=h(p(E))+nRp(E)1+nRp(E)H(E) \le h(p(E)) + p(E) \log_2 (M) \\ = h(p(E)) + nRp(E) \le 1 +nRp(E)
    因为信号是{1,2,,M}\{1,2,\cdots,M\}上的均匀分布,根据数据处理不等式
    H(w)=nR=H(w)H(ww^)+H(ww^)=I(w;w^)+H(ww^)I(w;w^)+1+nRp(E)I(Xn(w);yn)+1+nRp(E)H(w) = nR = H(w) - H(w|\hat{w}) + H(w|\hat{w}) \\= I(w;\hat{w}) + H(w|\hat{w}) \le I(w;\hat{w}) + 1 + nRp(E) \\ \le I(\mathcal{X}^n(w);y^n) +1 + nRp(E)
    其中
    I(Xn(w);yn)=H(yn)H(ynXn(w))=H(yn)i=1nH(yiXn(w),yi1)I(\mathcal{X}^n(w);y^n) = H(y^n) - H(y^n|\mathcal{X}^n(w)) \\ = H(y^n) - \sum_{i=1}^n H(y^i|\mathcal{X}^n(w),y^{i-1})
    根据噪声信道的无记忆性,如果Xn(w)=(x1,,xn)\mathcal{X}^n(w)=(x^1,\cdots,x^n)
    I(Xn(w);yn)=H(yn)i=1nH(yixi)i=1nH(yi)i=1nH(yixi)=i=1nI(xi;yi)i=1nmaxI(X;Y)=nCI(\mathcal{X}^n(w);y^n) = H(y^n) - \sum_{i=1}^n H(y^i|x^i) \\ \le\sum_{i=1}^n H(y^i) - \sum_{i=1}^n H(y^i|x^i) = \sum_{i=1}^n I(x_i;y_i) \\ \le \sum_{i=1}^n \max I(X;Y) = nC
    因此
    nRnC+1+nRp(E)RC+Rp(E)+1nnR \le nC + 1 + nRp(E) \Rightarrow R \le C + Rp(E) + \frac{1}{n}
    假设RR是可实现的,则nn \to \infty时,
    1n0,p(E)0\frac{1}{n} \to 0, p(E) \to 0
    RCR \le C

    展开全文
  • 编码区和非编码关系

    千次阅读 2019-07-02 15:34:00
    编码区是能够转录信使RNA部分,它能够合成相应蛋白质,而非编码区是不能够转录信使RNADNA结构。但是它能够调控遗传信息的表达。 真核生物基因组成是编码区和非编码区,其中编码区是由外显子和内含子组成,...
  • 需求描述:  今天在看mysql字符集内容,提到了编码,突然就想编码到底是什么意思呢...备注:这里的信息,可以字符,数字,标点符号,特殊符号等等。 编码的目的:为了有效传递信息、存储。 举例说明: 1...
  • dirty paper coding指信息发送前,发射机已了解了信道基本情况,通过在发射端处理信号,使接收机在接受信号时可以认为传输不存在干扰,从而增加了多输入多输出系统(MIMO)总容量。dirty paper coding为非线性...
  • 图像信号编码压缩/频带压缩是什么意思 图像信号编码/频带压缩,是在满足一定图像质量条件下,通过信号编码和频带压缩方法,用尽可能少数据量(或频带)来表示该图像。图像压缩一般包括图像映射变换、量化...
  • 计算机中信息编码

    2009-04-15 16:29:00
    计算机中信息编码 一、 计算机中数表示 我们平常使用十进制数,在计算机中则采用二进制数。 1.进位计数制概念 进位计数制,是按某种进位原则进行订数一种方法。数表示涉及到两个主要问题:权和基数...
  • ■所谓通讯过程校验是在通讯数据后加上一些附加信息,通过这些附加信息来判断接收到数据是否和发送出数据相同。 ■分组码:将信息码分组(码组长度固定),为每组信息码附加若干监督码的编码称为分组码,...
  • 信息论与编码01

    2020-03-18 08:53:24
    香农信息的定义:信息各个事物运动及状态变化方式。 信息基本概念在于它不确定性,任何已确定事物都不含信息。 消息:包含信息的语言、文字、图像等。 信号:消息物理体系。 香农是信息奠基...
  • URL编码

    千次阅读 2015-03-27 20:42:48
    我们知道URL指的的是网址,所谓的URL编码指的是对网址上的不安全的字符,例如中文,进行编码,编码后的中文方便在网络上传输。 例如,我们提交一个表单,表单内容如下所示:   用户名:李四"/>  提交"/>   访问...
  • 编码的奥秘pdf

    2018-02-28 09:48:00
    在本书中,“编码”通常一种在人和机器之间进行信息转换系统。换句话说、编码即是交流。有时我们将编码看得很神秘,其实大多数编码并非都是这样。大多数的编码都需要被很好地理解,因为它们是人类交流基础。―...
  • 编码

    2017-08-04 21:23:06
     编码信息从一种形式或格式转换为另一种形式或格式过程。就是将我们看到文字,图片等信息按照某种规则存储在计算机中。  解码:编码的逆过程,将存储在计算机上二进制转换为我们看到文子,图片。  ...
  • 信息熵与编码定理

    2019-04-08 14:12:11
    信息量:一条信息的信息量是信息所含信息的多少。一条信息越是让我们感到惊奇,它所含信息量就越大 对于一个掷骰子试验,假设E代表掷出点数为偶数(概率为1/2),我们对于事件E发生惊奇程度并不大,但是当E...
  • 计算机常用数制及编码

    千次阅读 2017-08-14 14:05:25
    编码是采用少量基本符号,选用一定组合原则,以表示大量复杂多样的信息的技术。计算机是信息处理工具,任何信息必须转换成二进制形式数据后才能由计算机进行处理、存储和传输。1.1.1.1.1.1 二进制数二进制数...
  • 信息处理与编码结课大作业 学号 班级 姓名 成绩 霍夫曼编码的C语言实现 1.编码原理 霍夫曼码由霍夫曼树构造平均码长是霍夫曼树带权 路径长度由于...缩这一术语是使用一张特殊的编码表将源字符例如某文 件中一个符
  • 1.自信息 随机变量发生的概率越大,自信息越低,概率越低,自信息越高. 底为2时,单位为bit. 底为e时,单位为nat. ...对于分布为的随机变量,熵定义为自信息...分布q的最优编码指的是按照-log(q(x))的方式编码,求得
  • WOE编码和IV信息

    千次阅读 2018-08-09 10:43:08
    WOE WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。...其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个...
  • 在实际项目中应该会遇到这种情况,比如说手指位字段在数据库中存储内容是ZW_ZSZZ,ZW_YSDMZ…,这些位对应字典编码分别是左手中指,右手大拇指…,当需要在页面中显示手指位字段信息时,我们不可能将...
  • 编码的奥秘记录

    2018-12-16 11:52:00
    在本书中,编码或代码通常一种在人和机器之间进行信息转化系统,可以说英语词汇就是一种编码 。换句话说,编码便是交流。有时我们将编码看成是密码 ,其实大多数编码并不是。大多数的编码都需要被很好地理解,...
  • 码词长度可变指的是,被编码的一些消息的符号可以用比较短的码词来表示。估计码词长度的准则是符号出现的概率。符号出现的概率越大,其码词的长度越短。香农-范诺编码算法需要用到下面两个基本概念:(1)熵(Entropy)...
  • 编码的奥秘中,“编码”通常一种在人和机器之间进行信息转换系统。换句话说、编码即是交流。有时我们将编码看得很神秘,其实大多数编码并非都是这样。大多数的编码都需要被很好地理解,因为它们是人类交流...
  • 编码用二进制数字代码来表示信息。在数字通信中,编码用一组组二进制数字代码来表示一个个模拟信号抽样值过程。所以简言之,编码就是把模拟信号转化为数字代码过程(参见本书“技术篇”数字通信部分...
  • 编码的那点事儿

    2017-08-21 11:46:44
    对于程序员们来说,编码大多数是一种用来在机器与人之间传递信息的方式. 但从广义上来讲,编码是从一种信息格式转换为另一种信息格式过程,解码则是编码的逆向过程.接下来举几个使用到编码的例子: 当我们要把想...
  • 针对目前市场上鱼目混珠绝对值编码器产品,对于编码器...从外部接收设备上讲(如伺服控制器、PLC),增量值是一种相对位置信息的变化,从A 点变化到B 点信号增加与减少计算,也称为“相对值”,它需...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,370
精华内容 548
关键字:

信息编码指的是