精华内容
下载资源
问答
  • 香农信息量

    千次阅读 多人点赞 2018-12-18 08:40:07
    如果是连续型随机变量的情况,设ppp为随机变量XXX的概率分布,即p(x)p(x)p(x)为随机变量XXX在X=xX=xX=x处的概率密度函数值,则随机变量XXX在X=xX=xX=x处的...这时香农信息量单位为比特。(如果非连续型随机变量,...

    如果是连续型随机变量的情况,设pp为随机变量XX的概率分布,即p(x)p(x)为随机变量XXX=xX=x处的概率密度函数值,则随机变量XXX=xX=x处的香农信息量定义为:log2p(x)=log21p(x)-log_2p(x)=log_2\frac{1}{p(x)}
    这时香农信息量的单位为比特。(如果非连续型随机变量,则为某一具体随机事件的概率,其他的同上)

    香农信息量用于刻画消除随机变量在处的不确定性所需的信息量的大小。

    上面是香农信息量的完整而严谨的表达,基本上读完就只剩下一个问题,为什么是这个式子?为了方便理解我们先看一下香农信息量在数据压缩应用的一般流程。

    假设我们有一段数据长下面这样:aaBaaaVaaaaaaaBaaaVaaaaa

    可以算出三个字母出现的概率分别为:

    a:1012B:112V:112a:\frac{10}{12},B:\frac{1}{12},V:\frac{1}{12}

    香农信息量为:a:0.263B:3.585V:3.585a:0.263,B:3.585,V:3.585

    也就是说如果我们要用比特来表述这几个字母,分别需要0.2633.5853.5850.263,3.585,3.585个这样的比特。当然,由于比特是整数的,因此应该向上取整,变为1441,4,4个比特。

    这个时候我们就可以按照这个指导对字母进行编码,比如把aa编码为"00",把BB编码为"10001000",VV编码为"10011001",然后用编码替换掉字母来完成压缩编码,数据压缩结果为:001000000100100000001000000100100000

    上面例子看起来有点不合理,因为如果我们去搞,我们会编码出不一样的东西,如aa编码为"00",BB编码为"1010",VV编码为"1111",因此可以把数据压缩的更小。那么问题出现在哪呢?

    出现在这里的B和V这两个字母只用两个比特进行编码对于他们自身而言并不是充分的。在另外一个压缩的例子中,可以一下子就看出来:abBcdeVfhgimabBcdeVfhgim

    上面的每一个字母出现的概率都为112\frac{1}{12},假设我们还是以两个比特去编码BBVV,那么就无法完全区分出12​个字母。而如果是4个比特,便有16种可能性,可以足够区分这​12个字母。

    现在回过头来看香农信息量的公式,它正是告诉我们,如果已经知道一个事件出现的概率,至少需要多少的比特数才能完整描绘这个事件(无论外部其他事件的概率怎么变化),其中为底的2就是比特的两种可能性,而因为二分是一个除的关系,因此自变量是概率分之一而不是概率本身。

    感性的看,如果我们知道aa出现的概率为56\frac{5}{6},那么用比特中的"0"状态来表述它是完全合理的,因为其他事件的概率总和只有16\frac{1}{6},但我们给这16\frac{1}{6}空出了比特的"1"这12\frac{1}{2}的空间来表达他们,是完全足够的。

    展开全文
  • 定义:在随机变量X中,事件x的(自)信息量I(X=x)I(X=x)I(X=x)简写为I(x)=−log2p(x)I(x)=−log_2 p(x)I(x)=−log2​p(x),单位bitbitbit。 可见,概率越小,信息量越大;概率越大,信息量越小。 2. 特性

    读论文时,发现关于信息论一无所知的样子,基本概念十分混淆,下面是一些基本概念及对应的理解~

    一. 信息量

    1. 定义

    信息量是对事件的不确定性的度量,单位bit。

    定义:在随机变量X中,事件x的(自)信息量I(X=x)I(X=x)简写为I(x)=log2p(x)I(x)=−log_2 p(x),单位bitbit

    可见,概率越小,信息量越大;概率越大,信息量越小。

    2. 特性

    (摘自曹雪红编著的《信息论与编码》)

    1. p(x)=1,I(x)=0p(x)=1,I(x)=0;

    2. p(x)=0,I(x)=p(x)=0,I(x)=\infty

    3. 若两个事件x,y同时出现,可以用联合概率p(x,y)p(x,y)来表示他们同时发生的概率。这时,x,y同时出现这个联合事件(x,y)的自信息量为I(x,y)=log2p(x,y)I(x,y)=−log2p(x,y);当x和y相互独立时p(x,y)=p(x)p(y)p(x,y)=p(x)p(y) ,那么就有I(x,y)=I(x)+I(y)I(x,y)=I(x)+I(y)

    4. 若两个事件的出现不是独立的,而是有相互联系的,则可以用条件概率p(xy)p(x|y)来表示,即在事件y出现的概率下,事件x发生的条件概率,这样x的条件自信息量可以定义为 I(xy)=log2p(xy)I(x∣y)=−log_2p(x∣y).

      事件xix_i的不确定度在数值上等于它的信息量,而不论事件发生与否,只要其概率p(xi)p(x_i)存在,那么它就有不确定度;而事件xix_i的信息量是事件发生后带给人们的信息量。

    二. 熵

    熵指的是随机变量的熵;熵是随机变量不确定度的度量。

    1. 定义

    1. 设X是一个离散型随机变量,分布律为p(x)=p(X=x)p(x)=p(X=x)xXx\in X为取值空间集合 ,则随机变量X的熵H(X)H(X)定义为:

    H(X)=xXp(x)log2p(x) H(X)=−\sum_{x\in X}p(x) \text{log}_2 p(x)

    ​ 单位 bitbit;注意,单位取决于定义用到对数的底。当b=2b = 2,熵的单位是bitbit;当b=eb= e,熵的单位是natnat;而当b=10b=10,熵的单位是 HartHart

    1. 依据Boltzmann’s H-theorem,香农把随机变量 X 的熵值 Η 定义如下:

    H(X)=E[I(X)]=E[ln(P(X))]. \Eta(X) = \mathrm{E}[\mathrm{I}(X)] = \mathrm{E}[-\ln(\mathrm{P}(X))].

    ​ 其中, P 为X的概率质量函数(probability mass function),E 为期望函数,而 I(X) 是X 的信息量(又称为自信息)。I(X) 本身是个随机变数。

    2. 理解

    熵是数学期望!熵是数学期望!熵是数学期望!

    随机变量X的熵的含义就是X的所有可能的事件xXx\in X的自信息量( 即I(x)I(x) )的期望。

    熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。

    熵可以理解为不确定性的量度(或者说是多样性diversity的度量),因为越随机的信源的熵越大。熵可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

    随机变量X的实际上是X的分布的泛函数,不依赖于X的实际取值,只依赖于X的分布
    泛函数:输入为函数,输出为实数的函数。

    信息量是事件的信息量,熵是随机变量的信息量;

    当所有的 p(x)p(x) 都相等,且值为 p(x)=1/Mp(x) = 1/M 时,熵取得最大值;当且仅当X的分布是均匀分布时,熵最大。

    三. 联合熵

    1. 定义

    对于联合分布为p(x,y)p(x,y)的一对离散型随机变量(X,Y)(X,Y),其联合熵(joint entropy) H(X,Y)H(X,Y)定义为:
    H(X,Y)=xXyYp(x,y)log2p(x,y) H(X,Y)=-\sum_{x\in X} \sum_{y \in Y}p(x,y) \mathrm{log}_2 p(x,y)
    单位bit。

    2. 理解

    1. 联合熵的含义就是所有可能事件(x,y)的自信息量的期望。
      H(X,Y)=E(I(X,Y))=E(log2p(x,y))=xyp(x,y)log2p(x,y) \mathrm{H}(X,Y)=\mathrm{E}(\mathrm{I}(X,Y))=−\mathrm{E}(\mathrm{log}_2p(x,y)) \\ =-\sum_{所有x} \sum_{所有y}p(x,y) \mathrm{log}_2 p(x,y)

    2. 联合熵实际上就是描述一对随机变量平均所需要的信息量。

    四. 条件熵

    1. 定义

    在给定随机变量X的条件下,随机变量Y的不确定性。
    H(YX)=xXp(x)H(YX=x)=xXp(x)yYp(yx)log2p(yx)=xXyYp(x,y)log2p(yX=x) H(Y|X)=-\sum_{x\in X} p(x)H(Y|X=x) \\ =-\sum_{x\in X} p(x) \sum_{y \in Y} p(y|x) \mathrm{log}_2 p(y|x) \\ =-\sum_{x\in X} \sum_{y \in Y}p(x,y) \mathrm{log}_2 p(y|X=x) \\

    2. 理解

    注意,这个条件熵,不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,变量的不确定性是多少?而是期望!因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。

    3. 定理链式法则在这里插入图片描述
    证明:
    img

    五. 互信息

    随机变量X为信源符号集合,随机变量Y为信宿符号集合,则互信息I(X;Y)I(X;Y)表示信宿收到一个符号时,平均能够获得的信源的信息量;也可理解为X与Y之间的离散信道上传输每个符号的平均信息量。

    定义先验概率为信源X的分布p(xi)p(x_i)。当信宿收到一个符号yjy_j后,信宿可以计算信源发出各符号的条件概率p(xiyj)p(x_i∣y_j),定义为后验概率。

    随机变量可等价为信源,事件可等价为符号。

    1. 定义

    定义:事件yjy_j与事件xix_i间的互信息量表示从事件y发生所得到的关于事件x的信息量。互信息量定义为后验概率与先验概率之比的对数。

    平均互信息I(X;Y)I(X;Y)克服了互信息量I(xi;yj)I(x_i;y_j)的随机性,成为一个确定的量。因此可以作为信道中流通信息量的整体测度。
    即:
    img

    2. 理解

    因为H(X)是符号X的熵或者不确定度,而H(XY)H(X|Y)是当Y已知时X的不确定度,那么可见“Y已知”这件事使得X的不确定度减少了I(X;Y)I(X;Y),这意味着“Y已知后”所获得的关于X的信息是I(X;Y)I(X;Y).

    由此可以看出,互信息I(X;Y)I(X;Y)是在给定Y知识条件下X的不确定度的缩减量。则,[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h94tQfY6-1589858128996)(E:%5Cmaterials%5Creading%20paper%5Crelay%20channel%20capacity%2020200515%5C%E7%9F%A5%E8%AF%86%E7%82%B9%5C%E4%BF%A1%E6%81%AF%E8%AE%BA%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5.assets%5Cgif-1589857845034.gif)]
    联系到前面的
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-niun93hf-1589858128998)(E:%5Cmaterials%5Creading%20paper%5Crelay%20channel%20capacity%2020200515%5C%E7%9F%A5%E8%AF%86%E7%82%B9%5C%E4%BF%A1%E6%81%AF%E8%AE%BA%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5.assets%5Cgif-1589857848225.gif)]
    可得,

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uEpxGY7Z-1589858129002)(E:%5Cmaterials%5Creading%20paper%5Crelay%20channel%20capacity%2020200515%5C%E7%9F%A5%E8%AF%86%E7%82%B9%5C%E4%BF%A1%E6%81%AF%E8%AE%BA%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5.assets%5Cgif-1589857850643.gif)]
    由于 H(X|X) = 0, 所以, H(X) = H(X) – H(X|X) = I(X; X)

    这一方面说明了为什么熵又称自信息,另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量,而是取决于它们的熵。

    六. 信道容量

    信息传输率:R=I(X;Y)R=I(X;Y) ,单位bit/符号
    信道容量:最大的信息传输率。
    C=maxp(x)I(X;Y) C=\mathrm{max}_{p(x)}\mathrm{I}(X;Y)
    单位bit/符号。

    根据信道容量的定义,就是在固定信道条件下,对所有可能的输入概率分布p(x)求平均互信息的极大值。

    I(X;Y)I(X;Y)是输入概率的上凸函数,故极大值一定存在。

    信道的互信息I(X;Y)I(X;Y)的极大值即等于信道容量。

    ————————————————
    原文链接:https://blog.csdn.net/qq_34440148/article/details/84642402

    展开全文
  • 信息量和信息熵的理解

    千次阅读 2019-07-07 22:53:52
    信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典的paper《A Mathematical Theory of Communication》中提出的。如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用...

           信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典的paper《A Mathematical Theory of Communication》中提出的。如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用到了其他的领域中,比如机器学习。如果跳出历史语境,跳出逻辑背景,那么这些概念是很抽象的,所以本文旨在结合历史语境,给这些概念提供一个相对直观的解释和理解。

           这两个概念的提出当时是为了给通信中的信号传输过程提供一个数学统计上的刻画,更准确的说,给无噪音系统中无损压缩的信号传输过程提供了一个所需最小信息量的理论值,这个值就是信息熵。对于一个通信系统范式,可以分为下图中的几个部分,该图截取自香农的《A Mathematical Theory of Communication》这篇论文。

           上图中,首先信息源会发出消息,这些消息会被编码以便于传送,编码后,通过传输器把这些信号传输给接收方,在传输的过程中,会有噪音干扰,这就会造成信号发生变化或者漂移,导致接收到的信号和原来发出的信号并不一定一致,所以通信领域中,一个更为基本的问题就是如何基于接收到的信号来推断真实的信号。本文中,信息量和信息熵所关心的问题是,对于事前的随机信源,假设整个系统的没有噪音干扰是,那么为了实现无损通信,即实现信息的无损传输,应该给信源赋予多大的通道容量,或者说应该给信源赋予多大的带宽?

           对于这个问题,为了更好的理解,我们可以一步步的深入。首先,我们可以假设一个随机信源,其会随机的发出4种信号S1,S2,S3,S4,很显然,对于一次的信号发出,我们如果想要可以记录下这次的信号,因为事前我们并不知道具体会发出哪一种信号,所以如果我们是用二进制数编码信号的话,我们可以2个bit的长度,并约定S1为00,S2为01,S3为10,S4为11,这样,无论该信源发出那种信号,我们都可以用2bit长度来进行完整的编码,这样子,对于该信源,每次信号的传输需要的通道的容量大小就是2bit。所以我们知道,2bit的容量确实可以无损的传输该信源的信息。同样的,如果该信源可以发出8个信号,那么3bit的容量可以实现无损传输,N个信号可以用log2N个bit实现无损传输。

           So far so good! 但那只是最基本的第一步。虽然我们已经知道,对于有N个信号的信源,我们总是可以通过log2N个bit实现无损传输,但是,让我们设想一种情景,假如前文提到的可以发出4个信号的信源,发出S1的概率是90%,剩下三个信号的概率是分别是7%,2%,1%,如果我们还是一直用2个bit来传输,那么90%的时间都只是在传输S1,而编码S1这个状态,我们实际上只需要1个bit就够了,即我们可以约定S1为0,S2为1,S3为10,S4为11。这样的话,该信源在97%的时间只需要1个bit,剩下的3%的时间才需要2个bit,这样每个信号所需要的容量是不一样的,这个方案显然比我们原来一直用2bit去编码所有信号更好。这个方案的关键在于,我们不再给每种信号赋予相同的容量,而是通过每种信号出现的概念,赋予其不同的容量去编码,并且是赋予出现概率越大的信号越小的容量。

           For a single data source communication system, that's what we can do best! 但是在现实中,通信系统往往是多信源的,即往往一个通信系统不会只针对某个单一的信源,而是同时会传输多种信号。如果有多个独立信源的信号同时在同一通道中传输,我们是不是可以进一步改进我们的通道容量分配呢?即对于多个独立信源通信系统,是否有一个理论上的最小带宽来实现无损传输呢?由于是多个独立信源,那么根据大数定律,其所需要的容量的极限值实际上就是每个信源的期望容量之和。所以关键的问题在于,如何在多信源语境下,求每个信源所需要的期望容量。

           注意我们的目标是在多信源语境下,求每个信源所需要的最小的期望容量。根据我们之前的方案描述,对于每个信号,我们赋予了其所需要的容量,所以现在关键在于如何改进每个信号所需要的容量,即如何量化每个信号所需要容量,这里我们就引出了“信息量”概念。信息量就是用来量化一个可能性事件,或者一个随机信号在使得总体容量最小的目标下,其所被赋予的容量大小。下面我们来粗略的推导信息量的表达式。

           首先需要明确的是,这个概念是在多信源语境下产生的一个统计量,脱离了多信源语境,这个统计量便失去了意义,因为只有在信源数量足够多的语境下,其统计性质才能转化为现实应用层面的意义。就好比大数定律只有在n足够大的情况下,收敛程度才是我们现实上可以接受的。假设存在这么一个量化可能性事件的信息量测度,那么其应该满足哪些性质呢?由于我们是在多信源的语境下,因此,这个测度不应该依赖于具体信源的信号数目,因为根据我们之前的针对单个信源的方案,每个信号所分配的容量是不会超过[log2N]+1的,其中[x]表示不超过x的取整函数。但是在多信源中,单个信源的信号数N不再是需要关注的点,因为我们关注的是多信源这么一个整体。所以这个信息量测度,记为I,其和N无关,并且也和事件具体的内容或意义无关,只和其发生的概率有关,这是第一点。然后根据我们之前的分析,I应该是和事件发生的概率负相关的,即I应该是关于事件概率P的减函数,这是第二点。因为我们的目的是最小化信源所需要的信息量,数学直观提示我们应该假设I是关于P的连续函数,而多信源语境也给我们这种假设保证了现实的合理性,这是第三点。最后,很显然的一点是,两个独立信源,要同时传输两者发出的信号,那么所需要的容量是两者之和,所以这就要求I具有可加性,即I(PxPy)=I(Px)+I(Py),Px和Py分别是两个独立信源发出信号X、Y的概率。所以综合以上四点,可以从数学上严格的推导出信息量测度I具有唯一的表达形式:

                                        

    其中K是系数,可以令K=1,令对数底数为2,则I(p)的单位就是bit。

           有了信息量测度,我们就可以对一个信源求信息量的期望,而信息量的期望就是我们所说的信息熵,记为H,其表达式为:

                                   

    其中X表示一个信源,或者表示一个概率分布。同时也可以证明,H在所有容量分配方案的期望值中为最小的测度为1,即对于任一信源,其特定的概率分布会使得其可能存在一些容量分配方式,使其期望值小于H,但是这种概率分布数目的测度为0.

           至此,我们已经引出了信息量和信息熵的概念,并且也知道,信息量是在多信源语境下,为使总体通道容量最小推出应该给一个随机事件或信号分配多大的容量值,而信息熵则是一个在测度为1的信源或者概率分布的最小期望信息量,其描述的对象是一个概率分布。这段话单看起来很拗口和抽象,但是有了前文的铺垫,应该就不难理解了。基于这些结论,在现实的通信中,我们便可以基于信息熵给某个信源分配容量,由于是多信源,大数定律保证了这种分配的可行性。如果我们额外还有关于信源发送频率的信息,那么我们就知道单位时间内信源所需要的希望信息量,只要我们让单位时间内的通道的可传输容量大于这个期望值,那么理论上就可以实现无损传输。这个单位时间内通道的可传输容量实际上就是我们通常所说的带宽。

           不确定性也是一个抽象的概念,首先其并不能等价为概率,概率越大或越小都表示不确定性越小,说明概率并不是一个衡量不确定性的指标,而且,这里的不确定性描述的对象,应该是一个概率分布,而不是某一个可能性。信息熵衡量的是平均上无损传输一个信源所需要的期望信息量,由于信息和不确定性是对立的,即如果我们把信息定义为消除不确定性,那么由于我们已经有了信息量和信息熵的概念,那么我们便可以通过它们来定义不确定性,所以根据信息和不确定性的对立性,我们把信息熵理解成不确定性的大小,因为信息熵就是衡量平均意义上无损传输一个信源所需要的信息量,即可以认为消除一个信源不确定性所需要的信息量,从而,信息熵越大,不确定性也越大,因此我们可以将信息熵也理解为不确定性。实际上,香农的《A Mathematical Theory of Communication》这篇论文中,就是直接先推导信息熵,并且直接将信息熵等价于不确定性的。

           至此关于信息量和信息熵的内容已经讲完了,下面接着上文再提一下关于信号产生过程的一些性质和概念。上文中已经得到了信息熵,我们也知道信息熵是一个估计所需带宽很重要的值,这里有一个隐含的前提是,我们希望求得的这个信息熵,也即信源所需要的带宽是随时间稳定的,因为如果不稳定,那么不同的时刻,需要调整不同的带宽,这样是不具有任何现实意义的。而这个稳定性需求实际上就对信号的产生过程具有一些要求。

           信号产生的过程往往是一个马尔可夫过程,那么一个稳定的马尔可夫过程是什么意思呢?实际上就是要求其是"ergodic",即各态遍历性。ergodic的定义就是要求一个马尔可夫过程任意状态i下得到状态j的n步转移概率是收敛到Pj的,即只要时间足够长,那么当下的状态对未来状态是几乎没有影响的,故实际上现实中大多数过程也是符合这个性质的。如果写成转移概率矩阵,那么这个矩阵的n阶幂收敛到一个各列内值相等的概率矩阵,如果将状态画成转移曲线图,则要求这些点之间各自分别都有通路到达彼此,这就是各态遍历,即不管从哪个状态出发,都可以有到达其他任何状态的可能性,而且为了避免信号序列周期性的出现,图中所有的闭环长度的最大公约数必须为1,如下图所示,具体可参考《A Mathematical Theory of Communication》论文。ergodic保证了马尔可夫过程的统计性质的稳定性,不随时间发生改变。

     

    参考:

    1. Shannon C E. A mathematical theory of communication[J]. Bell system technical journal, 1948, 27(3): 379-423.

    2. Wikipedia-Entropy(information theory): https://en.m.wikipedia.org/wiki/Entropy_(information_theory)

     

    展开全文
  • 信息论中的信息量

    千次阅读 2009-04-25 11:12:00
    可回头一琢磨,好像什么也没说,也就是信息量基本为零。所以信息可以被理解为消息中包含的意义的内容,而不是所有内容。不同形式的消息,可以包含相同的信息。比方说,分别用语音和文字发送的天气预报,所含信息...

     通信的目的是什么呢?沟通感情,活跃气氛?其实,它是在于传递信息。那么,什么是信息呢?是不是交流中所有的消息都是信息?我们经常可以看到很多政客在台上发言,洋洋洒洒,一说几小时。可回头一琢磨,好像什么也没说,也就是信息量基本为零。所以信息可以被理解为消息中包含的有意义的内容,而不是所有内容。不同形式的消息,可以包含相同的信息。比方说,分别用语音和文字发送的天气预报,所含信息内容是相同的。如同运输货物可以采用“货运量”来衡量一样,传输信息的多少也是可以用“信息量”来衡量的。

    我们知道,消息是多种多样的。因此衡量消息中所含的信息量的方法,必须可以忽略消息的种类,衡量任何消息的信息量。而且,消息中所含信息量的多少也应该同消息的重要程度无关。这样,要求有了,我们该怎么办呢?

    首先,让我们先看看消息的传递有什么特性。我们都知道,在一切有意义的通信中,虽然消息的传递意味着信息的传递,但是,对于接收者来说,某些消息要比另外一些消息含有更多的信息。比如说,有人告诉你两件事:1)阿woo中到1000万元的乐透大奖了(哈哈,真是今夜做梦也会笑);2)一直在改又要改版了。 这样后一消息包含的信息显然要比前者少很多。因为在接收者看来,后一件事很可能发生,不足为奇,但前一件事却极难发生(谁说的,昨晚就发生了,虽然是在我的梦里),听后让人大吃一惊。这样我们看出消息确实有量值的意义。而且,我们可以看出,对于接收者而言,事件越不可能,越是让人感到意外和惊奇,信息量就越大。所以现在很多人在写文章时,首先要选用一个耸人听闻的题目,先吸引大家的眼球。

    这个特性可以同什么联系起来呢?对,就是概率。概率论告诉我们,事件的不确定程度,可以用其出现的概率来描述,也就是说,事件出现的可能性越小,则概率越小;反之,则概率就越大。这样,我们得出一个结论,消息中的信息量与消息发生的概率紧密相关,消息中所含的信息量I是出现该消息的概率P(x)的函数。消息出现的概率越小,则消息中包含的信息量就越大。如果事件是必然的(概率为1),那么它传递的信息量就应该为零。如果事件是不可能的(概率为0),那么它有无穷的信息量。而且当我们得到一个不是由一个事件构成而是由若干个独立事件构成的消息,那么这时我们得到的总的信息量,就是若干个独立事件的信息的总和。http://www.ccthere.com/article/763076

    这样,我们可以得到I与P(x)间的关系式:I = - log a P(x)

    信息量的单位的确定取决于上式中对数底a的确定。如果取对数的底a=2,则信息量的单位为比特(bit); 如果取e为对数的底,则信息量的单位为奈特(nit);若取10为底,则为哈莱特。http://www.ccthere.com/article/763076

     

     

    原文地址[url=http://www.ccthere.com/article/763076]wooxiao:【原创】信息及其度量[/url]


    展开全文
  • I2C通信详解

    万次阅读 2016-10-31 17:34:56
    注:本文学习朱鹏老师课程和自己整理而成。方便今后查阅,感谢朱老师~ 什么是I2C通信 1.物理接口:SCL + SDA (1)SCL(serial clock):时钟线,传输CLK信号,一般是I2C主设备向从设备提供时钟的通道。 (2)SDA...
  • 操作系统 I/O 全流程详解

    千次阅读 多人点赞 2020-06-18 11:18:24
    我们之前的文章提到了操作系统的三个抽象,它们分别是进程、地址空间和文件,除此之外,操作系统还要控制所有的 I/O 设备。操作系统必须向设备发送命令,捕捉中断并处理错误。它还应该在设备和操作系统的其余部分...
  •   在工作中,遇到一个需求:将 N 个单位随机分配给 n 个人,其中每个单位有对应的工作,分配时要尽量按工作平均分给 n 个人,且人员的所属单位不能包括在被分配的单位中(N >= n)。例如:三...
  • linux系统性能监控--I/O利用率

    千次阅读 2016-10-17 20:12:48
    尽管整体的处理器速度、 内存大小以及 I/O执行速度在不断提高,但 ...针对 I/O操作密集的应用, 性能分析人员必须通过工具来获取关于 I/O子系统操作的信息 。 磁盘 I/O的性能经常基于吞吐率和延迟来评估。 磁盘驱动器
  • iostat 监视I/O子系统iostat是I/O statistics(输入/输出统计)的缩写,用来动态监视系统的磁盘操作活动。11.1. 命令格式iostat[参数][时间][次数]11.2. 命令功能通过iostat方便查看CPU、网卡、tty设备、磁盘、CD-...
  • 视频压缩相关概念介绍-IPB与GOP

    千次阅读 2019-03-03 01:59:44
    视频为什么要压缩?哪几种压缩方式?都什么特点?IPB是啥意思?哪些是基准帧,哪些是参考帧(差别帧)? I帧、B帧以及P帧的编码序列和显示序列一样吗?...IDR帧和I帧之间的关系是什么,什么区别?
  • 当看到I/O等待时间所占CPU时间的比重很高的时候,首先要检查的就是机器是否正在大量使用交换空间,因为硬盘操作的速度远远低于RAM,所以当系统内存耗尽,开始使用交换空间的时候,系统的性能会受到严重影响。...
  • df -i 和 df -h 的不同之处简述

    万次阅读 2018-08-02 18:57:05
    df -h 是目前文件系统的空间使用情况df -i 参数指的是inode 文件索引节点数inode占用占满后也会导致服务器的挂掉的。 PS: df命令的用法:df 命令:linux中df命令的功能是用来检查linux服务器的文件系统的磁盘空间...
  • WSIO - 基于WEB服务的远程文件I/O

    万次阅读 热门讨论 2010-03-19 11:48:00
    WSIO - 基于WEB服务的远程文件I/O团队名称:IHEPer作者:刘爱贵 电子邮箱:liuag@ihep.ac.cn 单位:中科院高能物理研究所 计算中心 PDF下载:http://download.csdn.net/source/2143070摘要WSIO是一个基于Web ...
  • 列向量互信息计算通用MATLAB代码

    千次阅读 热门讨论 2018-08-16 17:28:20
    互信息的定义 正式地,两个离散随机变量 X 和 Y 的互信息可以定义为: 其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 ...互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I...
  • 文件I/O和标准I/O的区别

    万次阅读 多人点赞 2016-01-01 10:12:41
    一、先来了解下什么是文件I/O和标准I/O: 文件I/O:文件I/O称之为不带缓存的IO(unbuffered I/O)。不带缓存指的是每个read,write都调用内核中的一个系统调用。也就是一般所说的低级I/O——操作系统提供的基本IO服务...
  • 图像和流媒体 -- I 帧,B帧,P帧,IDR帧的区别

    万次阅读 多人点赞 2017-06-27 10:19:49
    参看:什么是I帧,P帧,B帧参看:H264编码原理以及I帧B帧P帧一、H246简介 H264是新一代的编码标准,以高压缩高质量和支持多种网络的流媒体传输著称,在编码方面,我理解的他的理论依据是:参照一段时间内图像的统计...
  • 信息

    千次阅读 2018-05-21 13:53:53
    时候我们会说“信息量好大”,但是究竟怎么比较信息量的大小呢?我们需要量化信息量的值。 首先根据直觉,信息量值越大应该包含的信息越多。 举个例子,你扔一个骰子,我不知道点数,你知道并告诉我。 * ...
  • 对AD域结合常见需求用C#进行一些读取信息的操作^_^!   目录   示例准备知识了解读取AD域信息示例DirectorySearcher.Filter属性扩充说明用户属性扩充说明(含图文属性对照) 常规地址...
  • I2C通信全面解析

    万次阅读 多人点赞 2020-02-19 18:03:25
    1. 物理接口: SCL + SDA (1)SCL(serial clock):时钟线,传输CLK信号,一般是I2C主...(1)I2C属于串行通信,所有的数据以位为单位在SDA线上串行传输。 (2)同步通信就是通信双方工作在同一个时钟下,一般...
  • I2C、I2S、SPI、GPIO模拟I2C学习笔记

    万次阅读 2011-08-23 16:31:38
    1. 什么是 I2C总线 NXP 半导体(原 Philips半导体)于 20 多年前发明了一种简单的双向二线制串行通信总线,这个总线被称为 Inter-IC 或者 I2C 总线。目前 I2C 总线已经成为业界嵌入式应用的标准解决...
  • DOI是什么

    千次阅读 2019-07-30 21:13:48
    现在不少期刊杂志要求提供参考文献的 PMID 或 DOI 号,许多杂志投稿指南也明确指出除了正式...我们在平时看论文的时候,也会注意到每篇论文都会它对应的DOI号,那么DOI到底是什么呢?它又何作用? 1 什么...
  • 与信号相关的函数5.1 创建信号5.2 删除和初始化信号5.3 改变信号的值5.4 sembuf中sem_flg的设置问题6.信号实现进程间同步 1. 信号 产生背景: 多个程序同时访问一个共享资源可能会引发一系列问题,所以...
  • C++ 获得本地磁盘盘符的容量信息

    千次阅读 2014-05-02 19:25:13
    ULARGE_INTEGER nFreeBytesAvailable; ULARGE_INTEGER nTotalNumberOfBytes; ULARGE_INTEGER nTotalNumberOfFreeBytes; ...//初始化数组用以存储盘符信息 GetLogicalDriveStrings(MAX_PATH, D
  • I/O多路复用:select、poll和epoll详解

    千次阅读 2020-04-10 22:47:29
    I/O多路复用 I/O复用使得程序能同时监听多个文件描述符,这对提高程序的性能至关重要。通常,网络程序在下列情况下需要使用I/O复用技术: 客户端程序要同事处理多个socket。比如将讨论的非阻塞connect技术。 ...
  • 对AD域结合常见需求用C#进行一些读取信息的操作^_^!   目录   示例准备知识了解读取AD域信息示例DirectorySearcher.Filter属性扩充说明用户属性扩充说明(含图文属性对照) 常规地址帐户...
  • 问题描述 通过WinSCP传输文件给腾讯云的时候,出现了如下的错误: 然后,在微信小程序“腾讯... 磁盘inode资源占用完:可以通过df -i命令查看,确认相关的进程; 硬件故障:只能问腾讯云的官方客服,让他们的工...
  • 音视频基础 、IPB帧及其特点

    千次阅读 2013-03-10 21:12:08
    基本概念讲解媒体:是表示,传输,存储信息的载体,常人们见到的文字、声音、图像、图形等都是表示信息的媒体。多媒体: 是声音、动画、文字、图像和录像等各种媒体的组合,以图文并茂,生动活泼的动态形式表现出来...
  • 信息

    千次阅读 2018-05-21 13:54:49
    上篇文介绍了信息量的概念,针对一个已经发生了的随机事件,它传递给我们一定的信息量。那如果是一个还没有发生的随机事件,我们该怎么度量它可能带给我们的信息量呢?度量一个随机变量的信息量就用到这篇文章将要...
  • 信息交换的单位分类 I/O 控制器 为什么 I/O 控制器? I/O 控制器在哪里? 主要功能 组成 两种寄存器编址方式 I/O 控制方式 程序解控制方式 中断驱动方式 DMA 方式 DMA 控制器 通道控制方式 I/O 控制方式总结 I/O...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 263,506
精华内容 105,402
关键字:

信息量i的单位有哪些