精华内容
下载资源
问答
  • 非常快速地实现平均互信息。 用法:[v,lag]=ami(x,y,lag) 计算可能存在滞后的 x 和 y 的相互平均信息。 v 是平均互信息。 (相关单位见下) x & y 是时间序列。 (列向量) 滞后是时间滞后的向量。 (滞后 > 0 时 V...
  • 里面包含几种用于matlab计算两个序列之间的互信息的方法,用于评价变量之间的耦合程度,可以参考和学习。
  • 在第一部分中,我们对随机事件的信息量度有了一定的了解,本文将会以此为基础说明随机变量的平均信息量,即熵。 信息熵 信息熵 离散随机变量XXX的熵为自信息的平均值,记为H(X)H(X)H(X):H(X)=Ep(x)[I(x)]=Ep(x)[−...


    在第一部分中,我们对随机事件的信息量度有了一定的了解,本文将会以此为基础说明随机变量的平均信息量,即熵。

    信息熵

    信息熵

    离散随机变量 X X X的熵为自信息的平均值,记为 H ( X ) H(X) H(X) H ( X ) = E p ( x ) [ I ( x ) ] = E p ( x ) [ − log ⁡ p ( x ) ] = − ∑ x p ( x ) log ⁡ p ( x ) H(X)=\underset{p(x)}{E}\left[I(x)\right]=\underset{p(x)}{E}\left[-\log{p(x)}\right]=-\sum\limits_x{p(x)\log{p(x)}} H(X)=p(x)E[I(x)]=p(x)E[logp(x)]=xp(x)logp(x)其中, I ( x ) I(x) I(x)表示事件 x x x的自信息; E p ( x ) \underset{p(x)}{E} p(x)E表示对随机变量用 p ( x ) p(x) p(x)取算术平均。
    信息熵 H ( X ) H(X) H(X)在平均意义上表征了信源的总体特征。在信源输出前,表示信源的平均不确定度。在信源输出后,表示一个信源符号所提供的平均信息量。

    条件熵

    条件熵为联合集 X Y XY XY熵的条件自信息 I ( y ∣ x ) I(y|x) I(yx)的平均值: H ( Y ∣ X ) = E p ( x y ) [ I ( y ∣ x ) ] = − ∑ x ∑ y p ( x y ) log ⁡ p ( y ∣ x ) = ∑ x p ( x ) [ − ∑ y p ( y ∣ x ) log ⁡ p ( y ∣ x ) ] = ∑ x p ( x ) H ( Y ∣ x ) H(Y|X)=\underset{p(xy)}{E}[I(y|x)] \\=-\sum\limits_x\sum\limits_y{p(xy)\log{p(y|x)}} \\=\sum\limits_x{p(x)\left[-\sum\limits_y{p(y|x)\log{p(y|x)}}\right]} \\=\sum\limits_x{p(x)H(Y|x)} H(YX)=p(xy)E[I(yx)]=xyp(xy)logp(yx)=xp(x)[yp(yx)logp(yx)]=xp(x)H(Yx)

    联合熵

    联合集 X Y XY XY上联合自信息I(xy)的平均值称为联合熵,即 H ( X Y ) = E p ( x y ) [ I ( x y ) ] − ∑ x ∑ y p ( x y ) log ⁡ p ( x y ) H(XY)=\underset{p(xy)}{E}[I(xy)] \\-\sum\limits_x\sum\limits_y{p(xy)\log{p(xy)}} H(XY)=p(xy)E[I(xy)]xyp(xy)logp(xy)联合熵可表示为 H ( X Y ) = H ( X ) + H ( X ∣ Y ) = H ( Y ) + H ( Y ∣ X ) H(XY)=H(X)+H(X|Y)=H(Y)+H(Y|X) H(XY)=H(X)+H(XY)=H(Y)+H(YX)

    平均互信息

    平均互信息为互信息在联合概率空间中的统计平均值。集合 X X X Y Y Y之间的平均互信息可以看作 x x x y y y之间互信息的平均值,表示从 X X X得到的关于 Y Y Y的平均信息量。
    集合 X X X Y Y Y之间的平均互信息可定义为 I ( X ; Y ) = E p ( x y ) [ I ( x ; y ) ] = E p ( x , y ) [ log ⁡ p ( x ∣ y ) p ( x ) ] = ∑ x , y p ( x ) [ log ⁡ p ( x ∣ y ) p ( x ) ] = ∑ x , y p ( x y ) log ⁡ p ( x y ) p ( x ) p ( y ) = D ( p ( x y ) ∣ ∣ p ( x ) p ( y ) ) I(X;Y)=\underset{p(xy)}{E}[I(x;y)] \\=\underset{p(x,y)}{E}\left[\log{\frac{p(x|y)}{p(x)}}\right] \\=\sum\limits_{x,y}p(x)\left[\log{\frac{p(x|y)}{p(x)}}\right] \\=\sum\limits_{x,y}p(xy)\log{\frac{p(xy)}{p(x)p(y)}} \\=D(p(xy)||p(x)p(y)) I(X;Y)=p(xy)E[I(x;y)]=p(x,y)E[logp(x)p(xy)]=x,yp(x)[logp(x)p(xy)]=x,yp(xy)logp(x)p(y)p(xy)=D(p(xy)p(x)p(y))
    平均互信息与熵的关系如下
    I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I ( x ; Y ) = H ( Y ) − H ( Y ∣ X ) I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X Y ) I ( X ; X ) = H ( X ) I(X;Y)=H(X)-H(X|Y) \\I(x;Y)=H(Y)-H(Y|X) \\I(X;Y)=H(X)+H(Y)-H(XY) \\I(X;X)=H(X) I(X;Y)=H(X)H(XY)I(x;Y)=H(Y)H(YX)I(X;Y)=H(X)+H(Y)H(XY)I(X;X)=H(X)

    [1] 张小飞等, 信息论与编码,电子工业出版社, 2018.10, P37-P58.

    展开全文
  • 互信息六. 信道容量 一. 信息量 1. 定义 信息量是对事件的不确定性的度量,单位bit。 定义:在随机变量X中,事件x的(自)信息量I(X=x)I(X=x)I(X=x)简写为I(x)=−log2p(x)I(x)=−log_2 p(x)I(x)=−log2​p(x),单位...

    读论文时,发现关于信息论一无所知的样子,基本概念十分混淆,下面是一些基本概念及对应的理解~

    一. 信息量

    1. 定义

    信息量是对事件的不确定性的度量,单位bit。

    定义:在随机变量X中,事件x的(自)信息量 I ( X = x ) I(X=x) I(X=x)简写为 I ( x ) = − l o g 2 p ( x ) I(x)=−log_2 p(x) I(x)=log2p(x),单位 b i t bit bit

    可见,概率越小,信息量越大;概率越大,信息量越小。

    2. 特性

    (摘自曹雪红编著的《信息论与编码》)

    1. p ( x ) = 1 , I ( x ) = 0 p(x)=1,I(x)=0 p(x)=1,I(x)=0;

    2. p ( x ) = 0 , I ( x ) = ∞ p(x)=0,I(x)=\infty p(x)=0,I(x)=

    3. 若两个事件x,y同时出现,可以用联合概率 p ( x , y ) p(x,y) p(x,y)来表示他们同时发生的概率。这时,x,y同时出现这个联合事件(x,y)的自信息量为 I ( x , y ) = − l o g 2 p ( x , y ) I(x,y)=−log2p(x,y) I(x,y)=log2p(x,y);当x和y相互独立时 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y) ,那么就有 I ( x , y ) = I ( x ) + I ( y ) I(x,y)=I(x)+I(y) I(x,y)=I(x)+I(y)

    4. 若两个事件的出现不是独立的,而是有相互联系的,则可以用条件概率 p ( x ∣ y ) p(x|y) p(xy)来表示,即在事件y出现的概率下,事件x发生的条件概率,这样x的条件自信息量可以定义为 I ( x ∣ y ) = − l o g 2 p ( x ∣ y ) I(x∣y)=−log_2p(x∣y) I(xy)=log2p(xy).

      事件 x i x_i xi的不确定度在数值上等于它的信息量,而不论事件发生与否,只要其概率 p ( x i ) p(x_i) p(xi)存在,那么它就有不确定度;而事件 x i x_i xi的信息量是事件发生后带给人们的信息量。

    二. 熵

    熵指的是随机变量的熵;熵是随机变量不确定度的度量。

    1. 定义

    1. 设X是一个离散型随机变量,分布律为 p ( x ) = p ( X = x ) p(x)=p(X=x) p(x)=p(X=x) x ∈ X x\in X xX为取值空间集合 ,则随机变量X的熵 H ( X ) H(X) H(X)定义为:

    H ( X ) = − ∑ x ∈ X p ( x ) log 2 p ( x ) H(X)=−\sum_{x\in X}p(x) \text{log}_2 p(x) H(X)=xXp(x)log2p(x)

    ​ 单位 b i t bit bit;注意,单位取决于定义用到对数的底。当 b = 2 b = 2 b=2,熵的单位是 b i t bit bit;当 b = e b= e b=e,熵的单位是 n a t nat nat;而当 b = 10 b=10 b=10,熵的单位是 H a r t Hart Hart

    1. 依据Boltzmann’s H-theorem,香农把随机变量 X 的熵值 Η 定义如下:

    H ( X ) = E [ I ( X ) ] = E [ − ln ⁡ ( P ( X ) ) ] . \Eta(X) = \mathrm{E}[\mathrm{I}(X)] = \mathrm{E}[-\ln(\mathrm{P}(X))]. H(X)=E[I(X)]=E[ln(P(X))].

    ​ 其中, P 为X的概率质量函数(probability mass function),E 为期望函数,而 I(X) 是X 的信息量(又称为自信息)。I(X) 本身是个随机变数。

    2. 理解

    熵是数学期望!熵是数学期望!熵是数学期望!

    随机变量X的熵的含义就是X的所有可能的事件 x ∈ X x\in X xX的自信息量( 即 I ( x ) I(x) I(x) )的期望。

    熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。

    熵可以理解为不确定性的量度(或者说是多样性diversity的度量),因为越随机的信源的熵越大。熵可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

    随机变量X的实际上是X的分布的泛函数,不依赖于X的实际取值,只依赖于X的分布
    泛函数:输入为函数,输出为实数的函数。

    信息量是事件的信息量,熵是随机变量的信息量;

    当所有的 p ( x ) p(x) p(x) 都相等,且值为 p ( x ) = 1 / M p(x) = 1/M p(x)=1/M 时,熵取得最大值;当且仅当X的分布是均匀分布时,熵最大。

    三. 联合熵

    1. 定义

    对于联合分布为 p ( x , y ) p(x,y) p(x,y)的一对离散型随机变量 ( X , Y ) (X,Y) (X,Y),其联合熵(joint entropy) H ( X , Y ) H(X,Y) H(X,Y)定义为:
    H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( x , y ) H(X,Y)=-\sum_{x\in X} \sum_{y \in Y}p(x,y) \mathrm{log}_2 p(x,y) H(X,Y)=xXyYp(x,y)log2p(x,y)
    单位bit。

    2. 理解

    1. 联合熵的含义就是所有可能事件(x,y)的自信息量的期望。
      H ( X , Y ) = E ( I ( X , Y ) ) = − E ( l o g 2 p ( x , y ) ) = − ∑ 所 有 x ∑ 所 有 y p ( x , y ) l o g 2 p ( x , y ) \mathrm{H}(X,Y)=\mathrm{E}(\mathrm{I}(X,Y))=−\mathrm{E}(\mathrm{log}_2p(x,y)) \\ =-\sum_{所有x} \sum_{所有y}p(x,y) \mathrm{log}_2 p(x,y) H(X,Y)=E(I(X,Y))=E(log2p(x,y))=xyp(x,y)log2p(x,y)

    2. 联合熵实际上就是描述一对随机变量平均所需要的信息量。

    四. 条件熵

    1. 定义

    在给定随机变量X的条件下,随机变量Y的不确定性。
    H ( Y ∣ X ) = − ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) l o g 2 p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( y ∣ X = x ) H(Y|X)=-\sum_{x\in X} p(x)H(Y|X=x) \\ =-\sum_{x\in X} p(x) \sum_{y \in Y} p(y|x) \mathrm{log}_2 p(y|x) \\ =-\sum_{x\in X} \sum_{y \in Y}p(x,y) \mathrm{log}_2 p(y|X=x) \\ H(YX)=xXp(x)H(YX=x)=xXp(x)yYp(yx)log2p(yx)=xXyYp(x,y)log2p(yX=x)

    2. 理解

    注意,这个条件熵,不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,变量的不确定性是多少?而是期望!因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。

    3. 定理链式法则在这里插入图片描述
    证明:
    img

    五. 互信息

    随机变量X为信源符号集合,随机变量Y为信宿符号集合,则互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示信宿收到一个符号时,平均能够获得的信源的信息量;也可理解为X与Y之间的离散信道上传输每个符号的平均信息量。

    定义先验概率为信源X的分布 p ( x i ) p(x_i) p(xi)。当信宿收到一个符号 y j y_j yj后,信宿可以计算信源发出各符号的条件概率 p ( x i ∣ y j ) p(x_i∣y_j) p(xiyj),定义为后验概率。

    随机变量可等价为信源,事件可等价为符号。

    1. 定义

    定义:事件 y j y_j yj与事件 x i x_i xi间的互信息量表示从事件y发生所得到的关于事件x的信息量。互信息量定义为后验概率与先验概率之比的对数。

    平均互信息 I ( X ; Y ) I(X;Y) I(X;Y)克服了互信息量 I ( x i ; y j ) I(x_i;y_j) I(xi;yj)的随机性,成为一个确定的量。因此可以作为信道中流通信息量的整体测度。
    即:
    img

    2. 理解

    因为H(X)是符号X的熵或者不确定度,而 H ( X ∣ Y ) H(X|Y) H(XY)是当Y已知时X的不确定度,那么可见“Y已知”这件事使得X的不确定度减少了 I ( X ; Y ) I(X;Y) I(X;Y),这意味着“Y已知后”所获得的关于X的信息是 I ( X ; Y ) I(X;Y) I(X;Y).

    由此可以看出,互信息 I ( X ; Y ) I(X;Y) I(X;Y)是在给定Y知识条件下X的不确定度的缩减量。则,[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h94tQfY6-1589858128996)(E:%5Cmaterials%5Creading%20paper%5Crelay%20channel%20capacity%2020200515%5C%E7%9F%A5%E8%AF%86%E7%82%B9%5C%E4%BF%A1%E6%81%AF%E8%AE%BA%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5.assets%5Cgif-1589857845034.gif)]
    联系到前面的
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-niun93hf-1589858128998)(E:%5Cmaterials%5Creading%20paper%5Crelay%20channel%20capacity%2020200515%5C%E7%9F%A5%E8%AF%86%E7%82%B9%5C%E4%BF%A1%E6%81%AF%E8%AE%BA%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5.assets%5Cgif-1589857848225.gif)]
    可得,

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uEpxGY7Z-1589858129002)(E:%5Cmaterials%5Creading%20paper%5Crelay%20channel%20capacity%2020200515%5C%E7%9F%A5%E8%AF%86%E7%82%B9%5C%E4%BF%A1%E6%81%AF%E8%AE%BA%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5.assets%5Cgif-1589857850643.gif)]
    由于 H(X|X) = 0, 所以, H(X) = H(X) – H(X|X) = I(X; X)

    这一方面说明了为什么熵又称自信息,另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量,而是取决于它们的熵。

    六. 信道容量

    信息传输率: R = I ( X ; Y ) R=I(X;Y) R=I(X;Y) ,单位bit/符号
    信道容量:最大的信息传输率。
    C = m a x p ( x ) I ( X ; Y ) C=\mathrm{max}_{p(x)}\mathrm{I}(X;Y) C=maxp(x)I(X;Y)
    单位bit/符号。

    根据信道容量的定义,就是在固定信道条件下,对所有可能的输入概率分布p(x)求平均互信息的极大值。

    I ( X ; Y ) I(X;Y) I(X;Y)是输入概率的上凸函数,故极大值一定存在。

    信道的互信息 I ( X ; Y ) I(X;Y) I(X;Y)的极大值即等于信道容量。

    ————————————————
    原文链接:https://blog.csdn.net/qq_34440148/article/details/84642402

    展开全文
  • 平均互信息

    千次阅读 2016-04-13 14:41:00
    平均互信息:定义 平均互信息I(X;Y)其实就是前面提到的互信息I(x;y)在两个概率空间X和Y中求统计平均的结果,它是从整体上表示一个随机变量Y所给出的关于另一个随机变量X的信息量平均互信息与熵之间的关系: ...

    集合和事件之间的互信息  定义:

        

    平均互信息:定义

       

    平均互信息I(X;Y)其实就是前面提到的互信息I(x;y)在两个概率空间X和Y中求统计平均的结果,它是从整体上表示一个随机变量Y所给出的关于另一个随机变量X的信息量。

    平均互信息与熵之间的关系:

                          

    物理意义:在通信系统中,H(X)代表接收到输出符号以前关于输入变量X的不确定性。而H(Y|X)代表接收到输出符号后关于输入变量X的平均不确定性。二者之差表示接收端所获得的信息量,即平均互信息。 可见,通过信道传输消除了一些不确定性,获得了一定的信息,而平均互信息就代表接收到输出符号之后平均每个符号获得的关于输入端X的信息量。

     

    平均互信息的性质

    1.非负性  2、互易性  

        

      平均互信息的非负性告诉我们,从整体和平均意义上来说,一个随机变量集合提供的关于另一个随机变量集合的信息量不会是负值,最差的情况是0.

     

    转载于:https://www.cnblogs.com/liugl7/p/5387089.html

    展开全文
  • 互信息(Mutual Information)介绍

    千次阅读 2021-01-23 17:48:09
    在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p...

    在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息是点间互信息(PMI)的期望值。互信息最常用的单位是bit。

    1.互信息的定义

      正式地,两个离散随机变量 X 和 Y 的互信息可以定义为:

      其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。

      在连续随机变量的情形下,求和被替换成了二重定积分

      其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。

      互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底,互信息的单位是bit

      直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

      互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p(x,y) = p(x) p(y),因此:

      此外,互信息是非负的(即 I(X;Y) ≥ 0; 见下文),而且是对称的(即 I(X;Y) = I(Y;X))。

    2.平均互信息量的物理含义

    (1)观察者站在输出端

      H(X/Y) —信道疑义度/损失熵.。Y关于X的后验不确定度。表示收到变量Y后,对随机变量X仍然存在的不确定度。代表了在信道中损失的信息。

      H(X) —X的先验不确定度/无条件熵。

      I(X;Y)—收到Y前后关于X的不确定度减少的量。从Y获得的关于X的平均信息量。

    (2)观察者站在输入端

      H(Y/X)—噪声熵。表示发出随机变量X后, 对随机变量Y仍然存在的平均不确定度。如果信道中不存在任何噪声, 发送端和接收端必存在确定的对应关系, 发出X后必能确定对应的Y, 而现在不能完全确定对应的Y, 这显然是由信道噪声所引起的。

      I(Y;X) —发出X前后关于Y的先验不确定度减少的量。

    (3)观察者站在通信系统总体立场上

      H(XY)—联合熵.表示输入随机变量X, 经信道传输到达信宿, 输出随机变量Y。即收,发双方通信后,整个系统仍然存在的不确定度.

      I(X;Y) —通信前后整个系统不确定度减少量。在通信前把X和Y看成两个相互独立的随机变量, 整个系统的先验不确定度为X和Y的联合熵H(X)+H(Y); 通信后把信道两端出现X和Y看成是由信道的传递统计特性联系起来的, 具有一定统计关联关系的两个随机变量, 这时整个系统的后验不确定度由H(XY)描述。

      以上三种不同的角度说明: 从一个事件获得另一个事件的平均互信息需要消除不确定度,一旦消除了不确定度,就获得了信息。

    3.平均互信息量的性质

    (1)对称性

      I(X;Y)= I(Y;X)

      由Y提取到的关于X的信息量与从X中提取到的关于Y的信息量是一样的。 I(X;Y)和 I(Y;X)只是观察者的立足点不同。

    (2)非负性

      I(X;Y)≥0

      平均互信息量不是从两个具体消息出发, 而是从随机变量X和Y的整体角度出发, 并在平均意义上观察问题, 所以平均互信息量不会出现负值。或者说从一个事件提取关于另一个事件的信息, 最坏的情况是0, 不会由于知道了一个事件,反而使另一个事件的不确定度增加。

    (3)极值性

      I(X;Y)≤H(X)

      I(Y;X)≤H(Y)

      从一个事件提取关于另一个事件的信息量, 至多是另一个事件的熵那么多, 不会超过另一个事件自身所含的信息量。当X和Y是一一对应关系时: I(X;Y)=H(X), 这时H(X/Y)=0。从一个事件可以充分获得关于另一个事件的信息, 从平均意义上来说, 代表信源的信息量可全部通过信道。当X和Y相互独立时: H(X/Y) =H(X), I(Y;X)=0。 从一个事件不能得到另一个事件的任何信息,这等效于信道中断的情况。

    (4) 凸函数性

      平均互信息量是p(xi)和p(yj /xi)的函数,即I(X;Y)=f [p(xi), p(yj /xi)];

      若固定信道,调整信源, 则平均互信息量I(X;Y)是p(xi)的函数,即I(X;Y)=f [p(xi)];

      若固定信源,调整信道, 则平均互信息量I(X;Y)是p(yj /xi)的函数,即I(X;Y)=f [p (yj /xi)]。

      平均互信息量I(X;Y)是输入信源概率分布p(xi)的上凸函数(concave function; or convext cap function)。

      平均互信息量I(X;Y)是输入转移概率分布p(yj /xi)的下凸函数(convext function; or convext cup function)。

    (5)数据处理定理

      串联信道:在一些实际通信系统中, 常常出现串联信道。例如微波中继接力通信就是一种串联信道。信宿收到数据后再进行数据处理, 数据处理系统可看成一种信道, 它与前面传输数据的信道构成串联信道。

      数据处理定理:当消息经过多级处理后,随着处理器数目的增多,输入消息与输出消息之间的平均互信息量趋于变小。即

      I(X;Z)≤I(X;Y)

      I(X;Z)≤I(Y;Z)

      其中假设Y条件下X和Z相互独立。

      两级串联信道输入与输出消息之间的平均互信息量既不会超过第Ⅰ级信道输入与输出消息之间的平均互信息量,也不会超过第Ⅱ级信道输入与输出消息之间的平均互信息量。

      当对信号/数据/消息进行多级处理时, 每处理一次, 就有可能损失一部分信息, 也就是说数据处理会把信号/数据/消息变成更有用的形式, 但是绝不会创造出新的信息。这就是所谓的信息不增原理。

      当已用某种方式取得Y后, 不管怎样对Y进行处理, 所获得的信息不会超过I(X;Y)。每处理一次, 只会使信息量减少, 至多不变。也就是说在任何信息流通系统中, 最后获得的信息量,至多是信源提供的信息。一旦在某一过程中丢失了一些信息, 以后的系统不管怎样处理, 如果不能接触到丢失信息的输入端, 就不能再恢复已丢失的信息。

    4.与其他量的关系

      互信息又可以等价地表示成

      其中H(X)和H(Y) 是边缘,H(X|Y)和H(Y|X)是条件熵,而H(X,Y)是X和Y的联合熵。注意到这组关系和并集、差集和交集的关系类似,用Venn图表示:


      于是,在互信息定义的基础上使用琴生不等式,我们可以证明 I(X;Y) 是非负的,因此H(X)>=H(X|Y),这里我们给出 I(X;Y) = H(Y) - H(Y|X) 的详细推导:

      上面其他性质的证明类似。

      直观地说,如果把熵 H(Y) 看作一个随机变量不确定度的量度,那么 H(Y|X) 就是 X 没有涉及到的 Y 的部分的不确定度的量度。这就是“在 X 已知之后 Y 的剩余不确定度的量”,于是第一个等式的右边就可以读作“Y的不确定度,减去在 X 已知之后 Y 的剩余不确定度的量”,此式等价于“移除知道 X 后 Y 的不确定度的量”。这证实了互信息的直观意义为知道其中一个变量提供的另一个的信息量(即不确定度的减少量)。

      注意到离散情形 H(X|X) = 0,于是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

      互信息也可以表示为两个随机变量的边缘分布 X 和 Y 的乘积 p(x) × p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵

      此外,令 p(x|y) = p(x, y) / p(y)。则

      注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式 

      现在以 Y 为变量。于是互信息也可以理解为相对熵 X 的单变量分布 p(x) 相对于给定 Y 时 X 的条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差异越大,信息增益越大。

    展开全文
  • % 计算互信息方式 Mi_method = questdlg('使用哪种计算MI方法','方式选择','互信息','归一化互信息','互信息'); end k = 1; for x = wzx1-rfield+wzx2:step:wzx1+rfield+wzx2 % 浮动图像相对参考图像平移+-rfield...
  • %%% dataset中的最后一列为分类类别,k为要选择的特征个数function result=MutualInformation(dataset,k) % character_order character_order=[]; % the count of classes classes=unique(dataset(:,size(dataset,2)...
  • 互信息的深度理解(总结的不错值得一看)

    万次阅读 多人点赞 2018-07-30 09:37:37
    1.互信息的定义  正式地,两个离散随机变量 X 和 Y 的互信息可以定义为:  其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。  在连续随机变量的...
  • 互信息(Mutual Information)

    千次阅读 2019-03-28 10:53:32
    本文根据以下参考资料进行整理:  1.维基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF  2.... ... 在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI...
  • 采用两种方法绘制固定二元对称信道(BCS)平均互信息曲线图,将多条曲线绘制在同一坐标轴上,
  • 平均互信息量定义: 互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。平均互信息量的物理含义 1) 观察者站在输出端:H(X/Y) —信道疑义度/...
  • 给定p(x)下I(X,Y)的凸性 在p(x)给定的情况下,我们考虑这样两个分布p1(x,y)与p2(x,y) p_1(x,y)与p_2(x,y)p1​(x,y)与p2​(x,y)满足p1(x,y)=p(x)p1(y∣x),p2(x,y)=p(x)p2(y∣x) p_1(x,y) = p(x)p_1(y|x),p_2(x,y) = p...
  • 它是一种信道速率的丈量,标志着信道速率的上限,,即信道的输入与输出的互信息量的最大值; 所谓的互信息定义是: 设两个随机变量的联合分布为,边缘分布分别为,互信息 是联合分布 与边缘分布 的相对熵,即 ....
  • %mutualinformationgraph2 绘制固定二元对称信道平均互信息曲线图 % p-信道错误转移概率,w-信源概率 for i=1:length(w) H1(i,:)=-(p.*(1-w(i))+(1-p).*w(i)).*log((p.*(1-w(i))+(1-p).*w(i)))-(1-(p.*(1-w(i))+(1-p...
  • Y)=H(X)+H(Y)-H(Y∪X) 本篇仅说明了,熵的概念,以及熵的一些性质,和平均互信息的性质。之后会介绍熵这个概念应用于密码学的信息理论之中,在信息论中,命名为信息熵。用于抽象出密码学的本质,并以形式化的方式...
  • 计算互信息的matlab程序

    热门讨论 2010-05-24 19:47:55
    计算互信息的matlab程序,非常实用~~~~~~~~~~~~~~~~~~~
  • 信道容量+平均互信息

    千次阅读 2021-06-30 13:48:55
    1):如何描述在信道中传输的消息的信息量的大小,用:平均互信息描述,属于信息传输率问题。 2):信道中最大的信息传输率是多少,这是传信能力问题。 本章重点: 1):信道模型的建立,有着什么要素,表示方法是什么...
  • EDA365欢迎您登录!您需要 登录 才可以下载或查看,没有帐号?... C$ X在概率论和信息论中,两个随机变量的互信息...不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘...
  • 首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个...信息量信息量用一个信息所需要的编码长度来定义,而一个信息的编码长度跟其出现的概率呈负相关,因为一个短编码的代价也是巨大的,因为
  • 信息熵,条件熵,互信息的通俗理解

    万次阅读 多人点赞 2017-11-06 16:16:24
    自信息(self-information): I(x)= = - log(p(x)) (1) 式中的log表示自然对数, 如果用以2为底的对数,单位是比特(bit)。...p(x)是指x发生的概率,I(x)代表x所...当然是马云破产的信息量更大,因为它发生...
  • 本篇博客,我们将介绍联合熵、条件熵、互信息、相对熵、交叉熵,如果对熵的概念还有不清楚的朋友,可以看一下这一篇博客,信息熵是什么呢? https://blog.csdn.net/ding_programmer/article/details/89785319 联合...
  • 在MATLAB软件中,采用互信息法计算时间序列的延迟时间。
  • 熵用于描述一个随机变量的不确定性的大小,熵越大说明该随机变量的不确定性增加,包含的信息量越大(越是确定的事件所含有的信息量越小,必然事件的熵为0)。 H(X)=−∑x∈Xp(x)  log  p(x)(1)H(X)=-\sum_{x\in ...
  • 信息论与互信息

    2021-01-06 16:57:25
    在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均信息量。 在信息世界中,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。 自信息: 1、自信息表示事件发生前,...
  • 互信息计算matlab代码互信息代码 互信息的计算代码是用Matlab编写的。 互信息是衡量一个随机变量告诉我们另一个变量的数量的...相互信息量低表示减少幅度很小; 两个随机变量之间的相互信息为零意味着变量是独立的。
  • 【深度学习基础】:信息论(一)_自信息/熵/联合熵/条件熵/相对熵/交叉熵/互信息及其相互之间的关系_bqw的博客-CSDN博客详解机器学习中的熵、条件熵、相对熵和交叉熵 - 遍地胡说 - 博客园
  • 信息增益(互信息)非负性证明

    千次阅读 2016-09-03 21:53:05
    信息增益又称互信息,它是信息论的基本概念之一。同时,它在当今流行的人工智能领域也多有涉及。其中,著名的决策树算法IC3就是以信息增益作为贪心选择的依据。  信息增益的定义如下:    
  • 信息论 -- 熵与互信息

    千次阅读 2018-06-19 10:47:07
    http://blog.csdn.net/pipisorry/article/details/51695283这篇文章主要讲:熵, 联合熵(joint entropy),条件熵(conditional entropy),相对熵(relative entropy,KL 距离),互信息(mutual ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,485
精华内容 7,794
关键字:

平均互信息量