精华内容
下载资源
问答
  • 互信息怎么理解
    千次阅读
    2017-03-24 11:21:03

    我们在之前研究过两个随机变量的独立性,我们定义若两个随机变量X,Y满足
    P(X,Y)=P(X)P(Y)则我们说随机变量X,Y独立。下面来直观地理解这个公式,可以发现,如果X,Y独立,那么已知X,将不会对Y的分布产生任何影响,即是说P(Y)=P(Y|X),这个结果的证明也很简单,由贝叶斯公式:P(Y|X)=P(X,Y)P(X)=P(X)P(Y)P(X)=P(Y)即证。

     

    由此可以看出,独立性反应了已知X的情况下,Y的分布是否会改变,或者说,在给定随机变量X之后,能否为Y带来额外的信息。然而独立性只能表示出两个随机变量之间是否会有关系,但是却不能刻画他们的关系大小。下面我们引入互信息,它不仅能说明两个随机变量之间是否有关系,也能反应他们之间关系的强弱。我们定义互信息I(X,Y)
    I(X;Y)=XYP(X,Y)logP(X,Y)P(X)P(Y)

     

    我们来稍微理解一下,log里面就是X,Y的联合分布和边际分布的比值,如果对所有X,Y,该值等于1,即是说他们独立的情况下,互信息I(X;Y)=0,即是说这两个随机变量引入其中一个,并不能对另一个带来任何信息,下面我们来稍稍对该式做一个变形I(X;Y)=XYP(X,Y)logP(X,Y)P(X)P(Y)=XYP(X,Y)logP(X,Y)P(X)XYP(X,Y)logP(Y)=XYP(X)P(Y|X)logP(Y|X)YlogP(Y)XP(X,Y)=XP(X)YP(Y|X)logP(Y|X)YlogP(Y)P(Y)=XP(X)H(Y|X=x)+H(Y)=H(Y)H(Y|X)其中,H(Y)Y的熵,定义为

    H(Y)=YP(Y)logP(Y)

    衡量的是 Y 的不确定度,即使说, Y 分布得越离散, H(Y) 的值越高,而 H(Y|X) 则表示在已知 X 的情况下, Y 的不确定度,而 I(X;Y) 则表示由 X 引入而使 Y 的不确定度减小的量,因而如果 X,Y 关系越密切, I(X;Y) 越大, I(X;Y) 最大的取值是 H(Y) ,也就是说, X,Y 完全相关,由于X的引入, Y 的熵由原来的 H(Y) 减小了 I(X;Y)=H(Y) ,变成了0,也就是说如果 X 确定,那么 Y 就完全确定了。而当 X,Y 独立时, I(X;Y)=0 引入 X ,并未给 Y 的确定带来任何好处。

     

    总结下I(X;Y)的性质:
    1)I(X;Y)>=0
    2)H(X)H(X|Y)=I(X;Y)=I(Y;X)=H(Y)H(Y|X)
    3)当X,Y独立时,I(X;Y)=0
    4)当X,Y知道一个就能推断另一个时,I(X;Y)=H(X)=H(Y)

    更多相关内容
  • 对于边际互信息,我们说它是: I(A,B)=sum sum P(A,B) log[P(A,B)/P(A)P(B)] 对于条件互信息,我们说它是: I(A,B|C)=sum sum P(A,B|C) log[P(A,B|C)/P(A|C)P(B|C)] 对于互信息矩阵,我们说它是: 矩阵保存所有 I...
  • 条件互信息理解(Conditional Mutual Information)

    万次阅读 多人点赞 2019-10-25 11:39:03
    在概率论,尤其是信息论中,条件互信息的基本形式是在给定第三个变量值的情况下,两个随机变量互信息的期望值。 对于离散随机变量X,Y,Z,其条件互信息为: 用图形表示条件互信息为: 具体的定义等后续补充。 ...

    在概率论,尤其是信息论中,条件互信息的基本形式是在给定第三个变量值的情况下,两个随机变量互信息的期望值。

    对于离散随机变量X,Y,Z,其条件互信息为:

    用图形表示条件互信息为:

    具体的定义等后续补充。 

    展开全文
  • 互信息量的理解

    万次阅读 多人点赞 2018-05-26 14:39:49
    我们仅仅停留在随机变量X与Y是否相关这个非黑即白的问题上,而引入信息论中的互信息量,我们不仅可以说明随机变量X与Y之间是否相关,更可以反映随机变量之间相关性的强弱。我们定义信源X发出的消息 a i 通过信道后,...

    在概率论中对于两个随机变量X与Y,我们定义若两个随机变量X,Y满足
    P(X,Y)=P(X)P(Y)
    则我们说随机变量X,Y独立。我们仅仅停留在随机变量X与Y是否相关这个非黑即白的问题上,而引入信息论中的互信息量,我们不仅可以说明随机变量X与Y之间是否相关,更可以反映随机变量之间相关性的强弱。我们定义信源X发出的消息ai通过信道后,信宿Y只可能收到由于干扰作用引起的某种变型bj,我们将由新宿收到bj后推测信源发出ai的概率p(ai | bj)称为后验概率,p(ai)称为先验概率,此时定义bjai的互信息量为

    上式可化为
     
    下面我们将不通过数学推导,仅从物理含义解释互信息量。
    首先我们已知条件自信息量I(ai|bj)在数值上与该事件所包含的不确定度相同,但两者的含义是不同的;不确定度表示含有多少信息,信息量表示随机事件发生后可以得到多少信息。
    从不确定度的角度来看,上式中我们可以知道互信息量就是在对bj一无所知的条件下ai存在的不确定度与引入bj后ai仍存在的不确定度之差,就是引入bj后不确定度被消除的部分,也就是通过bj我们确定下来的信息,即我们通过bj获得的对ai的信息量。
    从信息量的角度看时,I(ai)是对bj一无所知的情况下发生ai后我们获得的信息量,I(ai|bj)是引入bj后发生ai我们获得的信息量。不难想象,当bj与ai毫无相关性,即相互独立时,此时p(ai | bj)=p(ai), I(ai|bj)=I(ai)我们通过信宿收到的bj是无法推测信源是否发出了ai,即通过引入bj来推测ai所得到的信息量是为0的,则此时互信息量为0,相当于信道不传递任何信息,可以看做信道断开;而如果bj与ai是一一对应的关系,即我们在信宿接收到bj时我们能完全确定信源就是ai,此时p(ai | bj)=1, I(ai|bj)=0,此时的互信息量最大且等于I(ai)。
    在思考信息量的时候我曾有一个误区,总是不经意间把信息量I(ai|bj)当做在在bj发生时我们对ai所确定下来的东西,而实际恰恰相反,信息量是未知的,信息量I(ai|bj)是不确定的信息,可以看做是信宿为bj时信源为ai的惊讶度,正因为有惊讶度的存在,所以才会有从bj得到关于ai的信息量。这样也解释了上述的所有问题,若bj和ai一一对应,我们通过bj可以完全确定ai,则我们收到bj时对ai没有任何的未知,故I(ai|bj)=0。当bj和ai相互独立的时候,就算知道bj也对ai没有任何帮助,所以面对bj和ai都是一样的未知,故I(ai|bj)=I(ai)
    所以bj对ai的互信息量是通过bj对ai确定下来的信息,是信源ai通过信道传递到信宿这个过程中流经信道的信息量


    展开全文
  • 互信息 通过上图可以看出,所谓互信息就是两个事件都有的信息量。 于是,在互信息定义的基础上使用jessen不等式,我们可以证明 是非负的,因此 ,这里我们给出 的详细推导: 上面其他性质的证明类似。  ...

    互信息


    通过上图可以看出,所谓互信息就是两个事件都有的信息量。

    于是,在互信息定义的基础上使用jessen不等式,我们可以证明 I(X;Y) 是非负的,因此 H(X)>=H(X|Y),这里我们给出 I(X;Y)=H(Y)-H(X|Y) 的详细推导:

    上面其他性质的证明类似。

      直观地说,如果把熵 H(Y) 看作一个随机变量不确定度的量度,那么 H(X|Y) 就是 X 没有涉及到的 Y 的部分的不确定度的量度。这就是“在 X 已知之后 Y 的剩余不确定度的量”,于是第一个等式的右边就可以读作“ Y 的不确定度,减去在 X 已知之后 Y 的剩余不确定度的量”,此式等价于“移除知道 X 后 Y 的不确定度的量”。这证实了互信息的直观意义为知道其中一个变量提供的另一个的信息量(即不确定度的减少量)。

      注意到离散情形 H(X|X)=0,于是 H(X)=I(X;X)。因此 I(X;X)>=I(X;Y),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

      互信息也可以表示为两个随机变量的边缘分布 X 和 Y 的乘积 p(x)*p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵:

    此外,令 p(x|y)=p(x,y)/p(y)。则:

     注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式 

     现在以 Y 为变量。于是互信息也可以理解为相对熵 X 的单变量分布 p(x) 相对于给定 Y 时X 的条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差异越大,信息增益越大。

    展开全文
  • 互信息的深度理解(总结的不错值得一看)

    万次阅读 多人点赞 2018-07-30 09:37:37
    1.互信息的定义  正式地,两个离散随机变量 X 和 Y 的互信息可以定义为:  其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。  在连续随机变量的...
  • 好不容易理解了信息熵的概念后,又发现还有其他各种熵,经常把人绕晕,比如决策树模型中要计算信息增益(其实就是互信息),最大熵模型中要计算条件熵,下面我们就来用5分钟理解互信息,条件熵,联合熵。...
  • 信息熵,条件熵,互信息的通俗理解

    万次阅读 多人点赞 2017-11-06 16:16:24
    信息(self-information): I(x)= = - log(p(x)) (1) 式中的log表示自然对数, 如果用以2为底的对数,单位是比特(bit)。 上式是什么意思?p(x)是指x发生的概率,I(x)代表x所包含的信息量。考虑这么...
  • 如何理解归一化互信息

    千次阅读 2020-04-26 13:07:21
    我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是...
  • 互信息理解与推导

    千次阅读 2018-03-04 15:58:24
    转自切问路 by Z.H. Fu我们在之前研究过两个随机变量的独立性,我们定义若两个随机变量X,YX,Y满足 P(X,Y)=P(X)P(Y)P(X,Y)=P(X)P(Y)则我们说...下面来直观地理解这个公式,可以发现,如果X,YX,Y独立,那么已知XX,...
  • 互信息、条件互信息

    千次阅读 2018-11-05 16:03:37
    参考两个博客 互信息概念与定理 互信息理解 但第2中公式的变形,实在没看懂,于是推导部分参考wiki,或者这篇
  • 互信息

    千次阅读 2018-04-03 13:06:57
    我们可以有线性相关系数(皮尔逊积矩相关系数)、卡方检验(此处不谈)和互信息这几个指标来进行量化。 使用线性相关系数的前提自变量与因变量是线性关系,取值范围为[-1,1],负数表示负相关: ρx,y=cov(X,Y)σX,σ...
  • 信息论:熵与互信息

    万次阅读 多人点赞 2016-11-25 21:18:43
    这篇文章主要讲:熵, 联合熵(joint entropy),条件熵(conditional entropy),相对熵(relative entropy,KL 距离),互信息(mutual information),交叉熵(cross entropy),困惑度(perplexity)。 ...
  • 信息熵、自信息与互信息

    千次阅读 2021-01-12 21:09:15
    信息熵 对某件事件的不确定性叫做熵,熵值单位为byte,计算公式为:。它是统计平均意义下的不确定性,包括熵,条件熵,联合熵。 例如对于一道选择题A、B、C、D四个选项,后面的百分数为选该选项的概率,假设如下...
  • ppt中主要是介绍了,互信息在InfoGAN中的应用,InfoGAN中的c和c'之间的转换这两个方面的知识。
  • 信道容量+平均互信息

    千次阅读 2021-06-30 13:48:55
    1):如何描述在信道中传输的消息的信息量的大小,用:平均互信息描述,属于信息传输率问题。 2):信道中最大的信息传输率是多少,这是传信能力问题。 本章重点: 1):信道模型的建立,有着什么要素,表示方法是什么...
  • 研究了下sklearn.feature_selection()中参考的Estimating Mutual Information论文与Mutual Information between Discrete and Continuous Data Sets论文,整理一篇基于k-最近邻的互信息算法。
  • 基于互信息的特征选择方法杂谈

    千次阅读 2020-12-03 23:01:52
    只有有效的数据才能带给我们"信息",无效的数据并不能带给我们"信息"。如果我们在做一件事情之前,可以通过各种数据得到这件事情所有相关信息,那么我们就可以最初最完美的决策,使利益最大化。基于熵的特征选择方法...
  • MICMIC 即:Maximal Information Coefficient 最大互信息系数。 使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Information(MI)互信息而言有更高的准确度。MIC是一种优秀的数据关联性的计算...
  • 最大化互信息

    千次阅读 2021-08-24 20:04:17
    总说 因为,一般做分类的,交叉熵很常见吧,类似KL散度或者交叉熵,本质上就是利用“编码长度”作文章。...互信息衡量两个变量的依赖程度,可以理解为给定其中一个变量,可以多大程度的减少另一个变
  • 条件自信息量与互信息量的区别

    千次阅读 2021-12-05 14:28:42
    条件自信息量与互信息量的区别前言一、两者概念区分1、自信息量2、条件信息量3、互信息量二、两者公式1、条件信息量2、互信息量总结 前言 在学习过程中我常将互信息量与条件自信息量两者混淆,在此做出总结加以区分...
  • sklearn:点互信息互信息

    万次阅读 2017-06-03 00:07:53
    1、点互信息PMI 机器学习相关文献里面,经常会用到点互信息PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性(比如两个 词)。 其原理很简单,公式如下: 在概率论中,我们知道,如果x跟y不...
  • 举例说明信息熵、互信息的计算过程

    万次阅读 多人点赞 2020-04-26 11:23:47
    目录一、 计算公式1、信息熵H(X)2、联合熵H(X,Y)3、互信息I(X,Y)4、条件熵H(X|Y)二、举例说明1、信息熵H(X)2、联合熵H(X,Y)3、互信息I(X,Y)4、条件熵H(X|Y)总结 一、 计算公式 在shannon提出信息论到现在已经有70...
  • 熵和互信息

    2021-01-30 22:42:52
    熵和互信息 读文献想要算信道容量的时候,遇到了需要用到熵和互信息相关的推导,所以找纪佬要来信息论的课件拿来看了看,在这里也是一个记录。 定义 ...Y)为互信息量,可以用交集来理解。 通过Venn
  • 互信息(Mutual Information)介绍

    万次阅读 2021-01-23 17:48:09
    在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p...
  • 归一化的互信息

    千次阅读 2022-02-02 22:38:27
    归一化的互信息_weixin_43177538的博客-CSDN博客_归一化互信息 如何理解归一化互信息_帅气小猴的博客-CSDN博客_归一化互信息
  •  信息论,就是用数理统计方法研究信息的基本性质以及度量方法,研究最佳解决信息的摄取、传输、存贮、处理和变换的一般规律的科学。它的成果将为人们广泛而有效地利用信息提供基本的技术方法和必要的...
  • PMI(点互信息) 用来衡量两个事物之间的相关性 公式如下 如何理解? 在概率论当中,如果说x与y两个变量无关,那么p(x,y)就等于p(x)p(y) 如果说x与y越相关,那么p(x,y)与p(x)p(y)的比值就越大 为了更好...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 66,479
精华内容 26,591
热门标签
关键字:

互信息怎么理解