精华内容
下载资源
问答
  • PMI(点互信息) 用来衡量两个事物之间的相关性 公式如下 如何理解? 在概率论当中,如果说x与y两个变量无关,那么p(x,y)就等于p(x)p(y) 如果说x与y越相关,那么p(x,y)与p(x)p(y)的比值就越大 为了更好...

    最近在看代码的时候,发现论文用到了PPMI,索性这里记录一下两个概念:

    PMI(点互信息)

    用来衡量两个事物之间的相关性

    公式如下

    如何理解?

    在概率论当中,如果说x与y两个变量无关,那么p(x,y)就等于p(x)p(y)

    如果说x与y越相关,那么p(x,y)p(x)p(y)的比值就越大

    为了更好理解,这里有一个例子:

    分母19是所有的词对共同出现的总次数(1+1+1+1+2+1+1+1+6+4)

    这里的例子进行理解的时候,先是红色框的0.32,是根据当前词对(information,data)的次数6除以所有的词对数目(19)得来的

    0.32 = 6/19

    蓝色框的0.58是当前词,information的出现的总次数(11)除以总词对数(19)得来的

    0.58=11/19

    同理,绿色框也一样

    PPMI(正点互信息)

     

    正点互信息只是比点互信息多了一个判断最大值的操作,小于0的值都改成了0

    展开全文
  • 归一化互信息(Normalized Pointwise Mutual Information)(NPMI) 官方解释:NPMI, which is commonly used in linguistics to represent the co-occurrence between two words 翻译:语言学上常用表示两个词之间...

    归一化互信息(Normalized Pointwise Mutual Information)(NPMI)

    官方解释:NPMI, which is commonly used in linguistics to represent the co-occurrence between two words
    翻译:语言学上常用表示两个词之间的共现。

    公式表示:
    在这里插入图片描述
    其它参考:
    Word Association Norms, Mutual Information, and Lexicography
    互信息(Mutual Information)的介绍

    展开全文
  • 点互信息互信息 PMI

    2021-09-02 14:37:35
    在数据挖掘或者信息检索的相关资料里,经常会用到PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性。PMI的定义如下: 这个定义所体现的原理其实是相当直白的。在概率论中,我们知道,...

    在数据挖掘或者信息检索的相关资料里,经常会用到PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性。PMI的定义如下:
    在这里插入图片描述
    这个定义所体现的原理其实是相当直白的。在概率论中,我们知道,如果x跟y不相关,则 P(x,y) = P(x)P(y)。二者相关性越大,则 P(x,y) 就相比于 P(x)P(y) 越大。根据条件概率公式,你还可以写成

    在这里插入图片描述
    这也很好理解,在y出现的情况下x出现的条件概率 p(x|y) 除以x本身出现的概率 p(x) ,自然就表示x跟y的相关程度。

    这里的log来自于信息论的理论,而且 log 1 = 0 ,也恰恰表明P(x,y) = P(x)P(y),相关性为0,而且log是单调递增函数,所以 “P(x,y) 就相比于 P(x)P(y) 越大,x 和 y 相关性越大” 这一性质也得到保留。

    通常我们可以用一个Co-occurrence Matrix来表示对一个语料库中两个单词出现在同一份文档的统计情况,例如

    在这里插入图片描述
    以计算PMI(information,data)为例则有(其中分母上的19是上表所有数值之和):
    在这里插入图片描述
    其他中间结果如下表所示:
    在这里插入图片描述
    但是从上表中你可能会发现一个问题,那就是你有可能会去计算 log 0 = -inf,即得到一个负无穷。为此人们通常会计算一个PPMI(Positive PMI)来避免出现 -inf,即

    在这里插入图片描述

    展开全文
  • 先来一两句废话,要想解释好点互信息必须学会科学上网,当然如果没有条件本篇博客会具体介绍。上网百度得到的搜索结果如下图1-1所示,事实证明百度不够自信,这么重要的概念百度学术里面没有?淦!居然都是来自CSDN...

    公式    

    \bg_white PMI(x;y) = log\frac{p(x, y)}{p(x)p(y)}=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(y)}

    几句废话

    先来一两句废话,要想解释好点互信息必须学会科学上网,当然如果没有条件本篇博客会具体介绍。上网百度得到的搜索结果如下图1-1所示,事实证明百度不够自信,这么重要的概念百度学术里面没有?淦!居然都是来自CSDN,然而CSDN有个致命的缺点,就是对于某个问题的讲解原创比较少,后面的人基本就是copy了。当然CSDN大牛依旧非常多,向原创致敬,向大佬看齐!接着跑去了维基百科搜索了一番,结果如图1-2所示。没有对比就没有伤害,不是为了黑而黑,实事求是的讲百度在相关学术方面做的真的不咋地。好啦下面吧维基百科的内容拿过来学习!咱们一段一段来分析(重回阅读理解哈哈):

                                                                            图 1-1                                                                                                                     图 1-2

    以下内容来自维基百科:

    解读

    其实能看懂英文也就不用看这段文字了,不过嫌麻烦的话本段文字应该能让你基本读懂!若本人误解某些概念还望各位批评指正!下面开始!

    点间互信息(来自维基百科,免费的百科全书)

    点间互信息或者点互信息是一种用于信息论和统计学中的关联性度量,与点互信息PMI中的互信息MI恰好相反,点互信息PMI是关于单个事件,而互信息MI是关于所有可能事件的平均值。这里解释一下,互信息请参考https://blog.csdn.net/cj151525/article/details/112546901,我们知道互信息的公式为:

    那么我们发现点互信息就是后面这个log,所以PMI是关于单个事件的,而MI是所有点互信息乘以期望p(x,y)累加起来,也就是所有点的点互信息的均值嘛!有点连点成线的感觉。这也就是为什么叫做点互信息的原因吧,妙啊!好啦,接下来继续说:

    定义

    一对离散随机变量 x 和 y 的结果 x 和 y 的 PMI 量化了给定它们联合分布的概率和假设独立的个体分布之间的差异。数学上:

    随机变量 x 和 y 的互信息(MI)是 PMI 的期望值(包括所有可能的结果)。点互信息结果是对称的(pmi(x;y)=pmi(y;x)),它可以取正值或者负值,但是如果X和Y相对独立它就等于0(解释:X与Y独立则p(x,y)=p(x)*p(y),带入上面公式结果为0 )。注意即使PMI可能是负值或者正值,它的所有事件的期望结果互信息MI是正值。当X和Y完全相关时(p(x|y)=1 或者  p(y|x)=1),PMI最大化,因为log函数单调增,概率最大值为1,。界限如下所示:

    最后,如果p(x|y)不变,但是p(x)变小,则pmi(x;y)将变大。

    下面举个栗子说明:(可以理解两个不均匀的硬币A、B各抛掷一次,x=0表示A正面,x=1表示A反面,y=0表示B正面,y=1表示B反面,各抛掷一次得到)

    xyp(xy)
    000.1
    010.7
    100.15
    110.05

     

     

     

     

     

    使用这个表格我们可以边缘化以获得下面附加的表格:

     p(x)p(y)
    00.80.25
    10.20.75

     

     

     

    我们可以计算得到以下四个值:

    pmi(x=0;y=0)=−1
    pmi(x=0;y=1)=0.222392
    pmi(x=1;y=0)=1.584963
    pmi(x=1;y=1)=-1.584963

     

     

     

     

    点间互信息有许多与互信息相同的关系,特别是,

    h(x) 是自信息,公式为-log_{2}p(x)

    Normalized pointwise mutual information (npmi)

    标准点互信息

    点互信息可以被标准化到区间[-1,1]之内,极限值-1表示从未同时出现,0表示独立,1表示完全同时发生。

    这儿 h(x,y)是联合自信息,公式为-log_{x}p(X=x,Y=y)

    应用

    在20世纪90年代计算语言学,PMI 已经被用于寻找词汇之间的搭配和联系。例如,文本语料库中出现和同时出现的词的计数可以用来分别近似概率p (x)和p (x,y)。下表显示了在维基百科(Wikipedia,2015年10月转储)的前5000万个单词中获得最多和最少 PMI 得分的单词对计数,过滤了1000个或更多同时出现的单词。每次计数的频率可以用50,000,952除以。(注意: 本例中使用自然对数基数e来计算 PMI 值,而不是使用对数基数2。

    好的搭配对具有较高的 PMI,因为共现概率仅略低于每个词的共现概率。相反,一对出现概率大大高于同出现概率的单词得到一个较小的 PMI 分值。所以说PMI越大说明两个词共现的频率更大,相关性越大,反之PMI越小两个词共现的概率越低。

    总之,PMI越大越相关,越小越无关。

     

     

    展开全文
  • 互信息(Mutual Information)介绍

    千次阅读 2021-01-23 17:48:09
    在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的...互信息是点间互信息(PMI)的期望值。互信息最常用的单位是bit。 1.互信息的定义  
  • 在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y...
  • 信息论大作业基于互信息的图像配准班级: 金融101学号: 2009302311姓名: 魏泉1. 引言随着医学、计算机技术及生物工程技术的发展,医学影像学为临床诊断提供了多种模态的医学图像,不同的医学图像提供了相关脏器的...
  • 互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。平均互信息量定义: 互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一...
  • 本文介绍两篇基于互信息最大化的图谱预训练模型DGI(ICLR 2019)和InfoGraph(ICLR 2020),介绍模型核心和模型思路,完整汇报ppt获取请关注公众号回复关键字:DGI & InfoGraph 一、背景知识 图谱预训练...
  • 首先介绍几个信息论中的概念。 熵, 表示某个概率分布的不确定度: H(x)=−∑p(x)logp(x) H(x) = - \sum p(x) log p(x) H(x)=−∑p(x)logp(x) 联合熵,两个变量联合分布的不确定度: H(x,y)=∑∑p(x,y)logp(x,y) H...
  • 描述两个概率分布的距离 ????(????|????,p对q的相对熵 D,divergence散度 ????(????||????)=????∈????????????log???????????????? ????(????|????=????????log????????????(????) ????????,只对p求期望...
  • ©作者 | 李加贝单位 | 浙江工商大学研究方向 | 视频文本检索本文介绍三篇来自于北京大学和牛津大学的工作,其思想都主要是利用了最大化互信息这一概念来减小域特征差异的,通过交叉熵损失函数...
  • 给出两个变量和,互信息(MI)被定义为: 其中 是联合概率分布 和边缘概率分布的积 的KL散度。 通常MI是很难计算出的,于是MIM使用如下公式来最大化MI而不是计算准确数值: 其中 和 分别代表正样本的期望和负样本...
  • 「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而...
  • 例如在Excel表格中输入数据时,可以对应输入该职工参加的项目代号(Proj-No),现在需要将这些数据分别装入EMP表和PROJ表,EXCEL与ORACLE的数据传法数据库》(https://www.unjs.com)。数据文件按标准格式存储如下...
  • 基于图像特征和互信息的图像配准方法【专利...(2)利用SIFT方法分别提取两幅图像的特征集合P1和P2,并计算P1和P2之间的互信息NMI1;(3)分别提取两幅图像的轮廓特征,并计算两个轮廓特征之间的互信息NMI2;(4)以NMI...
  • 两个云服务器传数据 内容精选换一换本章节为您介绍以下内容:准备弹性云服务器作为GDS服务器在使用GDS导入导出数据之前,需要准备一台或多台与GaussDB(DWS) 集群在相同VPC内的Linux弹性云服务器(简称ECS),用于...
  • scp是secure copy的简写,用于在Linux下进行远程拷贝文件或目录的命令,基于ssh登陆进行...复制目录 可以看到目录也是直接进行了覆盖,没有提示信息,所以scp使用的时候一定要确定无误再使用,否则容易追悔莫及啊~~~
  • 很明显可以看到,左下角那个有点像三角函数的关系,Pearson系数(就是线性相关系数)为0,而MIC则有0.8...摘自:http://tech.ifeng.com/a/20180323/44917506_0.shtml最大信息系数最大信息系数(MIC)于 2011 年提出,它...
  • 互信息是点间互信息(PMI)的期望值。互信息最常用的单位是bit。 ​ 一般地,两个离散随机变量 X 和 Y 的互信息可以定义为: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HOmvarhq-...
  • 卷友们好,我是rumor。鸽了很久的NLP入门系列终于在我的努力下又更新了。上次聊了分类任务的模型与技巧,今天我们就来聊聊句关系任务。句关系的输入是一对文本,输出是文本的关系。常用的...
  • 文章目录一)信息安全概述(了解即可,考察较少)1.1 信息信息安全1.1.1信息1.1.2 信息技术1.1.3 信息安全1.1.4 信息系统安全1.2 信息安全威胁1.3 信息安全发展阶段与形式1.4 信息安全保障1.4.1 信息安全保障含义...
  • 1.前言CAS全称为Central Authentication Service即中央认证服务,是一个企业多语言单登录的解决方案,并努力去成为一个身份验证和授权需求的综合平台。CAS是由Yale大学发起的一个企业级的、开源的项目,旨在为Web...
  • 信息安全概论知识

    千次阅读 2021-01-02 22:09:22
    第一章概述 1.1信息安全的目标 保证了信息通信的那些方面,和基本概念 1、什么是信息安全? 信息安全是指信息网络的硬件,软件...①网络设计和网络管理方面存在纰漏的原因,无意造成了机密数据的暴露 ②攻击者采用
  • 以前一直想找个机会总结一下进程和线程的通信机制,但由于技术和平台的局限性,一直没有找准切入。由于马上要毕业了,对自己技术的总结和梳理的前提下写了本篇文章,如有错误之处,敬请拍砖和指教。操作系统的主要...
  • 自相关函数与相关函数

    千次阅读 2021-01-16 23:49:31
    1 概念 相关函数是描述信号X(s),Y(t)(这两个信号可以是随机的,也可以是确定的)在任意两个不同时刻s、t... 相关函数分为自相关和相关。 自相关函数是描述随机信号 x(t) 在任意不同时刻 t1,t2 的取值之间的相...
  • Hx=yyshang(sig,10) %———————求一维离散序列信息熵matlab代码 function Hx=yyshang(y,duan) %不以原信号为参考的时间域的信号熵 %输入:maxf:原信号的能量谱中能量最大的 %y:待求信息熵的序列 %duan:待求...
  • 进制间互转一般是无符号的数2.三位二进制的数可以转换成一个八进制的数,四位二进制的数可以转换成一个十六进制数3.十六进制数中的10—15用英文的A、B、C、D、E、F(或a—f)表示2.原码、反码、补码【考法分析】本考点...
  • ⑵项目管理信息系统(PMIS) ⑶专家判断 ⑴管理收尾规程 ⑵合同收尾规程 ⑶最终产品/服务或成果 织过程资产(已更新) 其它知识: 项目章程包括:项目需求;项目目标;干系人的要求;概要的里程碑进度计划;干系...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 43,459
精华内容 17,383
关键字:

点间互信息