精华内容
下载资源
问答
  • 点间互信息(PMI)主要用于计算词语间的语义相似度,基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。两个词语word1与word2的PMI值计算公式如下式所示为: ...
    点间互信息(PMI)主要用于计算词语间的语义相似度,基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。两个词语word1与word2的PMI值计算公式如下式所示为:

    P(word1&word2)表示两个词语word1与word2共同出现的概率,即word1与word2共同出现的文档数, P(word1)与P(word2)分别表示两个词语单独出现的概率,即word出现的文档数。若两个词语在数据集的某个小范围内共现概率越大,表明其关联度越大;反之,关联度越小。P(word1&word2)与P(word1)P(word2)的比值是word1与word2两个词语的统计独立性度量。其值可以转化为3 种状态:
    P(word1&word2) > 0;两个词语是相关的;值越大,相关性越强。 
    P(word1&word2) = 0;两个词语是统计独立的,不相关也不互斥。
    P(word1&word2) < 0;两个词语是不相关的,互斥的。
           情感倾向点互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI)是将PMI方法引入计算词语的情感倾向(Semantic Orientation,简称SO)中,从而达到捕获情感词的目地。基于点间互信息SO-PMI 算法的基本思想是:首先分别选用一组褒义词跟一组贬义词作为基准词,假设分别用Pwords与Nwords来表示这两组词语。这些情感词必须是倾向性非常明显,而且极具领域代表性的词语。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值,就可以根据该差
    值判断词语word1的情感倾向。其计算公式如下式所示:

    通常情况下,将0作为SO-PMI 算法的阀值。由此可以将得到三种状态:
    SO-PMI(word1)  > 0;为正面倾向,即褒义词 
    SO-PMI(word1) = 0;为中性倾向,即中性词
    SO-PMI(word1) < 0;为负面倾向,即贬义词

    参考网址:
    http://blog.csdn.net/fighting_one_piece/article/details/39778809
    http://blog.csdn.net/liugallup/article/details/51164962
    展开全文
  • 在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的...互信息是点间互信息(PMI)的期望值。互信息最常用的单位是bit。 1.互信息的定义  

    在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息是点间互信息(PMI)的期望值。互信息最常用的单位是bit。

    1.互信息的定义

      正式地,两个离散随机变量 X 和 Y 的互信息可以定义为:

      其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。

      在连续随机变量的情形下,求和被替换成了二重定积分

      其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。

      互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底,互信息的单位是bit

      直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

      互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p(x,y) = p(x) p(y),因此:

      此外,互信息是非负的(即 I(X;Y) ≥ 0; 见下文),而且是对称的(即 I(X;Y) = I(Y;X))。

    2.平均互信息量的物理含义

    (1)观察者站在输出端

      H(X/Y) —信道疑义度/损失熵.。Y关于X的后验不确定度。表示收到变量Y后,对随机变量X仍然存在的不确定度。代表了在信道中损失的信息。

      H(X) —X的先验不确定度/无条件熵。

      I(X;Y)—收到Y前后关于X的不确定度减少的量。从Y获得的关于X的平均信息量。

    (2)观察者站在输入端

      H(Y/X)—噪声熵。表示发出随机变量X后, 对随机变量Y仍然存在的平均不确定度。如果信道中不存在任何噪声, 发送端和接收端必存在确定的对应关系, 发出X后必能确定对应的Y, 而现在不能完全确定对应的Y, 这显然是由信道噪声所引起的。

      I(Y;X) —发出X前后关于Y的先验不确定度减少的量。

    (3)观察者站在通信系统总体立场上

      H(XY)—联合熵.表示输入随机变量X, 经信道传输到达信宿, 输出随机变量Y。即收,发双方通信后,整个系统仍然存在的不确定度.

      I(X;Y) —通信前后整个系统不确定度减少量。在通信前把X和Y看成两个相互独立的随机变量, 整个系统的先验不确定度为X和Y的联合熵H(X)+H(Y); 通信后把信道两端出现X和Y看成是由信道的传递统计特性联系起来的, 具有一定统计关联关系的两个随机变量, 这时整个系统的后验不确定度由H(XY)描述。

      以上三种不同的角度说明: 从一个事件获得另一个事件的平均互信息需要消除不确定度,一旦消除了不确定度,就获得了信息。

    3.平均互信息量的性质

    (1)对称性

      I(X;Y)= I(Y;X)

      由Y提取到的关于X的信息量与从X中提取到的关于Y的信息量是一样的。 I(X;Y)和 I(Y;X)只是观察者的立足点不同。

    (2)非负性

      I(X;Y)≥0

      平均互信息量不是从两个具体消息出发, 而是从随机变量X和Y的整体角度出发, 并在平均意义上观察问题, 所以平均互信息量不会出现负值。或者说从一个事件提取关于另一个事件的信息, 最坏的情况是0, 不会由于知道了一个事件,反而使另一个事件的不确定度增加。

    (3)极值性

      I(X;Y)≤H(X)

      I(Y;X)≤H(Y)

      从一个事件提取关于另一个事件的信息量, 至多是另一个事件的熵那么多, 不会超过另一个事件自身所含的信息量。当X和Y是一一对应关系时: I(X;Y)=H(X), 这时H(X/Y)=0。从一个事件可以充分获得关于另一个事件的信息, 从平均意义上来说, 代表信源的信息量可全部通过信道。当X和Y相互独立时: H(X/Y) =H(X), I(Y;X)=0。 从一个事件不能得到另一个事件的任何信息,这等效于信道中断的情况。

    (4) 凸函数性

      平均互信息量是p(xi)和p(yj /xi)的函数,即I(X;Y)=f [p(xi), p(yj /xi)];

      若固定信道,调整信源, 则平均互信息量I(X;Y)是p(xi)的函数,即I(X;Y)=f [p(xi)];

      若固定信源,调整信道, 则平均互信息量I(X;Y)是p(yj /xi)的函数,即I(X;Y)=f [p (yj /xi)]。

      平均互信息量I(X;Y)是输入信源概率分布p(xi)的上凸函数(concave function; or convext cap function)。

      平均互信息量I(X;Y)是输入转移概率分布p(yj /xi)的下凸函数(convext function; or convext cup function)。

    (5)数据处理定理

      串联信道:在一些实际通信系统中, 常常出现串联信道。例如微波中继接力通信就是一种串联信道。信宿收到数据后再进行数据处理, 数据处理系统可看成一种信道, 它与前面传输数据的信道构成串联信道。

      数据处理定理:当消息经过多级处理后,随着处理器数目的增多,输入消息与输出消息之间的平均互信息量趋于变小。即

      I(X;Z)≤I(X;Y)

      I(X;Z)≤I(Y;Z)

      其中假设Y条件下X和Z相互独立。

      两级串联信道输入与输出消息之间的平均互信息量既不会超过第Ⅰ级信道输入与输出消息之间的平均互信息量,也不会超过第Ⅱ级信道输入与输出消息之间的平均互信息量。

      当对信号/数据/消息进行多级处理时, 每处理一次, 就有可能损失一部分信息, 也就是说数据处理会把信号/数据/消息变成更有用的形式, 但是绝不会创造出新的信息。这就是所谓的信息不增原理。

      当已用某种方式取得Y后, 不管怎样对Y进行处理, 所获得的信息不会超过I(X;Y)。每处理一次, 只会使信息量减少, 至多不变。也就是说在任何信息流通系统中, 最后获得的信息量,至多是信源提供的信息。一旦在某一过程中丢失了一些信息, 以后的系统不管怎样处理, 如果不能接触到丢失信息的输入端, 就不能再恢复已丢失的信息。

    4.与其他量的关系

      互信息又可以等价地表示成

      其中H(X)和H(Y) 是边缘,H(X|Y)和H(Y|X)是条件熵,而H(X,Y)是X和Y的联合熵。注意到这组关系和并集、差集和交集的关系类似,用Venn图表示:


      于是,在互信息定义的基础上使用琴生不等式,我们可以证明 I(X;Y) 是非负的,因此H(X)>=H(X|Y),这里我们给出 I(X;Y) = H(Y) - H(Y|X) 的详细推导:

      上面其他性质的证明类似。

      直观地说,如果把熵 H(Y) 看作一个随机变量不确定度的量度,那么 H(Y|X) 就是 X 没有涉及到的 Y 的部分的不确定度的量度。这就是“在 X 已知之后 Y 的剩余不确定度的量”,于是第一个等式的右边就可以读作“Y的不确定度,减去在 X 已知之后 Y 的剩余不确定度的量”,此式等价于“移除知道 X 后 Y 的不确定度的量”。这证实了互信息的直观意义为知道其中一个变量提供的另一个的信息量(即不确定度的减少量)。

      注意到离散情形 H(X|X) = 0,于是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

      互信息也可以表示为两个随机变量的边缘分布 X 和 Y 的乘积 p(x) × p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵

      此外,令 p(x|y) = p(x, y) / p(y)。则

      注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式 

      现在以 Y 为变量。于是互信息也可以理解为相对熵 X 的单变量分布 p(x) 相对于给定 Y 时 X 的条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差异越大,信息增益越大。

    展开全文
  • 根据直方图计算图像互信息

    千次阅读 2018-07-20 14:18:29
    本文根据博客《互信息...网上流传较多的计算图像熵及互信息代码均是通过计算每一个像素灰度值概率实现的,个人认为这种算法与图像熵或互信息原理不符(也可能是因为新手,理解有误),因此编写了一个使用灰度直...

    本文根据博客《互信息图像配准》https://blog.csdn.net/wuxingyu_cs/article/details/50397280,使用opencv对算法进行实现。

    环境:VS2013+OpenCV3.0

    网上流传较多的计算图像熵及互信息代码均是通过计算每一个像素点灰度值概率实现的,个人认为这种算法与图像熵或互信息原理不符(也可能是因为新手,理解有误),因此编写了一个使用灰度直方图计算图像熵与互信息的方法,如有错误,敬请指正。

    废话少说,直接上代码。

    计算图像熵,输入为灰度图像及灰度等级

    double Entorpy(Mat& inputImg,int size)
    {
        MatND dstHist;       
        int dims = 1;
        float hranges[] = { 0, 255 };
        const float *ranges[] = { hranges };   
        int channels = 0;
        calcHist(&inputImg, 1, 0, Mat(), dstHist, dims, &size, ranges);    
        double Ent = 0;
        for (int i = 0; i < 16; i++)
        {
            double value = (double)dstHist.at<float>(i);
            double pr = value / (inputImg.rows*inputImg.cols);
            if (pr > 0)
            {
                Ent -= pr * (log(pr) / log(2.0));//熵
            }
        }
        return Ent;
    }

    计算图像互信息,输入两幅待匹配灰度图像。

    double CoEntorpy(Mat& inputImg1, Mat& inputImg2)
    {
        double CoEnt = 0;
    
        MatND inpuImg1_dstHist, inpuImg2_dstHist;      
        int dims = 1;
        float hranges[] = { 0, 255 };
        const float *ranges[] = { hranges };   
        int size = 64;      //灰度等级
        int channels = 0;
        calcHist(&inputImg1, 1, 0, Mat(), inpuImg1_dstHist, dims, &size, ranges);    
        calcHist(&inputImg2, 1, 0, Mat(), inpuImg2_dstHist, dims, &size, ranges);
    
        for (int i = 0; i < size; i++)
        {
            double inpuImg1_value = (double)inpuImg1_dstHist.at<float>(i);
            double inpuImg1_pr = inpuImg1_value / (inputImg1.rows*inputImg1.cols);
            double inpuImg2_value = (double)inpuImg2_dstHist.at<float>(i);
            double inpuImg2_pr = inpuImg2_value / (inputImg2.rows*inputImg2.cols);
            double pr = (inpuImg1_value + inpuImg2_value) / (inputImg1.rows*inputImg1.cols + inputImg2.rows*inputImg2.cols);
    
            if (pr > 0 && inpuImg1_pr > 0 && inpuImg2_pr > 0)
            {
                CoEnt += pr * (log(pr / (inpuImg1_pr*inpuImg2_pr)) / log(2.0));//熵
            }
        }
    
        return  CoEnt;
    }

     

    展开全文
  •   本文介绍两种聚类评估方法,轮廓系数(Silhouette Coefficient)以及标准化互信息(NMI),并且用Python实现。 导航效果评估综述轮廓系数互信息参考文章 效果评估综述   这里直接贴上 聚类算法初探(七)聚类...
  • 其次,计算语音段带噪语音功率谱,并平滑处理初始噪声功率谱和带噪语音功率谱,更新了噪声功率谱;最后,考虑了某频率处噪声急剧增大的情况,通过计算带噪语音功率谱与噪声功率谱的比值,自适应地调整噪声功率谱...
  • 针对第一个问题,利用统计信息和点间互信息对新词进行挖掘和情感识别,在40万条新浪微博数据中构建了新情感词词典,用于对已有情感词资源的扩充。对于后两个问题,提出了基于词典和规则集的中文微博情感分析方法。...
  • 当笔记中可以建立双向链时,知识-信息点的链接变革已然发生。 (邀请码在文末 ^_^) 去年秋天,美国的两位独立开发者Whilte Sullivan和Joshua Brown推出了第一款双向链笔记RoamResearch,其思路是通过构建笔记...

    当笔记中可以建立双向链时,知识-信息点的链接变革已然发生。

    (邀请码在文末 ^_^)

    去年秋天,美国的两位独立开发者Whilte Sullivan和Joshua Brown推出了第一款双向链笔记RoamResearch,其思路是通过构建笔记间的关联,更好的帮助人们思考问题。一年后,RoamResearch过于极客的设计,和不接地气的价格(165刀/年)多少对国内用户还是有些触不可及。

    swrite互链文档 作为一款面向中文的笔记软件,我们希望可以提供:

    1. 更友好的中文操作体验
    2. 使用更为简单更为广义化的双向链
    3. 结合SmoothNLP全网知识图谱引擎

    首先,双向链的创建更为简单了!

    • 文档间的双向链可以通过简单的拖拽便完成了。

    不会被打断的写作思路 ,很多笔记都提供了[[ ]] 建立超链接的功能,但是点击查看时会去跳转当另一页进行查看,这其实是不利于我们的写作的连贯性,互链文档对于这一点非常看重,所以我们很高兴的加入了侧边栏预览的功能。边看边写更接近于很多用户的日常工作时的习惯。

    不仅可以关联文档,还可以关联任何URL

    • 提供外链的展示,侧边展示的方案不仅局限于内部笔记,也可以展示外部链接,一个URL贴入就可以构建一个信息链。

    不单单是信息的沉淀,还有独家自研的知识图谱搜索引擎!

    • 通过输入关键词,检索全网的知识图谱关系,并再不断拓展,可以帮助用户找到更多创作思路!

    我们希望还可以看的更远

    通过全网构建的知识图谱结合与拓展, 我们希望未来实现的是解决掉自然语言理解的歧义。
    现在搜索时往往找不到自己要的内容,与脱离情境的搜索不无关系,就比如你明明是在给小朋友写童话故事“阿里巴巴”,但是现在的搜索引擎往往会把最近经常浏览的那家电商公司的结果给了你。

    我们甚至还想

    通过全文的知识图谱理解帮你探索更多的世界,当写作时偶尔迸发的新灵感需要了解的信息,可以更好的推荐。
    让知识产生链接,到底有多重要,又会带来什么样的变革,我们也在不断探索中,欢迎和我们一起继续对更多的世界进行链接与探索。

    邀请您体验“SWrite互链文档”
    请点链接:https://www.swrite.cn/?invite_code=A1LU8W

    邀请码:A1LU8W

    -- Knowledge Worth Sharing

     

    展开全文
  • 近日,工业和信息化部发布了关于设立新增国家级互联网...以下为意见原文:国家级互联网骨干直联(以下简称骨干直联)作为国家重要通信枢纽,主要用于汇聚和疏通区域乃至全国网间通信流量,是我国互联网网间互...
  • 微内核结构由一个简单的硬件抽象层和一组比较关键的原语(仅仅为建立系统必须的部分,包括线程管理、地址空间和进程通信)或系统调用组成。 微内核的目标将系统服务的实现和系统的基本操作规则分离开来
  • 应 用 科 基于 学 J a v a ME技术的移动终端设备信息查询系统的设计分析 鲁俊 ( 泰兴中等专业学校江 ...效地实现客户端与服务端 的数据交 , 提 出移动信息 服务框架 , 研发满足个性化需求 的移动客户端 。本文...
  • 摘要:构建了一种新的局部梯度方向直方图,同时定义了特征的主方向,...根据得到的特征信息及旋转角度定义了特征互信息匹配准则,这样使得新配准算法对于图像旋转角度的范围没有限制,获得了良好的配准效果。
  • 通过测试不同速率下人体组织超声影像序列图像运动剧烈程度的相关性,利用超声图像像素差值直方图获取相关信息,根据直方图阈值波动范围调整运动剧烈指标,通过基于方差特性分析帧相关复合,快速实现不同...
  • 针对AP具有相关性,在线阶段提出基于互信息和信息熵的AP选择算法,联合衡量AP子集内所有AP的相关性,搜索包含有效位置信息最多的AP子集。对于AP的区域性问题,离线阶段对参考高斯邻域内原始RSS采样数据进行最小...
  • 针对传统谱聚类算法没有解决簇划分过程中,簇交叉区域样本对聚类效果有影响这个问题,提出...通过在Control等真实数据集上的实验结果表明,该算法在聚类准确率、标准互信息等指标上比较对比算法获得更优秀的效果。
  • 首先,通过小波包分解将并网连接(PCC)处谐波电压、电流的观测信号分成各子带信号,并计算得到各子带的互信息值;然后,选择互信息值最小的子带作为独立子带,并在该子带上通过独立分量分析求得分离矩阵,以实现...
  • 针对现有的Neural-Gas算法进行...在几个数据集上的实验结果表明,该算法在熵、纯度、F1值、rand index、规范化互信息NMI等五个指标上优于K-means算法、Neural-Gas算法等其他几种聚类算法,该算法是一种较好较快的算法。
  • 其次,利用SIFT算法提取关键帧的特征,采用最近邻算法进行特征匹配,通过引导匹配法和投票过滤法提高匹配精度;再次通过RANSAC鲁棒估计算法得到所选帧的单映矩阵,并使用LM非线性迭代算法对单映矩阵进行精炼...
  • 相互合作的两个进程之间需要在某个(些)确定协调它们的工作,一个进程到达了该后,除非另一进程已经完成了某些操作,否则就不得不停下来,等待这些操作的完成。这就是进程的同步。 两个进程由于不能同时使用...
  • 兴起于 90 年代的信息高速公路实现了计算机的互联,孕育出一大批科技巨头。原本应用于高端科研的计算机,因为互联网的引入,新需求和软硬件互为促进,推动了 PC 普及和网页业务迅速发展,是信息时代从无到有的里程...
  • 改进的耦合帐篷映像格子模型继承了耦合帐篷映像格子系统在空间上的并行迭代特征和时间上的耦合扩散机理,格点间采用猫映射作为耦合方式,使不同序列之间的互信息趋近于零。基于此模型设计的伪随机序列发生器能快速...
  • 是一种消除信息不正确称的时代,互联网+作为传统行业的突破,首要的任务就是利用互联网拆除传统行业现有模式下的各种围墙,这一点上。作为传统行业利用互联网技术的时候,或者是传统行业想有所突破的时候,或者是...
  • 和线构成,表示诸多对象的相互联系关系 计算机网络 为了实现资源的共享和信息传递,通过通信线路连接起来的的若干主机(Host) 按照地理范围网络分为 局域网 城域网 广域网 互联网: 万维网:端与端...
  • 利用点互信息从语料中构建了情感词语和评价对象之间的相关性矩阵,采用非负矩阵分解的方法将其分解为情感词语之间的共现矩阵及新的情感词语-评价对象关系矩阵;将关系矩阵结合同义、语素特征,利用标签传播算法进行...
  • etcd本身是可以部署为无中心的多节点备集群,从而消除整个集群的单一故障。在kubeadm的缺省部署下,只在master上运行一个etcd实例(etcd-xxx),可以使用kubectl get pod -n kube-system 查看运行状态。 查看...
  • 碟中谍4中主人公阿汤哥攀爬哈利法塔,从窗户(脆弱)进入位于130层的该塔的数据中心,进入机房完成任务后还要从窗户回到他们所在的房间。计算机硬件设备及其运行环境是计算机网络信息系统运行的基础,它们的安全...
  • 击 关 注 上方"两猿社"设 为"置 顶 或 星 标",干 货 第 一时 送 达。 联 网 猿 | 两 猿 社基础知识日志,由服务器自动创建,并记录运行状态,错误信息,访问数据的文件。同步日志,日志写入函数与工作...
  • 击 关 注 上方"两猿社"设 为"置 顶 或 星 标",干 货 第 一时 送 达。 联 网 猿 | 两 猿 社基础知识日志,由服务器自动创建,并记录运行状态,错误信息,访问数据的文件。同步日志,日志写入函数与工作...
  • 东软项目的主要做的事: 在局域网内实现连个pc 机 的信息互传。 具体的则有 文件传输,表情,日历等功能。 首先,需要说明的是 学校要求使用C 语言。 当然,我们大多数人也是只会使用C 的。 只是这次需要用c 来...
  • 聚类与结构

    2021-01-21 13:24:29
    之间是相似的(相关的),⽽不同组中的对象是不同的(不相关的)。组内相似性越⼤,组差距越 ⼤,说明聚类效果越好。聚类算法是⼀种⽆监督学习,训练样本的标记信息是未知的,其⽬标是通过对 ⽆标记训练样本的...

空空如也

空空如也

1 2 3 4 5 6
收藏数 113
精华内容 45
关键字:

点间互信息