最大熵_最大熵模型 - CSDN
精华内容
参与话题
  • 详解最大熵模型

    万次阅读 多人点赞 2018-08-19 23:25:34
    今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则...

    熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 。今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大

    直观理解 MaxEnt

    在求解概率模型时,当没有任何约束条件则只需找到熵最大的模型,比如预测一个骰子的点数,每个面为 1/6, 当模型有一些约束条件之后,首先要满足这些约束条件, 然后在满足约束的集合中寻找熵最大的模型,该模型对未知的情况不做任何假设,未知情况的分布是最均匀的。举例来说对于随机变量 X ,其可能的取值为 {A,B,C} ,没有任何约束的情况下下,各个值等概率得到的 MaxEnt 模型为:

    当给定一个约束 P(A)=1/2 , 满足该约束条件下的 MaxEnt 模型是:

    如果用欧式空间中的 simplex 来表示随机变量 X 的话,则 simplex 中三个顶点分别代表随机变量 X 的三个取值 A, B, C , 这里定义 simplex  中任意一点 p 到三条边的距离之和(恒等于三角形的高)为 1,点到其所对的边为该取值的概率,比如任给一点 p ,则P(A)等于 p 到  边 BC 的距离,如果给定如下概率:

    分别用下图表示以上两种情况:

    12

    明白了 simplex 的定义之后,将其与概率模型联系起来,在 simplex 中,不加任何约束,整个概率空间的取值可以是 simplex 中的任意一点,只需找到满足最大熵条件的的即可;当引入一个约束条件后,如下图中 (b),模型被限制在表示的直线上,则应在满足约束的条件下来找到熵最大的模型;当继续引入条件后,如图(c),模型被限制在一点上,即此时有唯一的解;当不一致时,如图(d),此时模型无法满足约束,即无解。在 MaxEnt 模型中,由于约束从训练数据中取得,所以不会出现不一致。即不会出现(d) 的情况。

    1

    接下来以统计建模的形式来描述 MaxEnt 模型,给定训练数据 ,现在要通过Maximum Entrop 来建立一个概率判别模型,该模型的任务是对于给定的 X=x 以条件概率分布P(Y|X=x)预测 YY 的取值。根据训练语料能得出 (X,Y) 的经验分布, 得出部分(X,Y)的概率值,或某些概率需要满足的条件,即问题变成求部分信息下的最大熵或满足一定约束的最优解,约束条件是靠特征函数来引入的,首先先回忆一下函数期望的概念

    对于随机变量 X=xi,i=1,2,…,则可以得到:

    随机变量期望: 对于随机变量 XX ,其数学期望的形式为

    随机变量函数期望:若 Y=f(X) ,则关于 XX 的函数 YY 的期望:.

    特征函数

    特征函数f(x,y)描述x与y之间的某一事实,其定义如下:

    特征函数f(x,y)是一个二值函数, 当x与y满足事实时取值为 1 ,否则取值为 0 。比如对于如下数据集:

    1

    数据集中,第一列为 Y ,右边为 X ,可以为该数据集写出一些特征函数,数据集中得特征函数形式如下:

    为每个 <feature,label> 对 都做一个如上的特征函数,用来描述数据集数学化。

    约束条件

    接下来看经验分布,现在把训练数据当做由随机变量 (X,Y) 产生,则可以根据训练数据确定联合分布的经验分布 与边缘分布的经验分布  :

    表示特征函数f(x,y)关于经验分布的期望,可得:

     前面已经得到了,数数f(x,y)的次数就可以了,由于特征函数是对建立概率模型有益的特征,所以应该让 MaxEnt 模型来满足这一约束,所以模型P(Y|X)关于函数 f的期望应该等于经验分布关于 f的期望,模型 P(Y|X)关于 f的期望为:

    经验分布与特征函数结合便能代表概率模型需要满足的约束,只需使得两个期望项相等, 即  :

    上式便为 MaxEnt 中需要满足的约束,给定 nn 个特征函数,则有 n个约束条件,用 C表示满足约束的模型集合:

    从满足约束的模型集合 C 中找到使得 P(Y|X) 的熵最大的即为 MaxEnt 模型了。

    最大熵模型

    关于条件分布 P(Y|X)的熵为:

    首先满足约束条件然后使得该熵最大即可,MaxEnt 模型  为:

    综上给出形式化的最大熵模型:

    给定数据集 ,特征函数 fi(x,y),i=1,2…,n,根据经验分布得到满足约束集的模型集合 C :

     

    MaxEnt 模型的求解

    MaxEnt 模型最后被形式化为带有约束条件的最优化问题,可以通过拉格朗日乘子法将其转为无约束优化的问题,引入拉格朗日乘子:

    , 定义朗格朗日函数 L(P,w):

    现在问题转化为:  ,拉格朗日函数 L(P,w) 的约束是要满足的 ,如果不满足约束的话,只需令,则可得,因为需要得到极小值,所以约束必须要满足,满足约束后可得:  ,现在问题可以形式化为便于拉格朗日对偶处理的极小极大的问题:

    由于 L(P,w)是关于 P 的凸函数,根据拉格朗日对偶可得 L(P,w)的极小极大问题与极大极小问题是等价的:

    现在可以先求内部的极小问题得到的解为关于 w 的函数,可以记做 Ψ(w) :

    上式的解  可以记做:

    由于求解 P的最小值,只需对于 P(y|x) 求导即可,令导数等于 0 即可得到

    由于 ,可得:

    进而可以得到:

    这里 起到了归一化的作用,令  表示 ,便得到了 MaxEnt 模型 :

     

    这里代表特征函数, 代表特征函数的权值,  即为 MaxEnt 模型,现在内部的极小化求解得到关于 w的函数,现在求其对偶问题的外部极大化即可,将最优解记做 :

    所以现在最大上模型转为求解  的极大化问题,求解最优的  后, 便得到了所要求的MaxEnt 模型,将 带入  ,可得:

    以上推倒第二行到第三行用到以下结论:

    倒数第二行到最后一行是由于:,最终通过一系列极其复杂的运算,得到了需要极大化的式子:

    极大化似然估计解法

    这太难了,有没有简单又 work 的方式呢? 答案是有的,就是极大似然估计 MLE 了,这里有训练数据得到经验分布  , 待求解的概率模型 P(Y|X) 的似然函数为:

    将  带入以下公式可以得到:

    我们发现,我们从最大熵的思想出发得出的最大熵模型,最后的最大化求解就是在求P(y|x)的对数似然最大化。逻辑回归也是在求条件概率分布关于样本数据的对数似然最大化。二者唯一的不同就是条件概率分布的表示形式不同。

    显而易见,拉格朗日对偶得到的结果与极大似然得到的结果时等价的,现在只需极大化似然函数即可,顺带优化目标中可以加入正则项,这是一个凸优化问题,一般的梯度法、牛顿法都可解之,专门的算法有GIS IIS 算法。

    《统计学习方法》中有非常详细的使用IIS优化目标函数的过程。

    算法的推导比较麻烦,但思路是清晰的:

     

     

    最大熵模型在分类方法里算是比较优的模型,但是由于它的约束函数的数目一般来说会随着样本量的增大而增大,导致样本量很大的时候,对偶函数优化求解的迭代过程非常慢,scikit-learn甚至都没有最大熵模型对应的类库。但是理解它仍然很有意义,尤其是它和很多分类方法都有千丝万缕的联系。 

           我们总结下最大熵模型作为分类方法的优缺点:

        最大熵模型的优点有:

        a) 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。

        b) 可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度

        最大熵模型的缺点有:

        a) 由于约束函数数量和样本数目有关系,导致迭代过程计算量巨大,实际应用比较难。

    Reference

    [1]https://www.cnblogs.com/ooon/p/5677098.html

    [2]https://www.cnblogs.com/wxquare/p/5858008.html

    [3]https://www.cnblogs.com/pinard/p/6093948.html

    展开全文
  • 图解最大熵原理(The Maximum Entropy Principle)

    万次阅读 多人点赞 2020-06-20 13:19:51
    这个“熵“并不是指热力学上熵的概念,而是由信息论男神克劳德·艾尔伍德·香农(Claude Elwood Shannon )在1948年提出的“信息熵“,用来描述信息的不确定程度。 信息熵公式: 这个听起来很神奇的概念,其实...

    这个“熵“并不是指热力学上熵的概念,而是由信息论男神克劳德·艾尔伍德·香农(Claude Elwood Shannon)在1948年提出的“信息熵“,用来描述信息的不确定程度。

    信息熵公式:
    H=p(x)logp(x), H = - \sum p(x) logp(x), 在这里插入图片描述
    这个听起来很神奇的概念,其实蕴含着最朴素最简洁的思想,看下去你就能体会这一点了。

    先来问个问题,如果给你一颗骰子,你觉得分别掷到1,2,…,6的概率是多少?
    在这里插入图片描述

    我觉得你肯定会立刻就回到我,答案是1/6。

    很好,如果你知道答案是1/6,就说明其实你已经掌握了最大熵原理。

    对于这个骰子问题,我们并不知道它到底是均匀的还是不均匀的,我们唯一知道的条件是1-6出现的总概率总是等于1的。

    我们把这个已知的条件称为“约束条件“。除了约束条件,我们对这个骰子一无所知,所以最符合现实的假设就是这个骰子是个均匀的骰子,每一点出现的概率是一个等概率事件。
    在这里插入图片描述

    所谓的最大熵原理其实就是指包含已知信息,不做任何未知假设,把未知事件当成等概率事件处理。
    在这里插入图片描述

    好,再来看个例子,假设你去参加抽奖活动,有5个盒子ABCDE,奖品就放在这5个盒子中的一个,请问奖品在ABCDE盒子里的概率分别是多少?
    在这里插入图片描述
    其实和骰子问题一样,我们除了知道奖品一定在其中一个盒子里(约束条件),但是对奖品到底在哪个盒子里一点额外的信息都没有,所以只能假设奖品在每个盒子里的概率都是1/5(等概率)。

    这时有个围观抽奖多时的吃瓜群众根据他的观察事实决定给你点提示,他说,奖品在A和B盒子里的概率总共是3/10。
    在这里插入图片描述

    也就是说此时你知道了额外信息:P(A)+P(B)=3/10,你得到了新的约束条件。

    那么这个时候我再问你,奖品分别在各个盒子里的概率是多少呢?

    根据最大熵原理,我们加入新的约束条件,然后继续把剩下的做等概率处理。
    在这里插入图片描述
    虽然P(A)+P(B)=3/10,但是我们并不知道A和B各自的贡献是多少,所以也只能假设它们两个贡献依然是平均的,所以各自就是3/20。

    因为P(A)+P(B)=3/10,所以P©+P(D)+P(E)=7/10,但是我们依然不知道这三者的贡献,所以还是假设它们等概率,因此每一项就是7/30。

    这就是通过最大熵原理处理概率问题了。

    怎么样?是不是很简单?现在你估计要问这种简单的道理为什么还要搞出什么最大熵原理?

    因为只有引入“信息熵“的概率,我们才可以把上述这些个看起来很简单的例子“量化“,然后用它来解决更加复杂的问题。

    现在我们来看看信息熵到底是怎么定义的,(其实就是上面那张香农的图)。一个系统的信息熵其实就是系统中每一个事件的概率乘以log概率,然后把所有事件相加后取负数。

    因为概率总是在0-1之间,所以log后会小于0,取了负号以后熵就是正数了。

    log如果以2为底数的话,信息熵的单位就是比特(bit),以e为底数的话,信息熵的单位就是奈特(nat),以10为底数的话,单位就是哈脱特(hat)。
    在这里插入图片描述

    我们来看一枚硬币的例子,对于一枚均匀硬币,抛一次,正面朝上和背面朝上的概率各为0.5。

    那么它总共的信息熵就是log2,如果以2为底计算话就是1bit的信息熵。
    在这里插入图片描述

    根据我们之前讲过的例子,0.5这个概率应该是满足最大熵原理的(等概率)。

    既然我们已经明确给出了信息熵的定义那么根据这个公式计算的话能不能得到0.5这个概率使系统的熵最大呢?

    换言之,等概率让系统的熵最大到底是不是真的?

    为了验证这一点,我们假设抛硬币出现正面的概率是p,那么出现背面的概率就是1-p(注意,1-p其实就是包含了约束条件,因为两者的总和总是1)。
    在这里插入图片描述
    接下来我们要找到一个p,让H§最大,也就是熵最大。

    求最大也就是求这个函数的极值,学过高数的小伙伴们都知道对于这个问题,求导等于0。也就是说H§’=0的解,函数在这点的值不是最大就是最小。

    我们解方程H§’=0,得到当p=0.5的时候,函数H§达到极值(此时是极大值,你可以代入其它p值,会发现结果比p=0.5的时候小。)。

    所以也就是说p=0.5的时候(等概率),系统的熵最大。
    在这里插入图片描述
    硬币是一个二元系统(一正一反两个概率),我们也可以把这个结论推广到一般情况:对于一个有n个事件的系统,每一个事件发生的概率为pi,唯一已知的约束条件是事件发生的总和等于1。
    在这里插入图片描述

    为了求出满足最大熵的事件概率pi,我们首先构造Lagrange函数:就是把需要满足的约束条件加到H§后(见第二项)。
    在这里插入图片描述

    然后老规矩,求这个函数的极值,还是求导等于0。
    在这里插入图片描述

    求解得到的pi具有未知参数λ(来自约束项),于是我们可以利用约束条件进一步求解。
    在这里插入图片描述

    最终我们会发现,对于一个含有n个事件的系统,熵最大时,事件的概率必然满足等概率。

    所以对于一个符合最大熵原理的掷骰子模型,每一点出现的概率就是1/6,对于一个从5个盒子中抽奖的事件,奖品在每个盒子中的概率就是1/5。

    至此,我们可以发现信息熵的定义的确能够描述并且量化那些生活中看起来很简单但是却总觉得有点说不清楚的问题。

    由于下面要继续用到Lagrange乘子法,所以我们给大家简单解释下这个到底是什么东西。

    对于一般的求极值问题我们都知道,求导等于0就可以了。但是如果我们不但要求极值,还要求一个满足一定约束条件的极值,那么此时就可以构造Lagrange函数,其实就是把约束项添加到原函数上,然后对构造的新函数求导。

    看张图就很容易理解了。

    对于一个要求极值的函数f(x,y),图上的蓝圈就是这个函数的等高图,就是说f(x,y)=C1,C2,…Cn分别代表不同的数值(每个值代表一圈,等高图),我要找到一组(x,y),使它的Ci值越大越好,但是这点必须满足约束条件g(x,y)(在黄线上)。

    也就是说f(x,y)和g(x,y)相切,或者说它们的梯度▽f和▽g平行,因此它们的梯度(偏导)成倍数关系(假设为λ倍)。

    因此把约束条件加到原函数后再对它求导,其实就等于满足了下图上的式子。
    在这里插入图片描述

    大致理解了Lagrange乘子法的意义后,我们来用数学化的信息熵定义解决之前提过的多了一个约束条件的盒子抽奖问题。
    在这里插入图片描述

    为了方便描述,我们用数字12345代替字母ABCDE,因此这个系统中一共有5个概率,分别是p1,p2,p3,p4,p5。

    并且包含两个约束条件:1. 总概率和=1; 2. p1+p2=3/10。
    在这里插入图片描述

    根据之前的解释,为了求解包含约束条件的函数极值,我们构造Lagrange函数:
    在这里插入图片描述

    由于系统中包含两个约束条件,所以添加两项,两个参数λ0,λ1(当有n个约束条件时,就是添加n项,λ0,λ1,…,λn)。

    对概率pi求偏导等于0(首先固定λ0,λ1,假设它们是已知参数):
    在这里插入图片描述

    根据上式,我们可以解得:
    在这里插入图片描述

    之后代入之前构造的Lagrange函数,并对λ求偏导,目的在于寻找使L最大的λ:
    在这里插入图片描述

    最后,我们可以解出:

    这里写图片描述

    结果与我们之前的直观计算结果是相同的,再一次证明,最大熵原理就是对于未知信息的等概率处理。

    好了,至此我觉得你应该已经了解了什么是最大熵原理,并且如何根据最大熵原理处理系统中的概率问题。

    再次强调一下最大熵原理的本质系统中事件发生的概率满足一切已知约束条件,不对任何未知信息做假设,也就是对于未知的,当作等概率处理。

    当使用数学方法计算时,寻找满足系统的熵最大时的事件概率。

    我们之前提过信息熵表示不确定程度,所以熵最大,也就是系统的不确定程度最大,系统中没有任何个人的主观假设。

    以硬币为例,你当然也可以硬币正面出现的概率是0.6,背面是0.4,但是这种假设中就包含了你的个人假设,并不是完全客观的,当然你可以通过后续实验验证你的观点,但是在一开始,在你没有得到任何信息的前提下,假设正面和背面出现的概率各是0.5才是最客观的。

    这里我们只是通过简单的例子让大家理解最大熵原理,在语音处理等领域,很多时候是无法直接通过代入约束条件得到满足极值的解的,也就是说往往当你得到了pi(λ)后(用λ表示的pi)后,便无法继续通过对λ求偏导得到最终pi。

    所以则需要通过迭代算法等数值解法继续求解pi,这里我们就不展开了,有兴趣的小伙伴们可以查阅诸如改进的迭代尺度法和牛顿法等(参考资料)。

    参考资料:

    • 1.《统计学习方法》李航

    • 2.《数学之美》 吴军

    转载自IT愚公的博客

    展开全文
  • 最大熵模型中的数学推导

    万次阅读 多人点赞 2018-06-05 10:15:10
    最大熵模型通俗导论 引言 写完SVM之后,早就想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以一直迟迟未动笔。无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这...

       最大熵模型中的数学推导


    0 引言

        写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔。无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班

        10月26日机器学习班第6次课,邹讲最大熵模型,从熵的概念,讲到为何要最大熵、最大熵的推导,以及求解参数的IIS方法,整个过程讲得非常流畅,特别是其中的数学推导。晚上我把上课PPT 在微博上公开分享了出来,但对于没有上过课的朋友直接看PPT 会感到非常跳跃,因此我打算针对机器学习班的某些次课写一系列博客,刚好也算继续博客中未完的机器学习系列。

       综上,本文结合10月机器学习班最大熵模型的PPT和其它相关资料写就,可以看成是课程笔记或学习心得,着重推导。有何建议或意见,欢迎随时于本文评论下指出,thanks。


    1 预备知识

        为了更好的理解本文,需要了解的概率必备知识有:
    1. 大写字母X表示随机变量,小写字母x表示随机变量X的某个具体的取值;
    2. P(X)表示随机变量X的概率分布,P(X,Y)表示随机变量X、Y的联合概率分布,P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布;
    3. p(X = x)表示随机变量X取某个具体值的概率,简记为p(x);
    4. p(X = x, Y = y) 表示联合概率,简记为p(x,y),p(Y = y|X = x)表示条件概率,简记为p(y|x),且有:p(x,y) = p(x) * p(y|x)。
        需要了解的有关函数求导、求极值的知识点有:
    1. 如果函数y=f(x)在[a, b]上连续,且其在(a,b)上可导,如果其导数f’(x) >0,则代表函数f(x)在[a,b]上单调递增,否则单调递减;如果函数的二阶导f''(x) > 0,则函数在[a,b]上是凹的,反之,如果二阶导f''(x) < 0,则函数在[a,b]上是凸的。
    2. 设函数f(x)在x0处可导,且在x处取得极值,则函数的导数F’(x0) = 0。
    3. 以二元函数z = f(x,y)为例,固定其中的y,把x看做唯一的自变量,此时,函数对x的导数称为二元函数z=f(x,y)对x的偏导数。
    4. 为了把原带约束的极值问题转换为无约束的极值问题,一般引入拉格朗日乘子,建立拉格朗日函数,然后对拉格朗日函数求导,令求导结果等于0,得到极值。

        更多请查看《高等数学上下册》、《概率论与数理统计》等教科书,或参考本博客中的:数据挖掘中所需的概率论与数理统计知识


    2 何谓熵?

        从名字上来看,熵给人一种很玄乎,不知道是啥的感觉。其实,熵的定义很简单,即用来表示随机变量的不确定性。之所以给人玄乎的感觉,大概是因为为何要取这样的名字,以及怎么用。

        熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。

    2.1 熵的引入

        事实上,熵的英文原文为entropy,最初由德国物理学家鲁道夫·克劳修斯提出,其表达式为:

        它表示一个系系统在不受外部干扰时,其内部最稳定的状态。后来一中国学者翻译entropy时,考虑到entropy是能量Q跟温度T的商,且跟火有关,便把entropy形象的翻译成“熵”。

        我们知道,任何粒子的常态都是随机运动,也就是"无序运动",如果让粒子呈现"有序化",必须耗费能量。所以,温度(热能)可以被看作"有序化"的一种度量,而"熵"可以看作是"无序化"的度量。

        如果没有外部能量输入,封闭系统趋向越来越混乱(熵越来越大)。比如,如果房间无人打扫,不可能越来越干净(有序化),只可能越来越乱(无序化)。而要让一个系统变得更有序,必须有外部能量的输入。

        1948年,香农Claude E. Shannon引入信息(熵),将其定义为离散随机事件的出现概率。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以说,信息熵可以被认为是系统有序化程度的一个度量。
        若无特别指出,下文中所有提到的熵均为信息熵。

    2.2 熵的定义

        下面分别给出熵、联合熵、条件熵、相对熵、互信息的定义。
        :如果一个随机变量X的可能取值为X = {x1, x2,…, xk},其概率分布为P(X = xi) = pi(i = 1,2, ..., n),则随机变量X的熵定义为:

        

        把最前面的负号放到最后,便成了:


        上面两个熵的公式,无论用哪个都行,而且两者等价,一个意思(这两个公式在下文中都会用到)。

        联合熵:两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。
        条件熵:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。

        且有此式子成立:H(Y|X) = H(X,Y) – H(X),整个式子表示(X,Y)发生所包含的熵减去X单独发生包含的熵。至于怎么得来的请看推导:

       简单解释下上面的推导过程。整个式子共6行,其中

    • 第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和;
    • 第三行推到第四行的依据是把公因子logp(x)乘进去,然后把x,y写在一起;
    • 第四行推到第五行的依据是:因为两个sigma都有p(x,y),故提取公因子p(x,y)放到外边,然后把里边的-(log p(x,y) - log p(x))写成- log (p(x,y)/p(x) ) ;
    • 第五行推到第六行的依据是:p(x,y) = p(x) * p(y|x),故p(x,y) / p(x) =  p(y|x)。

        相对熵:又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是:

        在一定程度上,相对熵可以度量两个随机变量的“距离”,且有D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q)是必然大于等于0的。

        互信息:两个随机变量X,Y的互信息定义为X,Y的联合分布和各自独立分布乘积的相对熵,用I(X,Y)表示:

        且有I(X,Y)=D(P(X,Y) || P(X)P(Y))。下面,咱们来计算下H(Y)-I(X,Y)的结果,如下:

        通过上面的计算过程,我们发现竟然有H(Y)-I(X,Y) = H(Y|X)。故通过条件熵的定义,有:H(Y|X) = H(X,Y) - H(X),而根据互信息定义展开得到H(Y|X) = H(Y) - I(X,Y),把前者跟后者结合起来,便有I(X,Y)= H(X) + H(Y) - H(X,Y),此结论被多数文献作为互信息的定义。


    3 最大熵

        熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0。如果没有外界干扰,随机变量总是趋向于无序,在经过足够时间的稳定演化,它应该能够达到的最大程度的熵。  
        为了准确的估计随机变量的状态,我们一般习惯性最大化熵,认为在所有可能的概率模型(分布)的集合中,熵最大的模型是最好的模型。换言之,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,其原则是承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。
        例如,投掷一个骰子,如果问"每个面朝上的概率分别是多少",你会说是等概率,即各点出现的概率均为1/6。因为对这个"一无所知"的色子,什么都不确定,而假定它每一个朝上概率均等则是最合理的做法。从投资的角度来看,这是风险最小的做法,而从信息论的角度讲,就是保留了最大的不确定性,也就是说让熵达到最大

    3.1 无偏原则

        下面再举个大多数有关最大熵模型的文章中都喜欢举的一个例子。
        例如,一篇文章中出现了“学习”这个词,那这个词是主语、谓语、还是宾语呢?换言之,已知“学习”可能是动词,也可能是名词,故“学习”可以被标为主语、谓语、宾语、定语等等。
    • 令x1表示“学习”被标为名词, x2表示“学习”被标为动词。
    • 令y1表示“学习”被标为主语, y2表示被标为谓语, y3表示宾语, y4表示定语。
        且这些概率值加起来的和必为1,即 , 则根据无偏原则,认为这个分布中取各个值的概率是相等的,故得到:
        因为没有任何的先验知识,所以这种判断是合理的。如果有了一定的先验知识呢?
        即进一步,若已知:“学习”被标为定语的可能性很小,只有0.05,即,剩下的依然根据无偏原则,可得:
        再进一步,当“学习”被标作名词x1的时候,它被标作谓语y2的概率为0.95,即,此时仍然需要坚持无偏见原则,使得概率分布尽量平均。但怎么样才能得到尽量无偏见的分布?
        实践经验和理论计算都告诉我们,在完全无约束状态下,均匀分布等价于熵最大(有约束的情况下,不一定是概率相等的均匀分布。 比如,给定均值和方差,熵最大的分布就变成了正态分布 )。
        于是,问题便转化为了:计算X和Y的分布,使得H(Y|X)达到最大值,并且满足下述条件:

        因此,也就引出了最大熵模型的本质,它要解决的问题就是已知X,计算Y的概率,且尽可能让Y的概率最大(实践中,X可能是某单词的上下文信息,Y是该单词翻译成me,I,us、we的各自概率),从而根据已有信息,尽可能最准确的推测未知信息,这就是最大熵模型所要解决的问题。

        相当于已知X,计算Y的最大可能的概率,转换成公式,便是要最大化下述式子H(Y|X)

        且满足以下4个约束条件:

    3.2 最大熵模型的表示

        至此,有了目标函数跟约束条件,我们可以写出最大熵模型的一般表达式了,如下:
        其中,P={p | p是X上满足条件的概率分布}
        继续阐述之前,先定义下特征、样本和特征函数。
        特征:(x,y)
    • y:这个特征中需要确定的信息
    • x:这个特征中的上下文信息
        样本:关于某个特征(x,y)的样本,特征所描述的语法现象在标准集合里的分布:(xi,yi)对,其中,yi是y的一个实例,xi是yi的上下文。
        对于一个特征(x0,y0),定义特征函数:

        特征函数关于经验分布在样本中的期望值是:
        其中
        特征函数关于模型P(Y|X)与经验分布P-(X)的期望值为:
        换言之,如果能够获取训练数据中的信息,那么上述这两个期望值相等,即:
        不过,因为实践中p(x)不好求,所以一般用样本中x出现的概率"p(x)-"代替x在总体中的分布概率“p(x)”,从而得到最大熵模型的完整表述如下:

        其约束条件为:

        

        该问题已知若干条件,要求若干变量的值使到目标函数(熵)最大,其数学本质是最优化问题(Optimization Problem),其约束条件是线性的等式,而目标函数是非线性的,所以该问题属于非线性规划(线性约束)(non-linear programming with linear constraints)问题,故可通过引入Lagrange函数将原带约束的最优化问题转换为无约束的最优化的对偶问题

    3.3 凸优化中的对偶问题

        考虑到机器学习里,不少问题都在围绕着一个“最优化”打转,而最优化中凸优化最为常见,所以为了过渡自然,这里简单阐述下凸优化中的对偶问题。

        一般优化问题可以表示为下述式子:

        其中,subject to导出的是约束条件,f(x)表示不等式约束,h(x)表示等式约束。

        然后可通过引入拉格朗日乘子λ和v,建立拉格朗日函数,如下:

        对固定的x,Lagrange函数L(x,λ,v)为关于λ和v的仿射函数。

    3.4 对偶问题极大化的指数解

        针对原问题,首先引入拉格朗日乘子λ0,λ1,λ2, ..., λi,定义拉格朗日函数,转换为对偶问题求其极大化:

        然后求偏导,:

        注:上面这里是对P(y|x)求偏导,即只把P(y|x)当做未知数,其他都是常数。因此,求偏导时,只有跟P(y0|x0)相等的那个"(x0,y0)"才会起作用,其他的(x,y)都不是关于P(y0|x0)的系数,是常数项,而常数项一律被“偏导掉”了。

        令上述的偏导结果等于0,解得:

        进一步转换:

        其中,Z(x)称为规范化因子。

        根据之前的约束条件之一: = 1,所以有

        从而有

        现将求得的最优解P*(y|x)带回之前建立的拉格朗日函数L

        得到关于λ的式子:

        注:最后一步的推导中,把之前得到的结果代入计算即可。

        接下来,再回过头来看这个式子:

        

        可知,最大熵模型模型属于对数线性模型,因为其包含指数函数,所以几乎不可能有解析解。换言之,即便有了解析解,仍然需要数值解。那么,能不能找到另一种逼近?构造函数f(λ),求其最大/最小值?

        相当于问题转换成了寻找与样本的分布最接近的概率分布模型,如何寻找呢?你可能想到了极大似然估计。

    3.5 最大熵模型的极大似然估计

        记得13年1月份在微博上说过:所谓最大似然,即最大可能,在“模型已定,参数θ未知”的情况下,通过观测数据估计参数θ的一种思想或方法,换言之,解决的是取怎样的参数θ使得产生已得观测数据的概率最大的问题。

        举个例子,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。由于没有足够的人力和物力去统计全国每个人的身高,但是可以通过采样(所有的采样要求都是独立同分布的),获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

        极大似然估计MLE的一般形式表示为:

        其中,是对模型进行估计的概率分布,是实验结果得到的概率分布。

        进一步转换,可得:

        

        对上式两边取对数可得:

        因上述式子最后结果的第二项是常数项(因为第二项是关于样本的联合概率和样本自变量的式子,都是定值),所以最终结果为:

        至此,我们发现极大似然估计和条件熵的定义式具有极大的相似性,故可以大胆猜测它们极有可能殊途同归,使得它们建立的目标函数也是相同的。 我们来推导下,验证下这个猜测。

        将之前得到的最大熵的解带入MLE,计算得到(右边在左边的基础上往下再多推导了几步):

        注:其中,且P~(x,y) = P~(x) * P(y|x),  = 1。

        然后拿这个通过极大似然估计得到的结果

             

        跟之前得到的对偶问题的极大化解

       

        只差一个“-”号,所以只要把原对偶问题的极大化解也加个负号,等价转换为对偶问题的极小化解:

        则与极大似然估计的结果具有完全相同的目标函数。

        换言之,之前最大熵模型的对偶问题的极小化等价于最大熵模型的极大似然估计。

        且根据MLE的正确性,可以断定:最大熵的解(无偏的对待不确定性)同时是最符合样本数据分布的解,进一步证明了最大熵模型的合理性。两相对比,熵是表示不确定性的度量,似然表示的是与知识的吻合程度,进一步,最大熵模型是对不确定度的无偏分配,最大似然估计则是对知识的无偏理解。


    4 参数求解法:IIS

        回顾下之前最大熵模型的解:

        其中

        对数似然函数为:

        相当于现在的问题转换成:通过极大似然函数求解最大熵模型的参数,即求上述对数似然函数参数λ 的极大值。此时,通常通过迭代算法求解,比如改进的迭代尺度法IIS、梯度下降法、牛顿法或拟牛顿法。这里主要介绍下其中的改进的迭代尺度法IIS。

        改进的迭代尺度法IIS的核心思想是:假设最大熵模型当前的参数向量是λ,希望找到一个新的参数向量λ+δ,使得当前模型的对数似然函数值L增加。重复这一过程,直至找到对数似然函数的最大值。

        下面,咱们来计算下参数λ 变到λ+δ的过程中,对数似然函数的增加量,用L(λ+δ)-L(λ)表示,同时利用不等式:-lnx ≥1-x , x>0,可得到对数似然函数增加量的下界,如下:

        将上述求得的下界结果记为A(δ | λ),为了进一步降低这个下界,即缩小A(δ | λ)的值,引入一个变量:

        其中,f 是一个二值函数,故f#(x, y)表示的是所有特征(x, y)出现的次数,然后利用Jason不等式,可得:

        我们把上述式子求得的A(δ | λ)的下界记为B(δ | λ):

        相当于B(δ | λ)是对数似然函数增加量的一个新的下界,可记作:L(λ+δ)-L(λ)  >= B(δ | λ)。

        接下来,对B(δ | λ)求偏导,得:

        此时得到的偏导结果只含δ,除δ之外不再含其它变量,令其为0,可得:

        从而求得δ,问题得解。

        值得一提的是,在求解δ的过程中,如果若f#(x,y)=M为常数,则

        否则,用牛顿法解决:

        求得了δ,便相当于求得权值λ,最终将λ 回代到下式中:

        即得到最大熵模型的最优估计。


    5 参考文献

    1. 一堆wikipedia,热力学熵:http://zh.wikipedia.org/zh-mo/%E7%86%B5,信息熵:http://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA),百度百科:http://baike.baidu.com/view/401605.htm;
    2. 熵的社会学意义:http://www.ruanyifeng.com/blog/2013/04/entropy.html
    3. 北京10月机器学习班之邹博的最大熵模型PPThttp://pan.baidu.com/s/1qWLSehI
    4. 北京10月机器学习班之邹博的凸优化PPT:http://pan.baidu.com/s/1sjHMj2d
    5. 《统计学习方法 李航著》;
    6. 最大熵学习笔记:http://blog.csdn.net/itplus/article/details/26549871
    7. 2013年在微博上关于极大似然估计的讨论:http://weibo.com/1580904460/zfUsAgCl2?type=comment#_rnd1414644053228
    8. 极大似然估计:http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html
    9. 数据挖掘中所需的概率论与数理统计知识:http://blog.csdn.net/v_july_v/article/details/8308762
    10. 数学之美系列十六--谈谈最大熵模型:http://www.cnblogs.com/kevinyang/archive/2009/02/01/1381798.html
    展开全文
  • 最大熵模型The Maximum Entropy:模型

    千次阅读 2019-03-20 16:40:32
    最大熵模型相关的基础知识 [概率论:基本概念CDF、PDF ] 熵定义为: [信息论:熵与互信息 ] [最优化方法:拉格朗日乘数法 ] [参数估计:贝叶斯思想和贝叶斯参数估计 ] [参数估计:最大似然估计MLE ] 皮皮blog ...

    http://blog.csdn.net/pipisorry/article/details/52789149

    最大熵模型相关的基础知识

    [概率论:基本概念CDF、PDF ]

    熵定义为:   [信息论:熵与互信息 ]

    [最优化方法:拉格朗日乘数法 ]

    [参数估计:贝叶斯思想和贝叶斯参数估计 ]

    [参数估计:最大似然估计MLE ]

    皮皮blog

     

    最大熵原理和思想

            最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识(即定义的特征函数)时,应该选取符合这些知识但熵值最大的概率分布(而LR模型只是一个特例,特征函数固定为X=x,且p(y|x)为正态分布?)。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时侯,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法做出。

    [北大常宝宝 《自然语言处理的最大熵模型》]

            学习概率模型时,在所有可能的概率模型分布中,熵最大的模型就是最好的模型。“熵最大的模型或者说“等可能性”的模型就是最好的模型”。因为为了准确的估计随机变量的状态,我们一般习惯性最大化熵,认为在所有可能的概率模型(分布)的集合中,熵最大的模型是最好的模型。换言之,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,其原则是承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。例如,投掷一个骰子,如果问"每个面朝上的概率分别是多少",你会说是等概率,即各点出现的概率均为1/6。因为对这个"一无所知"的色子,什么都不确定,而假定它每一个朝上概率均等则是最合理的做法。从投资的角度来看,这是风险最小的做法,而从信息论的角度讲,就是保留了最大的不确定性,也就是说让熵达到最大。

    最大熵模型的直觉示例

            假设随机变量X有5个取值{A, B, C,D, E},要估计各个值的概率P(A), P(B), P(C), P(D), P(E)

             解:

                       这些概率值满足以下约束条件:

                                P(A)+ P(B) + P(C) + P(D) + P(E) = 1

                       在没有其他约束条件的情况下,根据“最大熵原理”,最合理的判断就是所有取值的概率相等,即:

                                P(A)= P(B) = P(C) = P(D) = P(E) = 1/5

                       有时,我们能从一些先验知识中得到一些约束条件,如:

                                P(A)+ P(B) = 3/10

                                P(A)+ P(B) + P(C) + P(D) + P(E) = 1

                       那根据“最大熵原理”,最合理的判断就是所有A和B取值的概率相等,C、D、E平分剩下的概率,即:

                                P(A)= P(B) = 3/20

                                P(C)= P(D) = P(E) = 7/30

                       以此类推。

    约束条件

            通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

    约束的几何解释

    Note: 下面具体解释一个这种限制的几何解释。这里,P是三点上所有可能的概率分布空间。如果我们不施加任何约束(图a),所有概率模型都是允许的。施加一个线性约束C1后,模型被限制在C1定义的区域,如图b示。如果两个约束是可满足的, 施加第二个线性约束后可以准确确定p(c1c2交叉点确定了一个概率分布P),如图c所示。另一种情形是,第二个线性约束与第一个不一致,例如,第一个约束可能需要第一个点的概率是1/3,第二个约束需要第三个点的概率是3/4,图d所示。在目前的设置中,线性约束是从训练数据集中抽取的,不可能手工构造,因此不可能不一致。进一步来说,在我们应用中的线性约束甚至不会接近唯一确定的p,就象图c那样。相反,集合中的模型是无穷的(所以上面也说到“这样的模型仍然有无穷多个”,因此最大熵模型除了约束外,还需要一个特定的熵最大,这个后面会讲到)。

    [几何解释 Adam Berger. A Brief Maxent Tutorial. 1996.]

    [wikipedia: 单纯形]

     

     

    最大熵模型The Maximum Entropy

            最大熵原理是统计学习的一般原理,将它应用到分类得到最大熵模型。

    最大熵模型的问题和任务

    最大熵模型的约束条件

    经验分布及其具体形式

     

    特征函数

     

    特征函数的具体设计

    语言模型(如语音识别)

           Usual features are n-grams, but it is easy to integrate any information source, for example triggers or syntactic features [1].

    [1] R. Rosenfeld, “A maximum entropy approach to adaptive statistical language modeling,” Computer, Speech and Language, vol. 10, pp. 187–228, 1996.

    文本分类

            features are usually initiated as

    特征示例

     

    约束条件(n个)

    Note: 1 :p(x)是近似的:

    2: 有n个特征函数就有n个约束条件:

    最大熵模型熵的定义

    最大熵模型(Maximum Entropy Modeling)

     i. 给定一个训练样本集,我们希望寻找一个分布符合如下两个条件:
      1. 满足已知的约束条件(satisfies the input constraints)
      2. 最大化其不确定性(maximizes the uncertainty)

     

    Note: 到这里,我们还没有给出最大熵模型p(y|x)的求解,只是给出了最大熵模型带有约束的表征形式。下节讲具体形式推导[最大熵模型The Maximum Entropy:学习]。

     

    最大熵模型的评价

           最大熵模型的优点:首先,最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型;其次,最大熵统计模型可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度(即最大熵模型可以使用任意的复杂相关特征,在性能上最大熵分类器超过了Byaes分类器);再次,它还能自然地解决了统计模型中参数平滑的问题。

            最大熵模型的不足:首先,最大熵统计模型中二值化特征只是记录特征的出现是否,而文本分类需要知道特征的强度,因此,它在分类方法中不是最优的;其次,由于算法收敛的速度较慢,所以导致最大熵统计模型它的计算代价较大,时空开销大;再次,数据稀疏问题比较严重。和Byaes分类器一样,有一个共同的缺点:每个词都是单独进行分类的,标记之间的关系无法得到充分利用,具有马尔可夫链的HMM模型可以建立标记之间的马尔 可夫关联性,这是最大熵模型所没有的。

            最大熵模型是适定的well-defined, 即其解存在且唯一。可以利用相对熵和毕达哥拉斯性质等进行证明,在推导学习过程中也可以看出这种证明。[北大常宝宝 《自然语言处理的最大熵模型》]

    最大熵模型和神经网络的区别和联系

            standard neural network language model has a very similar form. The main difference is that the features for this model are automatically learned as a function of the history. Also, the usual features for the ME model are binary, while NN models use continuous-valued features.

    NN LM:

            maximum entropy models are very close to neural network models with no hidden layer. The maximum entropy model can be seen in the context of neural network models as a weight matrix that directly connects the input and output layers.

            In fact, a neural network model with no hidden layer can learn a bigram language model [9], which is similar to what was shown for the maximum entropy models. However, in [9], the memory complexity for bigram model was V^2 , where V is size of the vocabulary. For a trigram model and V around 100k, it would be infeasible to train such model.

    [2011 Mikolov, Tomáš, et al. "Strategies for training large scale neural network language models." ASRU 2011.]

    from: http://blog.csdn.net/pipisorry/article/details/52789149

    ref: [数学之美 吴军]

    [52nlp MIT自然语言处理第五讲:最大熵和对数线性模型(第一部分)]

    [北大常宝宝 《自然语言处理的最大熵模型》]

    [张学文 最大熵方法]

    [最大熵学习笔记]*

    code[最大熵模型介绍及实现]

     

    展开全文
  • 最大熵阈值分割法

    万次阅读 2020-01-18 13:16:53
    (1)什么是熵? 熵是用来衡量一个分布的均匀程度,熵越大,说明分布越均匀。 在信息论中,信息熵可以说明消息的混沌程度,熵越大说明消息越不明了,难以...你现在有的信息仅仅是P1+P2=1而已,按最大熵的思想,既...
  • 熵这个概念在机器学习中被用到的地方很多,例如决策树、最大熵模型等。最大熵模型利用最大熵原理来选择或构建最佳分类器。最大熵模型(MaxEnt)与多元逻辑回归、Softmax等本质上是统一的,而且在最大熵学习算法的...
  • 关于最大熵的解释

    千次阅读 2019-03-25 19:08:00
    最大熵 为了准确的估计随机变量的状态,我们一般习惯性最大化熵,其原则是承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。 无偏原则 下面举个大多数有关最大熵模型的文章中都喜欢举的一个例子。 一...
  • 最大熵模型介绍及实现

    万次阅读 2014-04-29 15:33:19
    最大熵模型介绍 Overview 统计建模方法是用来modeling随机过程行为的。在构造模型时,通常供我们使用的是随机过程的采样,也就是训练数据。这些样本所具有的知识(较少),事实上,不能完整地反映整个随机...
  • 最大熵学习笔记(五)最优化算法

    万次阅读 多人点赞 2014-10-30 23:43:45
    生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。...本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
  • 最大熵学习笔记(三)最大熵模型

    万次阅读 多人点赞 2014-05-22 09:55:10
    生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。...本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
  • 最大熵学习笔记(二)最大熵原理

    万次阅读 多人点赞 2014-05-22 09:54:53
    生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。...本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
  • 最大熵学习笔记(六)优缺点分析

    万次阅读 2014-05-22 09:56:01
    生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。...本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
  • 最大熵学习笔记(一)预备知识

    万次阅读 多人点赞 2014-05-22 09:54:27
    生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。...本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
  • 最大熵学习笔记(四)模型求解

    万次阅读 多人点赞 2014-05-22 09:55:26
    生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。...本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
  • 最大熵学习笔记(零)目录和引言

    万次阅读 多人点赞 2014-05-22 09:53:47
    生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。...本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
  • 最大谱熵功率谱估计

    千次阅读 2016-03-30 17:10:10
    功率谱的最大谱熵估计的核心是对未知的过程进行预测的时候,要保持未知过程的不确定性最大。
  • 最大熵模型与分类器

    千次阅读 2015-12-22 14:42:27
    先推荐两个链接,都是讲最大熵的,强的一批。 http://blog.csdn.net/erli11/article/details/24718655 http://blog.csdn.net/v_july_v/article/details/40508465 最大熵其实也是个用来做分类器的思想,用的是...
  • 最大熵与逻辑回归的等价性

    万次阅读 2015-11-09 19:07:32
    逻辑回归是最大熵对应类别为两类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵。下面会详细的进行证明。 本文只是一个copy版本,内容源自: 首先我们引入一些符号。假定输入是一个n维空间的实数...
  • 最大熵模型通俗理解和例子

    千次阅读 2017-10-11 10:42:10
    最大熵模型是一种综合模型,即我们知道很多关于一个东西的先验知识,然后用最大熵公式计算出来。很类似机器学习中的组合提升模型。  下面举一个最大熵模型的例子。我们看一个拼音转汉字的简单的例子。假如输入的...
  • 最大熵的两个证明

    千次阅读 2011-06-08 18:50:00
    《A maximum entropy approach to natural language processing》这篇论文是最大熵的经典论文。但是这篇论文仍然没有把最大熵模型完全推导出来,有些地方还是直接给的结论,这里补充两个论文中没有给出证明的地方...
1 2 3 4 5 ... 20
收藏数 9,159
精华内容 3,663
关键字:

最大熵