精华内容
下载资源
问答
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程,下一...

            经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对最大熵模型的学习总结。本篇介绍的大纲如下:

    1、逻辑斯蒂分布,logit转换

    2、在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归?

    3、逻辑回归模型的求解过程?

    4、实际应用逻辑回归时数据预处理的经验总结。但经验有限,如果有哪位网友这块经验丰富,忘指教,先谢过

    5、为什么我们在实际中,经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数

    6、从最根本的广义线性模型角度,导出经典线性模型以及逻辑回归


    1、逻辑斯蒂分布,logit转换

     一个连续随机变量X,如果它的分布函数形式如下,则X服从逻辑斯蒂分布,F(x)的值在0~1之间,它的的图形是一条S型曲线

    2、在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归?

          线性回归用于二分类时,首先想到下面这种形式,p是属于类别的概率:

         

          但是这时存在的问题是:

          1)等式两边的取值范围不同,右边是负无穷到正无穷,左边是[0,1],这个分类模型的存在问题

          2)实际中的很多问题,都是当x很小或很大时,对于因变量P的影响很小,当x达到中间某个阈值时,影响很大。即实际中很多问题,概率P与自变量并不是直线关系。

          所以,上面这分类模型需要修整,怎么修正呢?统计学家们找到的一种方法是通过logit变换对因变量加以变换,具体如下:

            

          

            从而,        

           

            这里的P完全解决了上面的两个问题。

    3、逻辑回归模型的求解过程?

          1)求解方式

            逻辑回归中,Y服从二项分布,误差服从二项分布,而非高斯分布,所以不能用最小二乘进行模型参数估计,可以用极大似然估计来进行参数估计。

          2)似然函数、目标函数

            严谨一点的公式如下:

            

            似然函数如下:

            

            对数似然函数,优化目标函数如下:

            

             整个逻辑回归问题就转化为求解目标函数,即对数似然函数的极大值的问题,即最优化问题,可采用梯度下降法、拟牛顿法等等。

    4、实际应用逻辑回归时数据预处理的经验总结,但经验有限,如果有哪位网友这块经验丰富,忘指教,先谢过

          1)枚举型的特征直接进行binary

          2)数值型特征,可以:标准化、根据分布进行binary

          3)进行pairwise

    5、为什么我们在实际中,经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数

          下面公式直接从Ng notes里面复制过来。

         1) 经典线性模型的满足下面等式:

          

           这里有个假设,即最后这个误差扰动项独立同分布于均值为0的正态分布,即:

          

          从而:

          

          由于有上面的假设,从而就有下面的似然函数:

          

          从而这线性回归的问题就可转化为最大化下面的对数似然估计,由于下面公式前面的项是常数,所以这个问题等价于最小化下面等式中的最后一项,即least mean squares。

          

          2)逻辑斯蒂回归中,因变量y不再是连续的变量,而是二值的{0,1},中间用到logit变换,将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线性回归用于分类问题中,也有一个假设(对应于上面回归问题中误差项独立同分布于正态分布),其中h(x)是logistic function

          

          即,给定x和参数,y服从二项分布,上面回归问题中,给定x和参数,y服从正态分布。从而。

          

                

          问题不同(一个是分类、一个是回归)对应假设也就不同,决定了logistic regression问题最优化目标函数是上面这项,而非回归问题中的均方误差LMS。

    6、从最根本的广义线性模型角度,导出经典线性模型以及逻辑回归

         1)指数家族

          

            当固定T时,这个分布属于指数家族中的哪种分布就由a和b两个函数决定。下面这种是伯努利分布,对应于逻辑回归问题

                                       

              注:从上面可知 ,从而,在后面用GLM导logistic regression的时候会用到这个sigmoid函数。

            下面这种是高斯分布,对应于经典线性回归问题

                    

          2)GLM(广义线性模型)

            指数家族的问题可以通过广义线性模型来解决。如何构建GLM呢?在给定x和参数后,y的条件概率p(y|x,θ) 需要满足下面三个假设:

            assum1)      y | x; θ ∼ ExponentialFamily(η).

            assum2)      h(x) = E[y|x]. 即给定x,目标是预测T(y)的期望,通常问题中T(y)=y

            assum3)       η = θTx,即η和x之间是线性的

           3)经典线性回归、逻辑回归

           经典线性回归:预测值y是连续的,假设给定x和参数,y的概率分布服从高斯分布(对应构建GLM的第一条假设)。由上面高斯分布和指数家族分布的对应关系可知,η=µ,根据构建GLM的第2、3条假设可将model表示成:

          
            

            逻辑回归:以二分类为例,预测值y是二值的{1,0},假设给定x和参数,y的概率分布服从伯努利分布(对应构建GLM的第一条假设)。由上面高斯分布和指数家族分布的对应关系可知,,根据构建GLM的第2、3条假设可model表示成:

            

            可以从GLM这种角度理解为什么logistic regression的公式是这个形式~


          参考资料:

          [1] NG的lecture notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf

          [2] 其他网络资源

    展开全文
  • 简要介绍对数正态分布线性矩与分布参数的关系,提出两种可考虑历史洪水的样本线性矩估计公式.统计试验结果表明,估计公式均具有较高精度.从两种估算公式中推荐一种效果更好的供实际频率计算使用,从而解决了具有历史...
  • 对数线性模型log linear model 对数线性模型有:最大熵模型和逻辑斯谛回归。 特征和指示特征 对数线性模型的一般形式 [概率图模型原理与技术] 某小皮 对数线性模型的不同形式 因子图 将因子...

    http://blog.csdn.net/pipisorry/article/details/52788947

    对数线性模型log linear model

    对数线性模型有:最大熵模型和逻辑斯谛回归。

    特征和指示特征

    对数线性模型的一般形式

    [概率图模型原理与技术]

    某小皮

     

     

    对数线性模型的不同形式

    因子图

    将因子转换到对数空间,成为对数线性模型。

    [PGM:无向图模型:马尔可夫网 :对数线性模型]

     

     

    最大熵模型

     

    [最大熵模型The Maximum Entropy:模型] [最大熵模型:学习]

     

     

    逻辑斯谛回归Logistic Regression

    多类分类的LR模型生成的推导:(两类分类更简单,直接类比嘛)

    lz:这里ak是对数表示的,而给定类条件概率密度p(x|ck)如高斯分布时,ak是通常是线性表示的,所以才叫对数线性模型吧。

    因为ak通常可以使用线性表示,所以多类LR模型使用判别式直接定义成:

    lz: 就是把一般形式中的feature特征fi(Di)定义为ak了。

    LR模型的导出

    lz也不知道LR模型怎么来的,不过lz总结了几种都可以解释的方面:

    1 回归模型+logistic函数直接得到

    2 最大熵模型的特例,即直接将特征f(x, y)设为X=x(即在所有X=x的值上搞一个权重w)。

    3 广义线性模型导出[对数线性模型之一(逻辑回归), 广义线性模型学习总结]

    4 生成式模型+高斯形式的类条件概率分布得到

    from: http://blog.csdn.net/pipisorry/article/details/52788947

    ref:

     

    展开全文
  • 基于发声截止频率的对数分布线性回归用于鲁棒语音识别
  • 机器学习篇——对数线性模型

    千次阅读 2018-04-14 15:36:29
    条件概率分布对数线性模型、概率模型)、判别模型 逻辑回归: 概率分布可由广义线性模型推导得到 多分类时,分子部分为:第k类exp(-wk*x+b),第一类为1 分母部分为所有类分子之和,即标准化因子 最大熵模型...

    建议首先看cs229讲的广义线性模型、exponential family(指数分布族)
    对数线性模型包括逻辑回归、最大熵模型和条件随机场等
    1、模型
    条件概率分布(对数线性模型、概率模型)、判别模型
    对数线性模型公式
    逻辑回归:
    概率分布可由广义线性模型推导得到
    多分类时,分子部分为:第k类exp(-wk*x+b),第一类为1
    分母部分为所有类分子之和,即标准化因子
    最大熵模型:
    概率分布由最大熵原理进行建模
    分子部分为:exp(特征函数的加权和)
    分母部分为对分子的标准化因子
    条件随机场:
    概率分布由线性链(简单情况)条件随机场确定
    分子为:这里写图片描述
    分母为:这里写图片描述
    2、策略
    最大似然估计
    注:凡是已知条件概率分布(其实是似然)的模型,一般策略都是最大似然估计,即最小化对数损失函数
    最大似然估计是一种参数估计方法,其他还有最大后验概率(考虑先验的最大似然)、贝叶斯估计(最大后验的基础上进一步增强,分母看做归一化因子,即对分子的积分)最小二乘估计(最小平方估计,最小化误差的平方)等,会在后面总结一节
    3、算法
    对数线性模型参数估计用到的算法即是最大似然估计用的算法,也就是梯度下降法等
    注:条件随机场其他两个问题中,概率用前向-后向算法,预测用维特比算法(同隐马尔科夫模型)
    4、补充
    最大熵模型推导过程:
    一是最大化条件熵
    条件熵等于联合熵减去熵
    二是由特征函数确定约束条件
    特征函数关于(联合概率的经验分布)的期望值等于特征函数关于条件分布(模型)与边缘概率的期望值
    三是建立原始约束最优化问题
    即max最大熵模型
    s.t 约束条件
    四是建立最小最大化原问题
    引入拉格朗日乘子
    五是转化为最大最小化问题
    引入kkt条件
    六是转化为极大似然估计

    展开全文
  • 从线性到非线性模型-对数线性模型

    千次阅读 2018-08-25 17:41:30
    线性到非线性模型 1、线性回归,岭回归,Lasso回归,局部加权线性回归 2、logistic回归,softmax回归,最大熵模型 3、广义线性模型 4、Fisher线性判别和线性感知机 5、三层...

    从线性到非线性模型

    1、线性回归,岭回归,Lasso回归,局部加权线性回归
    2、logistic回归,softmax回归,最大熵模型
    3、广义线性模型
    4、Fisher线性判别和线性感知机
    5、三层神经网络
    6、支持向量机

    code: https://github.com/myazi/myLearn

    二、Logistic回归和SoftMax回归,最大熵模型

    一、Logistic回归

    分类问题可以看作是在回归函数上的一个分类。一般情况下定义二值函数,然而二值函数不易优化,一般采用sigmoid函数平滑拟合(当然也可以看作是一种软划分,概率划分):从函数图像我们能看出,该函数有很好的特性,适合二分类问题。至于为何选择Sigmoid函数,后面可以从广义线性模型推导出Sigmoid函数。

    逻辑回归可以看作是在线性回归的基础上构建的分类模型,理解的角度有多种,最直接的理解是考虑逻辑回归是将线性回归值离散化。即一个二分类问题如下:(二值函数)

    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…

    sigmoid函数

    g ( z ) = 1 1 + e − z , g ‘ ( z ) = g ( z ) ( 1 − g ( z ) ) g(z)=\frac{1}{1+e^{-z}},g^{‘}(z)=g(z)(1-g(z)) g(z)=1+ez1,g(z)=g(z)(1g(z))

    二分类问题属于一种硬划分,即是与否的划分,而sigmoid函数则将这种硬划分软化,以一定的概率属于某一类(且属于两类的加和为1)。Sigmoid函数将线性回归值映射到 [ 0 , 1 ] [0,1] [0,1]区间,从函数图像我们能看出,该函数有很好的特性,适合二分类问题。 因此逻辑回归模型如下:

    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…
    这里对于目标函数的构建不再是最小化函数值与真实值的平方误差了,按分类原则来讲最直接的损失因该是0-1损失,即分类正确没有损失,分类错误损失计数加1。但是0-1损失难以优化,存在弊端。结合sigmoid函数将硬划分转化为概率划分的特点,采用概率$h_{\theta}(x^{(i)}) $的对数损失(概率解释-N次伯努利分布加最大似然估计),其目标函数如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

    同样采用梯度下降的方法有:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    又:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    所以有:
    θ j = θ j − α ( y ( i ) − h θ ( x ( i ) ) ) x \theta_{j}=\theta_{j}-\alpha \left(y^{(i)}-h_{\theta}(x^{(i)})\right)x θj=θjα(y(i)hθ(x(i)))x

    概率解释

    逻辑回归的概率解释同线性回归模型一致,只是假设不再是服从高斯分布,而是 p ( y ∣ x ; θ ) p\left ( y|x;\theta \right ) p(yx;θ)服从0-1分布,由于 ,假设随机变量y服从伯努利分布是合理的 。即:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    所以最大化似然估计有:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

    logistic采用对数损失原因

    采用对数损失的原因有二:

    ​ 1)从概率解释来看,多次伯努利分布是指数的形式。由于最大似然估计导出的结果是概率连乘,而概率(sigmoid函数)恒小于1,为了防止计算下溢,取对数将连乘转换成连加的形式,而且目标函数和对数函数具备单调性,取对数不会影响目标函数的优化值。

    ​ 2)从对数损失目标函数来看,取对数之后在求导过程会大大简化计算量。

    二、SoftMax回归

    Softmax回归可以看作是Logistic回归在多分类上的一个推广。考虑二分类的另一种表示形式:

    [ k 1 , 1 − k 1 ] → [ k 1 k 2 ] \left [ k_{1},1-k_{1} \right ]\rightarrow \begin{bmatrix} k_{1}\\ k_{2} \end{bmatrix} [k1,1k1][k1k2]
    当logistic回归采用二维表示的话,那么其损失函数如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    其中,在逻辑回归中两类分别为 k 1 k_{1} k1 1 − k 1 1-k_{1} 1k1,二在softmax中采用 k 1 , k_{1}, k1 k 2 k_{2} k2两个随机变量组成二维向量表示,当然隐含约束 k 1 + k 2 = 1 k_{1}+k_{2}=1 k1+k2=1.为了更好的表示多分类问题,将 y ∈ { 1 , 2 , . . K } y\in \left \{ 1,2,..K \right \} y{1,2,..K}(不一定理解为y的取值为k,更应该理解为y可以取k类)多分类问题进行如下表示。
    T ( k ) = [ 0 0 . 1 . 0 ] T(k)=\begin{bmatrix} 0\\ 0\\ .\\ 1\\ .\\ 0 \end{bmatrix} T(k)=00.1.0
    其中向量的第k位为1,其他位为0,也就是当 y = k y=k y=k 时将其映射成向量时对应第k位为1。采用多维表示之后,那么对于每一维就变成了一个单独的二分类问题了,所以softmax函数形式如下:
    h θ ( x ( i ) ) = 1 ∑ k = 1 K e x p ( θ k T x ( i ) ) [ e x p ( θ k T x ( i ) ) e x p ( θ k T x ( i ) ) . e x p ( θ k T x ( i ) ) ] h_{\theta}(x^{(i)})=\frac{1}{\sum_{ k=1}^{K}exp\left ( \theta _{k}^{T}x^{(i)} \right )}\begin{bmatrix} exp\left ( \theta _{k}^{T}x^{(i)} \right )\\ exp\left ( \theta _{k}^{T}x^{(i)} \right )\\ .\\ exp\left ( \theta _{k}^{T}x^{(i)} \right ) \end{bmatrix} hθ(x(i))=k=1Kexp(θkTx(i))1exp(θkTx(i))exp(θkTx(i)).exp(θkTx(i))
    其中函数值是一个 K K K维的向量,同样采用对数损失(多项式分布和最大似然估计),目标函数形式是logistic回归的多维形式。
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    其中 y i k y^{ik} yik表示第 i i i个样本的标签向量化后第k维的取值0或者1.可以看出Softmax的损失是对每一类计算其概率的对数损失,而logistic回归是计算两类的回归,其本质是一样。Logistic回归和Softmax回归都是基于线性回归的分类模型,两者无本质区别,都是从二项分布和多项式分布结合最大对数似然估计。只是Logistic回归常用于二分类,而Softmax回归常用于多分类。而且Logistic回归在考虑多分类时只考虑n-1类。

    概率解释

    ​ 二分类与多分类可以看作是N次伯努利分布的二项分布到多项分布的一个推广,概率解释同Logistic回归一致。详细解释放到广义线性模型中。

    二分类转多分类思想

    对于多分类问题,同样可以借鉴二分类学习方法,在二分类学习基础上采用一些策略以实现多分类,基本思路是“拆解法”,假设N个类别 C 1 , C 2 , . C i . , C n C_{1},C_{2},.C_{i}.,C_{n} C1,C2,.Ci.,Cn,经典的拆分算法有“一对一”,“一对多”,“多对多”,

    一对一的基本思想是从所有类别中选出两类来实现一个两分类学习器,即学习出 C N 2 = N ( N − 1 ) / 2 C_{N}^{2}=N(N-1)/2 CN2=N(N1)/2个二分类器,然后对新样本进行预测时,对这 C N 2 C_{N}^{2} CN2个分类器进行投票最终决定属于那一类。

    一对多的基本思想是把所有类别进行二分类,即属于 C i C_{i} Ci类和非 C i C_{i} Ci两类,这样我们就需要N个分类器,然后对新样本进行预测时,与每一个分类器比较,最终决定属于哪一类。这其实就是Softmax的思想,也是SVM多分类的思想。

    //多对多的基本思想是

    三、最大熵模型

    ​ 很奇怪,为什么会把最大熵模型放到这,原因很简单,它和Logistic回归和SoftMax回归实在是惊人的相似,同属于对数线性模型。

    熵的概念

    这里写图片描述

    信息熵:熵是一种对随机变量不确定性的度量,不确定性越大,熵越大。若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布 。

    假设离散随机变量X的概率分布为 P ( X ) P(X) P(X),则其熵为:
    H ( X ) = − ∑ x P ( x ) l o g P ( x ) H(X)=-\sum_{x}P(x)logP(x) H(X)=xP(x)logP(x)
    其中熵满足不等式 0 ≤ H ( P ) ≤ l o g ∣ X ∣ 0\leq H(P) \leq log|X| 0H(P)logX

    联合熵:对于多个随机变量的不确定性可以用联合熵度量

    假设离散随机变量 X , Y X,Y X,Y的联合概率分布为 P ( X , Y ) P(X,Y) P(X,Y),则其熵为:
    H ( X , Y ) = − ∑ x ∑ y P ( x , y ) l o g P ( x , y ) H(X,Y)=-\sum_{x}\sum_{y}P(x,y)logP(x,y) H(X,Y)=xyP(x,y)logP(x,y)
    条件熵:在给定条件下描述随机变量的不确定性

    假设离散随机变量 X , Y X,Y X,Y,在给定 Y Y Y的条件下 X X X的不确定性为条件熵H(X|Y),也就等于 H ( X , Y ) − H ( Y ) H(X,Y)-H(Y) H(X,Y)H(Y)
    H ( X ∣ Y ) = − ∑ x , y P ( x , y ) l o g ( P ( x ∣ y ) ) H(X|Y)=-\sum_{x,y}P(x,y)log(P(x|y)) H(XY)=x,yP(x,y)log(P(xy))
    互信息:衡量两个随机变量相关性的大小 I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y)=H(X)+H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y)
    I ( X , Y ) = − ∑ x , y P ( x , y ) l o g P ( x , y ) P ( x ) P ( y ) I(X,Y)=-\sum_{x,y}P(x,y)log\frac{P(x,y)}{P(x)P(y)} I(X,Y)=x,yP(x,y)logP(x)P(y)P(x,y)
    相对熵(KL散度):衡量对于同一个随机变量两个概率分布 p ( x ) , q ( x ) p(x),q(x) p(x),q(x)的差异性
    D ( p ∣ ∣ q ) = ∑ x p ( x ) l o g p ( x ) q ( x ) = E p ( x ) l o g p ( x ) q ( x ) D(p||q)=\sum_{x}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)} D(pq)=xp(x)logq(x)p(x)=Ep(x)logq(x)p(x)
    有互信息和相对熵的定义有下式:
    I ( X , Y ) = D ( P ( X , Y ) ∣ ∣ P ( X ) P ( Y ) ) I(X,Y)=D(P(X,Y)||P(X)P(Y)) I(X,Y)=D(P(X,Y)P(X)P(Y))
    关于熵的介绍就到此,不细究,虽然上面的这些定义在机器学习中都会遇到,不过后面涉及到的主要还是熵和条件熵。

    最大熵模型

    最大熵原理是概率模型学习中的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型分布中(满足所有条件下),熵最大的模型是最好的模型。熵最大即为最均匀的分布,从某种角度讲 均匀分布总是符合我们理解的损失风险最小,也就是“不要不所有的鸡蛋放到一个篮子里,均匀的放置”。

    给定训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) . . ( x m , y m ) } T=\{ (x_{1},y_{1}),(x_{2},y_{2})..(x_{m},y_{m})\} T={(x1,y1),(x2,y2)..(xm,ym)},假设 X ∈ χ ⊆ R n X \in \chi \subseteq R^{n} XχRn表示输入, y ∈ ϕ y\in \phi yϕ表示输出,分类模型是一个以条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)输出 Y Y Y,也就是说在满足条件的所有可能集中,条件熵 P ( Y ∣ X ) P(Y|X) P(YX)最大的模型即为最好的模型。其中条件为隐藏在数据的期望。

    一般来讲,最大熵模型常用于处理离散化数据集,定义随机变量 X , Y X,Y X,Y的特征模板,从数据中统计他们的期望作为最大熵模型的条件

    特征函数:
    f ( x , y ) = { 1 , x , y 满 足 某 一 事 实 0 , 否 则 f(x,y)=\left\{\begin{matrix} 1,x,y满足某一事实\\ 0,否则 \end{matrix}\right. f(x,y)={1xy0
    约束条件:对于任意的特征函数 f f f,我们可以统计其在数据中的经验分布 P ~ ( x , y ) \widetilde{P}(x,y) P (x,y)的期望
    E p ~ ( f ) = ∑ x , y P ~ ( x , y ) f ( x , y ) E_{\widetilde{p}}(f)=\sum_{x,y}\widetilde{P}(x,y)f(x,y) Ep (f)=x,yP (x,y)f(x,y)
    特征函数 f f f关于模型 P ( Y ∣ X ) P(Y|X) P(YX)和先验 P ~ ( X ) \widetilde{P}(X) P (X)的期望
    E p ( f ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) f ( x , y ) E_{p}(f)=\sum_{x,y}\widetilde{P}(x)P(y|x)f(x,y) Ep(f)=x,yP (x)P(yx)f(x,y)
    所以,满足约束条件的模型集合为:
    Ω ≡ { P ∈ P ∣ E p ( f i ) = E p ~ ( f i ) , i = 1.. n } \Omega \equiv \{ P\in \boldsymbol{P}| E_{p}(f_{i})=E_{\widetilde{p}}(f_{i}),i=1..n\} Ω{PPEp(fi)=Ep (fi),i=1..n}
    因此最大熵模型的形式化表示如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…
    由拉格让日乘子法,引入拉格让日乘子,定义拉格让日函数:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    根据拉格朗日乘子法, L ( P ) ≥ L ( P , w ) L(P) \geq L(P,w) L(P)L(P,w),当且仅当满足拉格朗日乘子法的所有必要条件等式成立,原问题也就是一个最小化最大问题
    min ⁡ P ∈ C max ⁡ w L ( P , w ) \min_{P \in C}\max_{w}L(P,w) PCminwmaxL(P,w)
    对偶问题是:
    max ⁡ w min ⁡ P ∈ C L ( P , w ) \max_{w} \min_{P \in C}L(P,w) wmaxPCminL(P,w)
    求解对偶问题,第一步最小化内部 min ⁡ P ∈ C L ( P , w ) \min_{P \in C}L(P,w) minPCL(P,w) min ⁡ P ∈ C L ( P , w ) \min_{P \in C}L(P,w) minPCL(P,w)是我们需要求解的模型,也是关于 w w w的函数。将模型的最优解记为 P w P_{w} Pw
    P w = a r g max ⁡ P ∈ C L ( P , w ) = P w ( y ∣ x ) P_{w}=arg\max_{P \in C}L(P,w)=P_{w}(y|x) Pw=argPCmaxL(P,w)=Pw(yx)
    那么外层最大化目标函数为:
    max ⁡ w Φ ( w ) Φ ( w ) = min ⁡ p ∈ C L ( P , w ) = L ( P w , w ) \max_{w}\Phi(w)\\ \Phi(w)=\min_{p \in C}L(P,w)=L(P_{w},w) wmaxΦ(w)Φ(w)=pCminL(P,w)=L(Pw,w)
    为了求解 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),根据KKT条件对 P ( y ∣ x ) P(y|x) P(yx)求偏导:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    求解得:
    P ( y ∣ x ) = e x p ( ∑ i w i f i ( x , y ) + w 0 − 1 ) = ( e x p ∑ i w i f i ( x , y ) ) e x p ( 1 − w 0 ) P(y|x)=exp\left( \sum_{i} w_{i}f_{i}(x,y) +w_{0}-1 \right)=\frac{ \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)}{exp(1-w_{0})} P(yx)=exp(iwifi(x,y)+w01)=exp(1w0)(expiwifi(x,y))
    这里,虽然我们不知道 w 0 w_{0} w0,但是由于 ∑ y P ( y ∣ x ) = 1 \sum_{y}P(y|x)=1 yP(yx)=1,所以分母一定是对 y y y的所有可能的归一化因子
    P w ( y ∣ x ) = 1 z w ( x ) ( e x p ∑ i w i f i ( x , y ) ) z w ( x ) = ∑ y e x p ( ∑ i w i f i ( x , y ) ) P_{w}(y|x)=\frac{1}{z_{w}(x)} \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)\\ z_{w}(x)=\sum_{y}exp(\sum_{i}w_{i}f_{i}(x,y)) Pw(yx)=zw(x)1(expiwifi(x,y))zw(x)=yexp(iwifi(x,y))
    到此,内部最小化求解得到了 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),回到外部目标 max ⁡ w Φ ( w ) \max_{w}\Phi(w) maxwΦ(w),将 P w ( y ∣ x ) P_{w}(y|x) Pw(yx)代回拉格朗日函数有:
    Φ ( w ) = ∑ x , y P ~ ( x ) P w ( y ∣ x ) l o g P w ( y ∣ x ) + ∑ i = 1 n w i ( ∑ x , y P ~ ( x , y ) f ( x , y ) − ∑ x , y P ~ ( x ) P w ( y ∣ x ) f ( x , y ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x , y P ~ ( x ) P w ( y ∣ x ) ( l o g P w ( y ∣ x ) − ∑ i = 1 n w i f i ( x , y ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x , y P ~ ( x ) P w ( y ∣ x ) l o g Z w ( x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x P ~ ( x ) l o g Z w ( x ) ∑ y P w ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x P ~ ( x ) l o g Z w ( x ) \begin{aligned} \Phi(w) &=\sum_{x,y}\widetilde{P}(x)P_w(y|x)logP_w(y|x) + \sum^n_{i=1}w_i\left (\sum_{x,y}\widetilde{P}(x ,y)f(x,y) -\sum_{x,y}\widetilde{P}(x)P_w(y|x)f(x,y) \right )\\ &= \sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\widetilde{P}(x)P_w(y|x)\left (logP_w(y|x) - \sum_{i=1}^nw_if_i(x,y) \right) \\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\widetilde{P}(x)P_w(y|x)logZ_w(x)\\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\widetilde{P}(x)logZ_w(x)\sum_yP_w(y|x)\\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\widetilde{P}(x)logZ_w(x)\\ \end{aligned} Φ(w)=x,yP (x)Pw(yx)logPw(yx)+i=1nwi(x,yP (x,y)f(x,y)x,yP (x)Pw(yx)f(x,y))=x,yP (x,y)i=1nwifi(x,y)+x,yP (x)Pw(yx)(logPw(yx)i=1nwifi(x,y))=x,yP (x,y)i=1nwifi(x,y)+x,yP (x)Pw(yx)logZw(x)=x,yP (x,y)i=1nwifi(x,y)+xP (x)logZw(x)yPw(yx)=x,yP (x,y)i=1nwifi(x,y)+xP (x)logZw(x)
    因此, max ⁡ w Φ ( w ) \max_{w} \Phi(w) maxwΦ(w)的最优解为:
    w ∗ = a r g max ⁡ w Φ ( w ) w^* = arg \max_w \Phi(w) w=argwmaxΦ(w)
    代回 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),我们可以得到最终的分类模型,同样我们发现最大熵模型也是一个对数线性模型。

    概率解释:

    已知训练集的经验概率分布 P ~ ( x , y ) \widetilde{P}(x,y) P (x,y),条件概率分布 P ( y ∣ x ) P(y|x) P(yx)的对数似然函数为:
    L P ~ ( P w ) = l o g ∏ x , y P ( y ∣ x ) P ~ ( x , y ) = ∑ x , y P ~ ( x , y ) l o g P ( y ∣ x ) L_{\widetilde{P}}(P_w) = log\prod_{x,y}P(y|x)^{\widetilde{P}(x,y)} = \sum_{x,y}\widetilde{P}(x,y)logP(y|x) LP (Pw)=logx,yP(yx)P (x,y)=x,yP (x,y)logP(yx)
    其中,我们发现对数似然函数与条件熵的形式一致,最大熵模型目标函数前面有负号(这与最大化对数似然函数完全相反),同时最大熵模型中有约束条件。也正是因为约束条件,我们将原问题转化为对偶问题后发现,在满足约束条件的对偶函数的极大化等价于最大化对数似然函数。

    当条件概率 P ( y ∣ x ) P(y|x) P(yx)满足约束条件,在对偶问题求解过程中我们有:
    P w ( y ∣ x ) = 1 z w ( x ) ( e x p ∑ i w i f i ( x , y ) ) z w ( x ) = ∑ y e x p ( ∑ i w i f i ( x , y ) ) P_{w}(y|x)=\frac{1}{z_{w}(x)} \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)\\ z_{w}(x)=\sum_{y}exp(\sum_{i}w_{i}f_{i}(x,y)) Pw(yx)=zw(x)1(expiwifi(x,y))zw(x)=yexp(iwifi(x,y))
    代入到对数似然函数,同样有:
    L P ~ ( P w ) = ∑ x , y P ~ ( x , y ) l o g P ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ( ∑ i = 1 n w i f i ( x , y ) − l o g Z w ( x ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y P ~ ( x , y ) l o g Z w ( x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) \begin{aligned} L_{\widetilde{P}}(P_w) &= \sum_{x,y}\widetilde{P}(x,y)logP(y|x)\\ &= \sum_{x,y}\widetilde{P}(x,y)\left ( \sum_{i=1}^n w_if_i(x,y) -logZ_w(x)\right )\\ &= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x,y}\widetilde{P}(x,y)logZ_w(x)\\ &= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x}\widetilde{P}(x)logZ_w(x)\\ \end{aligned} LP (Pw)=x,yP (x,y)logP(yx)=x,yP (x,y)(i=1nwifi(x,y)logZw(x))=x,yP (x,y)i=1nwifi(x,y)x,yP (x,y)logZw(x)=x,yP (x,y)i=1nwifi(x,y)xP (x)logZw(x)
    最后,我们再来看对偶函数表达式,我们发现,第一项其实是 X , Y X,Y X,Y的联合熵 H ( X , Y ) H(X,Y) H(X,Y),第二项是X的信息熵 H ( X ) H(X) H(X),回看熵的示意图,我们发现,我们最大化的目标还是条件熵 H ( Y ∣ X ) H(Y|X) H(YX)

    这里写图片描述

    下面再来对比下Logistic回归,SoftMax回归,最大熵模型

    1)同属于对数线性模型

    2)Logistic回归和SoftMax回归都基于条件概率 P ( y ∣ x ) P(y|x) P(yx)满足一个伯努利分布,N重伯努利分布,而最大熵模型以期望为准,没有该假设

    3)由于都采用线性模型,三者都假设特征之间是独立的

    最大熵模型的优化问题

    最大熵模型从拉格朗日乘子法最大化对偶函数,还是从最大化对数似然函数,其目标函数如下:
    L P ~ ( P w ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) L_{\widetilde{P}}(P_w)= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x}\widetilde{P}(x)logZ_w(x)\\ LP (Pw)=x,yP (x,y)i=1nwifi(x,y)xP (x)logZw(x)
    常用的梯度优化算法都可以,另外对于最大熵模型也有专门的算法有GIS IIS 算法 。

    展开全文
  • 线性回归 高斯曲线 对数正态分布

    千次阅读 2013-12-28 23:14:44
    线性回归  回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则...
  • MIT自然语言处理第五讲:最大熵和对数线性模型(第一部分) 自然语言处理:最大熵和对数线性模型 Natural Language Processing: Maximum Entropy and Log-linear Models  作者:Regina Barzilay...
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对...
  •  经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson...对数线性模型里有:logistic regression、Maxi
  • skew-t 误差的对数线性模型可用于将总销售额(以千美元计)建模为员工人数和总资产(以千美元计)的函数,并且是通过比较具有误差项的几个对数线性模型之间的 Akaike 信息标准而获得的,这些误差项是具有偏斜分布的...
  • 跟着博主的脚步,每天进步一点点本文介绍对数线性分类模型,在线性模型的基础上通过复合函数(sigmoid,softmax,entropy )将其映射到概率...
  • 对数线性模型(Logistic回归算法)

    千次阅读 2017-09-07 19:42:37
    1.Logistic分布: logistic分布定义:设X是连续随机变量,X服从logistic分布,即为X具有下列分布函数和密度函数:   其中,mu为位置参数,r>0为形状参数; logistic分布分布函数F(x)的图形与密度函数f(x)的图形...
  • 为了研究煤矿井下疏放水钻孔水量的分布规律,利用直方图、Q-Q图和非参数检验法对典型工作面疏放水钻孔水量进行了对数正态分布模型的检验,并进行了非线性回归模型的拟合,结合工作面水文地质条件,对模型中的参数...
  • 当然,在考虑到一些协变量的情况下,应该考虑使用适当的族对成本的分布进行建模。以下是我们将使用的数据集, > sinistre=read.table("http://freakonometrics.free.fr/sinistreACT2040.txt", + header=TRUE,.....
  • 对数正态分布 关于对数正态分布的几个关键点: 当变化是由加和在一起的多个散点来源引起时,就会出现高斯分布。相反,变化是由于多个乘法的多个散点来源引起时, 出现对数正态分布对数正态分布中的...
  • 本文研究了垄断卖方应如何为买方具有对数正态分布的支付意愿(WTP)的三级价格歧视应用程序确定最优的定价变量集(定价指标)。 在非常类似于线性回归和概率回归的设置中,本文表明,当垄断卖方被限制使用一种度量...
  • %from this on ...%对数正态分布密度函数 x=(0:0.02:6)*1e4; y=fun([3e5,8.3,0.6],x)+rand(size(x)).*exp(-(x/2e4).^2)*20; %原来你的图可能是用hist(data,n)画出来的 %就是将data数据分n个...
  • Glauber的相干态理论的基础上,合理假设这组解在非线性介质中呈泊松分布,进而得到了在对数饱和非线性介质中存在高斯孤子的结论,并获得高斯孤子解、非线性系数与泊松参量三者之间的关系。该关系说明,若在介质中存在...
  • 对数分布的置信区间的R语言代码

    千次阅读 2021-02-21 23:52:39
    对数正态分布的几个性质及其参数估计[J].廊坊师范学院学报(自然科学版),2011,11(05):8-11. 代码 #对数分布的置信区间 #sigma已知u的1-α置信区间 duishuci1 <-function(n,mu,sigma,alpha) { x=rlnorm(n,mu,...
  • 使用C++、opencv实现对图像的对数变换及非线性变换,实现图像增强 相关API: void normalize(InputArray src, OutputArray dst, double alpha=1, double beta=0, int norm_type=NORM_L2, int dtype=-1, Input...
  • r 是变换前的像素,此后讨论的线性变换、 分段线性变换、 对数变换、 反对数变换、 幂律(伽马)变换均是基于此公式为基础进行的,因此图像灰度变换便是基于点的增强方式,它将每一个像素的灰度值按照一定的数学变换...
  • 基于sklearn的线性分类器logistics(对数几率回归)Python实现 声明:本人小白,文章作为自己的学习参考资料,供大家学习交流 本文章 refer to 作者:月见樽 链接:https://www.jianshu.com/p/f9cb59dc99ec 来源:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 34,061
精华内容 13,624
关键字:

对数线性分布