精华内容
下载资源
问答
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程,下一...

            经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对最大熵模型的学习总结。本篇介绍的大纲如下:

    1、逻辑斯蒂分布,logit转换

    2、在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归?

    3、逻辑回归模型的求解过程?

    4、实际应用逻辑回归时数据预处理的经验总结。但经验有限,如果有哪位网友这块经验丰富,忘指教,先谢过

    5、为什么我们在实际中,经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数

    6、从最根本的广义线性模型角度,导出经典线性模型以及逻辑回归


    1、逻辑斯蒂分布,logit转换

     一个连续随机变量X,如果它的分布函数形式如下,则X服从逻辑斯蒂分布,F(x)的值在0~1之间,它的的图形是一条S型曲线

    2、在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归?

          线性回归用于二分类时,首先想到下面这种形式,p是属于类别的概率:

         

          但是这时存在的问题是:

          1)等式两边的取值范围不同,右边是负无穷到正无穷,左边是[0,1],这个分类模型的存在问题

          2)实际中的很多问题,都是当x很小或很大时,对于因变量P的影响很小,当x达到中间某个阈值时,影响很大。即实际中很多问题,概率P与自变量并不是直线关系。

          所以,上面这分类模型需要修整,怎么修正呢?统计学家们找到的一种方法是通过logit变换对因变量加以变换,具体如下:

            

          

            从而,        

           

            这里的P完全解决了上面的两个问题。

    3、逻辑回归模型的求解过程?

          1)求解方式

            逻辑回归中,Y服从二项分布,误差服从二项分布,而非高斯分布,所以不能用最小二乘进行模型参数估计,可以用极大似然估计来进行参数估计。

          2)似然函数、目标函数

            严谨一点的公式如下:

            

            似然函数如下:

            

            对数似然函数,优化目标函数如下:

            

             整个逻辑回归问题就转化为求解目标函数,即对数似然函数的极大值的问题,即最优化问题,可采用梯度下降法、拟牛顿法等等。

    4、实际应用逻辑回归时数据预处理的经验总结,但经验有限,如果有哪位网友这块经验丰富,忘指教,先谢过

          1)枚举型的特征直接进行binary

          2)数值型特征,可以:标准化、根据分布进行binary

          3)进行pairwise

    5、为什么我们在实际中,经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数

          下面公式直接从Ng notes里面复制过来。

         1) 经典线性模型的满足下面等式:

          

           这里有个假设,即最后这个误差扰动项独立同分布于均值为0的正态分布,即:

          

          从而:

          

          由于有上面的假设,从而就有下面的似然函数:

          

          从而这线性回归的问题就可转化为最大化下面的对数似然估计,由于下面公式前面的项是常数,所以这个问题等价于最小化下面等式中的最后一项,即least mean squares。

          

          2)逻辑斯蒂回归中,因变量y不再是连续的变量,而是二值的{0,1},中间用到logit变换,将连续性的y值通过此变换映射到比较合理的0~1区间。在广义线性回归用于分类问题中,也有一个假设(对应于上面回归问题中误差项独立同分布于正态分布),其中h(x)是logistic function

          

          即,给定x和参数,y服从二项分布,上面回归问题中,给定x和参数,y服从正态分布。从而。

          

                

          问题不同(一个是分类、一个是回归)对应假设也就不同,决定了logistic regression问题最优化目标函数是上面这项,而非回归问题中的均方误差LMS。

    6、从最根本的广义线性模型角度,导出经典线性模型以及逻辑回归

         1)指数家族

          

            当固定T时,这个分布属于指数家族中的哪种分布就由a和b两个函数决定。下面这种是伯努利分布,对应于逻辑回归问题

                                       

              注:从上面可知 ,从而,在后面用GLM导logistic regression的时候会用到这个sigmoid函数。

            下面这种是高斯分布,对应于经典线性回归问题

                    

          2)GLM(广义线性模型)

            指数家族的问题可以通过广义线性模型来解决。如何构建GLM呢?在给定x和参数后,y的条件概率p(y|x,θ) 需要满足下面三个假设:

            assum1)      y | x; θ ∼ ExponentialFamily(η).

            assum2)      h(x) = E[y|x]. 即给定x,目标是预测T(y)的期望,通常问题中T(y)=y

            assum3)       η = θTx,即η和x之间是线性的

           3)经典线性回归、逻辑回归

           经典线性回归:预测值y是连续的,假设给定x和参数,y的概率分布服从高斯分布(对应构建GLM的第一条假设)。由上面高斯分布和指数家族分布的对应关系可知,η=µ,根据构建GLM的第2、3条假设可将model表示成:

          
            

            逻辑回归:以二分类为例,预测值y是二值的{1,0},假设给定x和参数,y的概率分布服从伯努利分布(对应构建GLM的第一条假设)。由上面高斯分布和指数家族分布的对应关系可知,,根据构建GLM的第2、3条假设可model表示成:

            

            可以从GLM这种角度理解为什么logistic regression的公式是这个形式~


          参考资料:

          [1] NG的lecture notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf

          [2] 其他网络资源

    展开全文
  • 对数线性模型

    2019-09-11 23:55:52
    http://blog.csdn.net/pipisorry/article/details/52788947 特征和指示特征 对数线性模型log linear model 对数线性模型有:最大熵模型和逻辑斯谛回归。 [概率图模型原理与技术] [PGM:无向图...

    http://blog.csdn.net/pipisorry/article/details/52788947

    特征和指示特征


    对数线性模型log linear model

    对数线性模型有:最大熵模型和逻辑斯谛回归。

    [概率图模型原理与技术]

    [PGM:无向图模型:马尔可夫网 ]

    皮皮blog



    最大熵模型的一般形式

    [统计学习方法]

    from: http://blog.csdn.net/pipisorry/article/details/52788947

    ref:


    转载于:https://my.oschina.net/u/3579120/blog/1508372

    展开全文
  • 中科大对数线性模型读书笔记,数据预处理的使用场景。
  • 对数线性模型log linear model 对数线性模型有:最大熵模型和逻辑斯谛回归。 特征和指示特征 对数线性模型的一般形式 [概率图模型原理与技术] 某小皮 对数线性模型的不同形式 因子图 将因子...

    http://blog.csdn.net/pipisorry/article/details/52788947

    对数线性模型log linear model

    对数线性模型有:最大熵模型和逻辑斯谛回归。

    特征和指示特征

    对数线性模型的一般形式

    [概率图模型原理与技术]

    某小皮

     

     

    对数线性模型的不同形式

    因子图

    将因子转换到对数空间,成为对数线性模型。

    [PGM:无向图模型:马尔可夫网 :对数线性模型]

     

     

    最大熵模型

     

    [最大熵模型The Maximum Entropy:模型] [最大熵模型:学习]

     

     

    逻辑斯谛回归Logistic Regression

    多类分类的LR模型生成的推导:(两类分类更简单,直接类比嘛)

    lz:这里ak是对数表示的,而给定类条件概率密度p(x|ck)如高斯分布时,ak是通常是线性表示的,所以才叫对数线性模型吧。

    因为ak通常可以使用线性表示,所以多类LR模型使用判别式直接定义成:

    lz: 就是把一般形式中的feature特征fi(Di)定义为ak了。

    LR模型的导出

    lz也不知道LR模型怎么来的,不过lz总结了几种都可以解释的方面:

    1 回归模型+logistic函数直接得到

    2 最大熵模型的特例,即直接将特征f(x, y)设为X=x(即在所有X=x的值上搞一个权重w)。

    3 广义线性模型导出[对数线性模型之一(逻辑回归), 广义线性模型学习总结]

    4 生成式模型+高斯形式的类条件概率分布得到

    from: http://blog.csdn.net/pipisorry/article/details/52788947

    ref:

     

    展开全文
  • 对数线性模型与线性链条件随机场 对数线性模型 我们从书本上知道线性链条件随机场就是对数线性模型,逻辑回归也是对数线性模型对数线性模型的一般形式如下所示: \[ p(y|x;w)=\dfrac{\exp\sum_{j=1}^Jw_jF_j(x, y)}...

    对数线性模型与线性链条件随机场

    对数线性模型

    我们从书本上知道线性链条件随机场就是对数线性模型,逻辑回归也是对数线性模型。对数线性模型的一般形式如下所示:
    \[ p(y|x;w)=\dfrac{\exp\sum_{j=1}^Jw_jF_j(x, y)}{Z(x, w)} \]
    其中\(x,y\)分别是输入和标签,都是序列。\(F_j(x,y)\) 是特征函数,\(w_j\)为可学习参数,是一个实数,控制着特征函数的影响程度,特征函数都是需要提前定义好的。\(Z(x,w)\) 是归一化因子,其计算如下所示:
    \[ Z(x,w) = \sum_{y'\in Y}\exp\sum_{j=1}^Jw_jF_j(x,y') \]

    模型的预测即给出使得\(p(y|x;w)\)最大的对应\(y\),更加数学化的表达为:
    \[ \hat{y} = \arg\max_yp(y|x;w)=\arg\max_y\sum_{j=1}^Jw_jF_j(x,y) \]

    特征函数

    像分词这种结构化预测任务,仅仅考虑当前位置本身往往是不够的,相邻标签的影响也需要考虑进去,因此必须设计有效的特征函数。为了同时考虑到变长序列和相邻位置的信息,\(F_j(x,y)\)被定义为如下
    \[ F_j(x,y) = \sum_{i=1}^nf_j(y_{i-1},y_i,x,i) \]
    \(f_j\)是low-level的特征函数,上面这个公式解释了为什么CRF可以利用整个序列的信息,而HMM不能够。为了更好的处理边界,一般会令\(y_0=\mbox{START},y_{n+1}=\mbox{STOP}\)

    线性链条件随机场的解码

    解码即预测序列的标记结果,上文提及
    \[ \begin{split} \hat{y}&=\arg\max_yp(y|x;w)\\ &= \arg\max_y\dfrac{1}{Z(x,w)}\exp\sum_{j=1}^Jw_jF_j(x,y)\\ &=\arg\max_y\sum_{j=1}^Jw_jF_j(x,y)\\ &=\arg\max_y\sum_{j=1}^Jw_j\sum_{i=1}^nf_j(y_{i-1},y_i,x,i)\\ &=\arg\max_y\sum_{i=1}^n\sum_{j=1}^Jw_jf_j(y_{i-1},y_i,x,i)\\ &=\arg\max_y\sum_{i=1}^ng_i(y_{i-1},y_i) \end{split} \]

    我们令\(U(k,v)\)为位置\(1\)到位置\(k\)的最优序列的得分,其中第\(k\)个位置的标记为\(v\),根据定义我们有
    \[ \begin{split} U(k,v) &= \max_{y_1,\dots,y_{k-1}}\sum_{i=1}^{k-1} g_i(y_{i-1},y_i)+g_k(y_{k-1},v)\\ &= \max_u [U(k-1,u) + g_k(u,v)] \end{split} \]
    在计算得到最优序列的分数后,可以按如下方式,回溯解码出对应的标记
    \[ \hat{y}_{k-1}=\arg\max_u[U(k-1,u) + g_k(u,\hat{y}_k)] \]
    整个解码过程其实就是动态规划的具体应用,时间复杂度为\(O(m^2nJ+m^2n)\)

    前向后向算法

    \[\hat{y}=\arg\max_y\sum_{i=1}^ng_i(y_{i-1},y_i)\]可以知道
    \[ Z(x,w) = \sum_y\exp\sum_{i=1}^ng_i(y_{i-1},y_i) \]
    我们令
    \[ \begin{split} \alpha(k,v) &= \sum_{y_1, \cdots, y_{k-1}}\exp[\sum_{i=1}^{k-1}g_i(y_{i-1},y_i)+g_k(y_{k-1},v)]\\ &= \sum_{y_1, \cdots, y_{k-1}}\exp[\sum_{i=1}^{k-1}g_i(y_{i-1},y_i)]\exp [g_k(y_{k-1},v)] \end{split} \]
    所以有
    \[ \alpha(k+1,v) = \sum_u\alpha (k,u)\exp [g_{k+1}(u,v)] \]
    上面是从前向推,同样我们可以后向推,得到
    \[ \beta (u,k) = \sum_v[\exp g_{k+1}(u,v)]\beta (v, k+1) \]
    这样,我们有
    \[ Z(x,w) = \sum_u\alpha(k,u)\beta(u,k) \]
    同样
    \[ p(y_k=u|x;w) = \dfrac{\alpha(k,u)\beta(u,k)}{Z(x,w)}=\dfrac{\alpha(k,u)\beta(u,k)}{\sum_u\alpha(k,u)\beta(u,k)} \]
    \[ p(y_k=u,y_{k+1}=v|x;w) = \dfrac{\alpha(k,u)\exp (g_{k+1}(u,v))\beta(v,k+1)}{Z(x,w)} \]

    线性链条件随机场的参数学习

    线性链的条件随机场的参数学习使用梯度下降就可以了,优化目标是使得\(p(y|x;w)\)最大。具体的推导如下:
    \[ \begin{split} \dfrac{\partial \log p(y|x;w)}{\partial w_j} &= \dfrac{\partial }{\partial w_j}\log \left(\dfrac{\exp\sum_{j=1}^Jw_jF_j(x,y)}{Z(x,w)}\right)\\ &= \dfrac{\partial }{\partial w_j}\sum_{j=1}^Jw_jF_j(x,y)-\log Z(x,w)\\ &= F_j(x,y) - \dfrac{\partial }{\partial w_j}\log Z(x,w)\\ &= F_j(x,y) - \dfrac{1}{Z(x,w)}\dfrac{\partial }{\partial w_j}Z(x,w) \end{split} \]
    \[ \begin{split} \dfrac{\partial }{\partial w_j}Z(x,w) &= \dfrac{\partial }{\partial w_j}\sum_{y'}[\exp\sum_j^Jw_jF_j(x,y')]\\ &= \sum_{y'}\dfrac{\partial }{\partial w_j}[\exp\sum_j^Jw_jF_j(x,y')]\\ &= \sum_{y'}[\exp\sum_j^Jw_jF_j(x,y')]\dfrac{\partial }{\partial w_j}[\sum_j^Jw_jF_j(x,y')]\\ &= \sum_{y'}[\exp\sum_j^Jw_jF_j(x,y')]F_j(x,y') \end{split} \]
    所以有
    \[ \begin{split} \dfrac{\partial \log p(y|x;w)}{\partial w_j} &= F_j(x,y) - \dfrac{1}{Z(x,w)}\sum_{y'}[\exp\sum_j^Jw_jF_j(x,y')]F_j(x,y')\\ &= F_j(x,y) -\sum_{y'}F_j(x,y')\dfrac{\exp\sum_j^Jw_jF_j(x,y')}{Z(x,w)}\\ &= F_j(x,y) -\sum_{y'}F_j(x,y')p(y'|x;w)\\ &= F_j(x,y) - E_{y'\sim p(y'|x;w)}F_j(x,y') \end{split} \]
    我们现在分析下\(E_{y'\sim p(y'|x;w)}F_j(x,y')\)该怎么求:
    \[ \begin{split} E_{y'\sim p(y'|x;w)}F_j(x,y') &= \sum_{i=1}^nE_{y_{i-1},y_i}[f_j(y_{i-1},y_i,x,i)]\\ &= \sum_{i=1}^n\sum_{y_{i-1}}\sum_{y_i}p(y_{i-1},y_i|x;w)f_j(y_{i-1},y_i,x,i)\\ &=\sum_{i=1}^n\sum_{y_{i-1}}\sum_{y_i}f_j(y_{i-1},y_i,x,i)\dfrac{\alpha(i-1,y_{i-1})[\exp g_i(y_{i-1},y_i)]\beta (y_i, i)}{Z(x,w)} \end{split} \]

    其计算的时间复杂度为\(O(nm^2)\)

    CRF 与 HMM 的区别

    1. HMM是生成模型,CRF是判别模型
    2. HMM是概率有向图,CRF是概率无向图
    3. HMM求解过程可能是局部最优,CRF可以全局最优
    4. CRF概率归一化较合理,HMM则会导致label bias 问题

    CRF 与 HMM 的优缺点比较

    1. 与HMM比较。CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)
    2. 与MEMM比较。由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。
    3. 与ME比较。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。

    转载于:https://www.cnblogs.com/crackpotisback/p/9909480.html

    展开全文
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对...
  • 机器学习篇——对数线性模型

    千次阅读 2018-04-14 15:36:29
    对数线性模型包括逻辑回归、最大熵模型和条件随机场等 1、模型 条件概率分布(对数线性模型、概率模型)、判别模型 逻辑回归: 概率分布可由广义线性模型推导得到 多分类时,分子部分为:第k类exp(-wk*x+b),...
  • 常见的广义线性模型有:probit模型、 poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对...
  • 从线性到非线性模型-对数线性模型

    千次阅读 2018-08-25 17:41:30
    从线性到非线性模型 1、线性回归,岭回归,Lasso回归,局部加权线性回归 2、logistic回归,softmax回归,最大熵模型 3、广义线性模型 4、Fisher线性判别和线性感知机 5、三层...
  •  经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson...对数线性模型里有:logistic regression、Maxi
  • 对数线性模型》是最好的对数线性模型教学材料之一,不仅讨论了一般对数线性模型,还讨论了logit模型,这一模型通过分析作为自变量函数的因变量的期望发生比来检验自变量与因变量之间的关系。作者从处理二分变量的...
  • MIT自然语言处理第五讲:最大熵和对数线性模型(第一部分) 自然语言处理:最大熵和对数线性模型 Natural Language Processing: Maximum Entropy and Log-linear Models  作者:Regina Barzilay...
  • 1. 符号 整篇文章里,使用下划线表示向量,例如$ \underline\omega\in \mathbb{R}^d 是由是由是由 \omega_1,\omega_2,\...2.对数线性模型     给定两个集合X\mathcal{X}X和Y\mathcal{Y}Y,假设Y\mathcal{Y...
  • 代码实现梯度下降算法学习OR函数的对数线性模型如下: x_0 x_1 C_k 1 1 1 0 1 1 1 0 1 0 0 0 使用以下特征图: \phi(x,C_k) = [ (x_0 =1 & C_k = 1), x_1 = 1 & C_k = 1, C_k = 1];
  • 对数线性模型是无向图中经常使用的一种模型。其利用特征函数以及参数的方式对势函数进行定义,可获得较好的效果。在之前有向图的学习中,我们发现可以利用d-seperet,充分统计,狄利克雷函数等方式来很优雅的获得...
  • 本文介绍对数线性分类模型,在线性模型的基础上通过复合函数(sigmoid,softmax,entropy )将其映射到概率区间,使用对数损失构建目标函数。首先以概率的方式...
  • 以前的工作研究了具有“L1-正则化”的对数线性模型中的结构学习,主要集中于成对势的情况。 Previous work has examined structure learningin log-linear models with L1- regularization, largely focusing on the...
  • 跟着博主的脚步,每天进步一点点本文介绍对数线性分类模型,在线性模型的基础上通过复合函数(sigmoid,softmax,entropy )将其映射到概率...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,291
精华内容 516
关键字:

对数线性模型