精华内容
下载资源
问答
  • 对数线性模型解释
    千次阅读
    2018-04-14 15:36:29

    建议首先看cs229讲的广义线性模型、exponential family(指数分布族)
    对数线性模型包括逻辑回归、最大熵模型和条件随机场等
    1、模型
    条件概率分布(对数线性模型、概率模型)、判别模型
    对数线性模型公式
    逻辑回归:
    概率分布可由广义线性模型推导得到
    多分类时,分子部分为:第k类exp(-wk*x+b),第一类为1
    分母部分为所有类分子之和,即标准化因子
    最大熵模型:
    概率分布由最大熵原理进行建模
    分子部分为:exp(特征函数的加权和)
    分母部分为对分子的标准化因子
    条件随机场:
    概率分布由线性链(简单情况)条件随机场确定
    分子为:这里写图片描述
    分母为:这里写图片描述
    2、策略
    最大似然估计
    注:凡是已知条件概率分布(其实是似然)的模型,一般策略都是最大似然估计,即最小化对数损失函数
    最大似然估计是一种参数估计方法,其他还有最大后验概率(考虑先验的最大似然)、贝叶斯估计(最大后验的基础上进一步增强,分母看做归一化因子,即对分子的积分)最小二乘估计(最小平方估计,最小化误差的平方)等,会在后面总结一节
    3、算法
    对数线性模型参数估计用到的算法即是最大似然估计用的算法,也就是梯度下降法等
    注:条件随机场其他两个问题中,概率用前向-后向算法,预测用维特比算法(同隐马尔科夫模型)
    4、补充
    最大熵模型推导过程:
    一是最大化条件熵
    条件熵等于联合熵减去熵
    二是由特征函数确定约束条件
    特征函数关于(联合概率的经验分布)的期望值等于特征函数关于条件分布(模型)与边缘概率的期望值
    三是建立原始约束最优化问题
    即max最大熵模型
    s.t 约束条件
    四是建立最小最大化原问题
    引入拉格朗日乘子
    五是转化为最大最小化问题
    引入kkt条件
    六是转化为极大似然估计

    更多相关内容
  • 第18章 对数线性模型.ppt
  • 中科大对数线性模型读书笔记,数据预处理的使用场景。
  • 对数线性模型》是最好的对数线性模型教学材料之一,不仅讨论了一般对数线性模型,还讨论了logit模型,这一模型通过分析作为自变量函数的因变量的期望发生比来检验自变量与因变量之间的关系。作者从处理二分变量的...
  • 高校学生互联网投资理财影响因素的对数线性模型分析.pdf
  • 如何理解和使用对数线性模型

    千次阅读 2020-12-24 14:58:37
    对数线性模型看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快捷,...

    对数线性模型

    看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快捷,但是当涉及的分类变量很多,例如研究4个以上分类变量之间的相关关系时,卡方检验就不够用了,因为它不可以同时对多个分类变量之间的相关关系给出一个综合评价,也不可以在控制其它变量作用的同时对变量的效应做出估计,而对数线性模型可以解决卡方检验不能解决的这些问题,它可以一次性给出多个分类变量之间的两两相关关系。

    前面提到对数线性模型与混合线性模型有相同的地方,都是围绕分类变量展开的,因此首先回顾混合线性模型,可以参考下面的表格,混合线性模型表格中的数据不是频数数据,而是连续型数据,可以理解成某项血液指标:

    在混合线性模型中,将每个单元格内血液指标y的变异看作是病症类型(A)变量,治疗效果(B)变量、病症类型(A)和治疗效果(B)交互作用、随机误差共同影响的总和。如果将每个单元格中的数据换成频数,例如,总共调查了180名患者,这些患者的人数(频数)分布情况如下:

    如果要研究病症类型与治疗效果是否相关,也就是研究病症类型是否影响到治疗效率,如果两者无关,可以发现一般类型和特殊类型的治疗效果人数比例是基本相同的,反映到对数线性模型中,就是研究交互作用项是否等于零。从对数线性模型可以看出,对数线性模型除了能够解决分类变量(因素)之间是否相关的问题,还能够分析分类变量对频数的独立影响,也就是分类变量对频数的主效应。

    对数线性模型VS方差分析模型

    前面介绍对数线性模型的分析逻辑是以方差分析模型(一般线性模型)为基础,由此可见它们的作用是类似的,都能够分析每个变量的主效应及变量之间的交互效应。对数线性模型与方差分析模型的差异为:方差分析模型的因变量是连续性变量,对数据的分布要求为正态性和方差齐性;对数线性模型主要研究多个分类变量之间的独立性和相关性,对数线性模型一般不分因变量和自变量,只分析各分类变量对交叉单元格内频数的影响,通常频数服从多项式分布。

    对数线性模型VS逻辑回归模型

    通过前面的介绍,大家可以发现很多对数线性模型能够分析的问题其实用逻辑回归模型也能够进行分析。对数线性模型主要研究多个分类变量之间的独立性与相关性,而逻辑回归模型的因变量也是分类变量,如果自变量也是分类变量,那么就和对数线性模型的效果相同了。

    差别在于,一般对数线性模型通常将频数数据做自然对数变换(ln),而逻辑回归对频数的处理是做常用对数变换(lg);此外,对数线性模型不用区分因变量和自变量,而逻辑回归则需要明确因变量和自变量。因此对数线性模型与逻辑回归两种方法之间存在着非常密切的联系,两者的分析结果是等价的。对数线性模型的应用不如逻辑回归普遍,主要原因是如果考虑的分类变量太多,对数线性模型过于复杂。

    SPSS的对数线性模块

    SPSS的对数线性菜单总共提供了三个子菜单:常规、分对数和选择模型;这三个子菜单的分析过程都应用对数线性模型的基本原理,但在拟和方法和结果输出上有不同。常规菜单在分析中只考虑变量之间是否相关,不考虑它们之间的因果关系,不过分析者可以在最后的结果解释中加入经验解释。

    分对数菜单;有些情况,分析者已经明白变量之间的因果关系,此时继续用常规模型就无法利用因果信息,这样就会增添很多结果解释的工作量。这种情况适合使用分对数菜单。

    选择模型菜单;在建立模型之前,分析者往往会收集很多变量信息,但是那些变量之间相关,那些变量不相关,那些变量应该纳入模型,那些变量应该剔除,除了根据经验进行选择以外,很难取舍。选择模型菜单能够对变量进行筛选,帮助分析者筛选出有用的变量,这样就能使原本复杂的模型简化,排除一些变量的影响。

    总结一下

    以上这些内容的介绍,我们通过方差分析模型引出对数线性模型。大家可以根据这个规律理解清楚对数线性模型的分析逻辑。在SPSS中,根据数据情况的不同,应该选择合适的菜单进行分析,接下来,我们会分别制作文章,详解介绍。

    展开全文
  • 第13章 SPSS的对数线性模型.pdf
  • 对数线性模型.doc

    2021-12-25 11:22:22
    对数线性模型.doc
  • -------------------------------------------------- ---------- 目的:执行对数线性化。 -------------------------------------------------- ---------- 语法:result = LogLin( VarEndoNames, VarExoNames, ...
  • 从线性到非线性模型-对数线性模型

    千次阅读 2018-08-25 17:41:30
    从线性到非线性模型 1、线性回归,岭回归,Lasso回归,局部加权线性回归 2、logistic回归,softmax回归,最大熵模型 3、广义线性模型 4、Fisher线性判别和线性感知机 5、三层...

    从线性到非线性模型

    1、线性回归,岭回归,Lasso回归,局部加权线性回归
    2、logistic回归,softmax回归,最大熵模型
    3、广义线性模型
    4、Fisher线性判别和线性感知机
    5、三层神经网络
    6、支持向量机

    code: https://github.com/myazi/myLearn

    二、Logistic回归和SoftMax回归,最大熵模型

    一、Logistic回归

    分类问题可以看作是在回归函数上的一个分类。一般情况下定义二值函数,然而二值函数不易优化,一般采用sigmoid函数平滑拟合(当然也可以看作是一种软划分,概率划分):从函数图像我们能看出,该函数有很好的特性,适合二分类问题。至于为何选择Sigmoid函数,后面可以从广义线性模型推导出Sigmoid函数。

    逻辑回归可以看作是在线性回归的基础上构建的分类模型,理解的角度有多种,最直接的理解是考虑逻辑回归是将线性回归值离散化。即一个二分类问题如下:(二值函数)

    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…

    sigmoid函数

    g ( z ) = 1 1 + e − z , g ‘ ( z ) = g ( z ) ( 1 − g ( z ) ) g(z)=\frac{1}{1+e^{-z}},g^{‘}(z)=g(z)(1-g(z)) g(z)=1+ez1,g(z)=g(z)(1g(z))

    二分类问题属于一种硬划分,即是与否的划分,而sigmoid函数则将这种硬划分软化,以一定的概率属于某一类(且属于两类的加和为1)。Sigmoid函数将线性回归值映射到 [ 0 , 1 ] [0,1] [0,1]区间,从函数图像我们能看出,该函数有很好的特性,适合二分类问题。 因此逻辑回归模型如下:

    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…
    这里对于目标函数的构建不再是最小化函数值与真实值的平方误差了,按分类原则来讲最直接的损失因该是0-1损失,即分类正确没有损失,分类错误损失计数加1。但是0-1损失难以优化,存在弊端。结合sigmoid函数将硬划分转化为概率划分的特点,采用概率$h_{\theta}(x^{(i)}) $的对数损失(概率解释-N次伯努利分布加最大似然估计),其目标函数如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

    同样采用梯度下降的方法有:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    又:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    所以有:
    θ j = θ j − α ( y ( i ) − h θ ( x ( i ) ) ) x \theta_{j}=\theta_{j}-\alpha \left(y^{(i)}-h_{\theta}(x^{(i)})\right)x θj=θjα(y(i)hθ(x(i)))x

    概率解释

    逻辑回归的概率解释同线性回归模型一致,只是假设不再是服从高斯分布,而是 p ( y ∣ x ; θ ) p\left ( y|x;\theta \right ) p(yx;θ)服从0-1分布,由于 ,假设随机变量y服从伯努利分布是合理的 。即:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    所以最大化似然估计有:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

    logistic采用对数损失原因

    采用对数损失的原因有二:

    ​ 1)从概率解释来看,多次伯努利分布是指数的形式。由于最大似然估计导出的结果是概率连乘,而概率(sigmoid函数)恒小于1,为了防止计算下溢,取对数将连乘转换成连加的形式,而且目标函数和对数函数具备单调性,取对数不会影响目标函数的优化值。

    ​ 2)从对数损失目标函数来看,取对数之后在求导过程会大大简化计算量。

    二、SoftMax回归

    Softmax回归可以看作是Logistic回归在多分类上的一个推广。考虑二分类的另一种表示形式:

    [ k 1 , 1 − k 1 ] → [ k 1 k 2 ] \left [ k_{1},1-k_{1} \right ]\rightarrow \begin{bmatrix} k_{1}\\ k_{2} \end{bmatrix} [k1,1k1][k1k2]
    当logistic回归采用二维表示的话,那么其损失函数如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    其中,在逻辑回归中两类分别为 k 1 k_{1} k1 1 − k 1 1-k_{1} 1k1,二在softmax中采用 k 1 , k_{1}, k1 k 2 k_{2} k2两个随机变量组成二维向量表示,当然隐含约束 k 1 + k 2 = 1 k_{1}+k_{2}=1 k1+k2=1.为了更好的表示多分类问题,将 y ∈ { 1 , 2 , . . K } y\in \left \{ 1,2,..K \right \} y{1,2,..K}(不一定理解为y的取值为k,更应该理解为y可以取k类)多分类问题进行如下表示。
    T ( k ) = [ 0 0 . 1 . 0 ] T(k)=\begin{bmatrix} 0\\ 0\\ .\\ 1\\ .\\ 0 \end{bmatrix} T(k)=00.1.0
    其中向量的第k位为1,其他位为0,也就是当 y = k y=k y=k 时将其映射成向量时对应第k位为1。采用多维表示之后,那么对于每一维就变成了一个单独的二分类问题了,所以softmax函数形式如下:
    h θ ( x ( i ) ) = 1 ∑ k = 1 K e x p ( θ k T x ( i ) ) [ e x p ( θ k T x ( i ) ) e x p ( θ k T x ( i ) ) . e x p ( θ k T x ( i ) ) ] h_{\theta}(x^{(i)})=\frac{1}{\sum_{ k=1}^{K}exp\left ( \theta _{k}^{T}x^{(i)} \right )}\begin{bmatrix} exp\left ( \theta _{k}^{T}x^{(i)} \right )\\ exp\left ( \theta _{k}^{T}x^{(i)} \right )\\ .\\ exp\left ( \theta _{k}^{T}x^{(i)} \right ) \end{bmatrix} hθ(x(i))=k=1Kexp(θkTx(i))1exp(θkTx(i))exp(θkTx(i)).exp(θkTx(i))
    其中函数值是一个 K K K维的向量,同样采用对数损失(多项式分布和最大似然估计),目标函数形式是logistic回归的多维形式。
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    其中 y i k y^{ik} yik表示第 i i i个样本的标签向量化后第k维的取值0或者1.可以看出Softmax的损失是对每一类计算其概率的对数损失,而logistic回归是计算两类的回归,其本质是一样。Logistic回归和Softmax回归都是基于线性回归的分类模型,两者无本质区别,都是从二项分布和多项式分布结合最大对数似然估计。只是Logistic回归常用于二分类,而Softmax回归常用于多分类。而且Logistic回归在考虑多分类时只考虑n-1类。

    概率解释

    ​ 二分类与多分类可以看作是N次伯努利分布的二项分布到多项分布的一个推广,概率解释同Logistic回归一致。详细解释放到广义线性模型中。

    二分类转多分类思想

    对于多分类问题,同样可以借鉴二分类学习方法,在二分类学习基础上采用一些策略以实现多分类,基本思路是“拆解法”,假设N个类别 C 1 , C 2 , . C i . , C n C_{1},C_{2},.C_{i}.,C_{n} C1,C2,.Ci.,Cn,经典的拆分算法有“一对一”,“一对多”,“多对多”,

    一对一的基本思想是从所有类别中选出两类来实现一个两分类学习器,即学习出 C N 2 = N ( N − 1 ) / 2 C_{N}^{2}=N(N-1)/2 CN2=N(N1)/2个二分类器,然后对新样本进行预测时,对这 C N 2 C_{N}^{2} CN2个分类器进行投票最终决定属于那一类。

    一对多的基本思想是把所有类别进行二分类,即属于 C i C_{i} Ci类和非 C i C_{i} Ci两类,这样我们就需要N个分类器,然后对新样本进行预测时,与每一个分类器比较,最终决定属于哪一类。这其实就是Softmax的思想,也是SVM多分类的思想。

    //多对多的基本思想是

    三、最大熵模型

    ​ 很奇怪,为什么会把最大熵模型放到这,原因很简单,它和Logistic回归和SoftMax回归实在是惊人的相似,同属于对数线性模型。

    熵的概念

    这里写图片描述

    信息熵:熵是一种对随机变量不确定性的度量,不确定性越大,熵越大。若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布 。

    假设离散随机变量X的概率分布为 P ( X ) P(X) P(X),则其熵为:
    H ( X ) = − ∑ x P ( x ) l o g P ( x ) H(X)=-\sum_{x}P(x)logP(x) H(X)=xP(x)logP(x)
    其中熵满足不等式 0 ≤ H ( P ) ≤ l o g ∣ X ∣ 0\leq H(P) \leq log|X| 0H(P)logX

    联合熵:对于多个随机变量的不确定性可以用联合熵度量

    假设离散随机变量 X , Y X,Y X,Y的联合概率分布为 P ( X , Y ) P(X,Y) P(X,Y),则其熵为:
    H ( X , Y ) = − ∑ x ∑ y P ( x , y ) l o g P ( x , y ) H(X,Y)=-\sum_{x}\sum_{y}P(x,y)logP(x,y) H(X,Y)=xyP(x,y)logP(x,y)
    条件熵:在给定条件下描述随机变量的不确定性

    假设离散随机变量 X , Y X,Y X,Y,在给定 Y Y Y的条件下 X X X的不确定性为条件熵H(X|Y),也就等于 H ( X , Y ) − H ( Y ) H(X,Y)-H(Y) H(X,Y)H(Y)
    H ( X ∣ Y ) = − ∑ x , y P ( x , y ) l o g ( P ( x ∣ y ) ) H(X|Y)=-\sum_{x,y}P(x,y)log(P(x|y)) H(XY)=x,yP(x,y)log(P(xy))
    互信息:衡量两个随机变量相关性的大小 I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y)=H(X)+H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y)
    I ( X , Y ) = − ∑ x , y P ( x , y ) l o g P ( x , y ) P ( x ) P ( y ) I(X,Y)=-\sum_{x,y}P(x,y)log\frac{P(x,y)}{P(x)P(y)} I(X,Y)=x,yP(x,y)logP(x)P(y)P(x,y)
    相对熵(KL散度):衡量对于同一个随机变量两个概率分布 p ( x ) , q ( x ) p(x),q(x) p(x),q(x)的差异性
    D ( p ∣ ∣ q ) = ∑ x p ( x ) l o g p ( x ) q ( x ) = E p ( x ) l o g p ( x ) q ( x ) D(p||q)=\sum_{x}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)} D(pq)=xp(x)logq(x)p(x)=Ep(x)logq(x)p(x)
    有互信息和相对熵的定义有下式:
    I ( X , Y ) = D ( P ( X , Y ) ∣ ∣ P ( X ) P ( Y ) ) I(X,Y)=D(P(X,Y)||P(X)P(Y)) I(X,Y)=D(P(X,Y)P(X)P(Y))
    关于熵的介绍就到此,不细究,虽然上面的这些定义在机器学习中都会遇到,不过后面涉及到的主要还是熵和条件熵。

    最大熵模型

    最大熵原理是概率模型学习中的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型分布中(满足所有条件下),熵最大的模型是最好的模型。熵最大即为最均匀的分布,从某种角度讲 均匀分布总是符合我们理解的损失风险最小,也就是“不要不所有的鸡蛋放到一个篮子里,均匀的放置”。

    给定训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) . . ( x m , y m ) } T=\{ (x_{1},y_{1}),(x_{2},y_{2})..(x_{m},y_{m})\} T={(x1,y1),(x2,y2)..(xm,ym)},假设 X ∈ χ ⊆ R n X \in \chi \subseteq R^{n} XχRn表示输入, y ∈ ϕ y\in \phi yϕ表示输出,分类模型是一个以条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)输出 Y Y Y,也就是说在满足条件的所有可能集中,条件熵 P ( Y ∣ X ) P(Y|X) P(YX)最大的模型即为最好的模型。其中条件为隐藏在数据的期望。

    一般来讲,最大熵模型常用于处理离散化数据集,定义随机变量 X , Y X,Y X,Y的特征模板,从数据中统计他们的期望作为最大熵模型的条件

    特征函数:
    f ( x , y ) = { 1 , x , y 满 足 某 一 事 实 0 , 否 则 f(x,y)=\left\{\begin{matrix} 1,x,y满足某一事实\\ 0,否则 \end{matrix}\right. f(x,y)={1xy0
    约束条件:对于任意的特征函数 f f f,我们可以统计其在数据中的经验分布 P ~ ( x , y ) \widetilde{P}(x,y) P (x,y)的期望
    E p ~ ( f ) = ∑ x , y P ~ ( x , y ) f ( x , y ) E_{\widetilde{p}}(f)=\sum_{x,y}\widetilde{P}(x,y)f(x,y) Ep (f)=x,yP (x,y)f(x,y)
    特征函数 f f f关于模型 P ( Y ∣ X ) P(Y|X) P(YX)和先验 P ~ ( X ) \widetilde{P}(X) P (X)的期望
    E p ( f ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) f ( x , y ) E_{p}(f)=\sum_{x,y}\widetilde{P}(x)P(y|x)f(x,y) Ep(f)=x,yP (x)P(yx)f(x,y)
    所以,满足约束条件的模型集合为:
    Ω ≡ { P ∈ P ∣ E p ( f i ) = E p ~ ( f i ) , i = 1.. n } \Omega \equiv \{ P\in \boldsymbol{P}| E_{p}(f_{i})=E_{\widetilde{p}}(f_{i}),i=1..n\} Ω{PPEp(fi)=Ep (fi),i=1..n}
    因此最大熵模型的形式化表示如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…
    由拉格让日乘子法,引入拉格让日乘子,定义拉格让日函数:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    根据拉格朗日乘子法, L ( P ) ≥ L ( P , w ) L(P) \geq L(P,w) L(P)L(P,w),当且仅当满足拉格朗日乘子法的所有必要条件等式成立,原问题也就是一个最小化最大问题
    min ⁡ P ∈ C max ⁡ w L ( P , w ) \min_{P \in C}\max_{w}L(P,w) PCminwmaxL(P,w)
    对偶问题是:
    max ⁡ w min ⁡ P ∈ C L ( P , w ) \max_{w} \min_{P \in C}L(P,w) wmaxPCminL(P,w)
    求解对偶问题,第一步最小化内部 min ⁡ P ∈ C L ( P , w ) \min_{P \in C}L(P,w) minPCL(P,w) min ⁡ P ∈ C L ( P , w ) \min_{P \in C}L(P,w) minPCL(P,w)是我们需要求解的模型,也是关于 w w w的函数。将模型的最优解记为 P w P_{w} Pw
    P w = a r g max ⁡ P ∈ C L ( P , w ) = P w ( y ∣ x ) P_{w}=arg\max_{P \in C}L(P,w)=P_{w}(y|x) Pw=argPCmaxL(P,w)=Pw(yx)
    那么外层最大化目标函数为:
    max ⁡ w Φ ( w ) Φ ( w ) = min ⁡ p ∈ C L ( P , w ) = L ( P w , w ) \max_{w}\Phi(w)\\ \Phi(w)=\min_{p \in C}L(P,w)=L(P_{w},w) wmaxΦ(w)Φ(w)=pCminL(P,w)=L(Pw,w)
    为了求解 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),根据KKT条件对 P ( y ∣ x ) P(y|x) P(yx)求偏导:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    求解得:
    P ( y ∣ x ) = e x p ( ∑ i w i f i ( x , y ) + w 0 − 1 ) = ( e x p ∑ i w i f i ( x , y ) ) e x p ( 1 − w 0 ) P(y|x)=exp\left( \sum_{i} w_{i}f_{i}(x,y) +w_{0}-1 \right)=\frac{ \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)}{exp(1-w_{0})} P(yx)=exp(iwifi(x,y)+w01)=exp(1w0)(expiwifi(x,y))
    这里,虽然我们不知道 w 0 w_{0} w0,但是由于 ∑ y P ( y ∣ x ) = 1 \sum_{y}P(y|x)=1 yP(yx)=1,所以分母一定是对 y y y的所有可能的归一化因子
    P w ( y ∣ x ) = 1 z w ( x ) ( e x p ∑ i w i f i ( x , y ) ) z w ( x ) = ∑ y e x p ( ∑ i w i f i ( x , y ) ) P_{w}(y|x)=\frac{1}{z_{w}(x)} \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)\\ z_{w}(x)=\sum_{y}exp(\sum_{i}w_{i}f_{i}(x,y)) Pw(yx)=zw(x)1(expiwifi(x,y))zw(x)=yexp(iwifi(x,y))
    到此,内部最小化求解得到了 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),回到外部目标 max ⁡ w Φ ( w ) \max_{w}\Phi(w) maxwΦ(w),将 P w ( y ∣ x ) P_{w}(y|x) Pw(yx)代回拉格朗日函数有:
    Φ ( w ) = ∑ x , y P ~ ( x ) P w ( y ∣ x ) l o g P w ( y ∣ x ) + ∑ i = 1 n w i ( ∑ x , y P ~ ( x , y ) f ( x , y ) − ∑ x , y P ~ ( x ) P w ( y ∣ x ) f ( x , y ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x , y P ~ ( x ) P w ( y ∣ x ) ( l o g P w ( y ∣ x ) − ∑ i = 1 n w i f i ( x , y ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x , y P ~ ( x ) P w ( y ∣ x ) l o g Z w ( x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x P ~ ( x ) l o g Z w ( x ) ∑ y P w ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x P ~ ( x ) l o g Z w ( x ) \begin{aligned} \Phi(w) &=\sum_{x,y}\widetilde{P}(x)P_w(y|x)logP_w(y|x) + \sum^n_{i=1}w_i\left (\sum_{x,y}\widetilde{P}(x ,y)f(x,y) -\sum_{x,y}\widetilde{P}(x)P_w(y|x)f(x,y) \right )\\ &= \sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\widetilde{P}(x)P_w(y|x)\left (logP_w(y|x) - \sum_{i=1}^nw_if_i(x,y) \right) \\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\widetilde{P}(x)P_w(y|x)logZ_w(x)\\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\widetilde{P}(x)logZ_w(x)\sum_yP_w(y|x)\\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\widetilde{P}(x)logZ_w(x)\\ \end{aligned} Φ(w)=x,yP (x)Pw(yx)logPw(yx)+i=1nwi(x,yP (x,y)f(x,y)x,yP (x)Pw(yx)f(x,y))=x,yP (x,y)i=1nwifi(x,y)+x,yP (x)Pw(yx)(logPw(yx)i=1nwifi(x,y))=x,yP (x,y)i=1nwifi(x,y)+x,yP (x)Pw(yx)logZw(x)=x,yP (x,y)i=1nwifi(x,y)+xP (x)logZw(x)yPw(yx)=x,yP (x,y)i=1nwifi(x,y)+xP (x)logZw(x)
    因此, max ⁡ w Φ ( w ) \max_{w} \Phi(w) maxwΦ(w)的最优解为:
    w ∗ = a r g max ⁡ w Φ ( w ) w^* = arg \max_w \Phi(w) w=argwmaxΦ(w)
    代回 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),我们可以得到最终的分类模型,同样我们发现最大熵模型也是一个对数线性模型。

    概率解释:

    已知训练集的经验概率分布 P ~ ( x , y ) \widetilde{P}(x,y) P (x,y),条件概率分布 P ( y ∣ x ) P(y|x) P(yx)的对数似然函数为:
    L P ~ ( P w ) = l o g ∏ x , y P ( y ∣ x ) P ~ ( x , y ) = ∑ x , y P ~ ( x , y ) l o g P ( y ∣ x ) L_{\widetilde{P}}(P_w) = log\prod_{x,y}P(y|x)^{\widetilde{P}(x,y)} = \sum_{x,y}\widetilde{P}(x,y)logP(y|x) LP (Pw)=logx,yP(yx)P (x,y)=x,yP (x,y)logP(yx)
    其中,我们发现对数似然函数与条件熵的形式一致,最大熵模型目标函数前面有负号(这与最大化对数似然函数完全相反),同时最大熵模型中有约束条件。也正是因为约束条件,我们将原问题转化为对偶问题后发现,在满足约束条件的对偶函数的极大化等价于最大化对数似然函数。

    当条件概率 P ( y ∣ x ) P(y|x) P(yx)满足约束条件,在对偶问题求解过程中我们有:
    P w ( y ∣ x ) = 1 z w ( x ) ( e x p ∑ i w i f i ( x , y ) ) z w ( x ) = ∑ y e x p ( ∑ i w i f i ( x , y ) ) P_{w}(y|x)=\frac{1}{z_{w}(x)} \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)\\ z_{w}(x)=\sum_{y}exp(\sum_{i}w_{i}f_{i}(x,y)) Pw(yx)=zw(x)1(expiwifi(x,y))zw(x)=yexp(iwifi(x,y))
    代入到对数似然函数,同样有:
    L P ~ ( P w ) = ∑ x , y P ~ ( x , y ) l o g P ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ( ∑ i = 1 n w i f i ( x , y ) − l o g Z w ( x ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y P ~ ( x , y ) l o g Z w ( x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) \begin{aligned} L_{\widetilde{P}}(P_w) &= \sum_{x,y}\widetilde{P}(x,y)logP(y|x)\\ &= \sum_{x,y}\widetilde{P}(x,y)\left ( \sum_{i=1}^n w_if_i(x,y) -logZ_w(x)\right )\\ &= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x,y}\widetilde{P}(x,y)logZ_w(x)\\ &= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x}\widetilde{P}(x)logZ_w(x)\\ \end{aligned} LP (Pw)=x,yP (x,y)logP(yx)=x,yP (x,y)(i=1nwifi(x,y)logZw(x))=x,yP (x,y)i=1nwifi(x,y)x,yP (x,y)logZw(x)=x,yP (x,y)i=1nwifi(x,y)xP (x)logZw(x)
    最后,我们再来看对偶函数表达式,我们发现,第一项其实是 X , Y X,Y X,Y的联合熵 H ( X , Y ) H(X,Y) H(X,Y),第二项是X的信息熵 H ( X ) H(X) H(X),回看熵的示意图,我们发现,我们最大化的目标还是条件熵 H ( Y ∣ X ) H(Y|X) H(YX)

    这里写图片描述

    下面再来对比下Logistic回归,SoftMax回归,最大熵模型

    1)同属于对数线性模型

    2)Logistic回归和SoftMax回归都基于条件概率 P ( y ∣ x ) P(y|x) P(yx)满足一个伯努利分布,N重伯努利分布,而最大熵模型以期望为准,没有该假设

    3)由于都采用线性模型,三者都假设特征之间是独立的

    最大熵模型的优化问题

    最大熵模型从拉格朗日乘子法最大化对偶函数,还是从最大化对数似然函数,其目标函数如下:
    L P ~ ( P w ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) L_{\widetilde{P}}(P_w)= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x}\widetilde{P}(x)logZ_w(x)\\ LP (Pw)=x,yP (x,y)i=1nwifi(x,y)xP (x)logZw(x)
    常用的梯度优化算法都可以,另外对于最大熵模型也有专门的算法有GIS IIS 算法 。

    展开全文
  • 回归分析线性回归Logistic回归对数线性模型PPT学习教案.pptx
  • SPSS专题回归分析线性回归Logistic回归对数线性模型PPT教案.pptx
  • 对数线性模型及SPPSS操作.ppt
  • MBA统计学08列联表及对数线性模型.pptx
  • 对数线性模型(Logistic回归算法)

    万次阅读 2017-09-07 19:42:37
    二项Logistic回归模型由条件概率分布P(Y|X)表示,X为随机变量,取值为实数,Y同为随机变量,但取值为1或0; 二项 Logistic回归模型的条件概率分布: 其中,w称为权值向量,b为偏置,x为输入,Y为输出...

    1.Logistic分布:

    logistic分布定义:设X是连续随机变量,X服从logistic分布,即为X具有下列分布函数和密度函数:

       

    其中,mu为位置参数,r>0为形状参数;

    logistic分布的分布函数F(x)的图形与密度函数f(x)的图形如下所示:

     

    分布函数 密度函数

    分布函数的图形是一条S形曲线,该曲线是以(mu,1/2)为中心对称,在曲线中心附近增长速度较快,而在两端增长速度较慢,形状参数r的值越小,曲线在中心附近增长越快;

    2.二项 Logistic 回归模型

    二项Logistic回归模型由条件概率分布P(Y|X)表示,X为随机变量,取值为实数,Y同为随机变量,但取值为1或0;

    二项 Logistic回归模型的条件概率分布:

    其中,w称为权值向量,b为偏置,x为输入,Y为输出,也就是说通过统计x的概率值,在那一类中的概率值较大,就将x分到那一类中,

    3.模型参数估计

    给定训练数据集T={(x1,y1),(x2,y2),....(xN,yN)}, xi为实数,yi为0,1;

    则通过极大似然估计法求得模型参数;

    设P(Y=1|x)=p(x),,P(Y=0|x)=1-p(x)

    似然函数表示为:

    对数似然函数表示为:

    然后对L(w)求极大值,得到w的估计值;

    将对数似然函数作为目标函数,对其进行最优化问题;优化方法通常采用梯度下降法及拟牛顿法

    对数损失函数的标准形式为:L(Y,P(Y|X)) = -logP(Y|X)意思就是什么样的参数才能使观测到目前这组数据的概率最大。

    因为log函数是单调递增函数,所以log(P(Y|X)能够得到最大值,但L(Y,P(Y|X))=-logP(Y|X),所以最大化P(Y|X)就等同于最小化L

    逻辑回归的P(Y=y|x)表达式为:

    令w*x+b=f(x),则逻辑回归P(Y=y|x)的表达式为:

    将公式带入到L(Y,P(Y|X)中,通过推导得到logistic的损失函数表达式,

    最后推导出logistic回归的目标公式:

    梯度下降法:

    梯度 下降是通过J(w)对参数w进行一阶求导来找到下降方向,并且以迭代的方式更新参数,更新方式为 K为迭代次数;

    每次更新参数后,通过比较||J(k+1)-J(k)||与某个阈值e大小项比较,比e小就停止;

    牛顿法:

    在现有极小点估计值的附近对f(x)做二阶泰勒展开,进而找到极小点的下一个估计值

    为当前极小值的估计值,那么

    对其进行求导,令导数 求w的估计值,并与阈值e相比较;


    展开全文
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程,下一...
  • 大数据-算法-基于双对数线性模型的中国入境旅游需求影响因素研究.pdf
  • 用R语言进行数据分析:常规和广义线性模型线性模型对于常规的多重模型(multiple model)拟合,最基本的函数是lm()。 下面是调用它的方式的一种改进版:>fitted.model例如> fm2 将会拟合 y 对 x1 和 x2 的多重...
  • 对数线性模型

    2019-09-11 23:55:52
    http://blog.csdn.net/pipisorry/article/details/52788947 特征和指示特征 对数线性模型log linear model 对数线性模型有:最大熵模型和逻辑斯谛回归。 [概率图模型原理与技术] [PGM:无向图...
  • 代码实现梯度下降算法学习OR函数的对数线性模型如下: x_0 x_1 C_k 1 1 1 0 1 1 1 0 1 0 0 0 使用以下特征图: \phi(x,C_k) = [ (x_0 =1 & C_k = 1), x_1 = 1 & C_k = 1, C_k = 1];
  • R语言使用glm函数构建泊松对数线性回归模型处理三维列联表数据构建饱和模型、使用step函数基于AIC指标实现逐步回归筛选最佳模型
  • BG:在box-cox变换中,当λ = 0时即为对数变换。当所分析变量的标准差相对于均值而言比较大时,这种变换特别有用。对数据作对数变换常常起到降低数据波动性和减少不对称性的作用。。这一变换也能有效消除异方差性...
  • 这项探索性研究的目的是通过使用分层对数线性模型来研究影响欧洲制造业中小企业绩效的变量之间的复杂相互作用。 在本研究中,公司绩效是根据营业额增长进行经验衡量的。 原始数据来自欧盟委员会“部门电子商务观察”...
  • 对数线性模型log linear model 对数线性模型有:最大熵模型和逻辑斯谛回归。 特征和指示特征 对数线性模型的一般形式 [概率图模型原理与技术] 某小皮 对数线性模型的不同形式 因子图 将因子...
  • 实验课单元(三)双对数线性回归模型MicrosoftWord文档[定义].pdf
  • Haenszel 检验5.5 关联规则5.5.1 基本概念5.5.2 Apriori 算法5.6 Ridit 检验法5.7 对数线性模型5.7.1 基本概念5.7.2 设计矩阵5.7.3 估计和检验5.7.4 高维对数线性模型和独立性 这一个系列的笔记和整理希望可以帮助到...
  • 他们展示了对数距离无线电传播模型的非线性回归分析(最小二乘优化)。 您需要实际的测量来运行它。 以CSV格式提供了一组大约1000个根据经验收集的信号强度测量值。 您只需要在 MATLAB 和 Python 中运行“log_...
  • 假设样本x有d个属性,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w_{1}x_{1} + w_{2}x_{2}+\cdot \cdo...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 42,661
精华内容 17,064
热门标签
关键字:

对数线性模型解释