精华内容
下载资源
问答
  • 对数线性化
    万次阅读
    2017-08-24 10:38:11

    墙裂推荐阅读:y的衍生物

    关键词:最小二乘法;正则化;对数线性回归; y的衍生物

    3.1 基本形式

    假设样本x有d个属性,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即 f(x)=w1x1+w2x2++wdxd+b f ( x ) = w 1 x 1 + w 2 x 2 + ⋅ ⋯ + w d x d + b ,向量形式 f(x)=wTx+b f ( x ) = w T x + b

    3.2 线性回归

    关键词:无序属性连续化。
    对离散属性,若属性值之间存在“序”(order)关系,可通过连续化将其转化为连续值,例如二值属性身高的取值,“高”“矮”可和转化为{1.0 , 0}。 若属性值之间不存在序的关系,例如属性“瓜类”的取值为西瓜,南瓜,冬瓜,则可转化为(0,0,1),(0,1,0),(1,0,0)。

    关键词:最小二乘法(least square method)。
    基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

    关键词: 正则化(regularization)项。
    假设解一个线性方程组,当方程数大于自由变量数时,是没有解的。反过来,当方程数小于自由变量数的时候,解就有很多个了。往往,我们会碰到这种情况,参数多,“方程”少的情况,那么有很多个w(权值向量)都能使均方误差最小,那么该选哪一个呢? 这就涉及到 归纳偏好问题了,常见的做法是引入正则化项。

    关键词:对数线性回归(log-linear regression);y的衍生物
    把线性回归模型简写为: f(x)=wTx+b f ( x ) = w T x + b ,当我们希望线性模型的预测值逼近真实标记y,这样就是线性模型。那可否令模型的预测值毕竟y的衍生物呢? 作者的这一描述实在太妙了!y的衍生物,通俗易懂! 假设y的衍生物是 y的对数即lny,那么就可以得到对数线性回归模型: lny=wTx+b l n y = w T x + b , 也就是让模型 去逼近 lny,而不是y。也可以对 lny=wTx+b l n y = w T x + b 做一下变换就变成了 y=ewTx+b y = e w T x + b ,也可以理解为让 ewTx+b e w T x + b 去逼近y。形式上还是线性回归的,但实质上已是在求取输入空间到输出空间的非线性函数映射。如图:
    这里写图片描述

    来思考一个问题
    想从线性模型出发,去扩展线性模型,就是让线性模型 f(x)=wTx+b f ( x ) = w T x + b 去拟合y的衍生物,那么我们常说的逻辑回归(对数几率回归)是怎么从线性模型演变而来的呢?是让 wTx+b w T x + b 去拟合哪一种“y的衍生物” 什么呢?这个可以思考思考后,请看下篇:逻辑回归

    更多相关内容
  • -------------------------------------------------- ---------- 目的:执行对数线性化。 -------------------------------------------------- ---------- 语法:result = LogLin( VarEndoNames, VarExoNames, ...
  • 这项探索性研究的目的是通过使用分层对数线性模型来研究影响欧洲制造业中小企业绩效的变量之间的复杂相互作用。 在本研究中,公司绩效是根据营业额增长进行经验衡量的。 原始数据来自欧盟委员会“部门电子商务观察”...
  • 给出了一个求解修正Euler一Painleve方程的新方法,称之为线性化解法,即利用线性常微分方程,通过一个函数变换,求出修正Euler - Painleve方程的解,并推论出了Euler - Painleve方程的经典结果。
  • 对数线性模型(Logistic回归算法)

    万次阅读 2017-09-07 19:42:37
    因为log函数是单调递增函数,所以log(P(Y|X)能够得到最大值,但L(Y,P(Y|X))=-logP(Y|X),所以最大P(Y|X)就等同于最小L 逻辑回归的P(Y=y|x)表达式为: 令w*x+b=f(x), 则逻辑回归P(Y=y|x)的表达式为: ...

    1.Logistic分布:

    logistic分布定义:设X是连续随机变量,X服从logistic分布,即为X具有下列分布函数和密度函数:

       

    其中,mu为位置参数,r>0为形状参数;

    logistic分布的分布函数F(x)的图形与密度函数f(x)的图形如下所示:

     

    分布函数 密度函数

    分布函数的图形是一条S形曲线,该曲线是以(mu,1/2)为中心对称,在曲线中心附近增长速度较快,而在两端增长速度较慢,形状参数r的值越小,曲线在中心附近增长越快;

    2.二项 Logistic 回归模型

    二项Logistic回归模型由条件概率分布P(Y|X)表示,X为随机变量,取值为实数,Y同为随机变量,但取值为1或0;

    二项 Logistic回归模型的条件概率分布:

    其中,w称为权值向量,b为偏置,x为输入,Y为输出,也就是说通过统计x的概率值,在那一类中的概率值较大,就将x分到那一类中,

    3.模型参数估计

    给定训练数据集T={(x1,y1),(x2,y2),....(xN,yN)}, xi为实数,yi为0,1;

    则通过极大似然估计法求得模型参数;

    设P(Y=1|x)=p(x),,P(Y=0|x)=1-p(x)

    似然函数表示为:

    对数似然函数表示为:

    然后对L(w)求极大值,得到w的估计值;

    将对数似然函数作为目标函数,对其进行最优化问题;优化方法通常采用梯度下降法及拟牛顿法

    对数损失函数的标准形式为:L(Y,P(Y|X)) = -logP(Y|X)意思就是什么样的参数才能使观测到目前这组数据的概率最大。

    因为log函数是单调递增函数,所以log(P(Y|X)能够得到最大值,但L(Y,P(Y|X))=-logP(Y|X),所以最大化P(Y|X)就等同于最小化L

    逻辑回归的P(Y=y|x)表达式为:

    令w*x+b=f(x),则逻辑回归P(Y=y|x)的表达式为:

    将公式带入到L(Y,P(Y|X)中,通过推导得到logistic的损失函数表达式,

    最后推导出logistic回归的目标公式:

    梯度下降法:

    梯度 下降是通过J(w)对参数w进行一阶求导来找到下降方向,并且以迭代的方式更新参数,更新方式为 K为迭代次数;

    每次更新参数后,通过比较||J(k+1)-J(k)||与某个阈值e大小项比较,比e小就停止;

    牛顿法:

    在现有极小点估计值的附近对f(x)做二阶泰勒展开,进而找到极小点的下一个估计值

    为当前极小值的估计值,那么

    对其进行求导,令导数 求w的估计值,并与阈值e相比较;


    展开全文
  • 本文提出采用对数变换的方法将功能函数线性化,从而转化为求线性功能函数的可靠指标.通过三个算例将本文方法与验算点法和蒙特卡罗法进行比较和校核,算例结果表明该方法不仅计算简单,不需要通过迭代运算求解,而且得出...
  • 这时需要微控制器将传感器的对数响应线性化。该方案的一个较好例子就是SandboxElectronics公司的SEN-000007模块,该模块使用的是汉威电子公司生产的MG-811二氧化碳传感器。参考文献1中给出了电路和代码,但没有说明...
  • 从线性到非线性模型-对数线性模型

    千次阅读 2018-08-25 17:41:30
    线性到非线性模型 1、线性回归,岭回归,Lasso回归,局部加权线性回归 2、logistic回归,softmax回归,最大熵模型 3、广义线性模型 4、Fisher线性判别和线性感知机 5、三层...

    从线性到非线性模型

    1、线性回归,岭回归,Lasso回归,局部加权线性回归
    2、logistic回归,softmax回归,最大熵模型
    3、广义线性模型
    4、Fisher线性判别和线性感知机
    5、三层神经网络
    6、支持向量机

    code: https://github.com/myazi/myLearn

    二、Logistic回归和SoftMax回归,最大熵模型

    一、Logistic回归

    分类问题可以看作是在回归函数上的一个分类。一般情况下定义二值函数,然而二值函数不易优化,一般采用sigmoid函数平滑拟合(当然也可以看作是一种软划分,概率划分):从函数图像我们能看出,该函数有很好的特性,适合二分类问题。至于为何选择Sigmoid函数,后面可以从广义线性模型推导出Sigmoid函数。

    逻辑回归可以看作是在线性回归的基础上构建的分类模型,理解的角度有多种,最直接的理解是考虑逻辑回归是将线性回归值离散化。即一个二分类问题如下:(二值函数)

    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…

    sigmoid函数

    g ( z ) = 1 1 + e − z , g ‘ ( z ) = g ( z ) ( 1 − g ( z ) ) g(z)=\frac{1}{1+e^{-z}},g^{‘}(z)=g(z)(1-g(z)) g(z)=1+ez1,g(z)=g(z)(1g(z))

    二分类问题属于一种硬划分,即是与否的划分,而sigmoid函数则将这种硬划分软化,以一定的概率属于某一类(且属于两类的加和为1)。Sigmoid函数将线性回归值映射到 [ 0 , 1 ] [0,1] [0,1]区间,从函数图像我们能看出,该函数有很好的特性,适合二分类问题。 因此逻辑回归模型如下:

    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…
    这里对于目标函数的构建不再是最小化函数值与真实值的平方误差了,按分类原则来讲最直接的损失因该是0-1损失,即分类正确没有损失,分类错误损失计数加1。但是0-1损失难以优化,存在弊端。结合sigmoid函数将硬划分转化为概率划分的特点,采用概率$h_{\theta}(x^{(i)}) $的对数损失(概率解释-N次伯努利分布加最大似然估计),其目标函数如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

    同样采用梯度下降的方法有:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    又:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    所以有:
    θ j = θ j − α ( y ( i ) − h θ ( x ( i ) ) ) x \theta_{j}=\theta_{j}-\alpha \left(y^{(i)}-h_{\theta}(x^{(i)})\right)x θj=θjα(y(i)hθ(x(i)))x

    概率解释

    逻辑回归的概率解释同线性回归模型一致,只是假设不再是服从高斯分布,而是 p ( y ∣ x ; θ ) p\left ( y|x;\theta \right ) p(yx;θ)服从0-1分布,由于 ,假设随机变量y服从伯努利分布是合理的 。即:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    所以最大化似然估计有:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

    logistic采用对数损失原因

    采用对数损失的原因有二:

    ​ 1)从概率解释来看,多次伯努利分布是指数的形式。由于最大似然估计导出的结果是概率连乘,而概率(sigmoid函数)恒小于1,为了防止计算下溢,取对数将连乘转换成连加的形式,而且目标函数和对数函数具备单调性,取对数不会影响目标函数的优化值。

    ​ 2)从对数损失目标函数来看,取对数之后在求导过程会大大简化计算量。

    二、SoftMax回归

    Softmax回归可以看作是Logistic回归在多分类上的一个推广。考虑二分类的另一种表示形式:

    [ k 1 , 1 − k 1 ] → [ k 1 k 2 ] \left [ k_{1},1-k_{1} \right ]\rightarrow \begin{bmatrix} k_{1}\\ k_{2} \end{bmatrix} [k1,1k1][k1k2]
    当logistic回归采用二维表示的话,那么其损失函数如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    其中,在逻辑回归中两类分别为 k 1 k_{1} k1 1 − k 1 1-k_{1} 1k1,二在softmax中采用 k 1 , k_{1}, k1 k 2 k_{2} k2两个随机变量组成二维向量表示,当然隐含约束 k 1 + k 2 = 1 k_{1}+k_{2}=1 k1+k2=1.为了更好的表示多分类问题,将 y ∈ { 1 , 2 , . . K } y\in \left \{ 1,2,..K \right \} y{1,2,..K}(不一定理解为y的取值为k,更应该理解为y可以取k类)多分类问题进行如下表示。
    T ( k ) = [ 0 0 . 1 . 0 ] T(k)=\begin{bmatrix} 0\\ 0\\ .\\ 1\\ .\\ 0 \end{bmatrix} T(k)=00.1.0
    其中向量的第k位为1,其他位为0,也就是当 y = k y=k y=k 时将其映射成向量时对应第k位为1。采用多维表示之后,那么对于每一维就变成了一个单独的二分类问题了,所以softmax函数形式如下:
    h θ ( x ( i ) ) = 1 ∑ k = 1 K e x p ( θ k T x ( i ) ) [ e x p ( θ k T x ( i ) ) e x p ( θ k T x ( i ) ) . e x p ( θ k T x ( i ) ) ] h_{\theta}(x^{(i)})=\frac{1}{\sum_{ k=1}^{K}exp\left ( \theta _{k}^{T}x^{(i)} \right )}\begin{bmatrix} exp\left ( \theta _{k}^{T}x^{(i)} \right )\\ exp\left ( \theta _{k}^{T}x^{(i)} \right )\\ .\\ exp\left ( \theta _{k}^{T}x^{(i)} \right ) \end{bmatrix} hθ(x(i))=k=1Kexp(θkTx(i))1exp(θkTx(i))exp(θkTx(i)).exp(θkTx(i))
    其中函数值是一个 K K K维的向量,同样采用对数损失(多项式分布和最大似然估计),目标函数形式是logistic回归的多维形式。
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    其中 y i k y^{ik} yik表示第 i i i个样本的标签向量化后第k维的取值0或者1.可以看出Softmax的损失是对每一类计算其概率的对数损失,而logistic回归是计算两类的回归,其本质是一样。Logistic回归和Softmax回归都是基于线性回归的分类模型,两者无本质区别,都是从二项分布和多项式分布结合最大对数似然估计。只是Logistic回归常用于二分类,而Softmax回归常用于多分类。而且Logistic回归在考虑多分类时只考虑n-1类。

    概率解释

    ​ 二分类与多分类可以看作是N次伯努利分布的二项分布到多项分布的一个推广,概率解释同Logistic回归一致。详细解释放到广义线性模型中。

    二分类转多分类思想

    对于多分类问题,同样可以借鉴二分类学习方法,在二分类学习基础上采用一些策略以实现多分类,基本思路是“拆解法”,假设N个类别 C 1 , C 2 , . C i . , C n C_{1},C_{2},.C_{i}.,C_{n} C1,C2,.Ci.,Cn,经典的拆分算法有“一对一”,“一对多”,“多对多”,

    一对一的基本思想是从所有类别中选出两类来实现一个两分类学习器,即学习出 C N 2 = N ( N − 1 ) / 2 C_{N}^{2}=N(N-1)/2 CN2=N(N1)/2个二分类器,然后对新样本进行预测时,对这 C N 2 C_{N}^{2} CN2个分类器进行投票最终决定属于那一类。

    一对多的基本思想是把所有类别进行二分类,即属于 C i C_{i} Ci类和非 C i C_{i} Ci两类,这样我们就需要N个分类器,然后对新样本进行预测时,与每一个分类器比较,最终决定属于哪一类。这其实就是Softmax的思想,也是SVM多分类的思想。

    //多对多的基本思想是

    三、最大熵模型

    ​ 很奇怪,为什么会把最大熵模型放到这,原因很简单,它和Logistic回归和SoftMax回归实在是惊人的相似,同属于对数线性模型。

    熵的概念

    这里写图片描述

    信息熵:熵是一种对随机变量不确定性的度量,不确定性越大,熵越大。若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布 。

    假设离散随机变量X的概率分布为 P ( X ) P(X) P(X),则其熵为:
    H ( X ) = − ∑ x P ( x ) l o g P ( x ) H(X)=-\sum_{x}P(x)logP(x) H(X)=xP(x)logP(x)
    其中熵满足不等式 0 ≤ H ( P ) ≤ l o g ∣ X ∣ 0\leq H(P) \leq log|X| 0H(P)logX

    联合熵:对于多个随机变量的不确定性可以用联合熵度量

    假设离散随机变量 X , Y X,Y X,Y的联合概率分布为 P ( X , Y ) P(X,Y) P(X,Y),则其熵为:
    H ( X , Y ) = − ∑ x ∑ y P ( x , y ) l o g P ( x , y ) H(X,Y)=-\sum_{x}\sum_{y}P(x,y)logP(x,y) H(X,Y)=xyP(x,y)logP(x,y)
    条件熵:在给定条件下描述随机变量的不确定性

    假设离散随机变量 X , Y X,Y X,Y,在给定 Y Y Y的条件下 X X X的不确定性为条件熵H(X|Y),也就等于 H ( X , Y ) − H ( Y ) H(X,Y)-H(Y) H(X,Y)H(Y)
    H ( X ∣ Y ) = − ∑ x , y P ( x , y ) l o g ( P ( x ∣ y ) ) H(X|Y)=-\sum_{x,y}P(x,y)log(P(x|y)) H(XY)=x,yP(x,y)log(P(xy))
    互信息:衡量两个随机变量相关性的大小 I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y)=H(X)+H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y)
    I ( X , Y ) = − ∑ x , y P ( x , y ) l o g P ( x , y ) P ( x ) P ( y ) I(X,Y)=-\sum_{x,y}P(x,y)log\frac{P(x,y)}{P(x)P(y)} I(X,Y)=x,yP(x,y)logP(x)P(y)P(x,y)
    相对熵(KL散度):衡量对于同一个随机变量两个概率分布 p ( x ) , q ( x ) p(x),q(x) p(x),q(x)的差异性
    D ( p ∣ ∣ q ) = ∑ x p ( x ) l o g p ( x ) q ( x ) = E p ( x ) l o g p ( x ) q ( x ) D(p||q)=\sum_{x}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)} D(pq)=xp(x)logq(x)p(x)=Ep(x)logq(x)p(x)
    有互信息和相对熵的定义有下式:
    I ( X , Y ) = D ( P ( X , Y ) ∣ ∣ P ( X ) P ( Y ) ) I(X,Y)=D(P(X,Y)||P(X)P(Y)) I(X,Y)=D(P(X,Y)P(X)P(Y))
    关于熵的介绍就到此,不细究,虽然上面的这些定义在机器学习中都会遇到,不过后面涉及到的主要还是熵和条件熵。

    最大熵模型

    最大熵原理是概率模型学习中的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型分布中(满足所有条件下),熵最大的模型是最好的模型。熵最大即为最均匀的分布,从某种角度讲 均匀分布总是符合我们理解的损失风险最小,也就是“不要不所有的鸡蛋放到一个篮子里,均匀的放置”。

    给定训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) . . ( x m , y m ) } T=\{ (x_{1},y_{1}),(x_{2},y_{2})..(x_{m},y_{m})\} T={(x1,y1),(x2,y2)..(xm,ym)},假设 X ∈ χ ⊆ R n X \in \chi \subseteq R^{n} XχRn表示输入, y ∈ ϕ y\in \phi yϕ表示输出,分类模型是一个以条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)输出 Y Y Y,也就是说在满足条件的所有可能集中,条件熵 P ( Y ∣ X ) P(Y|X) P(YX)最大的模型即为最好的模型。其中条件为隐藏在数据的期望。

    一般来讲,最大熵模型常用于处理离散化数据集,定义随机变量 X , Y X,Y X,Y的特征模板,从数据中统计他们的期望作为最大熵模型的条件

    特征函数:
    f ( x , y ) = { 1 , x , y 满 足 某 一 事 实 0 , 否 则 f(x,y)=\left\{\begin{matrix} 1,x,y满足某一事实\\ 0,否则 \end{matrix}\right. f(x,y)={1xy0
    约束条件:对于任意的特征函数 f f f,我们可以统计其在数据中的经验分布 P ~ ( x , y ) \widetilde{P}(x,y) P (x,y)的期望
    E p ~ ( f ) = ∑ x , y P ~ ( x , y ) f ( x , y ) E_{\widetilde{p}}(f)=\sum_{x,y}\widetilde{P}(x,y)f(x,y) Ep (f)=x,yP (x,y)f(x,y)
    特征函数 f f f关于模型 P ( Y ∣ X ) P(Y|X) P(YX)和先验 P ~ ( X ) \widetilde{P}(X) P (X)的期望
    E p ( f ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) f ( x , y ) E_{p}(f)=\sum_{x,y}\widetilde{P}(x)P(y|x)f(x,y) Ep(f)=x,yP (x)P(yx)f(x,y)
    所以,满足约束条件的模型集合为:
    Ω ≡ { P ∈ P ∣ E p ( f i ) = E p ~ ( f i ) , i = 1.. n } \Omega \equiv \{ P\in \boldsymbol{P}| E_{p}(f_{i})=E_{\widetilde{p}}(f_{i}),i=1..n\} Ω{PPEp(fi)=Ep (fi),i=1..n}
    因此最大熵模型的形式化表示如下:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…
    由拉格让日乘子法,引入拉格让日乘子,定义拉格让日函数:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    根据拉格朗日乘子法, L ( P ) ≥ L ( P , w ) L(P) \geq L(P,w) L(P)L(P,w),当且仅当满足拉格朗日乘子法的所有必要条件等式成立,原问题也就是一个最小化最大问题
    min ⁡ P ∈ C max ⁡ w L ( P , w ) \min_{P \in C}\max_{w}L(P,w) PCminwmaxL(P,w)
    对偶问题是:
    max ⁡ w min ⁡ P ∈ C L ( P , w ) \max_{w} \min_{P \in C}L(P,w) wmaxPCminL(P,w)
    求解对偶问题,第一步最小化内部 min ⁡ P ∈ C L ( P , w ) \min_{P \in C}L(P,w) minPCL(P,w) min ⁡ P ∈ C L ( P , w ) \min_{P \in C}L(P,w) minPCL(P,w)是我们需要求解的模型,也是关于 w w w的函数。将模型的最优解记为 P w P_{w} Pw
    P w = a r g max ⁡ P ∈ C L ( P , w ) = P w ( y ∣ x ) P_{w}=arg\max_{P \in C}L(P,w)=P_{w}(y|x) Pw=argPCmaxL(P,w)=Pw(yx)
    那么外层最大化目标函数为:
    max ⁡ w Φ ( w ) Φ ( w ) = min ⁡ p ∈ C L ( P , w ) = L ( P w , w ) \max_{w}\Phi(w)\\ \Phi(w)=\min_{p \in C}L(P,w)=L(P_{w},w) wmaxΦ(w)Φ(w)=pCminL(P,w)=L(Pw,w)
    为了求解 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),根据KKT条件对 P ( y ∣ x ) P(y|x) P(yx)求偏导:
    KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
    求解得:
    P ( y ∣ x ) = e x p ( ∑ i w i f i ( x , y ) + w 0 − 1 ) = ( e x p ∑ i w i f i ( x , y ) ) e x p ( 1 − w 0 ) P(y|x)=exp\left( \sum_{i} w_{i}f_{i}(x,y) +w_{0}-1 \right)=\frac{ \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)}{exp(1-w_{0})} P(yx)=exp(iwifi(x,y)+w01)=exp(1w0)(expiwifi(x,y))
    这里,虽然我们不知道 w 0 w_{0} w0,但是由于 ∑ y P ( y ∣ x ) = 1 \sum_{y}P(y|x)=1 yP(yx)=1,所以分母一定是对 y y y的所有可能的归一化因子
    P w ( y ∣ x ) = 1 z w ( x ) ( e x p ∑ i w i f i ( x , y ) ) z w ( x ) = ∑ y e x p ( ∑ i w i f i ( x , y ) ) P_{w}(y|x)=\frac{1}{z_{w}(x)} \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)\\ z_{w}(x)=\sum_{y}exp(\sum_{i}w_{i}f_{i}(x,y)) Pw(yx)=zw(x)1(expiwifi(x,y))zw(x)=yexp(iwifi(x,y))
    到此,内部最小化求解得到了 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),回到外部目标 max ⁡ w Φ ( w ) \max_{w}\Phi(w) maxwΦ(w),将 P w ( y ∣ x ) P_{w}(y|x) Pw(yx)代回拉格朗日函数有:
    Φ ( w ) = ∑ x , y P ~ ( x ) P w ( y ∣ x ) l o g P w ( y ∣ x ) + ∑ i = 1 n w i ( ∑ x , y P ~ ( x , y ) f ( x , y ) − ∑ x , y P ~ ( x ) P w ( y ∣ x ) f ( x , y ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x , y P ~ ( x ) P w ( y ∣ x ) ( l o g P w ( y ∣ x ) − ∑ i = 1 n w i f i ( x , y ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x , y P ~ ( x ) P w ( y ∣ x ) l o g Z w ( x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x P ~ ( x ) l o g Z w ( x ) ∑ y P w ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x P ~ ( x ) l o g Z w ( x ) \begin{aligned} \Phi(w) &=\sum_{x,y}\widetilde{P}(x)P_w(y|x)logP_w(y|x) + \sum^n_{i=1}w_i\left (\sum_{x,y}\widetilde{P}(x ,y)f(x,y) -\sum_{x,y}\widetilde{P}(x)P_w(y|x)f(x,y) \right )\\ &= \sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\widetilde{P}(x)P_w(y|x)\left (logP_w(y|x) - \sum_{i=1}^nw_if_i(x,y) \right) \\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\widetilde{P}(x)P_w(y|x)logZ_w(x)\\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\widetilde{P}(x)logZ_w(x)\sum_yP_w(y|x)\\ &=\sum_{x,y} \widetilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\widetilde{P}(x)logZ_w(x)\\ \end{aligned} Φ(w)=x,yP (x)Pw(yx)logPw(yx)+i=1nwi(x,yP (x,y)f(x,y)x,yP (x)Pw(yx)f(x,y))=x,yP (x,y)i=1nwifi(x,y)+x,yP (x)Pw(yx)(logPw(yx)i=1nwifi(x,y))=x,yP (x,y)i=1nwifi(x,y)+x,yP (x)Pw(yx)logZw(x)=x,yP (x,y)i=1nwifi(x,y)+xP (x)logZw(x)yPw(yx)=x,yP (x,y)i=1nwifi(x,y)+xP (x)logZw(x)
    因此, max ⁡ w Φ ( w ) \max_{w} \Phi(w) maxwΦ(w)的最优解为:
    w ∗ = a r g max ⁡ w Φ ( w ) w^* = arg \max_w \Phi(w) w=argwmaxΦ(w)
    代回 P w ( y ∣ x ) P_{w}(y|x) Pw(yx),我们可以得到最终的分类模型,同样我们发现最大熵模型也是一个对数线性模型。

    概率解释:

    已知训练集的经验概率分布 P ~ ( x , y ) \widetilde{P}(x,y) P (x,y),条件概率分布 P ( y ∣ x ) P(y|x) P(yx)的对数似然函数为:
    L P ~ ( P w ) = l o g ∏ x , y P ( y ∣ x ) P ~ ( x , y ) = ∑ x , y P ~ ( x , y ) l o g P ( y ∣ x ) L_{\widetilde{P}}(P_w) = log\prod_{x,y}P(y|x)^{\widetilde{P}(x,y)} = \sum_{x,y}\widetilde{P}(x,y)logP(y|x) LP (Pw)=logx,yP(yx)P (x,y)=x,yP (x,y)logP(yx)
    其中,我们发现对数似然函数与条件熵的形式一致,最大熵模型目标函数前面有负号(这与最大化对数似然函数完全相反),同时最大熵模型中有约束条件。也正是因为约束条件,我们将原问题转化为对偶问题后发现,在满足约束条件的对偶函数的极大化等价于最大化对数似然函数。

    当条件概率 P ( y ∣ x ) P(y|x) P(yx)满足约束条件,在对偶问题求解过程中我们有:
    P w ( y ∣ x ) = 1 z w ( x ) ( e x p ∑ i w i f i ( x , y ) ) z w ( x ) = ∑ y e x p ( ∑ i w i f i ( x , y ) ) P_{w}(y|x)=\frac{1}{z_{w}(x)} \left(exp \sum_{i} w_{i}f_{i}(x,y)\right)\\ z_{w}(x)=\sum_{y}exp(\sum_{i}w_{i}f_{i}(x,y)) Pw(yx)=zw(x)1(expiwifi(x,y))zw(x)=yexp(iwifi(x,y))
    代入到对数似然函数,同样有:
    L P ~ ( P w ) = ∑ x , y P ~ ( x , y ) l o g P ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ( ∑ i = 1 n w i f i ( x , y ) − l o g Z w ( x ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y P ~ ( x , y ) l o g Z w ( x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) \begin{aligned} L_{\widetilde{P}}(P_w) &= \sum_{x,y}\widetilde{P}(x,y)logP(y|x)\\ &= \sum_{x,y}\widetilde{P}(x,y)\left ( \sum_{i=1}^n w_if_i(x,y) -logZ_w(x)\right )\\ &= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x,y}\widetilde{P}(x,y)logZ_w(x)\\ &= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x}\widetilde{P}(x)logZ_w(x)\\ \end{aligned} LP (Pw)=x,yP (x,y)logP(yx)=x,yP (x,y)(i=1nwifi(x,y)logZw(x))=x,yP (x,y)i=1nwifi(x,y)x,yP (x,y)logZw(x)=x,yP (x,y)i=1nwifi(x,y)xP (x)logZw(x)
    最后,我们再来看对偶函数表达式,我们发现,第一项其实是 X , Y X,Y X,Y的联合熵 H ( X , Y ) H(X,Y) H(X,Y),第二项是X的信息熵 H ( X ) H(X) H(X),回看熵的示意图,我们发现,我们最大化的目标还是条件熵 H ( Y ∣ X ) H(Y|X) H(YX)

    这里写图片描述

    下面再来对比下Logistic回归,SoftMax回归,最大熵模型

    1)同属于对数线性模型

    2)Logistic回归和SoftMax回归都基于条件概率 P ( y ∣ x ) P(y|x) P(yx)满足一个伯努利分布,N重伯努利分布,而最大熵模型以期望为准,没有该假设

    3)由于都采用线性模型,三者都假设特征之间是独立的

    最大熵模型的优化问题

    最大熵模型从拉格朗日乘子法最大化对偶函数,还是从最大化对数似然函数,其目标函数如下:
    L P ~ ( P w ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) L_{\widetilde{P}}(P_w)= \sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^n w_if_i(x,y) - \sum_{x}\widetilde{P}(x)logZ_w(x)\\ LP (Pw)=x,yP (x,y)i=1nwifi(x,y)xP (x)logZw(x)
    常用的梯度优化算法都可以,另外对于最大熵模型也有专门的算法有GIS IIS 算法 。

    展开全文
  • 机器学习篇——对数线性模型

    千次阅读 2018-04-14 15:36:29
    对数线性模型包括逻辑回归、最大熵模型和条件随机场等 1、模型 条件概率分布(对数线性模型、概率模型)、判别模型 逻辑回归: 概率分布可由广义线性模型推导得到 多分类时,分子部分为:第k类exp(-wk*x+b),...

    建议首先看cs229讲的广义线性模型、exponential family(指数分布族)
    对数线性模型包括逻辑回归、最大熵模型和条件随机场等
    1、模型
    条件概率分布(对数线性模型、概率模型)、判别模型
    对数线性模型公式
    逻辑回归:
    概率分布可由广义线性模型推导得到
    多分类时,分子部分为:第k类exp(-wk*x+b),第一类为1
    分母部分为所有类分子之和,即标准化因子
    最大熵模型:
    概率分布由最大熵原理进行建模
    分子部分为:exp(特征函数的加权和)
    分母部分为对分子的标准化因子
    条件随机场:
    概率分布由线性链(简单情况)条件随机场确定
    分子为:这里写图片描述
    分母为:这里写图片描述
    2、策略
    最大似然估计
    注:凡是已知条件概率分布(其实是似然)的模型,一般策略都是最大似然估计,即最小化对数损失函数
    最大似然估计是一种参数估计方法,其他还有最大后验概率(考虑先验的最大似然)、贝叶斯估计(最大后验的基础上进一步增强,分母看做归一化因子,即对分子的积分)最小二乘估计(最小平方估计,最小化误差的平方)等,会在后面总结一节
    3、算法
    对数线性模型参数估计用到的算法即是最大似然估计用的算法,也就是梯度下降法等
    注:条件随机场其他两个问题中,概率用前向-后向算法,预测用维特比算法(同隐马尔科夫模型)
    4、补充
    最大熵模型推导过程:
    一是最大化条件熵
    条件熵等于联合熵减去熵
    二是由特征函数确定约束条件
    特征函数关于(联合概率的经验分布)的期望值等于特征函数关于条件分布(模型)与边缘概率的期望值
    三是建立原始约束最优化问题
    即max最大熵模型
    s.t 约束条件
    四是建立最小最大化原问题
    引入拉格朗日乘子
    五是转化为最大最小化问题
    引入kkt条件
    六是转化为极大似然估计

    展开全文
  • 本设计实例针对该线性化问题给出了一种纯硬件的解决方案,该解决方案电路简单、成本低廉,并且便于调整、精确度高。输出信号可以直接抵达面板表或微控制器,无需对数或反对数计算等复杂的数据操作。
  • 1.图像的线性变换 图像的线性变换 S=k×r+b S=k\times r+b S=k×r+b 其中 rrr 为输入变量,SSS为输出变量,k,bk,bk,b为线性变换中的倍数因子和偏移因子。 当0<k<10<k<10<k<1时,对灰度压缩,...
  • 这时需要微控制器将传感器的对数响应线性化。该方案的一个较好例子就是SandboxElectronics公司的SEN-000007模块,该模块使用的是汉威电子公司生产的MG-811二氧化碳传感器。参考文献1中给出了电路和代码,但没有说明...
  • 的非线性相位响应特性的线性化调制。同时,本文还在实验中发现了,相位响应的线性化程度会随着驱动频率的提高而降低。本文针对该现象,在应用该模型构造周期驱动信号的基础上,提出了将非线性响应映射为线性响应的方法。...
  • 我们在平坦的Minkowski空间中计算球体中无质量自旋2场的纠缠熵。 我们用线性度量扰动场hμν描述该理论,并使用张量球谐函数将其... 通用对数项的系数的结果为-61/45,与使用基于互信息的正则计算得出的结果一致。
  • DSGE求解和模型参数估计的一些认识

    千次阅读 2021-04-26 14:42:11
    DSGE不是非要线性化才能搞,关键看你的目的是什么,如果你就是做模拟和impulse response,你没有必要自己动手去对数线性化,Dynare可以帮你做。但是要知道一点,我们对付“线性动力系统”的知识远远比“非线性动力...
  • 公式推导对数几率回归用于处理二分类问题,其数学基础为对数几率函数,是一种 Sigmoid 函数\[y = \frac{1}{1+e^{-z}} \tag 1\]其函数图像如下取 $z = \boldsymbol{w}^T\boldsymbol{x}+b$,并对式 $(1)$ 进行一定变换...
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程,下一...
  • 文章目录对数线性回归(波士顿房价预测)导入模块获取数据训练模型可视 对数线性回归(波士顿房价预测) 导入模块 import pandas as pd import numpy as np import matplotlib.pyplot as plt from matplotlib.font_...
  • #Lab报告3个图表。 Main.py用于I vsV。Main2.Py用于ln(v)vs I显示电压随时间的衰减运行时,它在Y轴上显示电压,在X轴上显示时间。 不确定性是main.py main2.py中误差线的时间差,不确定性是电压
  • 考虑真空荷载实际边界条件,引入对土体压缩曲线线性化的双对数坐标,建立了真空预压砂井地基非线性固结近似解答;利用模型试验结果验证了解答的可靠性,并分析了真空度衰减和土性参数对固结性状的影响.研究结果表明,考虑...
  • 图像增强算法,包括灰度线性变换、灰度非线性变换、直方图均衡,掌握基于MATLAB的各个算法的图像增强的实现。
  • 量子退相干导致量子系统的非单一演化,并引入了不可控的方面。 对于复合系统,退相干参数的数量始终随系统大小成指数比例增长... 这种用于压缩感测的线性化方法为退相干量子系统的理论和实验研究提供了一种有效的方法。
  • 尽管大多数二氧化碳传感器采用红外(IR)技术,但电化学传感器因其灵敏度高、测量范围广且价格低廉等优势成为不可小觑的竞争对手之一。一般情况下,电化学传感器通过一个...这时需要微控制器将传感器的对数响应线性化
  • R语言使用glm函数构建泊松对数线性回归模型处理三维列联表数据构建饱和模型、使用summary函数获取模型汇总统计信息
  • 文章目录线性映射: 既然之前提到了将彩色照片,以光通量的方式,转换为黑白的;那么我们也可以把一张黑白照片,近似的转换为彩色的。当然,这里有一些前提条件,比如说,照片不能过曝、也不能过暗,灰度适中的会...
  • 线性分类个人学习笔记
  • 主要介绍了Python中用于计算对数的log()方法,是Python入门基础中的必会的方法,需要的朋友可以参考下
  • 最小二乘法:基于均方差误差最小来进行模型的求解,在线性回归中,最小二乘法就是试图找到一条直线,使得样本到直线上的欧氏距离之和最小。 2.但是更一般的形式:输入的属性有多个 求解这个的过程称为“多元线性...
  • 使用C++、opencv实现对图像的对数变换及非线性变换,实现图像增强 相关API: void normalize(InputArray src, OutputArray dst, double alpha=1, double beta=0, int norm_type=NORM_L2, int dtype=-1, Input...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 55,067
精华内容 22,026
关键字:

对数线性化