精华内容
下载资源
问答
  • 最大熵模型中的对数似然函数的解释

    万次阅读 多人点赞 2017-09-13 14:33:59
    最大熵模型中的对数似然函数的解释 最近在学习最大熵模型,看到极大似然估计这部分,没有看明白条件概率分布p(y|x)p(y|x)p(y|x)的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给出对数似然函数的...

    最大熵模型中的对数似然函数的解释

    最近在学习最大熵模型,看到极大似然估计这部分,没有看明白条件概率分布p(yx)p(y|x)的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给出对数似然函数的一般形式:
    Lp=xp(x)p(x).L_{\overline{p}}=\prod_{x} p(x)^{\overline{p}(x)}.
    其实并没有解决问题。为了方便以后其他人的学习和理解,我结合自己的理解给出完整的解释。
    其实第一眼之所以不理解,因为这是最大似然函数的另外一种形式。一般书上描述的最大似然函数的一般形式是各个样本集XX中各个样本的联合概率:
    L(x1,x2,...,xn;θ)=i=1np(xi;θ).L(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^{n} p(x_i;\theta).
    其实这个公式和上式是等价的。x1,x2,...,xnx_1,x_2,...,x_n是样本具体观测值。随机变量XX是离散的,所以它的取值范围是一个集合,假设样本集的大小为nnXX的取值有kk个,分别是v1,v2,...,vkv_1,v_2,...,v_k。用C(X=viC(X=v_i)表示在观测值中样本viv_i出现的频数。所以L(x1,x2,...,xn;θ)L(x_1,x_2,...,x_n;\theta)可以表示为:
    L(x1,x2,...,xn;θ)=i=1kp(vi;θ)C(X=vi).L(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^{k} p(v_i;\theta)^{C(X=v_i)}.
    对等式两边同时开nn次方,可得
    L(x1,x2,...,xn;θ)1n=i=1kp(vi;θ)C(X=vi)n.L(x_1,x_2,...,x_n;\theta)^{\frac{1}{n}}=\prod_{i=1}^{k} p(v_i;\theta)^{\frac{C(X=v_i)}{n}}.
    因为经验概率p(x)=C(X=vi)n\overline{p}(x)=\frac{C(X=v_i)}{n},所以简写得到:
    L(x1,x2,...,xn;θ)1n=xp(x;θ)p(x).L(x_1,x_2,...,x_n;\theta)^{\frac{1}{n}}=\prod_{x} p(x;\theta)^{\overline{p}(x)}.
    很明显对L(x1,x2,...,xn;θ)L(x_1,x_2,...,x_n;\theta)求最大值和对L(x1,x2,...,xn;θ)1nL(x_1,x_2,...,x_n;\theta)^{\frac{1}{n}}求最大值的优化的结果是一样的。整理上式所以最终的最大似然函数可以表示为:
    L(x;θ)=xp(x:θ)p(x).L(x;\theta)=\prod_{x} p(x:\theta)^{\overline{p}(x)}.
    忽略θ\theta,更一般的公式就是本文的第一个公式。结合公式一,参考v_JULY_v博客中的最大熵模型中的数学推导(http://m.blog.csdn.net/v_july_v/article/details/40508465),可得到联合概率密度的似然函数,即最大熵中的对数似然函数:
    Lp=logx,yp(x,y)p(x,y)=x,yp(x,y)logp(x,y)=x,yp(x,y)log[p(x)p(yx)]=x,yp(x,y)logp(yx)+x,yp(x,y)logp(x) \begin{aligned} L_{\overline{p}} &=\log\prod_{x,y} p(x,y)^{\overline{p}(x,y)} \\ &=\sum_{x,y}{\overline{p}(x,y)}\log p(x,y)\\ &=\sum_{x,y}{\overline{p}(x,y)}\log [{\overline{p}(x)}p(y|x)] \\ &=\sum_{x,y}{\overline{p}(x,y)}\log p(y|x)+\sum_{x,y}{\overline{p}(x,y)}\log {\overline{p}(x)} \end{aligned}
    上述公式第二项是一个常数项(都是样本的经验概率),一旦样本集确定,就是个常数,可以忽略。所以最终的对数似然函数为:
    Lp=x,yp(x,y)logp(yx).L_{\overline{p}}=\sum_{x,y}{\overline{p}(x,y)}\log p(y|x).
    上式就是最大熵模型中用到的对数似然函数。

    展开全文
  • 似然函数 似然函数是一种关于统计模型参数的函数,给定输出y时,关于参数x的似然函数...负对数似然函数 高斯分布的概率密度函数 对应负对数似然函数 泊松分布的概率密度函数 对应负对数似然函数 ...

    似然函数

    似然函数是一种关于统计模型参数的函数,给定输出y时,关于参数x的似然函数L(y|x)在数值上等于给定参数x后变量y的概率

    L(x|y)=P(y=y_{i}|x)=\prod_{j=0}^m P(y=y_{i}|x_{j})

    负对数似然函数

    -logP(y|x)

     

    高斯分布的概率密度函数

    f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-u)^2}{2\sigma ^{2}}}

    对应负对数似然函数

    -log(L(\sigma |\eta ))=-log(P(E=\eta |\sigma ))=-log(\prod _{i=1}^m\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x_{i}-u_{i})^2}{2\sigma ^2}}) \\=mlog(\sqrt{2\pi }\sigma)+\sum _{i=1}^m\frac{(x_{i}-u_{i})^2}{2\sigma ^2}=\frac{m}{2}log(2\pi )+mlog\sigma +\frac{1}{2\sigma ^{2}}\sum_{i=1}^{m}(x_{i}-u_{i})^2

     

    泊松分布的概率密度函数

    P(X=k)=\frac{\lambda ^{k}}{k!}e^{-\lambda }

    对应负对数似然函数

    -log(\prod _{k=1}^m\frac{\lambda ^{k}}{k!}e^{-\lambda })=m\lambda -\sum _{k=1}^mlog(\frac{\lambda ^k}{k!})=m\lambda +\sum _{k=1}^m(log(k!)-klog\lambda )

    展开全文
  • 对数似然函数理解

    千次阅读 2019-09-19 21:08:20
    对数似然函数(log likelihood) 机器学习里面,对模型的训练都是对Loss function进行优化,在分类问题中,我们一般使用最大似然估计(Maximum likelihood estimation)来构造损失函数。对于输入的x,其对应的类...

    对数似然函数(log likelihood)

    机器学习里面,对模型的训练都是对Loss function进行优化,在分类问题中,我们一般使用最大似然估计(Maximum likelihood estimation)来构造损失函数。对于输入的x,其对应的类标签为t,我们的目的是找到使p(t|x)最大的模型f(x),y=f(x)为模型的预测值。

    在二分类问题中:

    可以看到,多分类问题中,上述通过最大似然估计得到的损失函数与通过交叉熵得到的损失函数相同。
     

    参考:https://blog.csdn.net/qq_38469553/article/details/83860335

    展开全文
  • 逻辑回归中的sigmoid函数及负对数似然函数求导: 查了好多笔记都是抄抄抄,中间有一步很简单但很关键,都没有展示,只能上笔了,记录一下: sigmoid函数: sigmoid(wx)=η(wx)=11+exp(−wx)sigmoid(wx)=\eta{(wx)}=\...

    逻辑回归中的sigmoid函数及负对数似然函数求导:

    查了好多笔记都是抄抄抄,中间有一步很简单但很关键,都没有展示,只能上笔了,记录一下:
    sigmoid函数:
    sigmoid(wx)=η(wx)=11+exp(wx)sigmoid(wx)=\eta{(wx)}=\frac{1}{1+exp(-wx)}
    负对数似然函数:
    L=i[yilog(η(wx))+(1yi)log(1η(wx))]L=-\sum_i{[y_i*log{(\eta{(wx)}})+(1-y_i)*log{(1-\eta{(wx)})}]}
    L对w求导:
    δLδw=i[yi1η(wx)(1yi)11η(wx)]η(wx)\frac{\delta{L}}{\delta{w}}=-\sum_i{[y_i*\frac1{\eta{(wx)}}-(1-y_i)*\frac1{1-\eta{(wx)}}]}*\eta(wx)'
    提出η(wx)\eta(wx)'
    η(wx)=(11+exp(wx))\eta(wx)'=(\frac{1}{1+exp(-wx)})'
    =1(1+exp(wx))2exp(wx)(x)=-\frac1{(1+exp(-wx))^2}*exp(-wx)*(-x)
    =exp(wx)1+exp(wx)11+exp(wx)x=\frac{exp(-wx)}{1+exp(-wx)}*\frac{1}{1+exp(-wx)}*x
    =(1η(wx))η(wx)x=(1-\eta{(wx)})*\eta{(wx)}*x
    因此,
    δLδw=i[yi(1η(wx))(1yi)η(wx)]x\frac{\delta{L}}{\delta{w}}=-\sum_i{[y_i*(1-\eta{(wx)})-(1-y_i)*\eta{(wx)}]*x}
    =i(yiη(wx))x=-\sum_i{(y_i-\eta{(wx)})*x}

    展开全文
  • 深度学习以及机器学习中都会用到SoftMax函数,交叉熵损失函数与熵,对数似然函数等一些数学方面的知识,此文作为个人学习笔记。 1.softmax函数 (1)定义 多分类问题中,我们可以使用SoftMax函数,对输出的值归一...
  • 在统计学中,最大似然估计,也称最大概似估计,是用来估计一个概率模型的参数的一种方法通俗来讲,最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值。...
  • 在评论中这位老师将概率密度函数和似然函数之间的关系,类比成 和 之间的关系。详细翻译如下:2我们可以做一个类比,假设一个函数为 ,这个函数包含两个变量。如果你令b=2,这样你就得到了一个关于a的二次函数,即 ...
  • 对数似然函数VI . 高斯混合模型方法 步骤 I . 高斯混合模型 参数简介 1 . 模型 与 参数 : 高斯混合模型 概率密度函数 : p(x)=∑i=1kωig(x∣μi,Σi)p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_...
  • 今天复习Logistic回归的时候涉及到二项分布的求最大似然解,突然发现这个对数似然函数熟悉,似曾相识,不就是交叉熵损失函数么,难道这仅仅是巧合,不能够。先看下这个推导。 1. 二项分布(0-1分布): 2. 最大...
  • https://math.stackexchange.com/questions/892832/why-we-consider-log-likelihood-instead-of-likelihood-in-gaussian-distribution
  • 1. 二项分布 二项分布也叫 0-1 分布,如随机变量 x 服从二项分布,关于参数 μ(0≤μ≤1),其值取 1 和取 0 的概率如下: ...2. 服从二项分布的样本集的对数似然函数 给定样本集 D={x1,x2,…,xB} 是对随机变...
  • ...(四)对数似然函数 (五)梯度计算公式 (六)对比散度算法 (七)RBM 训练算法 (八)RBM 的评估 作者: peghoty  出处:  ...
  • 对数似然函数的改变量是 L ( w + δ ) − L ( w ) = ∑ x , y P ~ ( x , y ) log ⁡ P w + δ ( y ∣ x ) − ∑ x , y P ~ ( x , y ) log ⁡ P w ( y ∣ x ) L(w+\delta)-L(w)=\sum_{x,y}\tilde{P}(x,y)\log{P_{w+...
  • 贝叶斯公式:符号说明:Table1:符号说明预知识:首先,得知道D和θ都是随机变量(值),随机变量本质是一个 映射函数用来把非实数域映射到实数域,在实数域我们就可以得到随机变量的概率质量/密度函数、分布函数等...
  • 2)似然——看到了某种结果,对产生结果的原因作出假设:是刮风了?还是有乌云?还是现在是上午十二点?(每一个伴随此结果的,都是可能导致此结果的原因)我们现在计算的就是P(θi|X),已知X,求每一个θi对应的...
  • 文章转载自:https://blog.csdn.net/zengxiantao1994/article/details/72787849极大似然估计-形象解释看这篇文章:https://www.zhihu.com/question/24124998贝叶斯定理-形象解释看这篇文章:...
  • 摘要最大似然估计(Maximum Likelihood Estimation)与最大后验估计(Maximum A Posteriori)是机器学习中最常用的两种点估计参数估计方法. 最大似然估计以最大化观测数据集上的似然度为目标, 强调从观测数据集上拟合出...
  • 将条件因子扩展为M个,即 ,则似然函数(对数似然函数变成): 此时每一个 的求导变成一个求偏导数的过程: ,每一个 都要对 求导。 最大似然评估的案例 最大似然评估计算 最大似然评估(也称为极大似然评估)的用处是...
  • 我们解决的办法是利用这些训练样本来估计问题中所涉及的先验概率和条件密度函数,并把这些估计的结果当作实际的先验概率和条件密度函数,然后再设计分类器。参数估计问题是统计学中的经典问题,并且已经有了一些...
  • 这些统计指标能唯一确定一个似然函数L 在贝叶斯网络中,可以将似然函数中相互独立的条件概率分布分解为局部似然函数的连乘,然后在局部进行参数估计 对于离散型的条件概率分布,局部似然函数还能更进一步分解为...
  • 同时,softmax配合log似然代价函数,其训练效果也要比采用二次代价函数的方式好。 1. softmax函数及其求导  softmax的函数公式如下:  其中,表示第L层(通常是最后一层)第j个神经元的输入,表示第L层第j个神经元...
  • 边缘概率,联合概率,条件概率的关系: 相信到这里已经对似然有了一个初步的了解了,那么似然函数又是什么呢? 要写出似然函数,我们必须先知道随机变量的分布率(概率密度函数)。 离散型随机变量的似然函数。如果是...
  • (3) 正态分布型 观测值在状态量真值附近呈高斯分布,此时的似然概率密度函数为高斯函数: 若假定似然概率密度函数为高斯函数,此时,似然概率密度函数的均值 代表状态量真值, 代表传感器检测精度范围。若同时假定...
  • 本文将针对为什么引入先验,共轭先验与后验似然的关系以及常见的先验-后验分布进行展开。为什么引入先验?因为贝叶斯公式!因为计算方便!根据贝叶斯公式可以得到后验概率(posterior density): 因为p(y)只受数据集...
  • likehood:通过参数得到样本X的概率,似然函数,通常就是我们的数据集的表现。prior:参数的先验概率,一般是根据人的先验知识来得出的。比如人们倾向于认为抛硬币实验会符合先验分布:beta分布。当我们选择beta分布...
  • 贝叶斯估计、最大似然估计(MLE)、最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到,读文章的时候还感觉挺明白,但独立思考时经常会傻傻分不清楚(????),因此希望通过本文对其进行总结。2. 背景知识...
  • 从最初的分类函数,通过最大化分类间隔,max(1/||w||),min(1/2||w||^2),凸二次规划,朗格朗日函数,对偶问题,一直到最后的SMO算法求解,都为寻找一个最优解。接着引入核函数将低维空间映射到高维特征空间,解决了...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 927
精华内容 370
关键字:

对数似然函数