精华内容
下载资源
问答
  • 深度学习以及机器学习中都会用到SoftMax函数,交叉熵损失函数与熵,对数似然函数等一些数学方面的知识,此文作为个人学习笔记。 1.softmax函数 (1)定义 多分类问题中,我们可以使用SoftMax函数,对输出的值归一...

    深度学习以及机器学习中都会用到SoftMax函数,交叉熵损失函数与熵,对数似然函数等一些数学方面的知识,此文作为个人学习笔记。

    1.softmax函数

    (1)定义

    多分类问题中,我们可以使用SoftMax函数,对输出的值归一化为概率值,映射到(0,1)区间。

    这里假设在进入softmax函数之前,已经有模型输出C值,其中C是要预测的类别数,模型可以是全连接网络的输出a,其输出个数为C,即输出为a1,a2,...,aC。

    所以对每个样本,它属于类别ii的概率为: 

    y_{i}=e^{a^{i}}/\sum_{k=1}^{C}e^{a^{k}},\forall i=1,2,...,C

    经过上式的运算之后,yi被归一化到了[0,1]区间,并且所有类别的yi之和为1.

    (2)导数

    对softmax函数进行求导,其中aj(j=1,2,..i,...C)是自变量,yi是因变量。实际上所求取的应当是yi对aj的偏导:

    \partial y_{i}/\partial a_{j}

    所以求偏导分为两种情况:i是否等于j。

     

    这样就得到了softmax函数对于变量的偏导数。这在后续的计算损失函数的偏导时会用到。

     

    2.熵,相对熵与交叉熵

    (1)信息量  

             

    (2)熵

    在某次考试结果公布前,小明的考试结果有多大的不确定度呢?你肯定会说:十有八九不及格!因为根据先验知识,小明及格的概率仅有0.1,90%的可能都是不及格的。怎么来度量这个不确定度?求期望!不错,我们对所有可能结果带来的额外信息量求取均值(期望),其结果就能够衡量出小明考试成绩的不确定度了。

       

        

    (3)相对熵

      

    (4)交叉熵

       

    注意:

    上述最后得到的交叉熵损失函数是基于“p和q都服从0-1分布”而推出来的。而实际在神经网络中,对于某个样本进行分类预测时,预测值和真实值(标签值)都服从0-1分布,如下所述:

    回到我们多分类的问题上,真实的类标签可以看作是分布,对某个样本属于哪个类别可以用One-hot的编码方式,是一个维度为C的向量,比如在5个类别的分类中,[0, 1, 0, 0, 0]表示该样本属于第二个类,其概率值为1。我们把真实的类标签分布记为p,该分例子中,当第i个样本的ti=1时表示该样本属于该类别。

    同时,分类模型经过softmax函数之后,也是一个概率分布,所以我们把模型的输出的分布记为q,它也是一个维度为C的向量,例如现在q的分布为:[0.1, 0.8, 0.05, 0.05, 0]。 

    此时用样本真实标签值与预测值的交叉熵就可以作为损失函数了:

    对于所有的类别求损失之和:

    (5)损失函数求导

        

    上述就是多分类问题中损失函数对于单个输出aj的偏导数,后续进行权重更新时进行反向传播就会用到这个偏导。

     

    3.对数似然函数

    机器学习里面,对模型的训练都是对Loss function进行优化,在分类问题中,我们一般使用最大似然估计(Maximum likelihood estimation)来构造损失函数。对于输入的x,其对应的类标签为t,我们的目的是找到使p(t|x)最大的模型f(x),y=f(x)为模型的预测值。

    在二分类问题中:

    可以看到,多分类问题中,上述通过最大似然估计得到的损失函数与通过交叉熵得到的损失函数相同。

     

    参考:

    https://blog.csdn.net/behamcheung/article/details/71911133

    https://blog.csdn.net/rtygbwwwerr/article/details/50778098#commentBox

     

    展开全文
  • 对数似然函数理解

    千次阅读 2019-09-19 21:08:20
    对数似然函数(log likelihood) 机器学习里面,对模型的训练都是对Loss function进行优化,在分类问题中,我们一般使用最大似然估计(Maximum likelihood estimation)来构造损失函数。对于输入的x,其对应的类...

    对数似然函数(log likelihood)

    机器学习里面,对模型的训练都是对Loss function进行优化,在分类问题中,我们一般使用最大似然估计(Maximum likelihood estimation)来构造损失函数。对于输入的x,其对应的类标签为t,我们的目的是找到使p(t|x)最大的模型f(x),y=f(x)为模型的预测值。

    在二分类问题中:

    可以看到,多分类问题中,上述通过最大似然估计得到的损失函数与通过交叉熵得到的损失函数相同。
     

    参考:https://blog.csdn.net/qq_38469553/article/details/83860335

    展开全文
  • 今天复习Logistic回归的时候涉及到二项分布的求最大似然解,突然发现这个对数似然函数熟悉,似曾相识,不就是交叉熵损失函数么,难道这仅仅是巧合,不能够。先看下这个推导。 1. 二项分布(0-1分布): 2. 最大...

           今天复习Logistic回归的时候涉及到二项分布的求最大似然解,突然发现这个对数似然函数熟悉,似曾相识,不就是交叉熵损失函数么,难道这仅仅是巧合,不能够。先看下这个推导。

    1. 二项分布(0-1分布):

    2. 最大似然估计法:

     

    3. 求解最大似然估计量:

    这里我们主要看下标记处的对数似然函数,是不是很熟悉?

    交叉熵代价函数(cross-entropy cost function)

    后边上网找了下,发现了这片博文:https://blog.csdn.net/lanchunhui/article/details/75433608。算是一个解释吧。接下来要学习下latex了,这样排版太丑了。

     

    参考:

    概率论与数理统计 浙大版

     

    展开全文
  • 统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。 似然函数在推断统计学(Statistical inference)中...

    统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。

    似然函数在推断统计学(Statistical inference)中扮演重要角色,尤其是在参数估计方法中。在教科书中,似然常常被用作“概率”的同义词。但是在统计学中,二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次”,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。

    数理统计学中,似然函数是一种关于统计模型中的参数函数,表示模型参数中的似然性

    给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:

                                                                            

    考虑投掷一枚硬币的实验。假如已知投出的硬币正面朝上的概率是  ,便可以知道投掷若干次后出现各种结果的可能性。比如说,投两次都是正面朝上的概率是0.25:

                                                                              

    从另一个角度上说,给定“投两次都是正面朝上”的观测,则硬币正面朝上的概率为0.5的似然是

                                                                       

    尽管这并不表示当观测到两次正面朝上 的“概率”是0.25。如果考虑,那么似然函数的值会变大

                                                                                 

    这说明,如果参数的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设0.5 时更大。也就是说,参数取成0.6 要比取成0.5 更有说服力,更为“合理”。总之,似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。对同一个似然函数,如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是最为“合理”的参数值。

    最大似然估计

    最大似然估计是似然函数最初也是最自然的应用。上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发,最大似然估计的做法是:首先选取似然函数(一般是概率密度函数概率质量函数),整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一,也不一定存在。与矩法估计比较,最大似然估计的精确度较高,信息损失较少,但计算量较大。

    给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为fD,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,通过利用fD,我们就能计算出其概率:

                                                                         

    但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,然后用这些采样数据来估计θ。

    一旦我们获得X1,X2,...,Xn,我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于 θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。

    要在数学上实现最大似然估计法,我们首先要定义可能性:

                                                                               

    并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计

    引用:https://baike.baidu.com/item/似然函数/6011241?fr=aladdin

    展开全文
  • 对数似然对数似然 1. 似然 在开始之前需要区分一个知识:似然(likelihood)和概率(probability)。概率是一个事件发生的可能性,而似然指的是影响概率的未知参数。也就是说,概率是在该未知参数已知的情况下所得到...
  • 交叉熵损失函数本质上也是一种对数似然函数,可用于二分类和多分类任务中。二分类问题中的loss函数(输入数据是softmax或者sigmoid函数的输出)。多分类问题中的loss函数(输入数据是softmax或者s
  • 对数似然回归(Logistic)对泰坦尼克号幸存者分类 Logistic Regression 即为对数似然回归,它可以看做是一个最简单的人工神经网络。它是通过对数据进行拟合,从而选择一条线(超平面)将数据集分成两个部分,从而实现...
  • 似然函数,在机器学习的算法模型中,可谓是屡见不鲜了,每次总觉得自己已经掌握了这个概念,但是遇到具体的情况后,发现还是很难说清楚,于是根据wiki上关于Likelihood function的解释,以及个人的学习理解,整理...
  • 文章目录似然函数与最大似然估计似然的概念似然函数最大似然估计伯努利分布伯努利分布下的最大似然估计高斯分布高斯分布下的最大似然估计信息量、熵、相对熵、交叉熵、机器学习中的交叉熵信息量熵相对熵(KL散度) ...
  • 机器学习——损失函数前言一、分类问题的损失函数1、0-1损失(one-zero loss)2、Log Loss3、Focal Loss4、相对熵、KL散度(Relative Entropy/Kullback-Leibler Divergence)5、指数损失(Exponential Loss)6、...
  • 似然函数对数的原因

    万次阅读 2018-07-28 20:31:43
    不仅仅是减少计算量 在计算一个独立同分布数据集的联合概率时,如: X={x1,x2,…,xN}X={x1,x2,…,xN}X=\{x_{1},x_{2},…,x_{N}\} 其联合概率是每个数据点概率的连乘: ...两边取对数则可以将连乘化...
  • 机器学习常见损失函数 损失函数作用:损失函数是用于衡量模型预测值与真实值之间差距的函数损失函数的值越小越好。 常见的损失函数有如下几种: 分类问题 0-1损失函数(Zero-one Loss): 当且仅当预测为真的时候...
  • 4.4.2 **交叉熵代价函数(cross-entropy)**:4.4.3**对数似然代价函数(log-likelihood cost)**:5. 损失函数5.1 什么是损失函数5.2 常见的损失函数5.3 逻辑回归为什么使用对数损失函数5.4 对数损失函数是如何度量...
  • 机器学习常见的代价函数 (1)二次代价函数(quadratic cost): J=12n∑x∥y(x)−aL(x)∥2 J = \frac{1}{2n}\sum_x\Vert y(x)-a^L(x)\Vert^2 J=2n1​x∑​∥y(x)−aL(x)∥2 ​ 其中,JJJ表示代价函数,xxx表示...
  • 这让之前没怎么接触过似然函数的我,感到非常费解。本着简单的原则,从 本质思想 上梳理了下二者的关系,就我自己而言,理解起来方便多了。首先看 伯努利分布下,似然函数的意义: 在知道模型和样本的前提下,求出 ...
  • 损失函数,风险,风险最小化损失函数0-1 损失函数平方损失函数绝对损失函数对数损失函数对数似然损失函数)风险经验风险结构风险风险最小化经验风险最小化结构风险最小化参考文献 损失函数 监督学习问题是在假设...
  • 机器学习中常见的损失函数 现实世界中的DS (DS IN THE REAL WORLD) In mathematical optimization and decision theory, a loss function or cost function is a function that maps an event or values of one or ...
  • 大白话讲解机器学习-损失函数

    万次阅读 多人点赞 2016-01-31 16:20:36
    损失函数机器学习里最基础也是最为关键的一个要素,通过对损失函数的定义、优化,就可以衍生到我们现在常用的LR等算法中。
  • 机器学习-损失函数

    千次阅读 2016-05-06 15:34:44
    损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是 经验风险函数 的核心部分,也是...
  • 文章目录均方误差/平方损失/L2 损失(MSE)平均绝对误差/L1 损失平均偏差误差(mean bias error)Huber损失函数Hinge Loss/多分类 SVM 损失交叉熵损失/负对数似然Log-Cosh损失Focal loss 均方...
  • 回顾之前讲过的线性回归模型,我们为了要学习参数使得得到的直线更好的拟合数据,我们使用了一个函数 这个函数就是比较模型得到的结果和“真实值”之间的“差距”,来判断这个模型是不是好。因为模型越好,差距越小...
  • 三、log对数损失函数 四、平方损失函数 五、指数损失函数(exponential loss) 六、Hinge 损失函数 七、感知损失(perceptron loss)函数 八、交叉熵损失函数 (Cross-entropy loss function) 参考资料: 常见的损失...
  • 本文为机器学习基础 第一篇2020这个充满变化的不平凡的一年过去了,孕育着希望和机遇的2021即将到来,在此祝愿所有朋友幸福美满,蒸蒸日上,心想事成,欢喜如意,新年快乐!最近比较忙,好长...
  • 机器学习之常见的损失函数(loss function)

    万次阅读 多人点赞 2019-03-06 09:40:43
    解决一个机器学习问题主要有两部分:数据和算法。而算法又有三个部分组成:假设函数损失函数、算法优化。我们一般在看算法书或者视频教学时,更多的是去推算或者说参数估计出其假设函数,而往往不太注重损失函数,...
  • 机器学习中的损失函数和风险函数

    千次阅读 2018-03-08 20:40:24
    1、损失函数:度量一次模型的好坏统计学习中常用的损失函数有如下几种: 1. 0-1损失函数(0-1 loss function) 预测正确,损失函数为0;预测错误,损失函数为1;该函数不考虑预测差别多少。 2. 平方损失函数: 取...
  • 机器学习损失函数与风险函数

    千次阅读 2016-11-17 19:18:35
    1.损失函数与风险函数 监督学习的任务就是学习一个模型f作为决策函数,对于给定的输入X,给出相应的输出f(X),这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用一...机器学习常用的损失函数有以下几种: (1)0-
  • 1. 损失函数、代价函数与目标函数 损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差。 代价函数(Cost Function):是定义在整个训练集上的,是所有样本误差的平均,也就是所有损失函数值的...
  • 损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,595
精华内容 3,038
关键字:

机器学习对数似然函数损失