精华内容
下载资源
问答
  • 两点分布最大似然估计
    千次阅读
    2021-02-05 03:57:34

    前言:介绍了最简单的

    问题

    (这里都是玩具数据,为了方便理解才列出)

    0123456789101112

    X

    1

    2

    3

    4

    4.2

    4.4

    4.6

    4.8

    5

    6

    7

    8

    y

    0

    0

    0

    0

    1

    1

    1

    1

    0

    0

    0

    0

    假设 x = 4.9 用科学的办法估计 y 的分类。

    预备知识

    高斯分布的概率密度函数

    format,png

    高斯分布的概率密度函数

    理解

    通常用「概率密度函数」代替概率,仅仅去比较大小。还有其他的分布,我也没有去深挖 :)。而不是直接求出概率。这非常重要!!!

    求解问题

    写出这个数据集的似然函数

    还记得之前我们说过的「似然函数」吗?现在写出这个数据的「似然函数」

    P(y=0 | x) = P(y=0 | x=1)P(y=0 | x=2)P(y=0 | x=3)P(y=0 | x=4)P(y=0 | x=5)P(y=0 | x=6)P(y=0 | x=7)P(y=0 | x=8)

    P(y=1 | x) = P(y=1 | x=4.2)P(y=0 | x=4.4)P(y=0 | x=4.6)P(y=0 | x=4.8)

    似然函数的本质描述出现这个情形的概率,最大化它即是是这个情形出现的概率最大。现在遇到了一个问题,我们无法写出等式左边的每一项。就更别谈最大化似然函数了。

    常用的方法用概率密度函数替代概率。

    比如:把 x = 1 带入概率密度函数代替 P(y=0 | x=1)。

    所以最大化多个概率相乘变为了,最大化多个概率密度函数的相乘

    最大化多个概率密度函数的相乘

    取对数求导,并让导数为 0 。最后能得到一个非常舒适的结论。

    format,png

    最大化似然函数

    解决问题

    现在求得两组 (mu, sigma), (mu, sigma) 用来分别表示。

    y = 1 时,最符合数据的概率密度函数 1

    y = 0 时,最符合数据的概率密度函数 2

    将 x = 4.9 分别带入函数 1、函数 2 中比较大小,最后确定 y 的类别。

    最后总结

    似然函数用来描述:已知情况的概率随参数变化的图像

    最大化似然函数能得到,使这个情况出现概率最大的参数。

    但是有时候,不能写出概率。常用概率密度函数代替概率。这非常重要。

    如果假设高斯分布,那么通过「最大似然估计」会得到一个非常舒适的结果。见上述图片

    最后结果的导出,使用概率密度函数来代替概率求解。

    更多相关内容
  • 极大似然估计法是求估计的一种方法,最早由高斯提出,后来费歇尔(Fisher)在1912年重新提出。它属于数理统计的范畴。大学期间我们都学过概率论和数理统计这门课程。概率论和数理统计是互逆的过程。概率论可以看成是...

    极大似然估计法是求点估计的一种方法,最早由高斯提出,后来费歇尔(Fisher)在1912年重新提出。它属于数理统计的范畴。

    大学期间我们都学过概率论和数理统计这门课程。

    概率论和数理统计是互逆的过程。概率论可以看成是由因推果,数理统计则是由果溯因。

    用两个简单的例子来说明它们之间的区别。

    由因推果(概率论)

    例1:设有一枚骰子,2面标记的是“正”,4面标记的是“反”。共投掷10次,问:5次“正”面朝上的概率?

    解:记 “正面”朝上为事件A,正面朝上的次数为x。

    由题意可知 :

    71258be9eda68a9cede272a25890fe06.png

    d3698816471ed61fdffd67b807957f17.gif

    更一般的有:

    例2: 设有一枚骰子,其中“正面”所占的比例为ωω 。共投掷nn 次,问:kk 次“正”面朝上的概率?

    解:记 “正面”朝上为事件A,正面朝上的次数为x。

    有题意可知:

    34ff0cf5affc83d0a7a6c4a492b35d16.png

    888069d90bd1b46d65aab043de8499fb.png

    例3:设有一枚骰子,做了nn 次实验,其中kk 次“正面”朝上。问:这枚骰子中,“正面”所占的比例ωω 是多少?

    在例2中,因为我们对骰子模型了解的很透彻,即知道这类实验中ωω 的具体数值。因此可以预测某一事件发生的概率。

    在例3中,我们并不能完全了解模型精确参数。我们需要通过实验结果来估计模型参数。也就是由果溯因(数理统计)。

    总结来看如下:

    例2

    已知 ω

    求事件发生的 k次的概率

    例3

    已知事件发生了 k次

    估计 ω

    PDF

    Giving ω

    Calculate the probability distribution of random variable

    LF

    Giving random variable

    Calculate the the probability distribution of ω

    由于事件发生的概率越大,就越容易发生。所以例3可理解为:ω是多大时,k次“正面”朝上发生的概率最大?

    计算的时候,对表达式求最大值,得到参数值估计值。

    这就是极大似然估计方法的原理:用使概率达到最大的那个ω ^ω^ 来估计未知参数ω。

    这也把一个参数估计问题转化为一个最优化问题。

    此外,我们甚至不知道一个系统的模型是什么。因此在参数估计前,先按照一定的原则选择系统模型,再估计模型中的参数。本文为了简单,模型设定为伯努利模型。

    以上是对极大似然估计方法理论上的介绍,接下来介绍计算方法。

    计算方法

    为了表述规范,引入

    概率密度函数:

    ca46cf2775e180c82f431c2112ed3f1a.png

    通过调换“实验结果

    04994950751e8202e0cb9eb1f371a199.png”与“模型参数

    cfde4a9727bca9856a4e24ad75cc2d88.png”的位置有 似然函数:

    dc5dc33e4b9eb33c67c783149ef7e663.png

    通过例4 介绍概率密度函数与似然函数之间的区别:

    例4.1 设有一枚骰子,1面标记的是“正”,4面标记的是“反”。共投掷10次,设“正面”的次数为k,求k的概率密度函数。

    解:

    79870b9f4f8cd9733cb1302c3cd0af81.png

    7c45bf4a4eba8b75b720a047b4fa25e0.png

    从图中可以看出,“正面”次数为2的概率最大。它是关于k的函数。

    例4.2 设有一枚骰子。共投掷10次,“正面”的次数为2,求“正面”所占的比例,即ω的值。

    3791d56dca802c4038610adb2b1875bd.png

    似然函数:

    a2dbae11347f7221551c4a2d6547ecbb.png

    因此概率密度函数是指 在参数已知的情况下,随机变量的概率分布情况。

    似然函数是指 在随机变量已知的情况下,参数取值的概率分布情况。

    例5:设有一枚骰子,做了10次实验,其中3次“正面”朝上。问:这枚骰子中,“正面”所占的比例是多少?

    解:

    d0b53366f1996affb9bd9b1aeab5537f.png

    我们根据极大似然估计方法的原理:用使概率达到最大的那个ω ̂来估计未知参数ω

    对于简单的连续函数,求最大值的方法为:函数表达式一阶导数等于0,二阶导数小于0。

    为了计算简单,对上式两边取对数:

    8ad9adf02ccd8c085772ad0a8d013360.png

    一阶条件:

    将(2)式对ω求偏导数(导数):

    ab4250cf8c440b84b23c2e6072235bd6.png

    令(3)式为0,解得ω=0.3

    二阶条件:

    4c7b3f0668ed23af80f8e963d8d35f32.png

    因此 ω=0.3时,(1)式取得最大值。根据极大似然估计理论,“正面”所占的比例为0.3

    例6:设有一枚神奇的骰子,“正面”所占的比例为

    1a4d4cd7627f49691c4f4b151b5a168e.png。t代表实验时间点。

    已知:在t i =1,3,6,9,12,18共6个时刻做实验,每个时刻做n=100次实验。“正面”朝上的次数分别为:x i =94,77,40,26,24,16求:参数ω=(ω 1 ,ω 2 )>0的估计值,。

    解:

    求出“正面”朝上的概率密度函数:

    5735ef77c35d8b9dea85432d467ea0ee.png

    似然函数:

    6f5aaba83a7dad0a2c07a478c6037c41.png

    9925b35f484a051c6c3cd062d80d10c4.png

    91a38eea3438950c09b69c2ff6b55592.png

    对于这样一个复杂的非线性约束优化问题,利用求导的方式不再可行。可借助matlab进行计算。

    ###代码如下: function f = objfun( x )

    f = -(94*log(x(1)*exp(-x(2)*1))+6*log(1-(x(1)*exp(-x(2)*1))) + ...

    77*log(x(1)*exp(-x(2)*3))+23*log(1-(x(1)*exp(-x(2)*3))) + ...

    40*log(x(1)*exp(-x(2)*6))+60*log(1-(x(1)*exp(-x(2)*6))) + ...

    26*log(x(1)*exp(-x(2)*9))+74*log(1-(x(1)*exp(-x(2)*9))) + ...

    24*log(x(1)*exp(-x(2)*12))+76*log(1-(x(1)*exp(-x(2)*12))) + ...

    16*log(x(1)*exp(-x(2)*18))+84*log(1-(x(1)*exp(-x(2)*18))));

    end

    sample5.m

    x0 = [0.1,0.1]; %给定初值

    lb = [0,0]; %给定下限

    ub = []; %给定上限

    [x,fval] = fmincon(@objfun,x0,[],[],[],[],lb,ub)

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    解得:

    x =

    1.070111883136768 0.130825782195123

    fval =

    3.053055671586732e+02

    本笔记参考https://blog.csdn.net/chenjianbo88/article/details/52398181

    https://blog.csdn.net/saltriver/article/details/63681339

    及李航的《统计学方法》第一章

    展开全文
  • 前言:机器学习系列文章常含有大量公式,若需获取本文全部的手书版原稿资料,扫码关注公众号【AI机器学习与知识图谱】,回复: 高斯分布第一讲 即可获取。 原创不易,转载请告知并注明出处!扫码关注公众号,定期发布...

    作者:CHEONG

    公众号:AI机器学习与知识图谱

    研究方向:自然语言处理与知识图谱


    前言:机器学习系列文章常含有大量公式,若需获取本文全部的手书版原稿资料,扫码关注公众号【AI机器学习与知识图谱】,回复: 高斯分布第一讲 即可获取。

    原创不易,转载请告知并注明出处!扫码关注公众号,定期发布知识图谱,自然语言处理、机器学习等知识,添加微信号【17865190919】进讨论群,加好友时备注来自CSDN。


    二话不说咱先抛出一个问题:数据集Data X服从高斯分布,如何推导X的均值和方差

    欲解答上述问题,先对问题进行拆解:

    1、何为高斯分布,高斯分布概率密度函数是什么

    2、用什么方法推导:最大似然估计法,那最大似然估计是什么

    3、如何推导,最大似然估计法推导高斯分布均值和方差的过程


    那接下来我们就先对上面四个问题一个一个来看吧。


    一、高斯分布

    下面先说明一元高斯分布,标准一元正态分布以及多元高斯分布之间的关系以及其概率密度函数分别是什么,而对于边缘高斯分布,条件高斯分布以及混合高斯分布之后再单独细讲。


    1、一元高斯分布和标准正态分布

    如果数据集x服从均值为u,方差为 σ \sigma σ的一元高斯分布,其概率密度函数为

    在这里插入图片描述
    而标准一元正态分布既对数据集x进行标准化处理:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hmJAZtg5-1615555460933)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png)]
    z服从均值为0,方差为1的标准正态分布,其概率密度函数为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lGkii4gC-1615555460936)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image014.png)]
    这里给出高斯分布满足的两条常用性质,在之后证明中会使用到:

    (1)如果 x ∼ N ( u , σ 2 ) x \sim N(u, \sigma^2) xN(u,σ2)且a和b是实数时,那么

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2U92jjZp-1615555460942)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image018.png)]
    (2)如果 x ∼ N ( u x , σ x 2 ) x \sim N(u_x, \sigma^2_x) xN(ux,σx2) y ∼ N ( u y , σ y 2 ) y \sim N(u_y, \sigma^2_y) yN(uy,σy2)是统计独立的正态随机变量,那么

    • 他们的和也满足正态分布
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d4fXkgfK-1615555460948)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image024.png)]
    • 他们的差也满足正态分布
      在这里插入图片描述

    2、多元高斯分布

    这里先介绍一种简单的情况,那就是多元维度之间相互独立时,若各变量之间相互独立,则联合概率密度函数等于各自概率密度的乘积。

    如果 X = ( x 1 , x 2 , . . . , x d ) T X=(x_1, x_2, ..., x_d)^T X=(x1,x2,...,xd)T,且各维度之间相互独立,则X的概率密度函数为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7ew3A01z-1615555460953)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image030.png)]
    对上面公式进行简化处理,先简写成

    在这里插入图片描述
    其中:

    在这里插入图片描述

    上式中 Σ \Sigma Σ是协方差矩阵,由于变量各个维度之间不相关,因此协方差矩阵只有对角线的位置有值,因此推导出多元高斯分布的概率密度函数为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIBfHMC3-1615555461005)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image044.png)]



    二、最大似然估计

    先从下图中的例子泛泛的理解一下最大似然估计的思想:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YfMbVQ1w-1615555461016)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image046.jpg)]

    通俗来说,最大似然估计法,就是利用已知的样本结果信息,反推最大可能(最大概率)产生这个结果的模型参数值,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即模型已定,参数未知。

    最大似然估计一个重要前提假设是:数据样本之间是独立同分布的。在用最大似然估计解高斯分布参数前,先看一般情况,现考虑有一个数据集D,服从一定的概率分布,用最大似然估计来推导该数据集的参数向量 Θ \Theta Θ,记已知的样本集为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PgEyLmf0-1615555461018)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image050.png)]

    似然函数,即联合概率密度函数:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NaXG6N6b-1615555461022)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image052.png)]
    联合概率密度函数 p ( D ∣ Θ ) p(D|\Theta) p(DΘ)称为相对于数据集D的参数 Θ \Theta Θ的似然函数,先再就是要求满足似然函数最大的参数值,也就是求使得该组样本出现的概率最大的 Θ \Theta Θ

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CtNba65U-1615555461025)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image056.png)]
    实际中为了便于分析,都会将其定义为对数似然函数:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HrLawFL1-1615555461029)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image058.png)]

    现在知道了最大似然估计的用法,接下来便用最大似然估计来求解高斯分布的参数,即均值和方差。



    三、最大似然估计推导高斯分布均值和方差

    先有一批数据集Data X服从高斯分布,样本之间独立同分布:

    在这里插入图片描述
    用最大似然估计求解参数 Θ \Theta Θ,则对数似然函数为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jv5ed2xF-1615555461047)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image066.png)]
    其中 p ( x i ∣ Θ ) p(x_i|\Theta) p(xiΘ)即是高斯分布的概率密度函数

    在这里插入图片描述

    因此均值为

    在这里插入图片描述
    对上述函数求导极值点既是极小值

    在这里插入图片描述
    则可得其均值为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XLdnAJ2g-1615555461104)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image088.png)]

    至此我们通过最大似然估计求导得出了均值u,接下来用同样的方法求解方差

    在这里插入图片描述

    因此可以求得参数方差为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-caFFkef6-1615555461132)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image102.png)]

    至此我们已经通过最大似然估计求得了高斯分布的均值和方差

    在这里插入图片描述

    展开全文
  • 高斯分布极大似然估计

    千次阅读 2021-05-14 17:04:00
    一维高斯分布 一维高斯分布(Gaussian Distribution)的概率密度函数如下: p(x)=12πσexp⁡{−(x−μ)22σ2}p(x)=\frac{1}{\sqrt{2\pi} \sigma} \exp \left\{ - \frac{(x-\mu)^2}{2\sigma^2} \right\}p(x)=2π​σ...

    本文是关于 coursera 上 《Robotics: Estimation and Learning》 课程的笔记。

    前面通过一个例子简单地介绍了极大似然估计的意思,现在来对高斯分布做极大似然估计。


    一维高斯分布

    概率密度函数

    一维高斯分布(Gaussian Distribution)的概率密度函数如下:
    p ( x ) = 1 2 π σ exp ⁡ { − ( x − μ ) 2 2 σ 2 } p(x)=\frac{1}{\sqrt{2\pi} \sigma} \exp \left\{ - \frac{(x-\mu)^2}{2\sigma^2} \right\} p(x)=2π σ1exp{2σ2(xμ)2}

    在这里插入图片描述
    高斯分布非常有用,而且非常重要:

    ∙ \bullet 描述高斯分布只需要 2 个参数,均值 μ \mu μ 和 方差 σ 2 \sigma^2 σ2,它们就是该分布的本质信息,同也容易计算和解释。

    ∙ \bullet 高斯分布具有一些很好的数学性质,比如多个高斯分布的乘积可以形成另一个高斯分布,所以你不需要担心遇到其它形式的分布。

    ∙ \bullet 中心极限定理告诉我们,任何随机变量的样本均值的期望,都收敛于高斯分布,这说明高斯分布是一个为噪声和不确定性建模的合适选择。

    下面举一个例子,图片处理的问题,看看在目标颜色的建模中如何运用高斯分布。


    小球颜色

    下面的图片里有一个黄色小球。人眼一下就能看出,但是电脑怎么知道它的颜色?

    在这里插入图片描述

    统计它每个像素的色相值,得到下面的直方图:
    在这里插入图片描述
    纵轴可以认为是像素点的数量,横轴是像素点的色相值。
    大部分像素点的色相值在 50 ∼ 60 50 \sim 60 5060 ,这部分刚好是黄色所在色相区间。(黑色部分先忽略)
    按照经验可以认为它是黄色小球。

    如果这个图片的像素是 1920 × 1080 1920\times1080 1920×1080 呢?
    有两百多万像素,统计这样的直方图需要巨大内存,非常消耗资源。




    极大似然估计

    为了减少工作量,我们从中抽取部分像素点,记它们的色调值为 ( x 1 , x 2 , x 3 , … , x i ) (x_1,x_2,x_3,\dots,x_i) (x1,x2,x3,,xi)
    通过这一部分样本,来估算这张图片所有像素点的色相的分布,推算小球的颜色。

    我们剧透一下结果:
    由中心极限定理或者上面的直方图,可以认为该样本满足高斯分布
    求出概率密度函数中的 μ \mu μ σ \sigma σ,即可得到像素点色调值的分布,大概会像这样:
    在这里插入图片描述
    根据 μ \mu μ 可以推断小球颜色。


    我们把抽取的像素点成为观测数据,如何通过观测数据,求出其概率模型的参数?
    方法就是用极大似然估计(maximum likelihood estimation)。
    上一篇文章通过一个例子简单介绍过它的意思。

    现在我们运用高斯分布模型,它的参数是 μ \mu μ σ \sigma σ

    对于观测数据 ( x 1 , x 2 , x 3 , … , x i ) (x_1,x_2,x_3,\dots,x_i) (x1,x2,x3,,xi),我们关心的是能将似然函数最大化的参数, μ ^ \hat{\mu} μ^ σ ^ \hat{\sigma} σ^

    用数学的方式来表达: μ ^ , σ ^ = arg ⁡ max ⁡ μ , σ p ( { x i } ∣ μ , σ ) \hat{\mu},\hat{\sigma} = \arg\max_{\mu,\sigma} p(\{x_i\}|\mu,\sigma) μ^,σ^=argμ,σmaxp({xi}μ,σ)

    上标 ^ \hat{ } ^ 表示估计值。

    我们需要最大化的似然函数是所有样本数据的联合概率,假设每一个观测之间都是相互独立的,联合似然函数就可以被简单地写成:关于每个样本的似然函数的乘积 。于是: p ( { x i } ∣ μ , σ ) = ∏ i = 1 N p ( x i ∣ μ , σ ) p\left(\{x_i\}|\mu,\sigma \right)= \prod^{N}_{i=1}p(x_i|\mu,\sigma) p({xi}μ,σ)=i=1Np(xiμ,σ)

    所以似然函数是: μ ^ , σ ^ = arg ⁡ max ⁡ μ , σ ∏ i = 1 N p ( x i ∣ μ , σ ) \hat{\mu},\hat{\sigma} = \arg\max_{\mu,\sigma} \prod^{N}_{i=1}p(x_i|\mu,\sigma) μ^,σ^=argμ,σmaxi=1Np(xiμ,σ)



    要求解这个似然函数,我们用到一些对数函数的特性。先画一个对数函数的样子:

    在这里插入图片描述
    它是关于 x x x 单调递增的,原函数取对数后,单调性不变。

    利用这个特性,我们改变一下求解目标:最大化对数似然函数。

    arg ⁡ max ⁡ μ , σ ∏ i = 1 N p ( x i ∣ μ , σ ) = arg ⁡ max ⁡ μ , σ ln ⁡ { ∏ i = 1 N p ( x i ∣ μ , σ ) } (1) \arg\max_{\mu,\sigma} \prod^{N}_{i=1}p(x_i|\mu,\sigma) = \arg\max_{\mu,\sigma} \textcolor{red}{ \ln} \left\{ \prod^{N}_{i=1}p(x_i|\mu,\sigma) \right\} \tag{1} argμ,σmaxi=1Np(xiμ,σ)=argμ,σmaxln{i=1Np(xiμ,σ)}(1)
    虽然改变了目标函数,但是使目标函数达到最大值的参数值是一样的,最大化对数似然函数往往更简单。

    对数函数的还一个特点是: log ⁡ ( x 1 x 2 … x k ) = log ⁡ ( x 1 ) + log ⁡ ( x 2 ) + ⋯ + log ⁡ ( x k ) \log(x_1x_2\dots x_k) = \log(x_1) + \log(x_2) + \dots + \log(x_k) log(x1x2xk)=log(x1)+log(x2)++log(xk)

    所以将式子 (1) 展开得到: arg ⁡ max ⁡ μ , σ ∏ i = 1 N p ( x i ∣ μ , σ ) = arg ⁡ max ⁡ μ , σ ln ⁡ { ∏ i = 1 N p ( x i ∣ μ , σ ) } = arg ⁡ max ⁡ μ , σ ∑ i = 1 N ln ⁡ p ( x i ∣ μ , σ ) \begin{aligned} \arg\max_{\mu,\sigma} \prod^{N}_{i=1}p(x_i|\mu,\sigma) &= \arg\max_{\mu,\sigma} \ln \left\{ \prod^{N}_{i=1}p(x_i|\mu,\sigma) \right\} \\ &= \arg\max_{\mu,\sigma} \sum^{N}_{i=1} \ln \textcolor{purple}{ p(x_i|\mu,\sigma) } \end{aligned} argμ,σmaxi=1Np(xiμ,σ)=argμ,σmaxln{i=1Np(xiμ,σ)}=argμ,σmaxi=1Nlnp(xiμ,σ)

    将高斯分布的概率密度函数代进去: p ( x i ∣ μ , σ ) = 1 2 π σ exp ⁡ { − ( x i − μ ) 2 2 σ 2 } \begin{aligned} \textcolor{purple}{ p(x_i|\mu,\sigma) } &= \frac{1}{\sqrt{2\pi} \sigma} \exp \left\{ - \frac{(x_i-\mu)^2}{2\sigma^2} \right\} \end{aligned} p(xiμ,σ)=2π σ1exp{2σ2(xiμ)2}

    所以: ln ⁡ p ( x i ∣ μ , σ ) = ln ⁡ 1 2 π σ exp ⁡ { − ( x i − μ ) 2 2 σ 2 } = { − ( x i − μ ) 2 2 σ 2 − ln ⁡ σ − ln ⁡ 2 π } \begin{aligned} \ln p(x_i|\mu,\sigma) &= \ln \frac{1}{\sqrt{2\pi} \sigma} \exp \left\{ - \frac{(x_i-\mu)^2}{2\sigma^2} \right\} \\ &= \left\{ - \frac{(x_i-\mu)^2}{2\sigma^2} - \ln \sigma - \ln \sqrt{2\pi} \right\} \end{aligned} lnp(xiμ,σ)=ln2π σ1exp{2σ2(xiμ)2}={2σ2(xiμ)2lnσln2π }

    常数项 ln ⁡ 2 π \ln \sqrt{2\pi} ln2π 可以去掉,因为它不影响参数的估计。

    再把负号去掉,把 max ⁡ \max max 变成 min ⁡ \min min,从而把这个方程变成最小化问题。
    两个方程是等价的,而且最小化形式是优化问题的标准形式

    所以我们的求解问题变成了这样: μ ^ , σ ^ = arg ⁡ min ⁡ μ , σ ∑ i = 1 N { ( x i − μ ) 2 2 σ 2 + ln ⁡ σ } \hat{\mu},\hat{\sigma} = \arg\min_{\mu,\sigma} \color{OrangeRed}{ \sum^{N}_{i=1} \left \{ \frac{(x_i-\mu)^2}{2\sigma^2} + \ln \sigma \right\} } μ^,σ^=argμ,σmini=1N{2σ2(xiμ)2+lnσ}

    把上面 橙色 部分整体用 J ( μ , σ ) \textcolor{OrangeRed}{ J (\mu,\sigma)} J(μ,σ) 表示,这是对最小化问题代价函数的一个常用记号 。

    利用凸优化问题的判据,令 J J J 的一阶偏导为 0 0 0 可以算出使似然函数最大的 μ \mu μ σ \sigma σ
    ∂ J ∂ μ = 0 ⟶ μ ^ \frac{\partial J }{ \partial \mu } = 0 \quad \textcolor{green}{ \longrightarrow} \quad \hat{\mu} μJ=0μ^ ∂ J ( μ ^ , σ ) ∂ σ = 0 ⟶ σ ^ \frac{\partial J (\hat{\mu},\sigma)}{ \partial \sigma} = 0 \quad \textcolor{green}{ \longrightarrow} \quad \hat{\sigma} σJ(μ^,σ)=0σ^

    最后得到求公式是: μ ^ = 1 N ∑ i = 1 N x i σ ^ 2 = 1 N ∑ i = 1 N ( x i − μ ^ ) 2 \begin{aligned} \hat{\mu} &= \frac{1}{N} \sum^{N}_{i=1} x_i \\ \hat{\sigma} ^2 &= \frac{1}{N} \sum^{N}_{i=1} (x_i - \hat{\mu} ) ^2 \end{aligned} μ^σ^2=N1i=1Nxi=N1i=1N(xiμ^)2

    代入所有观测数据 x i x_i xi,得到 μ = 52.3 \mu = 52.3 μ=52.3 σ = 1.5 \sigma = 1.5 σ=1.5

    在这里插入图片描述




    推导

    偏导的过程是这样求得: ∂ J ∂ μ = ∂ ∂ μ ∑ i = 1 N { ( x i − μ ) 2 2 σ 2 + ln ⁡ σ } = ∑ i = 1 N { ∂ ∂ μ ( x i − μ ) 2 2 σ 2 } = 1 σ 2 ∑ i = 1 N ( x i − μ ) = 0 ⇓ μ ^ = 1 N ∑ i = 1 N x i \begin{aligned} \frac{\partial J }{ \partial \mu } &= \frac{\partial }{ \partial \mu } \sum^{N}_{i=1} \left \{ \frac{(x_i-\mu)^2}{2\sigma^2} + \ln \sigma \right\} \\ &= \sum^{N}_{i=1} \left \{ \frac{\partial }{ \partial \mu } \frac{(x_i-\mu)^2}{2\sigma^2} \right\} \\ &= \frac{1}{\sigma^2} \sum^{N}_{i=1}(x_i - \mu) = 0 \end{aligned} \\ \textcolor{green}{ \Downarrow } \\ \quad \\ \hat{\mu} = \frac{1}{N} \sum^{N}_{i=1} x_i μJ=μi=1N{2σ2(xiμ)2+lnσ}=i=1N{μ2σ2(xiμ)2}=σ21i=1N(xiμ)=0μ^=N1i=1Nxi

    ∂ J ∂ σ = ∂ ∂ σ ∑ i = 1 N { ( x i − μ ) 2 2 σ 2 + ln ⁡ σ } = ( ∂ ∂ σ 1 2 σ 2 ) ( ∑ i = 1 N ( x i − μ ^ ) 2 ) + N σ = 1 σ ( N − 1 σ 2 ∑ i = 1 N ( x i − μ ^ ) 2 ) = 0 ⇓ σ ^ 2 = 1 N ∑ i = 1 N ( x i − μ ^ ) 2 \begin{aligned} \frac{\partial J }{ \partial \sigma } &= \frac{\partial }{ \partial \sigma } \sum^{N}_{i=1} \left \{ \frac{(x_i-\mu)^2}{2\sigma^2} + \ln \sigma \right\} \\ &= \left( \frac{\partial }{ \partial \sigma } \frac{1}{2\sigma^2} \right) \left( \sum^{N}_{i=1} (x_i - \hat{\mu})^2 \right) + \frac{N}{\sigma} \\ &= \frac{1}{\sigma} \left( N - \frac{1}{\sigma^2} \sum^{N}_{i=1} (x_i - \hat{\mu})^2 \right) = 0 \end{aligned} \\ \textcolor{green}{ \Downarrow } \\ \quad \\ \hat{\sigma} ^2 = \frac{1}{N} \sum^{N}_{i=1} (x_i - \hat{\mu} ) ^2 σJ=σi=1N{2σ2(xiμ)2+lnσ}=(σ2σ21)(i=1N(xiμ^)2)+σN=σ1(Nσ21i=1N(xiμ^)2)=0σ^2=N1i=1N(xiμ^)2



    多维高斯分布

    前面的小球颜色,是通过HSV颜色空间的色相(H)来确定的,而RGB是一种更常用的色彩模式:
    在这里插入图片描述

    在3D图中画出所有像素的RGB值,就能得到如下的色彩分布:
    在这里插入图片描述


    现在考虑用RGB三通道模型对红球的色彩建模,看看这里如何运用高斯分布。


    概率密度函数

    多维高斯分布的表达式如下: p ( x ) = 1 ( 2 π ) D / 2 ∣ Σ ∣ 1 / 2 exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } p(\pmb{x}) = \frac{1}{(2\pi)^{D/2} |\Sigma|^{1/2}} \exp\left\{ -\frac{1}{2}(\pmb{x} - \pmb{\mu})^T \Sigma^{-1}(\pmb{x} - \pmb{\mu})\right\} p(xxx)=(2π)D/2Σ1/21exp{21(xxxμμμ)TΣ1(xxxμμμ)}其中:
    D D D 表示维度数。
    x \pmb{x} xxx 是变量,注意它是加粗的,是个向量。
    μ \pmb{\mu} μμμ 是均值,注意它是加粗的,是个向量。
    Σ \Sigma Σ 是协方差矩阵。(这个符号读做 Sigma)



    和一维的情况相比,这里的变量 x \pmb{x} xxx 是一个向量,均值 μ \pmb{\mu} μμμ 也是对应的向量形式,协方差 Σ \Sigma Σ 现在是一个方阵。

    在协方差矩阵中,有两个重要部分:对角项和非对角项。
    下面是一个 2 2 2 维协方差矩阵的例子: Σ = [ σ x 1 2 σ x 1 σ x 2 σ x 2 σ x 1 σ x 2 2 ] \Sigma = \begin{bmatrix} \sigma^2_{x_1} & \sigma_{x_1} \sigma_{x_2} \\[0.5em] \sigma_{x_2} \sigma_{x_1} & \sigma^2_{x_2} \end{bmatrix} Σ=[σx12σx2σx1σx1σx2σx22]
    对角项是两个变量 x 1 x_1 x1 x 2 x_2 x2 各自的方差;非对角项表示两个变量的相关性,即一个变量和另一个变量的相关程度。分母中 Σ \Sigma Σ 两边的竖线代表 Σ \Sigma Σ 矩阵的行列式。



    下面是一个蓝色小球的例子:

    在这里插入图片描述

    这是对于处理3维变量RGB,变量向量包含我们的样本像素,即每个像素的红色,绿色,蓝色的值。
    均值 μ \pmb{\mu} μμμ 是一个 3 × 1 3\times 1 3×1 的向量,协方差矩阵 Σ \Sigma Σ 3 × 3 3\times 3 3×3 的矩阵;
    p ( x ) p(\pmb{x}) p(xxx) 是这个像素由小球产生的概率:在假设已知小球RGB模型的均值和方差的条件下,该样本像素从小球中抽出的概率。



    下面是一个二维情况的例子:
    p ( x ) = 1 2 π exp ⁡ { − x 2 + y 2 2 } p(x) = \frac{1}{2\pi} \exp\left\{- \frac{x^2+y^2}{2} \right\} p(x)=2π1exp{2x2+y2}其中: D = 2 D = 2 D=2 x = [ x y ] T \pmb{x} = \begin{bmatrix} x &y\end{bmatrix}^T xxx=[xy]T μ = [ 0 0 ] T \pmb{\mu} = \begin{bmatrix} 0 &0\end{bmatrix}^T μμμ=[00]T Σ = [ 1 0 0 1 ] \Sigma = \begin{bmatrix} 1 &0 \\ 0& 1\end{bmatrix} Σ=[1001]

    这是在给定参数下,简化的概率密度函数。它的图看起来像这样:

    在这里插入图片描述

    从图上看, 0 0 0 均值的二维高斯分布,像个只有一个峰的小山。如果你从中间切开这个曲面,它正是一个 1 1 1 维的高斯分布。有时在 2 2 2 维空间而非 3 3 3 维空间画出分布更有利于理解。等高线上的所有 x x x 具有相同的概率值,由于例子的协方差矩阵是个单位阵,等高线都是圆形,最中心的点表示了山峰,越外围的圆环代表概率越低。


    当只有均值发生变化时,分布会发生平移:

    在这里插入图片描述


    当方差变大时,分布变胖,山峰的值变小;当方差变小,山峰的 p ( x ) p(x) p(x) 变大,同时分布变瘦:

    在这里插入图片描述

    但是多变量高斯分布的协方差矩阵有一些特性,在 1 1 1 维高斯分布中是没有的。
    正如上面提到, Σ \Sigma Σ 协方差矩阵的非对角元素包含相关项。
    如果 Σ \Sigma Σ 包含非零的对角元,则高斯分布的形状会被歪斜,这个现象在单变量情形下是不会发生的:

    在这里插入图片描述

    关于 Σ \Sigma Σ 还有一些性质。

    首先,协方差矩阵必须是对称正定的,这意味着 Σ \Sigma Σ 的元素是关于对角线对称的,而且矩阵的特征值必须都是正的。

    第二,就算 Σ \Sigma Σ 具有非零的相关项,我们也能找到一种坐标变换,让分布的形状变成对称的。可以使用特征值分解算法将协方差矩阵分解,进而得到这些变换。( Σ \Sigma Σ 可以被分解为 UDU T \text{UDU}^T UDUT 的形式,其中 D \text{D} D 是一个对角阵)



    极大似然估计

    前面已经介绍过一维高斯分布的情况,多维的情况也是一样,下面直接给出表达式: μ ^ , Σ ^ = arg ⁡ max ⁡ μ , Σ p ( { x i } ∣ μ , Σ ) \hat{\boldsymbol{\mu}},\hat{\Sigma} = \arg \max_{\boldsymbol{\mu},\Sigma}p(\{\textbf{\textit{x}}_i\} |\boldsymbol{\mu},\Sigma ) μ^,Σ^=argμ,Σmaxp({xi}μ,Σ)

    再回顾一下似然的定义,似然是一个给定的包含未知参数的模型,产生这个观测数据的概率。

    这里的模型是多维高斯分布模型,参数是均值向量 μ \boldsymbol{\mu} μ 和协方差矩阵 Σ \Sigma Σ

    我们感兴趣的是获得均值和协方差矩阵,来使得这个似然在给定的观测数据集上最大,这是我们目标的数学解释。


    似然函数是所有数据概率的联合,通常是难以处理的。当我们假设各观测是独立的,总概率函数可以被写成每个独立似然函数的乘积,在这个假设条件下,求解问题变成这样: μ ^ , Σ ^ = arg ⁡ max ⁡ μ , Σ ∏ i = 1 N p ( { x i } ∣ μ , Σ ) \hat{\boldsymbol{\mu}},\hat{\Sigma} = \arg \max_{\boldsymbol{\mu},\Sigma} \prod^N_{i=1} p(\{\textbf{\textit{x}}_i\} |\boldsymbol{\mu},\Sigma ) μ^,Σ^=argμ,Σmaxi=1Np({xi}μ,Σ)

    然后取对数,变成求和的问题: μ ^ , Σ ^ = arg ⁡ max ⁡ μ , Σ ∑ i = 1 N ln ⁡ p ( x i ∣ μ , Σ ) \hat{\boldsymbol{\mu}},\hat{\Sigma} = \arg \max_{\boldsymbol{\mu},\Sigma} \sum^N_{i=1} \ln p(\textbf{\textit{x}}_i |\boldsymbol{\mu},\Sigma ) μ^,Σ^=argμ,Σmaxi=1Nlnp(xiμ,Σ)

    再把概率密度函数代进去: μ ^ , Σ ^ = arg ⁡ max ⁡ μ , Σ ∑ i = 1 N { − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) − 1 2 ln ⁡ ∣ Σ ∣ − D 2 ln ⁡ ( 2 π ) } \hat{\boldsymbol{\mu}},\hat{\Sigma} = \arg \max_{\boldsymbol{\mu},\Sigma} \sum^N_{i=1} \left\{ -\frac{1}{2}(\textbf{\textit{x}}_i - \boldsymbol{\mu} )^T \Sigma^{-1} (\textbf{\textit{x}}_i - \boldsymbol{\mu} ) - \frac{1}{2}\ln|\Sigma| -\frac{D}{2}\ln(2\pi) \right\} μ^,Σ^=argμ,Σmaxi=1N{21(xiμ)TΣ1(xiμ)21lnΣ2Dln(2π)}

    常数项不影响求解,忽略它,然后再取负数,变成最小化问题: μ ^ , Σ ^ = arg ⁡ min ⁡ μ , Σ ∑ i = 1 N { 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) + 1 2 ln ⁡ ∣ Σ ∣ } \hat{\boldsymbol{\mu}},\hat{\Sigma} = \arg \min_{\boldsymbol{\mu},\Sigma} \sum^N_{i=1} \left\{ \frac{1}{2}(\textbf{\textit{x}}_i - \boldsymbol{\mu} )^T \Sigma^{-1} (\textbf{\textit{x}}_i - \boldsymbol{\mu} ) + \frac{1}{2}\ln|\Sigma| \right\} μ^,Σ^=argμ,Σmini=1N{21(xiμ)TΣ1(xiμ)+21lnΣ}

    最后解得最小化代价函数 J J J 的最优解,这就得到了对均值和协方差矩阵的极大似然估计: J ( μ , Σ ) = ∑ i = 1 N { 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) + 1 2 ln ⁡ ∣ Σ ∣ } J( \boldsymbol{\mu} ,\Sigma) = \sum^N_{i=1} \left\{ \frac{1}{2}(\textbf{\textit{x}}_i - \boldsymbol{\mu} )^T \Sigma^{-1} (\textbf{\textit{x}}_i - \boldsymbol{\mu} ) + \frac{1}{2}\ln|\Sigma| \right\} J(μ,Σ)=i=1N{21(xiμ)TΣ1(xiμ)+21lnΣ} ∂ J ∂ μ = 0 ⟶ μ ^ \frac{\partial J }{ \partial \boldsymbol{\mu} } = 0 \quad \textcolor{green}{ \longrightarrow} \quad \hat{\boldsymbol{\mu}} μJ=0μ^ ∂ J ( μ ^ , Σ ) ∂ Σ = 0 ⟶ Σ ^ \frac{\partial J (\hat{\boldsymbol{\mu}},\Sigma)}{ \partial \Sigma} = 0 \quad \textcolor{green}{ \longrightarrow} \quad \hat{\Sigma} ΣJ(μ^,Σ)=0Σ^

    最后得到求公式是: μ ^ = 1 N ∑ i = 1 N x i Σ ^ = 1 N ∑ i = 1 N ( x i − μ ^ ) ( x i − μ ^ ) T \begin{aligned} \hat{\boldsymbol{\mu}} &= \frac{1}{N} \sum^{N}_{i=1} \textbf{\textit{x}}_i \\ \hat{\Sigma} &= \frac{1}{N} \sum^{N}_{i=1} ( \textbf{\textit{x}}_i - \hat{\boldsymbol{\mu}} ) ( \textbf{\textit{x}}_i - \hat{\boldsymbol{\mu}} ) ^T \end{aligned} μ^Σ^=N1i=1Nxi=N1i=1N(xiμ^)(xiμ^)T

    我们得到的最终解是向量形式的样本均值,和样本的协方差矩阵。

    回到小球颜色的例子,图中展现了小球颜色在蓝色和红色两个维度上的分布。

    在这里插入图片描述

    使用观测数据和我们获得的求解方程,我们可以计算参数的极大似然估计。
    从图中的等高线上可以看出,在我们的模型中红色和蓝色通道是负相关的。
    目前为止我们的例子是完美对称且只有一个峰,然而,一些其它奇怪的分布是可能存在的。
    后面会讲如何利用多维高斯分布,去创建一个混合模型,用它可以表示各种不同的分布。




    推导

    这个多维高斯分布的求解(偏导)是这样来的:

    μ \boldsymbol{\mu} μ 的估计:

    ∂ J ∂ μ = ∂ ∂ μ ∑ i = 1 N { 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) + 1 2 ln ⁡ ∣ Σ ∣ } (2) \frac{\partial J}{\partial \boldsymbol{\mu}} = \frac{\partial}{\partial \boldsymbol{\mu}} \sum^N_{i=1} \left\{ \frac{1}{2}(\textbf{\textit{x}}_i - \boldsymbol{\mu} )^T \Sigma^{-1} (\textbf{\textit{x}}_i - \boldsymbol{\mu} ) + \frac{1}{2}\ln|\Sigma| \right\}\tag{2} μJ=μi=1N{21(xiμ)TΣ1(xiμ)+21lnΣ}(2)

    首先: x T Σ − 1 μ = [ x 1 x 2 ⋯ x n ] Σ − 1 [ μ 1 μ 2 ⋮ μ n ] = [ μ 1 μ 2 ⋯ μ n ] Σ − 1 [ x 1 x 2 ⋮ x n ] = μ T Σ − 1 x \textbf{\textit{x}}^T \Sigma^{-1} \boldsymbol{\mu} = \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix} \Sigma^{-1} \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix} = \begin{bmatrix} \mu_1 & \mu_2 & \cdots & \mu_n \end{bmatrix} \Sigma^{-1} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = \boldsymbol{\mu}^T \Sigma^{-1} \textbf{\textit{x}} xTΣ1μ=[x1x2xn]Σ1μ1μ2μn=[μ1μ2μn]Σ1x1x2xn=μTΣ1x

    然后: ( x − μ ) T Σ − 1 ( x − μ ) = ( x T − μ T ) Σ − 1 ( x − μ ) = ( x T − μ T ) Σ − 1 x − ( x T − μ T ) Σ − 1 μ = x T Σ − 1 x − μ T Σ − 1 x − x T Σ − 1 μ + μ T Σ − 1 μ = x T Σ − 1 x − 2 μ T Σ − 1 x + μ T Σ − 1 μ \begin{aligned} (\textbf{\textit{x}} - \boldsymbol{\mu} )^T \Sigma^{-1} (\textbf{\textit{x}} - \boldsymbol{\mu} ) &= (\textbf{\textit{x}}^T - \boldsymbol{\mu}^T ) \Sigma^{-1} (\textbf{\textit{x}} - \boldsymbol{\mu} ) \\[0.5em] &= (\textbf{\textit{x}}^T - \boldsymbol{\mu}^T ) \Sigma^{-1} \textbf{\textit{x}} - ( \textbf{\textit{x}}^T - \boldsymbol{\mu}^T ) \Sigma^{-1} \boldsymbol{\mu} \\[0.5em] &= \textbf{\textit{x}}^T \Sigma^{-1} \textbf{\textit{x}} - \boldsymbol{\mu}^T \Sigma^{-1} \textbf{\textit{x}} - \textbf{\textit{x}}^T \Sigma^{-1} \boldsymbol{\mu} + \boldsymbol{\mu}^T \Sigma^{-1} \boldsymbol{\mu} \\[0.5em] &= \textbf{\textit{x}}^T \Sigma^{-1} \textbf{\textit{x}} -2 \boldsymbol{\mu}^T \Sigma^{-1} \textbf{\textit{x}} + \boldsymbol{\mu}^T \Sigma^{-1} \boldsymbol{\mu} \\[0.5em] \end{aligned} (xμ)TΣ1(xμ)=(xTμT)Σ1(xμ)=(xTμT)Σ1x(xTμT)Σ1μ=xTΣ1xμTΣ1xxTΣ1μ+μTΣ1μ=xTΣ1x2μTΣ1x+μTΣ1μ

    由于是对 μ \boldsymbol{\mu} μ 求偏导,忽略掉常数和其它变量,因此公式 (2) 变为:
    ∂ J ∂ μ = ∂ ∂ μ ∑ i = 1 N { 1 2 μ T Σ − 1 μ − μ T Σ − 1 x i } (3) \frac{\partial J}{\partial \boldsymbol{\mu}} = \frac{\partial}{\partial \boldsymbol{\mu}} \sum^N_{i=1} \left\{ \frac{1}{2} \textcolor{blue}{\boldsymbol{\mu}^T \Sigma^{-1} \boldsymbol{\mu} } - \textcolor{red}{\boldsymbol{\mu}^T \Sigma^{-1} \textbf{\textit{x}}_i } \right\}\tag{3} μJ=μi=1N{21μTΣ1μμTΣ1xi}(3)

    公式 (3) 有两项关于指数的求导。


    首先,对于 μ T Σ − 1 x \textcolor{red}{\boldsymbol{\mu}^T \Sigma^{-1} \textbf{\textit{x}}} μTΣ1x,记 Σ − 1 x \Sigma^{-1} \textbf{\textit{x}} Σ1x A \textbf{\textit{A}} A,则 μ T Σ − 1 x = μ T A \boldsymbol{\mu}^T \Sigma^{-1} \textbf{\textit{x}} = \boldsymbol{\mu}^T \textbf{\textit{A}} μTΣ1x=μTA


    由求导公式 d ( AX ) T d X = A T \dfrac{\text{d}(\textbf{\textit{A}} \textbf{\textit{X}} )^T}{\text{d}\textbf{\textit{X}}} = \textbf{\textit{A}}^T dXd(AX)T=AT 得:

    ∂ ( μ T Σ − 1 x ) ∂ μ = ∂ ( μ T A ) ∂ μ = ∂ ( A T μ ) T ∂ μ = A = Σ − 1 x (4) \frac{\partial (\textcolor{red}{\boldsymbol{\mu}^T \Sigma^{-1} \textbf{\textit{x}}})}{\partial \boldsymbol{\mu}} = \frac{\partial (\boldsymbol{\mu}^T \textbf{\textit{A}})}{\partial \boldsymbol{\mu}} = \frac{\partial (\textbf{\textit{A}}^T \boldsymbol{\mu})^T}{\partial \boldsymbol{\mu}} = \textbf{\textit{A}} = \Sigma^{-1} \textbf{\textit{x}}\tag{4} μ(μTΣ1x)=μ(μTA)=μ(ATμ)T=A=Σ1x(4)


    然后,对于 μ T Σ − 1 μ \textcolor{blue}{\boldsymbol{\mu}^T \Sigma^{-1} \boldsymbol{\mu} } μTΣ1μ,根据求导公式 d ( X T AX ) d X = AX + A T X \dfrac{\text{d}(\textbf{\textit{X}} ^T \textbf{\textit{A}} \textbf{\textit{X}} )}{\text{d}\textbf{\textit{X}}} = \textbf{\textit{A}} \textbf{\textit{X}} + \textbf{\textit{A}}^T \textbf{\textit{X}} dXd(XTAX)=AX+ATX 得:

    ∂ ( μ T Σ − 1 μ ) ∂ μ = Σ − 1 μ + Σ − 1 T μ (5) \frac{\partial (\textcolor{blue}{\boldsymbol{\mu}^T \Sigma^{-1} \boldsymbol{\mu} })}{\partial \boldsymbol{\mu}} = \Sigma^{-1}\boldsymbol{\mu} + {\Sigma^{-1}}^T \boldsymbol{\mu}\tag{5} μ(μTΣ1μ)=Σ1μ+Σ1Tμ(5)


    由于 Σ − 1 \Sigma^{-1} Σ1 是一个对称矩阵,所以 Σ − 1 = Σ − 1 T \Sigma^{-1} = {\Sigma^{-1}}^T Σ1=Σ1T,把 (4) 和 (5) 代入 (3) 得:

    ∂ J ∂ μ = Σ − 1 ∑ i = 1 N { μ − x i } \frac{\partial J}{\partial \boldsymbol{\mu}} = \Sigma^{-1} \sum^N_{i=1} \left\{ \boldsymbol{\mu} - \textbf{\textit{x}}_i \right\} μJ=Σ1i=1N{μxi}

    ∂ J ∂ μ = 0 ⟶ μ ^ = 1 N ∑ i = 1 N x i \frac{\partial J }{ \partial \boldsymbol{\mu} } = 0 \quad \textcolor{green}{ \longrightarrow} \quad \hat{\boldsymbol{\mu}} = \frac{1}{N} \sum^{N}_{i=1} \textbf{\textit{x}}_i μJ=0μ^=N1i=1Nxi



    Σ \Sigma Σ 的估计:

    有点麻烦,推理可以看这里:https://www.cnblogs.com/bigmonkey/p/11379144.html

    用的时候直接记答案好了

    展开全文
  • 最大似然估计

    2018-10-06 17:21:39
    一、 最大似然估计的概念 ...伯努利分布(两点分布)的最大似然估计 例:天气晴雨的求法,10天的天气为晴晴晴晴雨雨晴雨晴雨,求下雨概率 晴天用1表示,雨用0表示则可得 天气 0 0 0 0 1 1 0 1 0 1 则晴天和雨...
  • 常用概率分布最大似然估计与矩估计及优良性比较
  • 高斯分布 就是我们常说的正态分布,也叫常态分布,名字有很多~~后面统一叫高斯分布。 图形非常的常见~ 最简单的,人类的身高分布,学习成绩这种,基本都服从于高斯分布。 一维高斯分布: ...极大似然估计 第一次
  • 正态分布最大似然估计

    万次阅读 2017-06-24 09:41:16
    给定数据集D={x1, x2, ... , xn},假设都服从均值为mean(假设未知),方差为var的高斯分布(假设...最大似然估计(MLE): MLE过程: (1)假设真实高斯分布的均值为20,方差为18 (2)根据该概率分布抽取100个
  • 目录 1.概率模型和非概率模型 1.1 非概率模型 1.1 概率模型 2 频率学派和贝叶斯学派 2.1 频率学派 ...3. 极大似然估计 ...3.1 什么是极大似然估计 ...3.3 极大似然估计法(Maximum ...极大似然估计最大后验估计都.
  • 多元正态分布极大似然估计

    万次阅读 多人点赞 2018-06-20 13:53:12
    多元正态分布极大似然估计 1. 一元正态分布的密度函数 一元正态分布的密度函数表示为: f(x)=1(2π)−−−−√σe−(x−μ)22σ2f(x)=1(2π)σe−(x−μ)22σ2f(x) = \frac{1}{\sqrt {(2 \pi)} \sigma} e^{...
  • 极大似然估计

    2019-02-04 15:34:09
    前言 参数估计是机器学习里面的一个重要主题,而极大似然估计是最传统、使用最广泛的估计方法之一。...这时候我们就需要用极大似然估计来求解这个分布的参数。换句话说,极大似然估计提供了一种给定观察数据来评...
  • 原标题:最大似然估计二项式分布参数前面我们学习了解了最大似然法求解正态分布参数,求解指数分布参数。今天我们再来看看最大似然法如何求解二项式分布参数。1.二项式分布似然估计公式二项分布基本公式求发生...
  • 本文以线性回归模型为例,介绍了种参数估计方法,即最小二乘法和极大似然估计法,阐述了两者之间的区别与联系。
  • 详细介绍极大似然估计MLE和参数估计背景
  • 上周有读者私信我说,面试被问到了极大似然估计没回答出来,虽然网上有很多讲解,但是不大能看得懂,而且有一些疑问没有解释清楚。经过一周的撰写,今天困哥就专门整理了一篇数千字的文章,来详细介绍一下极大似然...
  • 最大似然估计详解

    千次阅读 多人点赞 2021-06-09 11:34:28
      极大似然估计,我们也把它叫做最大似然估计(Maximum Likelihood Estimation),英文简称MLE。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定。...
  • 最大似然估计说的就是,如果事情发生了,那必然是概率最大的。 一般来说,我们都觉得硬币是公平的,也就是“花”和“字”出现的概率是差不多的。如果我扔了100次硬币,100次出现的都是“花”。在这样的事实下,我...
  • 理解极大似然估计(MLE)与最大后验概率估计(MAP)
  • 本文要证明为什么对高斯分布的方差的极大似然估计是有偏的。同时,也说明为什么求样本方差时,分母是N-1而不是N。 首先,明白两点,(1)极大似然法得到的高斯方差是什么形式(2)什么是有偏。 (1)先说第一...
  • 最大似然参数估计的求解 前导知识:【最大似然参数估计的基本原理】 回顾一下似然函数公式: l(θ)=ρ(X∣θ)=ρ(x1,x2,...,xN∣θ)=∏i=1Nρ(xi∣θ)(1) l(\theta)=\rho(X|\theta)=\rho(x_1,x_2,...,x_N|\theta)=\...
  • 极大似然估计(Maximum likelihood estimation)

    万次阅读 多人点赞 2019-03-19 15:36:05
    极大似然估计法(the Principle of Maximum Likelihood )由高斯和费希尔(R.A.Figher)先后提出,是被使用最广泛的一种参数估计方法,该方法建立的依据是直观的最大似然原理。 总结起来,最大似然估计的目的就是...
  • 概率论与数理统计——最大似然估计的计算题目最大似然估计使用最大似然估计的解题步骤第一种情况:离散型① 选择样本/样本值(准备工作)② 构造似然函数(重点)③ 求导(收尾工作)总结第二种情况:连续型① 选择...
  • 参数估计是机器学习里面的一个重要主题,而极大似然估计是最传统、使用最广泛的估计方法之一。 本文主要介绍了极大似然估计,简单说明了其和矩估计、贝叶斯估计的异同,其他估计(如MAP)并不涉及。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 21,314
精华内容 8,525
热门标签
关键字:

两点分布最大似然估计