精华内容
下载资源
问答
  • 1.二项分布似然估计公式二项分布基本公式求发生某件事情的概率:如在人们对两种口味饮料无偏好时,即人们喜欢香橙口味的概率p=0.5,喜欢葡萄口味的概率p=0.5,那么7个人中4个人喜欢香橙口味的概率为0.273。...

    8fdc42af5282b0c9fefb9dff11981f04.png

    前面我们学习了解了最大似然法求解正态分布参数,求解指数分布参数。今天我们再来看看最大似然法如何求解二项式分布参数。

    1.二项式分布与似然值估计公式二项分布基本公式求发生某件事情的概率:

    如在人们对两种口味饮料无偏好时,即人们喜欢香橙口味的概率p=0.5,喜欢葡萄口味的概率p=0.5,那么7个人中4个人喜欢香橙口味的概率为0.273。计算公式如下:

    cb99a8f2306c244d4e69bb8e9c6b3056.png

    似然值公式求某件事发生的环境概率:如7个人中有4个人喜欢香橙口味饮料,在人们对两种口味饮料无偏好时,也就是喜欢两种口味饮料的概率p=0.5,那么p=0.5对应的似然值为0.273。计算公式如下:

    e1a08d3e76ad86ec27c39f28410f5fad.png

    二项式分布公式与似然值公式的异同:相同点:等式左边的写法是一样的;

    不同点:等式右边,“|”右侧的固定条件不同,也就是已知条件不同。在二项式分布公式中,固定条件为人们喜欢香橙口味的概率p=0.5,其他询问的人数。在似然值公式中,固定的条件是7个人中4个人喜欢香橙口味。“|”左边的变量不同,在二项式公式中,变量是询问人数中共有几人喜欢香橙口味;在似然值公式中,变量是人们喜欢香橙口味饮料的概率。

    通过对比,能知道似然值与分布公式的重要意义:似然值公式是通过已发生的事件,推导产生该事件环境的可能性;而分布公式是已知环境,推导该环境下发生某件事的概率。

    2.最大似然法求解二项式分布参数

    「二项式分布的似然值:」 用似然法估计二项式分布的参数,即我们需要计算不同p值时对应的似然值。

    如下方程的含义为:在随机7个人中4个人喜欢香橙口味的固定情况下,计算p=0.5时的似然值为0.273;e1a08d3e76ad86ec27c39f28410f5fad.png在随机7个人中4个人喜欢香橙口味的固定情况下,计算p=0.25时的似然值为0.058;bb77dfba32bbe119d1e217d908ee3e30.png在随机7个人中4个人喜欢香橙口味的固定情况下,计算p=0.57时的似然值为0.294。

    be939f233fb6bfd760eb2805571b42d1.png

    p值的取值范围是[0,1],将以上二项式分布中的p在[0,1]范围内的似然值绘制成曲线,当曲线达到峰值(斜率为0)时对应的似然值最大。

    530622686a2eb25104593e19cb045f3f.png

    「因为在似然值曲线的峰值时,该p值对应的似然值最大,故可将其转化成数学问题,求解二项式分布的导数为0时,p的取值。」为方便求导,将似然值求解公式两边同时取对数处理并简化方程:

    77305eb10aedd7badd5f43ed432bd94c.png

    函数求导并简化方程:a7d452e8f0f95fab4937836bbd7ab961.png令导数=0,求解p:00a08c5957db3b57c1f7429c0d8acd91.pngbc4eb78438d82abc2c0fe6a9031c180e.png

    当p=4/7=0.57时,取得最大似然值。故得出结论,当人们喜欢香橙口味饮料的概率为0.57时,发生4个人喜欢香橙口味,3个人喜欢葡萄口味的概率最大。

    任意情况下,最大似然值估计二项式分布参数

    问题:已知任意n个人中,任意x人喜欢香橙口味时,探究该二项式分布中最有可能的p值。

    求解方法同前,依次对函数进行对数处理、求导、求解p。最终,得出当p=x/n时,n人中x人更喜欢香橙口味的似然值最大。为方便求导,将似然值求解公式两边同时取对数处理并简化方程:

    16d99db1f734274baebc9a8cd7aa5f42.png6a28b7974ad36955872d2c2674ed3ec9.png因不论n与x的取值,当斜率=0(导数=0)时,该处对应的似然值最大。

    a5a4408e5510e5c45777868252dcbf36.png

    令导数=0,求解p:261b74168d1332e9202a1e20a8b183a4.png得出结论:得出当p=x/n时,n人中x人更喜欢香橙口味的似然值最大,即n人中x人更喜欢香橙口味发生的概率最大。

    小结

    通过前面几期的深入学习,使得我们能够更加清楚的了解最大似然值估计法的基本原理,让最大似然法不再陌生。继续加油~~~

    展开全文
  • 1.二项分布似然估计公式二项分布基本公式求发生某件事情的概率:如在人们对两种口味饮料无偏好时,即人们喜欢香橙口味的概率p=0.5,喜欢葡萄口味的概率p=0.5,那么7个人中4个人喜欢香橙口味的概率为0.273。...

    前面我们学习了解了最大似然法求解正态分布参数,求解指数分布参数。今天我们再来看看最大似然法如何求解二项式分布参数。

    1.二项式分布与似然值估计公式

    二项分布基本公式求发生某件事情的概率:

    c063c34f1ed2

    如在人们对两种口味饮料无偏好时,即人们喜欢香橙口味的概率p=0.5,喜欢葡萄口味的概率p=0.5,那么7个人中4个人喜欢香橙口味的概率为0.273。计算公式如下:

    c063c34f1ed2

    似然值公式求某件事发生的环境概率:

    如7个人中有4个人喜欢香橙口味饮料,在人们对两种口味饮料无偏好时,也就是喜欢两种口味饮料的概率p=0.5,那么p=0.5对应的似然值为0.273。计算公式如下:

    c063c34f1ed2

    二项式分布公式与似然值公式的异同:

    相同点:等式左边的写法是一样的;

    不同点:

    等式右边,“|”右侧的固定条件不同,也就是已知条件不同。在二项式分布公式中,固定条件为人们喜欢香橙口味的概率p=0.5,其他询问的人数。在似然值公式中,固定的条件是7个人中4个人喜欢香橙口味。“|”左边的变量不同,在二项式公式中,变量是询问人数中共有几人喜欢香橙口味;在似然值公式中,变量是人们喜欢香橙口味饮料的概率。

    通过对比,能知道似然值与分布公式的重要意义:似然值公式是通过已发生的事件,推导产生该事件环境的可能性;而分布公式是已知环境,推导该环境下发生某件****事的概率。

    2.最大似然法求解二项式分布参数

    「二项式分布的似然值:」 用似然法估计二项式分布的参数,即我们需要计算不同p值时对应的似然值。

    如下方程的含义为:在随机7个人中4个人喜欢香橙口味的固定情况下,计算p=0.5时的似然值为0.273;

    c063c34f1ed2

    在随机7个人中4个人喜欢香橙口味的固定情况下,计算p=0.25时的似然值为0.058;

    c063c34f1ed2

    在随机7个人中4个人喜欢香橙口味的固定情况下,计算p=0.57时的似然值为0.294。

    c063c34f1ed2

    p值的取值范围是[0,1],将以上二项式分布中的p在[0,1]范围内的似然值绘制成曲线,当曲线达到峰值(斜率为0)时对应的似然值最大。

    c063c34f1ed2

    「因为在似然值曲线的峰值时,该p值对应的似然值最大,故可将其转化成数学问题,求解二项式分布的导数为0时,p的取值。」

    为方便求导,将似然值求解公式两边同时取对数处理并简化方程:

    c063c34f1ed2

    函数求导并简化方程:

    c063c34f1ed2

    令导数=0,求解p:

    c063c34f1ed2

    c063c34f1ed2

    当p=4/7=0.57时,取得最大似然值。故得出结论,当人们喜欢香橙口味饮料的概率为0.57时,发生4个人喜欢香橙口味,3个人喜欢葡萄口味的概率最大。

    任意情况下,最大似然值估计二项式分布参数

    问题:已知任意n个人中,任意x人喜欢香橙口味时,探究该二项式分布中最有可能的p值。

    求解方法同前,依次对函数进行对数处理、求导、求解p。最终,得出当p=x/n时,n人中x人更喜欢香橙口味的似然值最大。

    为方便求导,将似然值求解公式两边同时取对数处理并简化方程:

    c063c34f1ed2

    c063c34f1ed2

    因不论n与x的取值,当斜率=0(导数=0)时,该处对应的似然值最大。

    c063c34f1ed2

    令导数=0,求解p:

    c063c34f1ed2

    得出结论:得出当p=x/n时,n人中x人更喜欢香橙口味的似然值最大,即n人中x人更喜欢香橙口味发生的概率最大。

    小结

    通过前面几期的深入学习,使得我们能够更加清楚的了解最大似然值估计法的基本原理,让最大似然法不再陌生。继续加油~~~

    展开全文
  • 伯努利分布最大似然估计

    万次阅读 2019-04-11 16:39:10
    昨天晚上参加阿里巴巴的实习面试,各种被虐。 伯努利分布最大似然估计

    前言

    昨天晚上参加阿里巴巴的实习面试,各种被虐。面试了将近90分钟,才做了3个题,加上项目的介绍。在机器学习方面,问到了一个伯努利分布的最大似然估计的推导,想到逻辑回归的推导就是利用最大似然估计,然后就套用了其推导过程。可能前面被说的有点迷糊了,导致最后也没有完整的推导出来,最失败的一次面试了。

    对于阿里的暑期实习面试,其实问得内容还是都比较基础的。准备了很多关于特征工程、集成学习等内容,结果都没有考察到。反而被考的基础知识没有准备的比较清楚。这里对伯努利分布以及其最大似然估计做了一个详细的推导,其它的概率模型可以套用该模版。

    祝看到此文章的小伙伴都能找到好的工作…


    伯努利分布

    伯努利分布,又名0-1分布,是一个离散概率分布。典型的示例是抛一个比较特殊的硬币,每次抛硬币只有两种结果,正面和负面。抛出硬币正面的概率为 p p p ,抛出负面的概率则为 1 − p 1-p 1p 。因此,对于随机变量 X X X ,则有:

    f ( X = 1 ) = p f ( X = 0 ) = 1 − p \begin{aligned} f(X=1) & = p \\ f(X=0) & =1-p \end{aligned} f(X=1)f(X=0)=p=1p

    由于随机变量 X X X 只有 0 和 1 两个值, X X X 的概率分布函数可写为:
    (1) f ( X ) = p x ( 1 − p ) 1 − x 0 &lt; p &lt; 1 f(X)=p^x(1-p)^{1-x}\qquad\text{$0&lt;p&lt;1$}\tag{1} f(X)=px(1p)1x0<p<1(1)

    数学期望

    在概率论和统计学中,数学期望(或均值)是试验中每次可能结果的概率乘以其结果的总和。它反映了随机变量平均取值的大小。

    离散型

    离散型随机变量 X X X数学期望为一切可能的取值 x i x_i xi 与对应的概率 p ( x i ) p(x_i) p(xi) 的乘积之和,即如果随机变量的取值为集合 { x 1 , x 2 , ⋯ &ThinSpace; , x n } \lbrace x_1,x_2,\cdots, x_n \rbrace {x1,x2,,xn} ,每个取值对应的概率为 { p ( x 1 ) , p ( x 2 ) , ⋯ &ThinSpace; , p ( x n ) } \lbrace p(x_1),p(x_2),\cdots, p(x_n) \rbrace {p(x1),p(x2),,p(xn)} ,则有:
    (2) E ( X ) = ∑ i = 1 n x n p ( x n ) E(X) =\sum_{i=1}^{n}x_np(x_n) \tag{2} E(X)=i=1nxnp(xn)(2)
    因此,对于伯努利分布,其数学期望为:
    E ( X ) = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p E(X)=1\cdot p + 0\cdot (1-p)=p E(X)=1p+0(1p)=p
    对于随机变量 X ​ X​ X ,其方差和数学期望的公式满足:
    (3) V a r ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( x 2 ) − [ E ( x ) ] 2 Var(X)=E((X-E(X))^2)=E(x^2)-[E(x)]^2\tag{3} Var(X)=E((XE(X))2)=E(x2)[E(x)]2(3)

    一个随机变量的方差就是衡量随机变量和其数学期望之间的偏离程度。

    公式推导如下:
    V a r ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( X 2 − 2 X ⋅ E ( X ) + [ E ( X ) ] 2 ) = E ( X 2 ) − 2 ⋅ E ( X ) ⋅ E ( X ) + [ E ( X ) ] 2 = E ( X 2 ) − [ E ( X ) ] 2 \begin{aligned} Var(X)&amp;=E((X-E(X))^2)\\ &amp;=E(X^2-2X\cdot E(X)+[E(X)]^2)\\ &amp;=E(X^2)-2\cdot E(X) \cdot E(X) + [E(X)]^2\\ &amp;=E(X^2)-[E(X)]^2 \end{aligned} Var(X)=E((XE(X))2)=E(X22XE(X)+[E(X)]2)=E(X2)2E(X)E(X)+[E(X)]2=E(X2)[E(X)]2
    对于伯努利分布,有 E ( X 2 ) = E ( X ) E(X^2)=E(X) E(X2)=E(X) 。因此,其方差为:
    V a r ( X ) = p − p 2 = p ( 1 − p ) Var(X)=p-p^2=p(1-p) Var(X)=pp2=p(1p)


    最大似然估计

    在统计学中,最大似然估计(MLE),也称为极大似然估计,是用来估计一个概率模型的参数的方法。其目的就是:利用已知的样本结果,反推最有可能导致这样结果的参数值。

    由于样本集中的样本都是独立同分布,现以伯努利分布来推导其参数 p p p 最大似然估计。记已知的样本集为:
    D = { x 1 , x 2 , ⋯ &ThinSpace; , x n } D=\lbrace x_1,x_2,\cdots,x_n\rbrace D={x1,x2,,xn}
    其似然函数为:
    (4) L ( p ∣ x 1 , ⋯ &ThinSpace; , x n ) = f ( X ∣ p ) = f ( x 1 , x 2 , ⋯ &ThinSpace; , x n ∣ p ) = ∏ i = 1 n f ( x i ∣ p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i \begin{aligned} L(p|x_1,\cdots,x_n)&amp;=f(X|p)\\ &amp;=f(x_1,x_2,\cdots,x_n|p)\\ &amp;=\prod_{i=1}^n{f(x_i|p)}\\ &amp;=\prod_{i=1}^n{p^{x_i}(1-p)^{1-x_i}}\tag{4} \end{aligned} L(px1,,xn)=f(Xp)=f(x1,x2,,xnp)=i=1nf(xip)=i=1npxi(1p)1xi(4)
    由于有连乘运算,通常对似然函数取对数来计算,即对数似然函数。因此其对数似然函数为:
    (5) L = log ⁡ ∏ i = 1 n f ( x i ∣ p ) = ∑ i = 1 n log ⁡ f ( x i ∣ p ) = ∑ i = 1 n [ x i log ⁡ p + ( 1 − x i ) log ⁡ ( 1 − p ) ] \begin{aligned} L&amp;=\log \prod_{i=1}^nf(x_i|p)\\ &amp;=\sum_{i=1}^n{\log f(x_i|p)}\\ &amp;=\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]}\tag{5} \end{aligned} L=logi=1nf(xip)=i=1nlogf(xip)=i=1n[xilogp+(1xi)log(1p)](5)
    等式 ( 5 ) (5) (5) 其实就是逻辑回归中使用到的交叉熵了。
    p ^ = arg ⁡ max ⁡ p L ( p ∣ X ) = arg ⁡ max ⁡ p ∑ i = 1 n [ x i log ⁡ p + ( 1 − x i ) log ⁡ ( 1 − p ) ] \begin{aligned} \hat{p}&amp;=\arg \max_{p}L(p|X)\\ &amp;=\arg \max_p {\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]}} \end{aligned} p^=argpmaxL(pX)=argpmaxi=1n[xilogp+(1xi)log(1p)]
    因此,最大似然估计其实就是求似然函数的极值点,将对数似然函数对参数 p p p 求导:
    ∂ L ∂ p = ∑ i = 1 n [ x i p + 1 − x i p − 1 ] = ∑ i = 1 n p − x i p ( p − 1 ) = 0 \begin{aligned} \frac{\partial L}{\partial p}&amp;=\sum_{i=1}^n{[\frac{x_i}{p}+\frac{1-x_i}{p-1}]}\\ &amp;=\sum_{i=1}^n{\frac{p-x_i}{p(p-1)}}=0 \end{aligned} pL=i=1n[pxi+p11xi]=i=1np(p1)pxi=0
    从而得到伯努利的最大似然估计为:
    ∑ i = 1 n ( p − x i ) = 0 &ThickSpace; ⟹ &ThickSpace; p = 1 n ∑ i = 1 n x i \begin{aligned} &amp;\sum_{i=1}^{n}{(p-x_i)}=0\\ \implies &amp;p=\frac{1}{n}\sum_{i=1}^n{x_i} \end{aligned} i=1n(pxi)=0p=n1i=1nxi


    总结

    求概率模型的最大似然估计的一般步骤如下:

    1. 写出随机变量的概率分布函数;
    2. 写出似然函数;
    3. 对似然函数取对数,并进行化简整理;
    4. 对参数进行求导,找到似然函数的极值点;
    5. 解似然方程。

    相信了解逻辑回归算法的小伙伴已经看出来了,对逻辑回归的推导其实质上也是最大似然估计算法。在逻辑回归中,其概率分布函数不再是 f ( x ) = p x ( 1 − p ) 1 − x f(x)=p^x(1-p)^{1-x} f(x)=px(1p)1x ,而是:
    (6) P ( y ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y P(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y}\tag{6} P(yx;θ)=(hθ(x))y(1hθ(x))1y(6)
    其中:
    (7) h θ ( x ) = 1 1 + e − z = 1 1 + e − θ T x h_{\theta}(x)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\theta^{T} x}}\tag{7} hθ(x)=1+ez1=1+eθTx1(7)
    详细过程参见:逻辑回归推导

    展开全文
  • 前言:机器学习系列文章常含有大量公式,若需获取本文全部的手书版原稿资料,扫码关注公众号【AI机器学习与知识图谱】,回复: 高斯分布第一讲 即可获取。 原创不易,转载请告知并注明出处!扫码关注公众号,定期发布...

    作者:CHEONG

    公众号:AI机器学习与知识图谱

    研究方向:自然语言处理与知识图谱


    前言:机器学习系列文章常含有大量公式,若需获取本文全部的手书版原稿资料,扫码关注公众号【AI机器学习与知识图谱】,回复: 高斯分布第一讲 即可获取。

    原创不易,转载请告知并注明出处!扫码关注公众号,定期发布知识图谱,自然语言处理、机器学习等知识,添加微信号【17865190919】进讨论群,加好友时备注来自CSDN。


    二话不说咱先抛出一个问题:数据集Data X服从高斯分布,如何推导X的均值和方差

    欲解答上述问题,先对问题进行拆解:

    1、何为高斯分布,高斯分布概率密度函数是什么

    2、用什么方法推导:最大似然估计法,那最大似然估计是什么

    3、如何推导,最大似然估计法推导高斯分布均值和方差的过程


    那接下来我们就先对上面四个问题一个一个来看吧。


    一、高斯分布

    下面先说明一元高斯分布,标准一元正态分布以及多元高斯分布之间的关系以及其概率密度函数分别是什么,而对于边缘高斯分布,条件高斯分布以及混合高斯分布之后再单独细讲。


    1、一元高斯分布和标准正态分布

    如果数据集x服从均值为u,方差为 σ \sigma σ的一元高斯分布,其概率密度函数为

    在这里插入图片描述
    而标准一元正态分布既对数据集x进行标准化处理:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hmJAZtg5-1615555460933)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png)]
    z服从均值为0,方差为1的标准正态分布,其概率密度函数为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lGkii4gC-1615555460936)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image014.png)]
    这里给出高斯分布满足的两条常用性质,在之后证明中会使用到:

    (1)如果 x ∼ N ( u , σ 2 ) x \sim N(u, \sigma^2) xN(u,σ2)且a和b是实数时,那么

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2U92jjZp-1615555460942)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image018.png)]
    (2)如果 x ∼ N ( u x , σ x 2 ) x \sim N(u_x, \sigma^2_x) xN(ux,σx2) y ∼ N ( u y , σ y 2 ) y \sim N(u_y, \sigma^2_y) yN(uy,σy2)是统计独立的正态随机变量,那么

    • 他们的和也满足正态分布
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d4fXkgfK-1615555460948)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image024.png)]
    • 他们的差也满足正态分布
      在这里插入图片描述

    2、多元高斯分布

    这里先介绍一种简单的情况,那就是多元维度之间相互独立时,若各变量之间相互独立,则联合概率密度函数等于各自概率密度的乘积。

    如果 X = ( x 1 , x 2 , . . . , x d ) T X=(x_1, x_2, ..., x_d)^T X=(x1,x2,...,xd)T,且各维度之间相互独立,则X的概率密度函数为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7ew3A01z-1615555460953)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image030.png)]
    对上面公式进行简化处理,先简写成

    在这里插入图片描述
    其中:

    在这里插入图片描述

    上式中 Σ \Sigma Σ是协方差矩阵,由于变量各个维度之间不相关,因此协方差矩阵只有对角线的位置有值,因此推导出多元高斯分布的概率密度函数为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIBfHMC3-1615555461005)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image044.png)]



    二、最大似然估计

    先从下图中的例子泛泛的理解一下最大似然估计的思想:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YfMbVQ1w-1615555461016)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image046.jpg)]

    通俗来说,最大似然估计法,就是利用已知的样本结果信息,反推最大可能(最大概率)产生这个结果的模型参数值,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即模型已定,参数未知。

    最大似然估计一个重要前提假设是:数据样本之间是独立同分布的。在用最大似然估计解高斯分布参数前,先看一般情况,现考虑有一个数据集D,服从一定的概率分布,用最大似然估计来推导该数据集的参数向量 Θ \Theta Θ,记已知的样本集为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PgEyLmf0-1615555461018)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image050.png)]

    似然函数,即联合概率密度函数:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NaXG6N6b-1615555461022)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image052.png)]
    联合概率密度函数 p ( D ∣ Θ ) p(D|\Theta) p(DΘ)称为相对于数据集D的参数 Θ \Theta Θ的似然函数,先再就是要求满足似然函数最大的参数值,也就是求使得该组样本出现的概率最大的 Θ \Theta Θ

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CtNba65U-1615555461025)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image056.png)]
    实际中为了便于分析,都会将其定义为对数似然函数:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HrLawFL1-1615555461029)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image058.png)]

    现在知道了最大似然估计的用法,接下来便用最大似然估计来求解高斯分布的参数,即均值和方差。



    三、最大似然估计推导高斯分布均值和方差

    先有一批数据集Data X服从高斯分布,样本之间独立同分布:

    在这里插入图片描述
    用最大似然估计求解参数 Θ \Theta Θ,则对数似然函数为:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jv5ed2xF-1615555461047)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image066.png)]
    其中 p ( x i ∣ Θ ) p(x_i|\Theta) p(xiΘ)即是高斯分布的概率密度函数

    在这里插入图片描述

    因此均值为

    在这里插入图片描述
    对上述函数求导极值点既是极小值

    在这里插入图片描述
    则可得其均值为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XLdnAJ2g-1615555461104)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image088.png)]

    至此我们通过最大似然估计求导得出了均值u,接下来用同样的方法求解方差

    在这里插入图片描述

    因此可以求得参数方差为

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-caFFkef6-1615555461132)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image102.png)]

    至此我们已经通过最大似然估计求得了高斯分布的均值和方差

    在这里插入图片描述

    展开全文
  • 概率笔记12——多维正态分布最大似然估计

    万次阅读 多人点赞 2019-08-19 19:33:18
    我们在前面的章节中见识过维正态分布,(X,Y)服从参数为μ1, μ2, σ1, σ2, ρ的维正态分布,记作(X, Y)~N(μ1, μ2, σ1, σ2, ρ),它的密度函数:  其中μ1是第1维度的均值,σ12是第1维度的方差,ρ是将...
  • 前言:介绍了最简单的问题(这里都是玩具数据,为了方便理解才列出)0123456789101112X12344.24.44.64.85678y000011110000假设 x = 4.9 用科学的办法估计 y 的分类。预备知识高斯分布的概率密度函数高斯分布的概率密度...
  • 项分布最大似然估计

    千次阅读 2012-04-30 18:38:12
    (一)二项分布最大似然估计  二项分布中,有两个结果:事件要么发生,要么不发生。二项分布中,随机变量X取值1表示事件发生,而取值0表示事件不发生。令p表示事件发生的概率,则(1-p)为事件不发生的概率。如...
  • 最大似然估计

    2018-01-23 16:39:22
    最大似然估计 设有分布f(x,θ)f(x,\theta) ,其中θ\theta为未知参数。已知服从该分布的样本 x1,x2,...,xnx_1,x_2,...,x_n,则可以求出当θ\theta为何值时,出现x1,x2,...,xnx_1,x_2,...,x_n这n个样本的概率最大。也...
  • 相位θ 是随机变量,它服从均匀分布1 0 2 ( ) 20 pθ π θ π ?? ≤ ≤ = ??? 其它 1)改变输入信噪比(改变 A 或噪声方差均可),给定虚警概率,画出输入信噪比与检测概率之间的理论曲线。(注意:理论检测曲线与...
  • 常用概率分布最大似然估计与矩估计及优良性比较
  • 六大常用分布的矩估计和最大似然估计推导过程

    万次阅读 多人点赞 2020-09-28 14:00:47
    矩估计和极大似然估计 矩估计基于辛钦大数定律: 当样本的容量足够大时,样本k阶距(A_k)收敛域总体k阶距(a_k) 样本的平均值去估计总体的均值(期望) 期望和均值 数学期望常称为“均值”,即“随机变量取值的平均值”...
  • 正态分布/最大似然估计

    千次阅读 2018-04-24 20:40:33
    loc, scale = norm.fit(samples) #最大似然估计 x = linspace(-3,3,100) hist([samples, n1 _samples, n2_ samples], normed=True) plot(x, n.pdf(x), 'b-') plot(x, n1.pdf(x), 'g-') plot(x, n2.pdf(x), 'r-') ...
  • 多元正态分布最大似然估计

    千次阅读 2020-09-15 12:48:15
    多元正态分布的概率密度函数 N维随机向量 ...多元正态分布最大似然估计 我们对均值求偏导 针对上面的矩阵求导,给出如下证明: 下面两个是常用的两个公式: 第一个公式证明,和上面的类似。 第个小编
  • 求概率模型的最大似然估计的一般步骤如下: 写出随机变量的概率分布函数; 写出似然函数; 对似然函数取对数,并进行化简整理; 对参数进行求导,找到似然函数的极值点; 解似然方程。 似然函数是一种关于统计模型...
  • 正态分布最大似然估计

    万次阅读 2017-06-24 09:41:16
    给定数据集D={x1, x2, ... , xn},假设都服从均值为mean(假设未知),方差为var的高斯分布(假设...最大似然估计(MLE): MLE过程: (1)假设真实高斯分布的均值为20,方差为18 (2)根据该概率分布抽取100个
  • matlab求最大似然估计

    2021-04-19 01:50:40
    Matlab函数:极大似然估计 function [para,standard_deviation,fv]=my_mle(fun,para0,varargin) %estimate ......Matlab统计工具箱给出了常用概率分布中参数 的点估计 (采用最大似然估计法) 与区间估计, 另 外还提供...
  • 极大似然估计求解多项式分布参数

    千次阅读 多人点赞 2018-05-07 22:16:46
    原因今天晚上,老师在看LDA数学八卦的时候,问我一个问题,如下图所示: 这个多项式分布的参数,采用极大估计是...2,每个状态假定的可能性为p1,p2,⋯,pkp_{1},p_{2},\cdots ,p_{k},且∑ki=1pi=1\sum _{i=1}
  • L1、L2 正则详解 (解空间、先验分布) 引入 直观看 解空间 先验分布 最大似然估计 最大后验估计
  • 一、什么叫先验分布、后验分布似然估计   这几个概念可以用“原因的可能性”和“结果的可能性”的“先后顺序”及“条件关系”来理解。下面举例:   隔壁老王要去10公里外的一个地方办事,他可以选择走路,骑...
  • 最大似然估计详解

    万次阅读 多人点赞 2017-05-18 15:07:12
      最大似然估计是建立在最大似然原理的基础之上。最大似然原理的直观理解是:设一个随机试验有若干个可能的结果A1,A2,…,An,在一次试验中,结果Ak出现,则一般认为实验对Ak的出现最有利,即Ak出现的概率较...
  • 泊松分布的“入"最大似然估计

    千次阅读 2018-12-16 12:07:00
    转载于:https://www.cnblogs.com/CreatorKou/p/10126125.html
  • 最大似然估计

    千次阅读 2021-02-28 18:31:17
    文章目录1 求解步骤2 例题 1 求解步骤 1.写出似然函数: 离散型: L(θ)=L(x1,x2,⋯ ,xn;... \theta_1, \theta_2, \cdots, \theta_m) = \prod_{i = 1}^n P (x_i; \theta_1, \theta_2, \cdots, \theta_m) L(θ)=L(x1​
  • 文章目录1、最大似然估计的一般理论2最大似然估计的性质3、最大似然估计推导逻辑回归的损失函数4、线性回归的损失函数5、小结 1、最大似然估计的一般理论 我们希望可以有些准则可以让我们从不同的模型中得到特定...
  • 为了在统计过程中发现更多有趣的结果,我们将解决极大似然估计没有简单分析表达式的情况。举例来说,如果我们混合了各种分布
  • 【高斯分布】01-极大似然估计

    千次阅读 2020-04-30 11:39:48
    高斯分布 输入数据:X=(x1,x2,...,xn)T=(x1Tx2T...xnT)X=(x_1,x_2,...,x_n)^T=\begin{pmatrix} x_1^T\\ x_2^T\\ ... \\ x_n^T\\ \end{pmatrix}X=(x1​,x2​,...,xn​)T=⎝⎜⎜⎛​x1T​x2T​...xnT​​⎠⎟⎟⎞​ xi...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 22,741
精华内容 9,096
关键字:

二项分布p最大似然估计