精华内容
下载资源
问答
  • 极大似然估计,误差的高斯分布与最小二乘估计的等价性极大似然估计的具体步骤似然函数假设样本观测值求解方程 极大似然估计的具体步骤 假设有随机变量X∼P(x;θ)X\sim P(x;\theta)X∼P(x;θ) 现有样本x1,x2,...xNx_1...

    极大似然估计,误差的高斯分布与最小二乘估计的等价性

    极大似然估计的具体步骤

    假设有随机变量XP(x;θ)X\sim P(x;\theta)
    现有样本x1,x2,...xNx_1, x_2, ...x_N

    我们需要做四步:表示似然函数、假设样本观测值、求解方程和代入数据。

    似然函数

    对于离散型和连续型随机变量,极大似然估计值θ^\hat \theta都满足:
    L(θ^)=maxL(θ) L(\hat \theta)=\max{L(\theta)}
    只不过似然函数L(θ)L(θ)的表示方式略有不同:
    离散型随机变量的似然函数是L(θ)=i=1NP(xi)L(\theta) = \prod_{i=1}^N P({x_i}),而连续型是L(θ)=i=1Nf(xi)L(\theta) = \prod_{i=1}^N f({x_i})

    本例中定义的似然函数:
    在这里插入图片描述
    为计算导数方便,将似然函数对数化:
    在这里插入图片描述
    现在我们要求的极大似然估计就是最大化函数LL

    假设样本观测值

    假设样本观测值为x1,x2,...xNx_1, x_2, ...x_N

    求解方程

    假设样本符合高斯分布:
    在这里插入图片描述
    写出似然函数并对数化:
    在这里插入图片描述
    求出μσ\mu和\sigma的最大估计值
    在这里插入图片描述

    展开全文
  • 例题:设总体X分布律为P{X=k}=p(1-p)k-1,k=1,2,……,其中p为未知参数,且X1,X2,……Xn为来自总体X简单随机样本,求参数p矩阵估计量和极大似然估计量。 1.写出极大似然估计函数: L(p)=P{X=X1}P{X=X2}……P{X...

    通俗理解:
    就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!(模型已定,参数未知)
    注意:
    极大似然估计中所有的采样都是独立的。

    最大似然估计求解步骤:
    在这里插入图片描述
    例题:
    设总体X的分布律为P{X=k}=p(1-p)k-1,k=1,2,……,其中p为未知参数,且X1,X2,……Xn为来自总体X的简单随机样本,求参数p的矩阵估计量和极大似然估计量。

    1.写出极大似然估计函数:
    L(p)=P{X=X1}P{X=X2}……P{X=Xn}(相乘,体现出了样本之间独立)=p(1-p)X1-1p(1-p)X2-1……p(1-p)Xn-1=pn(1-p)X1+X1+……+Xn-n

    2.取对数
    lnL(p)= nln(p)+(X1+X1+……+Xn-n)ln(1-p)

    3.求导
    dlnLpdp{dlnL(p)\over dp}
    =np{n\over p}+(X<sub>1</sub>+X<sub>1</sub>++X<sub>n</sub>n)1p{(X<sub>1</sub>+X<sub>1</sub>+……+X<sub>n</sub>-n)\over 1-p}(-1)=0
    n-np=p(X1+X1+……+Xn-n)

    求出p

    展开全文
  • 后验概率 后验概率是指在得到“结果”的信息后重新修正的概率。是“执果寻因”问题中的“果”,后验...极大似然估计是求估计的一种方法。 求解步骤: 写出似然函数 对似然函数取对数,并整理 求导数 解似然方程 ...

    后验概率

    后验概率是指在得到“结果”的信息后重新修正的概率。是“执果寻因”问题中的“果”,后验概率的计算要以先验概率为基础。

    例如,后验概率p(y=1x)p(y=1|x)的意思是:拿到xx后,y=1y=1的概率(xx分类为类别11的概率)

    极大似然估计

    极大似然估计是求估计的一种方法。
    求解步骤:

    • 写出似然函数
    • 对似然函数取对数,并整理
    • 求导数
    • 解似然方程
    展开全文
  • 最大似然估计及估计量无偏性

    千次阅读 2020-07-15 20:59:28
    极大似然估计1.1似然函数1.2极大似然的目的1.3极大似然求解步骤 1.极大似然估计   极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法,最大概似是...

    1 数理统计基本概念

    1.1 总体 XX

      在数理统计中,我们往往研究有关对象的某一项数量指标(例如,研究某种灯泡的寿命这一数量指标)。为此,考虑与这一数量指标相联系的随机试验,对这一数量指标进行实验或观察。我们将实验全部可能的观察值称为 总体,即所研究对象的全部个体(数据)的集合。这些数值不一定都不相同,数目上也不一定是有限的,每一个可能观察值称为 个体。总体中所包含的个体的数量称为总体的 容量。容量为有限的称为 有限总体,容量为无限的称为 无限总体
      例如,考察某大学,一年级男生的身。,若一年级男生人数为2000人,每个男生的身高是一个可能观察值,所形成的总体中共含2000个可能观察值,是一个有限总体。又例如考察一湖泊任意地点的深度(平面上有无数多的点),所得总体为无限总体。
      因为总体中的每一个个体都是随机实验的一个观察值,因此可以看作某一随机变量XX的值,这样,一个总体对应于一个随机变量XX。我们对一个总体的研究就是对一个随机变量XX的研究,XX的分布函数与数字特征就称为总体的分布函数和数字特征。笼统的称为总体XX
      例如,检验零件的好坏,以0代表正品,1代表次品。设出现次品的概率为pp(常数),那么总体就由一些"0"和"1"组成,这个总体对应(0-1)分布P{X=x}=px(1p)1x,  x=0,1P\{X=x\}=p^x(1-p)^{1-x},\ \ x=0,1的随机变量。

    1.2 简单随机样本

      在实际中,总体分布一般是未知的。在数理统计中,都是通过从总体中抽取一部分个体,根据获取的数据来对总体分布做出推断,被抽取的这部分个体叫做样本。样本 是按照一定的规则从总体中抽样出来的一部分个体,所谓 “按照一定的规则” 是指总体中的每一个个体均有同等被抽出的机会。即相同条件下,对总体XX进行相同的,独立的观察并记录结果。将NN次观察的结果按实验的次序记为x1,x2,,xNx_1,x_2,\cdots,x_N,无特别说明样本都指简单随机样本。也可以说NN个独立且与总体XX同分布的随机变量X1,X2,,XNX_1,X_2,\cdots,X_N,他们对应的观察值x1,x2,,xNx_1,x_2,\cdots,x_N称为样本值。将样本看成一个随机变量,写成(X1,X2,,XN)(X_1,X_2,\cdots,X_N),此时样本观察值写成(x1,x2,,xN)(x_1,x_2,\cdots,x_N)

    【注】样本的性质与维度问题:

    • 样本是独立同分布的,分布函数表示为F(x1,x2,,xN)=F(x1)F(x2)F(xN)=i=1NF(xi)F(x_1,x_2,\cdots,x_N )=F(x_1)F(x_2)\cdots F(x_N)=\prod_{i=1}^{N}F(x_i);概率密度为f(x1,x2,,xN)=f(x1)f(x2)f(xN)=i=1Nf(xi)f(x_1,x_2,\cdots,x_N )=f(x_1)f(x_2)\cdots f(x_N)=\prod_{i=1}^{N}f(x_i)
    • 根据研究对象的不同,样本(X1,X2,,XN)(X_1,X_2,\cdots,X_N)中的一个样本XiX_i可以为任意维度的随机变量。在具体的一次观测或实验中,得到一组对应相同维度的具体数值x1,x2,,xNx_1,x_2,\cdots,x_N,称为样本的观察值或样本值。例如,考察某学校男生身高,则每次观察只需要记录男生身高就行,此时样本为一维数据;再例如考察某地方的环境指标,每次观测会记录该地点的水文,气象等多个值,此时样本为多维数据。有时为便于区分,将样本的观察值记为(x1,x2,,xN)(x_1,x_2,\cdots,x_N),即可以理解为在抽样之前或理论研究时,(X1,X2,,XN)(X_1,X_2,\cdots,X_N)为随机变量;在抽样之后或实际应用时,(x1,x2,,xN)(x_1,x_2,\cdots,x_N)为观察值,本质上说的是一回事。

    1.3 统计量

      样本X1,X2,,XNX_1,X_2,\cdots,X_N,不含任何(与总体有关的)未知参数的函数g(X1,X2,,XN)g(X_1,X_2,\cdots,X_N)称为统计量。
    常见的统计量:
    X=1Ni=1NXi样本均值:\overline{X}=\frac{1}{N}\sum_{i=1}^{N}X_i S2=1N1i=1N(XiX)2=1N1i=1N(Xi2NX)样本方差:S^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i^2-N\overline{X})

    1.4 样本均值与总体均值、样本方差与总体方差

      样本为从总体中抽样出来的个体,一般都是可数的,所以求样本均值时,直接用所有样本观察值之和除以样本个数即可。求样本均值也就是求平均值(NN为样本个数),即:X=1Ni=1Nxi\overline{X}=\frac{1}{N}\sum_{i=1}^{N}x_i而总体的个数不一定是可数的,用上述的方式求总体的均值显然是不合适的。
      举个栗子,射击手进行打靶练习,规定射入区域 e2e_222 分,射入区域 e1e_111 分,射入区域 e0e_000 分,射击手一次射击得分数 XX 是一个随机变量。
    在这里插入图片描述

    XX 的分布率为P{X=k}=pk,  k=0,1,2P\{ X=k\}=p_k,\ \ k=0,1,2现在射击 NN 次,其中得 00 分的有 a0a_0 次,其中得 11 分的有 a1a_1 次,其中得 22 分的有 a2a_2 次,a0+a1+a2=Na_0+a_1+a_2=N。他射击NN次得分的总和为a00+a11+a22a_0*0+a_1*1+a_2*2。于是平均一次射击的得分为:a00+a11+a22N=k=02kakN\frac{a_0*0+a_1*1+a_2*2}{N}=\sum_{k=0}^{2}k\frac{a_k}{N}这里,akN\frac{a_k}{N}是事件{X=k}\{X=k\},当NN很大时,akN\frac{a_k}{N}在一定意义下接近于事件{X=k}\{X=k\}的概率pkp_k。就是说,在实验次数很大时,随机变量XX的观察值的平均数k=02kakN\sum_{k=0}^{2}k\frac{a_k}{N}接近于k=02kpk\sum_{k=0}^{2}kp_k,这一条就是大数定律的内容。我们称k=02kpk\sum_{k=0}^{2}kp_k为随机变量XX的数学期望。一般,有以下定义。

      定义   设离散随机变量XX的分布律为P{X=xk}=pk,  k=1,2,.P\{X=x_k\}=p_k,\ \ k=1,2,\cdots.若级数k=1xkpk\sum_{k=1}^{\infty}x_kp_k绝对收敛,则称级数k=1xkpk\sum_{k=1}^{\infty}x_kp_k的和为随机变量XX数学期望,记为E(X)E(X)。即E(X)=k=1xkpkE(X)=\sum_{k=1}^{\infty}x_kp_k  设连续型随机变量XX的概率密度为f(x)f(x),若积分f(x)dx\int_{-\infty}^{\infty}f(x)dx绝对收敛,则称积分f(x)dx\int_{-\infty}^{\infty}f(x)dx的值为随机变量XX的数学期望,记为E(X)E(X)。即E(X)=f(x)dxE(X)=\int_{-\infty}^{\infty}f(x)dx  数学期望简称期望,又称均值
      数学期望E(X)E(X)完全由随机变量XX的概率分布所决定。若XX服从某一分布,也称E(X)E(X)是这一分布的数学期望。

    样本均值与总体均值差异:
    在这里插入图片描述
    (1)样本均值的计算依据是样本个数,总体均值的计算依据是总体的个数。一般情况下样本个数小于等于总体个数。
    (2)样本均值代表着所抽取的样本的集中趋势,而总体均值代表着全体个体的集中趋势。样本来自总体,但是样本只是总体的一部分,一般有差异。
    (3)选取样本的个数非常接近以至于等于总体的个数,那么样本均值与总体均值描述的就是一个对象了,这样二者自然就相等了,这一条就是大数定律的内容。

      下面是方差,方差是用来计算变量与均值之间的差异。如果这个均值采用的是总体均值μ\mu(数学期望),则结果为总体方差 σ2=1Ni=1N(Xiμ)2\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2;但是,如果这个均值采用的是样本均值X\overline{X},样本方差S2=1Ni=1N(XiX)2S^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2,样本方差定义成这样是有偏差的,这不是真正的样本方差。为了纠正这个偏量,将 样本方差 定义为:S2=1N1i=1N(XiX)2S^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2,具体为什么样本方差除以N1N-1而不是NN,下面最大似然求高斯分布估计量的时候会说明。在这里也可以看出,是跟均值有关系,由于样本均值与总体均值的不一致导致的偏差。

    2 最大似然估计

      极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法,最大概似是1821年首先由德国数学家高斯(C. F. Gauss)提出。

    2.1 分布率与概率密度函数

      概率分布,是指用于表述随机变量取值的概率规律,即随机变量的可能取值及取得对应值的概率。对于离散性的随机变量的分布率记为 p(x)p(x);连续型随机变量的概率密度函数记为 f(x)f(x),本质上是一个东西,只是一个是离散的一个是连续的。以含有参数 θ\theta 的分布率为例,形式上表示为:p(x;θ)=p(x,θ)=p(xθ)p(x;\theta)=p(x,\theta)=p(x|\theta),在机器学习中,这些表示都是一个意思,都表示在含有参数 θ\theta 的情况下,xx 的概率。

    2.2 似然函数

      样本 X1,X2,,XNX_1,X_2,\dots,X_N 取到观察值 x1,x2,,xNx_1,x_2,\dots,x_N 的概率 L(θ)L(\theta),称为似然函数。

    • 若总体 XX 为离散型,且分布律 P(X=x)=p(x;θ)P(X=x)=p(x;\theta),则似然函数 L(θ)=P(X1=x1,X2=x2,,XN=xN,)=i=1Np(Xi=xi)=i=1Np(xi;θ)L(\theta)=P(X_1=x_1,X_2=x_2,\dots, X_N=x_N,)=\prod_{i=1}^{N}p(X_i=x_i)=\prod_{i=1}^{N}p(x_i;\theta)
    • 若总体 XX 为连续型,且概率密度函数为 f(x)=f(x;θ)f(x)=f(x;\theta),由于P(x=xi)=0P(x=x_i)=0,则考虑 XX 落在点 xix_i 的某一领域 U(xi)U(x_i) 内的概率,P(X1U(x1)X2U(x12)XNU(xN))=f(x1;θ)dx1 f(x2;θ)dx2 f(xN;θ)dxN=i=1Nf(xi;θ)P(X_1 \in U(x_1),X_2 \in U(x_12),\dots,X_N \in U(x_N))=f(x_1;\theta)dx_1 \ f(x_2;\theta)dx_2 \ \dots f(x_N;\theta)dx_N=\prod_{i=1}^{N}f(x_i;\theta),取似然函数 L(θ)=i=1Nf(xi;θ)L(\theta)=\prod_{i=1}^{N}f(x_i;\theta)

    2.3 最大似然的目的

      在位置参数 θ\theta 的取值范围内求 θ^\hat{\theta},使L(θ^)=maxL(θ)L(\hat{\theta})=maxL(\theta),即 θ\theta 的最大似然估计 θ^\hat{\theta} 为似然估计 L(θ)L(\theta) 的最大值点。

    2.4 最大似然求解步骤

    第一步:写出似然函数 L(θ)L(\theta),并取对数 loglog,对数可以以 22 为底也可以以 ee为 底;
    第二步:令 dlogL(θ)dθ=0\frac{dlogL(\theta)}{d\theta}=0logL(θ1,θ2)θi=0(i=1,2)\frac{\partial logL(\theta_1,\theta_2)}{\partial \theta_i}=0(i=1,2),建立方程(组)。若从中解的唯一驻点 θ^=θ^(X1,X2,,XN)\hat{\theta}=\hat{\theta}(X_1,X_2,\dots,X_N)θ^=(θ^1,θ^2)=(θ^1(X1,X2,,XN),θ^2(X1,X2,,XN))\hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2)=(\hat{\theta}_1(X_1,X_2,\dots,X_N),\hat{\theta}_2(X_1,X_2,\dots,X_N)),则 θ^\hat{\theta}θ\theta 的最大似然估计;
    第三步:若上述方程无解,则L(θ)L(\theta)θ\thetaθ1,θ2\theta_1,\theta_2 的单调函数,θ^\hat{\theta} 在端点或边界上取得,需要根据具体情况具体分析。

    2.5 最大似然估计的不变性

      设 θ^\hat{\theta} 是未知参数 θ\theta 的最大似然估计量,对于 θ\theta 的函数 g(θ)g(\theta),如果 g(θ)g(\theta) 具有单值反函数,则 g(θ^)g(\hat{\theta})g(θ)g(\theta) 的最大似然估计量。例如,均值位置的正太总体 N(μ,σ2)N(\mu,\sigma^2) 的方差 σ2\sigma^2 的最大似然估计量为 σ^2=1Ni=1N(XiX)2\hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2,则总体标准差 σ\sigma 的最大似然估计为 σ=1Ni=1N(XiX)2\sigma=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2}

    2.6 最大似然估计量的评选标准

    2.6.1 无偏性

      设 θ^\hat{\theta}θ\theta 的估计量,若E(θ^)=θE(\hat{\theta})=\theta,就称θ^\hat{\theta}θ\theta的无偏估计,否则称为有偏估计。若limNE(θ^)=θ\mathop{\lim}_{N \to \infty }E(\hat{\theta})=\theta,就称θ^\hat{\theta}θ\theta的渐近无偏估计。
      常用结论

    • X\overline{X}E(X)=μE(X)=\mu的无偏估计,即E(X)=E(X)=μE(\overline{X})=E(X)=\mu
    • S2S^2D(X)=σ2D(X)=\sigma^2的无偏估计,即E(S2)=D(X)=σ2E(S^2)=D(X)=\sigma^2
    • 设估计量θ^1,θ^2,,θ^N,\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_N,均为θ\theta的无偏估计量,c1,c2,,cNc_1,c_2,\cdots,c_N为常数,且i=1Nci=1\sum_{i=1}^{N}c_i=1,则c1θ^1,c2θ^2,,cNθ^Nc_1\hat{\theta}_1,c_2\hat{\theta}_2,\cdots,c_N\hat{\theta}_N仍为θ\theta的无偏估计。

    【注】若θ^\hat{\theta}θ\theta的无偏估计,则g(θ^)g(\hat{\theta})未必是g(θ)g(\theta)的无偏估计。

    2.6.2 有效性

      设θ^1,θ^2\hat{\theta}_1,\hat{\theta}_2均为θ\theta的无偏估计,若D(θ^1)<D(θ^2)D(\hat{\theta}_1)<D(\hat{\theta}_2),就称θ^1\hat{\theta}_1θ^2\hat{\theta}_2更有效。总之,期望相同比方差。

    2.6.3 一致性(相合性)

      若对ε>0\forall\varepsilon>0,有limNP{θ^θ<ε}=1\mathop{\lim}_{N \to \infty }P\left\{|\hat{\theta}-\theta|<\varepsilon \right \}=1,就称θ^\hat{\theta}θ\theta的一致估计量或相合估计量。

    3 一维高斯分布

    3.1 一维高斯分布概率密度函数

    一维高斯分布(正态分布)函数:f(x μ,σ)=12πσe(xμ)22σ2f(x| \ \mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} 或者这种写法 f(x μ,σ)=12πσexp{(xμ)22σ2}f(x | \ \mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}
    高斯分布图像,以 μ=4,σ=1\mu=4,\sigma=1 为例:在这里插入图片描述

    3.1 一维高斯分布最大似然估计以及检测估计量的无偏性

    题目 :设总体XN(μ,σ2), (X1,X2,,XN)X\sim N(\mu,\sigma^2), \ (X_1,X_2,\cdots,X_N)为来自总体XX的样本。
    (1)如果σ2\sigma^2已知,μ\mu未知,求μ\mu的最大似然估计量μ^\hat{\mu}
    (2)如果μ\mu已知,σ2\sigma^2未知,求σ2\sigma^2的最大似然估计量σ^2\hat{\sigma}^2
    (3)如果μ\muσ2\sigma^2均未知,求μ\muσ2\sigma^2的最f大似然估计量μ^\hat{\mu}σ^2\hat{\sigma}^2

    分析
    样本数据 Data:Data: X=(x1,x2,,xN)=(x1px2pxNp)N×p,   xiRp,   xiiidN(μ,σ2)X = \begin{pmatrix} x_1,x_2,\cdots,x_N \end{pmatrix} =\begin{pmatrix} x_1^p \\x_2^p \\ \vdots \\ x_N^p \end{pmatrix}_{N\times p}, \ \ \ x_i \in \mathbb{R}^p, \ \ \ x_i \overset{iid}{\sim}N(\mu,\sigma^2) 目标函数Goal:Goal: 求最大似然估计。为了方便表示函数,用参数 θ\theta 表示参数 (μ,σ)(\mu,\sigma) MLE:θ^=arg maxθ lnL(X μ,σ)MLE:\hat{\theta}=arg \ \underset{\theta}{max} \ lnL(X| \ \mu,\sigma) 【注】因为高斯分布的概率密度中有以 ee 为底的指数函数,为了方便计算。所以这里的对数似然函数选取以 ee 为底的 lnln


    (1)设x1,x2,,xNx_1,x_2,\cdots,x_N为样本的观测值,由于σ2\sigma^2已知,μ\mu未知,似然函数为:L(Xμ)=i=1Np(xiμ)=i=1N12πσexp{(xiμ)22σ2}\begin{aligned} L(X|\mu) &= \prod_{i=1}^{N}p(x_i|\mu) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2} \right\} \end{aligned} 似然函数取对数: lnL(Xμ)=lni=1Np(xiμ)=lni=1N12πσexp{(xiμ)22σ2}=N2ln(2π)Nlnσ12σ2i=1N(xiμ)2\begin{aligned} lnL(X|\mu) &= ln\prod_{i=1}^{N}p(x_i|\mu) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} 对数似然取导数:dlnL(Xμ)dμ=i=1N1σ2(xiμ)=0 \frac{dlnL(X|\mu)}{d\mu}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 i=1N(xiμ)=0\sum_{i=1}^{N}(x_i-\mu)=0 i=1NxiNμ=0\sum_{i=1}^{N}x_i-N\mu=0 μ^=1Ni=1NXi=X()\hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}X_i=\overline{X}(发现结果为样本均值) 从结果中可以看出,μ\mu的最大似然估计量,只受样本值的影响。从定义的角度证明:E[μ^]=E[1Ni=1NXi]=1Ni=1NE[Xi]=1NNμ=μE[\hat{\mu}]=E[\frac{1}{N}\sum_{i=1}^{N}X_i]=\frac{1}{N}\sum_{i=1}^{N}E[X_i]=\frac{1}{N}N\mu=\mu即,μ^\hat{\mu}μ\mu的无偏估计量。

    (2)设x1,x2,,xNx_1,x_2,\cdots,x_N为样本的观测值,由于μ\mu已知,σ2\sigma^2未知,似然函数为:L(Xσ2)=i=1Np(xiσ2)=i=1N12πσexp{(xiμ)22σ2}\begin{aligned} L(X|\sigma^2) &= \prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\}\end{aligned} 似然函数取对数: lnL(Xσ2)=lni=1Np(xiσ2)=lni=1N12πσexp{(xiμ)22σ2}=N2ln(2π)N2ln(σ2)12σ2i=1N(xiμ)2\begin{aligned} lnL(X|\sigma^2) &= ln\prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-\frac{N}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} 对数似然取导数:dlnL(Xσ2)dσ2=i=1N1σ2(xiμ)=0 \frac{dlnL(X|\sigma^2)}{d\sigma^2}= \sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 N2σ2+12σ4i=1N(xiμ)2=0 -\frac{N}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^{N}(x_i-\mu)^2 =0 σ^2=1Ni=1N(Xiμ)2\hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2 从结果中可以看出,σ^2\hat{\sigma}^2受到样本值以及均值μ\mu的影响,但是题目中已经说明,μ\mu是已知条件,所以这里的μ\mu就是已知的总体均值,所以本质上σ^2\hat{\sigma}^2也仅受样本值的影响。从定义的角度证明: E[σ^2]=E[1Ni=1N(Xiμ)2]=E[1Ni=1NXi21Ni=1N2Xiμ+1Ni=1Nμ2]=E[1Ni=1NXi22μ2+μ2]=E[(1Ni=1NXi2μ2)]=1Ni=1N(E(Xi2)E2(Xi))=D(Xi)=σ2\begin{aligned} E[\hat{\sigma}^2] &=E[\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-\frac{1}{N}\sum_{i=1}^{N}2X_i\mu+\frac{1}{N}\sum_{i=1}^{N}\mu^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-2\mu^2+\mu^2]\\&=E[(\frac{1}{N}\sum_{i=1}^{N}X_i^2-\mu^2)]\\&=\frac{1}{N}\sum_{i=1}^{N}(E(X_i^2)-E^2(X_i))\\&= D(X_i)\\&=\sigma^2\\ \end{aligned}σ^2\hat{\sigma}^2σ2\sigma^2的无偏估计。

    (3)设x1,x2,,xNx_1,x_2,\cdots,x_N为样本的观值,μ\muσ2\sigma^2均未知,似然函数为:L(Xμ,σ2)=i=1Np(xiμ,σ2)=i=1N12πσexp{(xiμ)22σ2}\begin{aligned} L(X|\mu,\sigma^2) &= \prod_{i=1}^{N}p(x_i| \mu,\sigma^2) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\}\end{aligned} 似然函数取对数:lnL(Xμ,σ2)=lni=1Np(xiσ2)=lni=1N12πσexp{(xiμ)22σ2}=N2ln(2π)N2ln(σ2)12σ2i=1N(xiμ)2\begin{aligned} lnL(X|\mu,\sigma^2) &= ln\prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-\frac{N}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} 分别对μ\muσ2\sigma^2取偏导:lnL(Xμ,σ2)μ=i=1N1σ2(xiμ)=0\frac{\partial lnL(X|\mu,\sigma^2)}{\partial \mu}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 i=1N(xiμ)=0\sum_{i=1}^{N}(x_i-\mu)=0 μ^=1Ni=1NXi=X\hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}X_i=\overline{X} lnL(Xμ,σ2)σ2=N2σ2+12σ4i=1N(xiμ)2=0\frac{\partial lnL(X|\mu,\sigma^2)}{\partial \sigma^2}=-\frac{N}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^{N}(x_i-\mu)^2 =0 N+1σ2i=1N(xiμ)2=0 -N+\frac{1}{\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 =0 σ^2=1Ni=1N(Xiμ^)2=1Ni=1N(XiX)2\hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\hat{\mu})^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2
    在下面的无偏性检验中,可以发现μ^\hat{\mu}为无偏性估计,而σ^2\hat{\sigma}^2为有偏性估计。因为求高斯分布时,参数μ,σ2\mu,\sigma^2都是未知的,而求μ^\hat{\mu}时,不需要依赖未知参数σ2\sigma^2(计算时被约去了);而计算σ^2\hat{\sigma}^2时,需要依赖μ\mu,但是μ\mu也未知,所以只能用已计算出来的μ^\hat{\mu}代替,而不是真正的总体均值μ\mu,这就是有偏的原因。根据定义证明:
    (a)检测估计量μ^\hat{\mu}的无偏性E[μ^]=E[X]=E[1Ni=1NXi]=1Ni=1NE[Xi]=1NNμ=μE[\hat{\mu}]=E[\overline{X}]=E[\frac{1}{N}\sum_{i=1}^{N}X_i]=\frac{1}{N}\sum_{i=1}^{N}E[X_i]=\frac{1}{N}N\mu=\muμ^\hat{\mu}μ\mu的无偏估计。
    (b)检测估计量σ2^\hat{\sigma^2}的无偏估计,且需要明确一些条件: μ^D(μ^)=D(X)=D(1Ni=1NXi)=1N2i=1ND(Xi)=1N2Nσ2=σ2N估计量\hat{\mu}的方差: D(\hat{\mu})=D(\overline{X})=D(\frac{1}{N}\sum_{i=1}^{N}X_i)=\frac{1}{N^2}\sum_{i=1}^{N}D(X_i)=\frac{1}{N^2}N\sigma^2=\frac{\sigma^2}{N} D(Xi)=σ2=1Ni=1N(Xiμ)2总体方差:D(X_i)=\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2 E[σ^2]=E[1Ni=1N(XiX)2]=E[1Ni=1NXi21Ni=1N2XiX+1Ni=1NX2]=E[1Ni=1NXi22X2+X2]=E[(1Ni=1NXi2μ2)(X2μ2)]=E[1Ni=1N(Xi2μ2)]E(X2μ2)=1Ni=1N(E(Xi2)E2(Xi))(E(X2)E2(X))=D(Xi)D(X)=σ2σ2N=N1Nσ2\begin{aligned} E[\hat{\sigma}^2] &=E[\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-\frac{1}{N}\sum_{i=1}^{N}2X_i\overline{X}+\frac{1}{N}\sum_{i=1}^{N}\overline{X}^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-2\overline{X}^2+\overline{X}^2]\\&=E[(\frac{1}{N}\sum_{i=1}^{N}X_i^2-\mu^2)-(\overline{X}^2-\mu^2)]\\&=E[\frac{1}{N}\sum_{i=1}^{N}(X_i^2-\mu^2)] -E(\overline{X}^2-\mu^2)\\&=\frac{1}{N}\sum_{i=1}^{N}(E(X_i^2)-E^2(X_i))-(E(\overline{X}^2)-E^2(\overline{X}))\\&= D(X_i)-D(\overline{X}) \\&=\sigma^2-\frac{\sigma^2}{N}\\&=\frac{N-1}{N}\sigma^2 \end{aligned} 显然,所求结果E(σ^2)E(\hat{\sigma}^2)不等于σ2\sigma^2σ^2\hat{\sigma}^2为有偏估计,既然有偏就需要纠偏,样本的方差该如何表示呢?根据结果,看出偏移的部分是系数N1N\frac{N-1}{N},那就在原方程的基础上乘以系数的倒数NN1\frac{N}{N-1},将系数部分抵消掉,这样结果就只剩σ2\sigma^2了,就是无偏估计了。则无偏的样本方差S2S^2定义为:S2=NN11Ni=1N(XiX)2=1N1i=1N(XiX)2=1N1i=1N(Xi2NX)S^2=\frac{N}{N-1}\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i^2-N\overline{X})

    参考浙大版概率论与数理统计

    展开全文
  • 手推了一把用极大似然估计算后验概率最大化记录一下。 1.二项分布、多项分布和联合概率分布数学表达形式 2.求解步骤 2.1带约束极值问题,引入拉格朗日乘子 2.2求极值,其实就是求偏导 2.3后验证概率最大...
  • 目录一、极大似然原理理解二、样本似然函数三、求解步骤 一、极大似然原理理解       通俗理解,极大似然原理含义就是,世界上之所以会发生某些事件,是因为它发生概率大。...
  • 什么是EM算法1.1 似然函数1.3 极大似然函数的求解步骤1.4 EM算法2. 采用 EM 算法求解的模型有哪些?3.代码实现4. 参考文献 1. 什么是EM算法 最大期望算法(Expectation-maximization algorithm,又译为期望最大化...
  • EM 算法 理论

    千次阅读 2016-03-10 16:43:04
    EM算法的基本思想 极大似然估计–示例 ...极大似然估计求解 EM算法 EM算法步骤 EM算法推导 EM算法的高斯混合模型应用 高斯混合模型参数估计的EM算法 E步 M步 两个模型均值估计结果
  • 对目前参数估计的方法进行了总结与对比.针对不完整数据参数估计时的情况,...并以两种工程中常用的拟合函数正态分布和威布尔分布为例,列出了数值解析法的具体求解步骤,通过与极大似然法的比较,验证了本文方法的可行性.
  • 深入理解logistic回归

    2018-03-21 18:55:29
    本文目录如下: ...1.5.1 极大似然估计的特点 1.5.2 求解极大似然函数的步骤: 1.5.3 极大似然估计求解实例: 1.6 代价函数和损失函数 1.7 几率和对数几率 1.8 梯度下降 1.9 逻辑回顾的优缺点 ...
  • 基于极大似然估计法的基本原理,结合优化理论,建立了可靠性寿命分布参数的极大似然优化估计模型.采用克隆选择算法实现模型的求解,给出了克隆选择算法在模型求解中的关键步骤和约束处理方法.通过实例给出了应用克隆...
  • EM算法详解

    千次阅读 2018-08-20 22:51:57
    "微信公众号"   目录 1. 摘要 2. EM算法简介 3. 预备知识 ...3.1 极大似然估计 (1)问题描述 (2)用数学知识解决现实问题 (3)最大似然函数估计值的求解步骤 3.2 Jensen不等式...
  • 斯坦福大学机器学习——EM算法求解高斯混合模型

    万次阅读 多人点赞 2014-11-17 16:57:14
    EM算法(Expection-Maximizationalgorithm,EM)是一种迭代算法,通过E步和M步两大迭代步骤,每次迭代都使极大似然函数增加。但是,由于初始值不同,可能会使似然函数陷入局部最优。辜丽川老师和其夫人发表论文...
  • 2.1 极大似然估计 2.1.1 问题描述 2.2 用数学知识解决现实问题 2.3 最大似然函数估计值的求解步骤 3 算法实例 3.1 一个超简单的案列 3.2 加入隐变量Z后的求解 3.2.1 EM初级版 3.2.2 EM进阶版 1.什么是EM呢...
  • 1. 题目描述 数据集{X, Y} 猜测 y和x之间存在函数关系 y=ae(wx)+Ey = a e^{(wx)} + Ey=ae(wx)+E, EEE ~ N(0,σ)N (0, σ)N(0,σ) 请设计一个算法拟合出 a,wa,wa,...最大似然估计的一般求解步骤: λ|w+ lna|^2 MSE = 1
  • 最大期望算法(EM)

    2020-03-21 17:11:04
    最大期望算法是一种迭代算法,用于含有隐变量概率参数模型最大似然估计极大后验概率估计。 最大期望算法实现步骤: 初始化分布参数; 计算期望(E步,求Q函数):利用当前估计得参数值计算隐变量后验概率...
  • 逻辑回归: 使用线性模型加了逻辑函数去做...极大似然估计: 似然函数的求解步骤: 1.概率连乘 2.取对数 3.偏导为0,求出最大值 1.离散型模型 L(θ)=∏i=1nPθ(Xi=xi)L(\theta)=\prod_{i=1}^{n}P_{\theta}(X_i=x_i)
  • 极大似然估计1)创建模型2)用数学知识解决现实问题3)最大似然函数估计值的求解步骤2.Jensen不等式三、EM算法详解 EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域...
  • 机器学习算法-线性回归线性回归(预测模型)主要符号什么是回归算法计算方法损失函数,代价函数,目标函数线性回归算法的步骤求解方法方法一:极大似然估计解释最小二乘法极大似然估计最小二乘法若$X^TX$不可逆方法...
  • 逻辑回归是一个假设样本服从伯努利分布,利用极大似然估计和梯度下降求解的二分类模型,在分类、CTR预估领域有着广泛应用。 公式推导 逻辑回归是用来解决分类问题用,与线性回归不同是,逻辑回归输出不是...
  • 1.矩估计极大似然的求解步骤+无偏性和有效性+置信区间的求解步骤(做题套路) https://www.bilibili.com/read/cv3927852 2.正态总体的七种置信区间估计(对应正态总体单双样本的7个抽样定理) ...
  • 机器学习-EM算法

    2018-12-21 16:50:46
    EM算法是用来求解带隐藏因子概率模型的极大似然估计,通过杰森不等式将包含求和对数似然函数转化为乘积形式,从而得到一个简便表达式。如果不采用EM算法,则此类问题只能采用梯度上升法等迭代法求解,比较麻烦 ...
  • 极大似然估计 EM算法 问题描述 EM算法基本步骤 EM算法推导 高斯混合模型 高斯分布 EM算法求解GMM的步骤 EM算法与高斯混合模型 EM算法(The Expectation-Maximization Algorithm)可以解决HMM参数估计...
  • 1.E步骤:根据隐含数据假设值,给出当前参数的极大似然估计; 2.M步骤:重新给出未知变量期望估计,应用于缺失值。 本节主要介绍 Apollo 中 EM planner 。在前面课程中,我们提到优化问题三个方面:目标...
  • (1)E步骤:根据隐含数据的假设值,给出当前的参数的极大似然估计; (2)M步骤:重新给出未知变量的期望估计,应用于缺失值。 约束问题的核心有三点:第一是目标函数的定义,目标函数比较清晰,对于后面的求解更有...
  • 计量经济学-第一章

    2020-10-15 21:58:43
    参数求解:对模型设定参数进行估计(β\betaβ),常用方法简单最小二乘估计,极大似然估计 模型检验:主要包括四个方面 1.经济意义检验:建立模型要符合经济现象,例如边际消费倾向位于0—1之间 2.统计推断...
  • EM算法

    2021-03-04 14:54:48
    第2步(M步):因变量确定之后,问题转化为极大似然估计问题,最大化完全数据期望,即更新模型参数。 使用到关键工具:Jensen不等式 假定函数f(x)是下凹函数,,则有: 否则f(x)是上凸函数,则有: ...
  • EM算法(Expection-Maximizationalgorithm,EM)是一种迭代算法,通过E步和M步两大迭代步骤,每次迭代都使极大似然函数增加。但是,由于初始值不同,可能会使似然函数陷入局部最优。辜丽川老师和其夫人发表论文...

空空如也

空空如也

1 2
收藏数 35
精华内容 14
关键字:

极大似然估计的求解步骤