精华内容
下载资源
问答
  • 虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当总结。...参数估计的方法有多种,各种估计方法得出的结果不一定...

     

    虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当总结。主要参考《概率论与数理统计》(陈希孺)。

    参数估计就是根据样本推断总体的均值或者方差、或者总体分布的其他参数。可以分两种,一种是点估计(估计一个参数的值),另一种是区间估计(估计一个参数的区间)。参数估计的方法有多种,各种估计方法得出的结果不一定相同,很难简单的说一个必定优于另一个。

    点估计

    点估计主要有三种方法:矩估计、最大似然估计、贝叶斯估计。

    矩估计

    定义kk 阶样本原点矩为 $$a_k=\frac{1}{n}\sumn_{i=1}X_ik$$若k=1k=1则原点矩显然就是样本均值 X¯X¯;再定义kk 阶样本中心矩

     

    mk=1n∑i=1n(Xi−X¯)k.mk=1n∑i=1n(Xi−X¯)k.

     

    另一方面,总体分布设为

    f(x;θ1,θ2,...,θk)f(x;θ1,θ2,...,θk)


    则有mm阶原点矩

    αm=∫xmf(x;θ1,θ2,...,θk)dx.αm=∫xmf(x;θ1,θ2,...,θk)dx.


    矩估计的思想就是:令样本kk 阶矩等于总体kk 阶矩,得到一组方程,由此反解出{θi}{θi}.
    一般原则是要求解nn个参数,就选nn个最低阶的矩,令它们相等并反解。

    例题:设X1,...,XnX1,...,Xn为区间 [θ1,θ2][θ1,θ2] 上均匀分布总体中抽出的nn个样本,估计出θ1,θ2θ1,θ2.
    计算出样本中心矩m1=∑iXi/nm1=∑iXi/n和m2=∑iX2i/nm2=∑iXi2/n.再计算出总体中心矩分别为θ1+θ22θ1+θ22 和 (θ1+θ2)212(θ1+θ2)212,令它们对应相等,解出来两个 θθ 即可。

    极大似然估计

    符号同前,样本(X1,...,Xn)(X1,...,Xn)的联合概率密度(PDF)为

    f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...,θk).f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...,θk).


    现在反过来,固定样本{Xi}{Xi}而把上面PDF看作关于{θi}{θi}的“密度函数”,加引号是因为实际上{θi}{θi}是固定参数而非随机变量,这里可以叫做似然函数(likehood, 而非probability)。既然似然函数的{Xi}{Xi}固定,那么可以认为最可能的{θi}{θi}取值必然是使得似然函数最大的那组取值。也就是说{θi}{θi}的估计值是使得下面表达式最大的那个值

    L(X−1,⋯,Xn;θ1,⋯,θk)=∏i=1nf(Xi;θ1,⋯,θk)L(X−1,⋯,Xn;θ1,⋯,θk)=∏i=1nf(Xi;θ1,⋯,θk)

    上式为累乘,取对数变为求和累加,称为对数似然函数(因为对数函数也同一点取得最大值)

    lnL=∑i=1nlnf(Xi;θ1,⋯,θk)lnL=∑i=1nlnf(Xi;θ1,⋯,θk)

    如果函数性质足够好,用上式分别对{θi}{θi}求导令其为零,求得驻点再验证极值点和最值点。

    例题:设X1,⋯,XnX1,⋯,Xn为从[0,θ][0,θ]均匀分布总体中抽取的样本,估计参数θθ.
    直接看出来单个样本密度函数为θ−1θ−1,所以似然函数为

    L={θ−n0<Xi<θ,i=1,⋯,n\0otherL={θ−n0<Xi<θ,i=1,⋯,n\0other

    函数性质不够好,需要直接求最大值:在函数非零区间内,θθ越小函数值越大,而θθ最小值为max{Xi}max{Xi},这就是估计值。
    所以直观看来,极大似然估计给出了一个比较奇怪的估计值:它认为样本的最大值就是总体的上界

    贝叶斯估计

    贝叶斯估计参数时,最好需要对参数的分布状况有一个先验的了解,以单参数θθ为例,假设根据经验,其先验分布为h(θ)h(θ).这里虽然θθ的确是一个确定的参数,谈不上概率分布,但是在贝叶斯估计这套理论中,必须根据经验或者历史给出这么一个"先验分布"。h(θ)h(θ)必须非负,但不要求归一,不归一时称为"广义先验密度"。
    参数为θθ且样本为{Xi}{Xi}的概率为(PDF)

     

    h(\theta)\prod_{i=1}^nf(X_i,\theta)$$这样,它关于$\{X_i\}$的边缘密度为
    $$p(X_1,\cdots,X_n)=\int h(\theta)\prod_{i=1}^nf(X_i,\theta){\rm d}\theta$$由此得到在$\{X_i\}$给定条件下,$\theta$的条件概率密度为
    $$h(\theta|X_1,\cdots,X_n)=h(\theta)\prod_{i=1}^nf(X_i,\theta)/p(X_1,\cdots,X_n)$$上式给出来了在抽到样本$\{X_i\}$情况下的参数$\theta$的概率密度,称为“后验密度”,**形式上看就是一个带有连续参数的贝叶斯公式**。获得上面条件概率表达式以后,$\theta$的估计值如何求,有多种方式,比如,求这个分布的均值作为$\theta$的估计值。

    > 例题:做$n$次独立重复试验,每次观察事件$A$是否发生,$A$在每次试验中发生的概率为$p$,用试验结果估计$p$.
    > 设先验密度为$h(p)$,设$A$发生记为$X_i=1$,否则记为$X_i=0$. 对于样本$X_i$,$P(X_i=1)=p$而$P(X_i=0)=1-p$,所以事件$(X_1,\cdots,X_n)$概率密度为$$p^S(1-p)^{n-S}$$其中$S=\sum_iX_i$,所以后验密度为$$h(p|X_1,\cdots,X_n)=\frac{h(p)p^S(1-p)^{n-S}}{\int_0^1h(p)p^S(1-p)^{n-S}{\rm d}p}$$不妨取上式均值$\hat{p}$为$p$的估计值。如果取$h(p)$为均匀分布,则经过化简计算可得$\hat{p}=(S+1)/(n+2)$.
    > 用期望(一阶原点矩)去估计的结果是$S/n$,在$n$很大时,两者相同;在$n$很小,比如$n=1,S=1$时,期望估计给出$\hat{p}=1$,而贝叶斯估计给出$\hat{p}=2/3$.

    ###点估计的准则
     前面提到的参数的点估计方法有三种,在确定的情况下,应该选择哪种估计更恰当,这就是估计优良性准则的问题。
    ####无偏性
    字面意思就是一个估计没有偏差。
    > 定义:假设某总体的分布包含位置参数$\theta_1,\cdots,\theta_k$,而$X_1,\cdots,X_n$为抽取出的样本,要估计的统计量设为$g(\theta_1,\cdots,\theta_k)$,$g(\cdot)$为一已知函数,设$\hat{g}(X_1,\cdots,X_n)$为一个估计量,如果对于任何的$\theta_1,\cdots,\theta_k$取值,都有
    $$E_{\theta_1,\cdots,\theta_k}[\hat{g}(X_1,\cdots,X_n)]=g(\theta_1,\cdots,\theta_k)$$则称$\hat{g}(\cdot)$为$g$的一个无偏估计量。

    上式$E(\cdot)$求期望算符有下标,表示在系统参量分别为某$\theta_1,\cdots,\theta_k$时,抽取样本$\{X_i\}$,计算$\hat{g}$,再对不同抽取的样本进行求期望操作(**固定**$\theta$,**对样本求期望**)。**上面定义并未对样本容量**$n$**提出要求。**
    注意,$E(\cdot)$**括号里面本质上是一个随机变量**,所以这才能求期望。

    > 例题:可以证明,样本均值$\bar{X}$是总体均值$\mu$的无偏估计,样本方差$s^2=\frac{1}{n-1}\sum_i(X_i-\bar{X})^2$是总体方差$\sigma^2$的无偏估计;但是样本中心二阶矩$\frac{1}{n}\sum_i(X_i-\bar{X})^2$并非总体方差的无偏估计,而且样本标准差$s$并非总体标准差的无偏估计。

    在前面的极大似然估计那里的例题,给出的$\theta$的估计值是抽取到的样本的最大值,可以证明它并非无偏估计。
    >例题:如何把上面的$\hat{\theta}$修正为无偏估计。
    >先计算出$E_{\theta}(\hat{\theta})$.前面说过$E(\cdot)$里面的$\hat{\theta}$本质上是一个随机变量,为求其期望,需要求出它的密度分布函数PDF,为此可以先求出它的累积分布函数CDF。下式为$\hat{\theta}$的CDF$$G_{\theta}(x)=\begin{cases}0&x\leqslant0\\\displaystyle\left( \frac{x}{\theta}\right)^n&0< x<\theta\\1&x\geqslant\theta\end{cases}$$对于上式第二行的解释:当$0< x<\theta$,则想要事件$\{\hat{\theta}<x\}$发生,则必须有$$\{X_1<x\},\{X_2<x\},\cdots,\{X_n<x\}$$同时发生(因为$\hat{\theta}$为它们中的最大值),而它们是独立事件,每个事件发生的概率$P(X_i<x)=x/\theta$ (因为均匀分布)。对上式求导得到随机变量$\hat{\theta}$的PDF为$$g_{\theta}(x)=\begin{cases}nx^{n-1}/\theta^n&0<x<\theta\\0&\text{other}\end{cases}$$有了PDF就可以求期望$$E_{\theta}(\hat{\theta})=\int_0^{\theta}xg_\theta(x){\rm d}x=\frac{n}{n+1}\theta$$所以如果要使用这个估计值,就应该**乘以**$\frac{n+1}{n}$**因子才能成为无偏估计**。

    ####相合性
    相合性的字面意思和无偏性几乎一样,但数学本质是不同的,是对参数估计量**完全不同的两个方面的描写**。大数定理说的是,如果$X_1,\cdots,X_n$独立同分布均值为$\mu$,则对于任意给定的正数$\varepsilon$都有$$\lim_{n\to\infty}P(|\bar{X}-\mu|\geqslant\varepsilon)=0.$$相合性大致相当于大数定理的一种“推广”。

    > 定义:设总体分布依赖于参数$\theta_1,\cdots,\theta_k$,而$g(\theta_1,\cdots,\theta_k)$是一个给定的函数。设$X_1,\cdots,X_n$为抽取的样本,而$\hat{g}(X_1,\cdots,X_n)$为一个估计量,则对于任意的正数$\varepsilon$,有$$\lim_{n\to \infty}P_{\theta_1,\cdots,\theta_k}(|\hat{g}(X_1,\cdots,X_n)-g(\theta_1,\cdots,\theta_k)|\geqslant\varepsilon)=0h(\theta)\prod_{i=1}^nf(X_i,\theta)$$这样,它关于$\{X_i\}$的边缘密度为$$p(X_1,\cdots,X_n)=\int h(\theta)\prod_{i=1}^nf(X_i,\theta){\rm d}\theta$$由此得到在$\{X_i\}$给定条件下,$\theta$的条件概率密度为$$h(\theta|X_1,\cdots,X_n)=h(\theta)\prod_{i=1}^nf(X_i,\theta)/p(X_1,\cdots,X_n)$$上式给出来了在抽到样本$\{X_i\}$情况下的参数$\theta$的概率密度,称为“后验密度”,**形式上看就是一个带有连续参数的贝叶斯公式**。获得上面条件概率表达式以后,$\theta$的估计值如何求,有多种方式,比如,求这个分布的均值作为$\theta$的估计值。> 例题:做$n$次独立重复试验,每次观察事件$A$是否发生,$A$在每次试验中发生的概率为$p$,用试验结果估计$p$.> 设先验密度为$h(p)$,设$A$发生记为$X_i=1$,否则记为$X_i=0$. 对于样本$X_i$,$P(X_i=1)=p$而$P(X_i=0)=1-p$,所以事件$(X_1,\cdots,X_n)$概率密度为$$p^S(1-p)^{n-S}$$其中$S=\sum_iX_i$,所以后验密度为$$h(p|X_1,\cdots,X_n)=\frac{h(p)p^S(1-p)^{n-S}}{\int_0^1h(p)p^S(1-p)^{n-S}{\rm d}p}$$不妨取上式均值$\hat{p}$为$p$的估计值。如果取$h(p)$为均匀分布,则经过化简计算可得$\hat{p}=(S+1)/(n+2)$.> 用期望(一阶原点矩)去估计的结果是$S/n$,在$n$很大时,两者相同;在$n$很小,比如$n=1,S=1$时,期望估计给出$\hat{p}=1$,而贝叶斯估计给出$\hat{p}=2/3$.###点估计的准则 前面提到的参数的点估计方法有三种,在确定的情况下,应该选择哪种估计更恰当,这就是估计优良性准则的问题。####无偏性字面意思就是一个估计没有偏差。> 定义:假设某总体的分布包含位置参数$\theta_1,\cdots,\theta_k$,而$X_1,\cdots,X_n$为抽取出的样本,要估计的统计量设为$g(\theta_1,\cdots,\theta_k)$,$g(\cdot)$为一已知函数,设$\hat{g}(X_1,\cdots,X_n)$为一个估计量,如果对于任何的$\theta_1,\cdots,\theta_k$取值,都有$$E_{\theta_1,\cdots,\theta_k}[\hat{g}(X_1,\cdots,X_n)]=g(\theta_1,\cdots,\theta_k)$$则称$\hat{g}(\cdot)$为$g$的一个无偏估计量。上式$E(\cdot)$求期望算符有下标,表示在系统参量分别为某$\theta_1,\cdots,\theta_k$时,抽取样本$\{X_i\}$,计算$\hat{g}$,再对不同抽取的样本进行求期望操作(**固定**$\theta$,**对样本求期望**)。**上面定义并未对样本容量**$n$**提出要求。**注意,$E(\cdot)$**括号里面本质上是一个随机变量**,所以这才能求期望。> 例题:可以证明,样本均值$\bar{X}$是总体均值$\mu$的无偏估计,样本方差$s^2=\frac{1}{n-1}\sum_i(X_i-\bar{X})^2$是总体方差$\sigma^2$的无偏估计;但是样本中心二阶矩$\frac{1}{n}\sum_i(X_i-\bar{X})^2$并非总体方差的无偏估计,而且样本标准差$s$并非总体标准差的无偏估计。在前面的极大似然估计那里的例题,给出的$\theta$的估计值是抽取到的样本的最大值,可以证明它并非无偏估计。>例题:如何把上面的$\hat{\theta}$修正为无偏估计。>先计算出$E_{\theta}(\hat{\theta})$.前面说过$E(\cdot)$里面的$\hat{\theta}$本质上是一个随机变量,为求其期望,需要求出它的密度分布函数PDF,为此可以先求出它的累积分布函数CDF。下式为$\hat{\theta}$的CDF$$G_{\theta}(x)=\begin{cases}0&x\leqslant0\\\displaystyle\left( \frac{x}{\theta}\right)^n&0< x<\theta\\1&x\geqslant\theta\end{cases}$$对于上式第二行的解释:当$0< x<\theta$,则想要事件$\{\hat{\theta}<x\}$发生,则必须有$$\{X_1<x\},\{X_2<x\},\cdots,\{X_n<x\}$$同时发生(因为$\hat{\theta}$为它们中的最大值),而它们是独立事件,每个事件发生的概率$P(X_i<x)=x/\theta$ (因为均匀分布)。对上式求导得到随机变量$\hat{\theta}$的PDF为$$g_{\theta}(x)=\begin{cases}nx^{n-1}/\theta^n&0<x<\theta\\0&\text{other}\end{cases}$$有了PDF就可以求期望$$E_{\theta}(\hat{\theta})=\int_0^{\theta}xg_\theta(x){\rm d}x=\frac{n}{n+1}\theta$$所以如果要使用这个估计值,就应该**乘以**$\frac{n+1}{n}$**因子才能成为无偏估计**。####相合性相合性的字面意思和无偏性几乎一样,但数学本质是不同的,是对参数估计量**完全不同的两个方面的描写**。大数定理说的是,如果$X_1,\cdots,X_n$独立同分布均值为$\mu$,则对于任意给定的正数$\varepsilon$都有$$\lim_{n\to\infty}P(|\bar{X}-\mu|\geqslant\varepsilon)=0.$$相合性大致相当于大数定理的一种“推广”。> 定义:设总体分布依赖于参数$\theta_1,\cdots,\theta_k$,而$g(\theta_1,\cdots,\theta_k)$是一个给定的函数。设$X_1,\cdots,X_n$为抽取的样本,而$\hat{g}(X_1,\cdots,X_n)$为一个估计量,则对于任意的正数$\varepsilon$,有$$\lim_{n\to \infty}P_{\theta_1,\cdots,\theta_k}(|\hat{g}(X_1,\cdots,X_n)-g(\theta_1,\cdots,\theta_k)|\geqslant\varepsilon)=0

     

    由上面的定义,大数定理无非就是表达了"样本均值是总体均值的相合的估计量"这层意思。注意这里没有对不同的样本求期望,而是令样本容量趋于无穷,这是和无偏性的差别

    最小方差误差

    如果现在有两个无偏估计,要在一起比较性能,则可以比较其方差的大小,方差越小,估计量越稳定。上面说过了,估计量g^(X1,⋯,Xn)g^(X1,⋯,Xn)本质上还是一个随机变量,其随机性来自于{Xi}{Xi}的随机性。所以估计量的方差,就是这个随机变量通常意义下的方差而已。
    如果一个无偏估计g^g^对于任何其他的无偏估计g^1g^1以及任何的{θi}{θi}取值,都有更小的方差,则称此g^g^为一个最小方差无偏估计(MVU)。

    区间估计

    前面说的参数估计,是利用各种方法把一个分布中的未知参数根据样本求出估计值,所以叫做点估计。区间估计则是把未知参数估计到一个区间中,并给出置信系数。

    定义:给定一个小量α∈[0,1]α∈[0,1],下式概率等于1−α1−α,对于参数θθ的任何取值都成立,则称区间估计[θ^1,θ^2][θ^1,θ^2]的置信系数为1−α1−α.

    Pθ(θ^1(X1,⋯,Xn)⩽θ⩽θ^2(X1,⋯,Xn))Pθ(θ^1(X1,⋯,Xn)⩽θ⩽θ^2(X1,⋯,Xn))

    有时候难以找到恰当的αα恰好使得上式概率为1−α1−α,常常找到一个稍大的ββ,使得上式不小于1−β1−β。所以如果找到这样的ββ,则称1−β1−β为区间的置信水平。置信系数为最大的置信水平

    枢轴变量法

    先来定义某分布(比如正态分布)的上ββ分位点Φ(μβ)=1−βΦ(μβ)=1−β,其中Φ(⋅)Φ(⋅)为一个累积分布函数CDF. 或者如下图,图中是一个分布的PDF,μβμβ为其上ββ分位点。

    例题:样本X1,⋯,XnX1,⋯,Xn来自于正态总体N(μ,σ2)N(μ,σ2),σ2σ2已知,根据样本求μμ的区间估计。
    由概率论知识,n−−√(X¯−μ)/σ∼N(0,1)n(X¯−μ)/σ∼N(0,1),以ΦN(x)ΦN(x)表示标准正态分布的CDF,则有

    P(−μα/2<n−−√(X¯−μ)/σ<μα/2)=Φ(μα/2)−Φ(−μα/2)=1−αP(−μα/2<n(X¯−μ)/σ<μα/2)=Φ(μα/2)−Φ(−μα/2)=1−α

    ⇒P(X¯−σμα/2⩽μ⩽X¯+σμα/2)=1−α⇒P(X¯−σμα/2⩽μ⩽X¯+σμα/2)=1−α

    依据定义,μμ的置信系数为1−α1−α的区间估计是[X¯−σμα/2,X¯+σμα/2][X¯−σμα/2,X¯+σμα/2].

    在此问题中,随机变量Y=n−−√(X¯−μ)/σY=n(X¯−μ)/σ起到了中间人的作用,所以叫它枢轴变量。总的思路是,先利用概率论知识找枢轴变量,使得枢轴变量整体服从某个完全已知的分布(此问题中为N(0,1)N(0,1)),再根据分位点的意义,列出方程P(A<Y<B)=1−αP(A<Y<B)=1−α,其中A,BA,B为和αα有关的分位点。最后将不等式A<Y<BA<Y<B改写成a<θ<ba<θ<b的形式,结合区间估计的定义即可得出结论。

    另外,此问题中σ2σ2已知,如果未知也可以做,做法如下:
    根据概率论知识,有枢轴变量n−−√(X¯−μ)/sn(X¯−μ)/s服从自由度为n−1n−1的tt分布(此分布完全确定),其余步骤模仿例题,得出置信系数为1−α1−α的区间估计为

    [X¯−stn−1(α/2)/n−−√,X¯+stn−1(α/2)/n−−√][X¯−stn−1(α/2)/n,X¯+stn−1(α/2)/n]

    其中tn−1(α/2)tn−1(α/2)为分位点。

    如果找到的枢轴变量不严格满足某特定已知分布,但nn很大以至于可以近似满足某已知分布,则可以结合中心极限的思想,做一个近似,姑且认为枢轴变量满足。这叫做大样本近似。

    置信界(单侧估计)

    前面的枢轴变量法找的是区间的两个端点,有时候不需要两个端点,而只需要估计参数是不是大于(小于)某个值。

    若对参数θθ的一切取值,有

    Pθ(Θ(X1,⋯,Xn)⩾θ)=1−αPθ(Θ(X1,⋯,Xn)⩾θ)=1−α

    成立,则称ΘΘ为一个置信系数为1−α1−α的置信上界。若将⩾⩾换为⩽⩽则称ΘΘ为一个置信系数为1−α1−α的置信下界。

    解决问题的方法和两个端点的枢轴变量法一样,只不过不等式都变成了单边的了而已。

    贝叶斯法

    贝叶斯法处理统计问题的思路都是相似的,这里还是必须先假定一个先验密度函数h(θ)h(θ),设样本X1,⋯,XnX1,⋯,Xn,计算出后验密度函数h(θ|X1,⋯,Xn)h(θ|X1,⋯,Xn),找出两个值θ1,θ2θ1,θ2使得

    ∫θ2θ1h(θ|X1,⋯,Xn)dθ=1−α∫θ1θ2h(θ|X1,⋯,Xn)dθ=1−α

    成立,则区间[θ1,θ2][θ1,θ2]可以作为一个区间估计,后验信度为1−α1−α.
    一般来说会有很多θ1,θ2θ1,θ2满足条件,选择的原则通常是使得|θ1−θ2||θ1−θ2|最小。

    贝叶斯法和枢轴变量法的区别

    枢轴变量那一套方法是奈曼理论(J.Neyman),而贝叶斯(Bayes)理论与其观念上有根本区别。奈曼理论中,置信系数为0.950.95的确切意思是:对于给定的参数θθ,抽取样本,根据样本计算区间,则这样的行为每进行100100次,平均有且仅有9595次计算出来的区间包含真实的参数θθ;而贝叶斯法的后验信度为0.950.95的意思是:计算出来的区间包含真实参数的相信程度为0.950.95.

    展开全文
  • 三种参数估计方法的总结

    千次阅读 2015-03-17 18:05:04
    常见的三种参数估计的方法:最大似然估计法、最大后验估计法、贝叶斯估计法 示例情景:θ为抛一次硬币下面朝上的概率,其服从参数α和β的Beta分布,而X=(x1, x2)则是一个向量,表示观测结果,x1表示观测到正面的...

    常见的三种参数估计的方法:最大似然估计法、最大后验估计法、贝叶斯估计法

    示例情景:θ为抛一次硬币下面朝上的概率,其服从参数α和β的Beta分布,而X=(x1, x2)则是一个向量,表示观测结果,x1表示观测到正面的个数,x2表示观测到反面的个数。

    其中α、β、X为已知量,我们的目标是求参数θ

    ML:最大似然估计法

    MAP:最大后验估计法

    Bayesian Estimation:贝叶斯估计法

    展开全文
  • 一、参数估计 什么叫做参数估计参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。 从估计形式看,区分为点估计与区间估计: 从构造估计量的方法...

    一、样本及抽样分布

    1. 随机样本的概念

    定义设X是具有分布函数F的随机变量,若X1,X2,,XnX_1,X_2,…,X_n是具有同分布函数F的、相互独立的随机变量,则称X1,X2,,XnX_1,X_2,…,X_n为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本,它们的观察值x1,x2,,xnx_1,x_2,…,x_n称为样本值,又称为X的n个独立的观察值

    2. 箱型图

    直方图和箱型图都是为了研究总体分布的性质。

    介绍箱型图前我们先要指导样本分位数。

    样本分位数:
    设有容量为n的仰恩观察值x1,x2,...,xnx_1,x_2,...,x_n,样本p分位数(0<p<1)记为xpx_p,它具有以下性质:(1)指导有np个观察值小于或等于xpx_p,(2)至少有n(1-p)个观察值大于或等于xpx_p

    我们说的中位数就是二分之一分位数。

    数据集的箱线图是有箱子和直线组成的凸显,它是基于以下5个数的图形概括;最小值Min,第一四分位数Q1Q_1, 中位数M,第三四分位数Q3Q_3和最大值Max。

    在这里插入图片描述

    3. 抽样分布

    在学习抽样分布之前,需要了解几个概念

    在这里插入图片描述
    在这里插入图片描述
    卡方分布
    在这里插入图片描述
    t分布
    在这里插入图片描述
    F分布
    在这里插入图片描述

    4. 正态总体的均值与样本方差的分布

    上面我们介绍了很多抽样分布,如卡方分布、t分布和F分布。事实上,我的理解就是这些是为了描述正态总体的均值的方差的分布而提出的。为什么呢?不妨看看下面几条定理:

    定理一

    X1X_1, X1X_1, …, XnX_n 是来自正态总体N(μ,σ2)N(\mu ,\sigma ^2)的样本,Xˉ\bar X是样本均值,则有
    XˉN(μ,σ2/n)\bar X \sim N(\mu ,\sigma ^2/n)

    定理二

    X1X_1, X1X_1, …, XnX_n 是来自正态总体N(μ,σ2)N(\mu ,\sigma ^2), 的样本,Xˉ\bar X, S2S^2分别是样本均值和样本方差,则有

    1. (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma ^2} \sim \chi^2(n-1)
    2. Xˉ\bar XS2S^2相互独立

    定理三

    X1X_1, X1X_1, …, XnX_n 是来自正态总体N(μ,σ2)N(\mu ,\sigma ^2), 的样本,Xˉ\bar X, S2S^2分别是样本均值和样本方差,则有
    XˉμS/nt(n1)\frac{\bar X -\mu}{S/\sqrt n }\sim t(n-1)

    定理四

    在这里插入图片描述

    二、参数估计

    什么叫做参数估计?

    参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。
    从估计形式看,区分为点估计与区间估计:
    从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。
    参数要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度为95%;精度用估计量与被估参数(或待估参数)之间的接近程度或误差来度量。

    1. 点估计

    点估计(point estimation)是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。例如,设一批产品的废品率为θ。为了估计θ,从这批产品中随机地抽出n个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。而我们知道,这里的参数估计的理论基础恰恰就是之前我们学过的大数定律,即样本均值收敛到总体均值(就是期望)

    下面是具体的点估计方法:

    (1)矩估计法

    用样本矩估计总体矩,从而得到总体分布中参数的一种估计。它的思想实质是用样本的经验分布和样本矩去替换总体的分布和总体矩。矩估计法的优点是简单易行, 并不需要事先知道总体是什么分布。缺点是,当总体类型已知时,没有充分利用分布提供的信息。一般场合下,矩估计量不具有唯一性。

    矩估计法的具体做法如下。设

    μ1=μ1(θ1,θ2,...,θk)μ2=μ2(θ1,θ2,...,θk)...μk=μk(θ1,θ2,...,θk) \mu _1 = \mu _1(\theta _1,\theta _2,...,\theta _k)\\\mu _2 = \mu _2(\theta _1,\theta _2,...,\theta _k)\\...\\ \mu _k = \mu _k(\theta _1,\theta _2,...,\theta _k)

    这里左边μ1\mu _1是总体矩,解方程组,我们可以解出参数θ1,θ2,...,θk\theta _1,\theta _2,...,\theta _k

    θ1=θ1(μ1,μ2,...,μk)θ2=θ2(μ1,μ2,...,μk)...θk=θk(μ1,μ2,...,μk) \theta _1 = \theta _1(\mu _1,\mu _2,...,\mu _k)\\ \theta _2 = \theta _2(\mu _1,\mu _2,...,\mu _k)\\...\\ \theta _k = \theta _k(\mu _1,\mu _2,...,\mu _k)

    但问题是我们是不知道总体距的。这是我们用样本矩Al=1ni=1nXilA_l =\frac{1}{n}\sum _{i=1}^{n}X_i^l替换总体矩,就可以得到个参数θi\theta _i的估计量了。

    θ^i=θi(A1,A2,...,Ak),i=1,2,...,k \hat \theta_i = \theta _i(A_1,A_2,...,A_k),i=1,2,...,k

    这种估计量称为矩估计量。距估计量的观察值(就是θ^i\hat \theta _i的实际值)称为距估计值。

    举例:
    在这里插入图片描述

    (2)极大似然估计

    最大似然估计于1912年由英国统计学家R.A.费希尔提出,利用样本分布密度构造似然函数来求出参数的最大似然估计。

    如果总体X属于连续型,其概率密度f(x;θ),θf(x;\theta),\theta为待估参数,Θ\Thetaθ\theta可能的取值范围。设X1,X2,...,XnX_1,X_2,...,X_n是来自X的样本X1,X2,...,XnX_1,X_2,...,X_n的联合密度为
    i=1nf(xi,θ)\prod _{i=1}^nf(x_i,\theta)
    x1,x2,...,xnx_1,x_2,...,x_n是相应于样本X1,X2,...,XnX_1,X_2,...,X_n的一个样本值,则随机点(X1,X2,...,Xn)(X_1,X_2,...,X_n)落在(x1,x2,...,xn)(x_1,x_2,...,x_n)的邻域(边长分别为dxidx_i)内的概率近似为:
    在这里插入图片描述
    其值随θ\theta的取值而变化。

    现在我们来做一个分析,我们我们已经取到样本值x1,x2,...,xnx_1,x_2,...,x_n了,说明这一样本值的概率比较大。我们当然不会考虑哪些不能是样本x1,x2,...,xnx_1,x_2,...,x_n出现的θΘ\theta \in \Theta作为θ\theta的估计。所以我们在θ\theta取值的可能范围Θ\Theta内挑选使得上面定义的概率最大的参数θ^\hat \theta作为θ\theta的估计值。

    由于因子i=1ndxi\prod _{i=1}^{n}dx_i

    不随θ\theta改变,所以只需让以下函数达到最大值
    L(θ)=L(x1,x2,...xn;θ)=i=1nf(xi;θ)L(\theta)=L(x_1,x_2,...x_n;\theta)=\prod _{i=1}^{n}f(x_i;\theta)
    我们把该函数称为似然函数。如果
    L(x1,x2,...xn;θ^)=maxθΘL(x1,x2,...xn;θ)L(x_1,x_2,...x_n;\hat \theta)=\max _{\theta \in \Theta}L(x_1,x_2,...x_n;\theta)

    那么成θ^(x1,x2,...,xn)\hat \theta(x_1,x_2,...,x_n)θ\theta的自大似然估计值θ^(X1,X2,...,Xn)\hat \theta(X_1,X_2,...,X_n)θ\theta的最大似然估计量。

    这样,确定最大似然估计量的问题就归结为微分学中的求最大值的问题了。也就是:
    在这里插入图片描述
    等价于
    在这里插入图片描述
    从后一个方程求解往往比较方便,它也成为对数似然方程。

    例子:
    在这里插入图片描述

    2. 区间估计

    什么是区间估计?顾名思义,区间估计就是我们给出一个区间,并给出我们所要估计的参数θ\theta在这个区间里面的概率大小。

    (1)置信区间

    在这里插入图片描述

    (2)正态总体均值和方差的区间估计

    第一部分我们在抽样分布里面给出了正态总体均值和方差的分布,在这里可以用来做正态总体本身的数学期望和方差的区间估计

    进行区间估计的一般步骤
    在这里插入图片描述

    单个总体N(μ,σ2)N(\mu, \sigma ^2)的情况

    i. 数学期望μ\mu的置信区间

    如果σ\sigma是已知的,那么将如下所示
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    但如果σ\sigma是未知的,这时候我们就不能用上面的式子。考虑到S2S^2σ2\sigma ^2的无偏估计,所以我们可以把上面的σ\sigma换成S=S2S=\sqrt {S^2}, 有抽样分布中的定理三
    XˉμS/nt(n1)\frac{\bar X -\mu}{S/\sqrt n }\sim t(n-1)
    我们可以求得μ\mu的一个置信水平未1α1-\alpha的置信区间
    (Xˉ±Sntα/2(n1))(\bar X\pm \frac{S}{\sqrt {n}}t_{\alpha/2}(n-1))

    ii.方差σ2\sigma ^2的置信区间
    σ2\sigma ^2的无偏估计未S2S^2, 有抽样分布中的定理二
    (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma ^2} \sim \chi^2(n-1)
    可得
    在这里插入图片描述
    两个总体N(μ1,σ12),N(μ2,σ22)N(\mu _1, \sigma _1^2), N(\mu_2, \sigma _2^2)的情况

    i. 两个总体均值差的置信区间

    σ\sigma已知
    在这里插入图片描述
    在这里插入图片描述
    σ\sigma未知

    那么有下面公式可得置信区间
    在这里插入图片描述
    在这里插入图片描述

    i. 两个总体的方差比置信区间

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    (3)0-1分布参数的区间估计

    在这里插入图片描述

    三、参考资料

    1. 《概率论与数理统计》浙大第四版
    展开全文
  • 东北大学应用数理统计第二章知识点总结——参数估计,知识点总结PDF版本 内容详见https://blog.csdn.net/qq_36770651/article/details/109829564
  • 本文总结了共七个类别的神经网络的计算量和参数量的估计方法,总的来说就是:减少参数,降低精度,融合计算单元步骤。 Github:本文代码放在该项目中:NLP相关Paper笔记和代码复现 ...
  • 参数估计 一、点估计 1.矩估计 2.极大似然估计 3.比较 二、估计的优良标准 1.无偏性 2.有效性 3.相合性 三、区间估计 1.置信区间 2.求解思路 3.常见的区间估计 4.其他(置信水平的理解,样本容量对区间长度的影响) ...
  • 为了系统地复习机器学习相关算法及基础知识,对学过的知识进行一定的整理,也尽量用通俗易懂的语言介绍数理统计和参数估计相关概念及知识,尽量少掉一点头发。 正文 事件的独立性 定义:如果事件A和事件B满足P(AB...
  • 关于参数估计

    千次阅读 2018-01-25 18:11:08
    虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当...参数估计的方法有多种,各种估计方法得出的结果不一定相同,...
  • 最大似然估计:即确定什么样的参数θ能够使得似然概率取得最大。 过拟合:说的是样本全是性别为男或者女的情况,即样本不具有代表性。 7、协方差和相关系数 标准差:方差开平方 协方差:表示两个变量的离散程度。是...
  • 一、本章知识结构 参数估计是统计推断的最基本问题之一,分为点估计和区间估计。其研究任务是:总体的分布已知,但含有未知参数;我们要通过对样本进行加工,提取有用信息,对未知参数作出估计。本章要熟悉如何对...
  • 特征估计和模型检验1、均值估计[1]估计量 ̂= ̅_n[2]性质 无偏性: ̂是 的无偏估计 相合性:若 _ → 0,则 ̂是 的相合估计;如果{ }严遍历则是强相合估计收敛性:若若{ _ }正态/独立同分布白噪声,则2、自协方差 ...
  • 最大似然估计总结

    2015-06-13 21:54:00
    在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。 2.离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{...
  • 第七章 参数估计

    2020-03-04 19:51:55
    概率论与数理统计浙大版 第七章 参数估计 易错题和总结
  • 第七章 参数估计 7.3估计量的评选标准 文章目录第七章 参数估计 7.3估计量的评选标准无偏性有效性相合性 无偏性 意义: 无系统误差 eg: 有效性 相合性 总结
  • Matlab中用fminsearch实现参数估计  文章的主要思想来源于Matlab|Simulink仿真世界的一篇类似的文章。我这里把这个思想引入到我们的体系来,并以一个新的例子讲解这一用法。 fminsearch用来求解多维无约束的...
  •  作用在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。2. 离散型设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,...
  • 1.大数定律: 2.中心极限定理: ...3.参数估计:抽样若干样本并独立...注:结合各模型的参数估计(我的LR复习总结);矩估计和似然估计有什么不同?如果含有隐变量又怎么估计?(EM算法) 转载于:https://www...
  • 统计狗来总结一下前面各个楼主的回答,先甩答案:logistic回归模型的参数估计问题,是可以用最小二乘方法的思想进行求解的,但和经典的(或者说用在经典线性回归的参数估计问题)最小二乘法不同,是用的是“迭代重加权...
  •  个人认为:三个参数估计的方法可以总结为如下:   我们知道贝叶斯公式是这样写的: 然后就可以通过这个公式来求解最大似然估计MLE、最大后验估计MAP和贝叶斯估计了。 最大似然估计:实际上是求了红线框起来的...
  • 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。 2. 离散型 设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{
  • R语言学习笔记(四)参数估计

    千次阅读 2020-07-04 22:42:27
    总结一下数理统计中的参数估计,即点估计(矩估计、极大似然估计)和区间估计(置信区间)部分的R语言实现
  • 文章目录前言一、文章重点及流程梳理二、概率论基础知识三、参数估计1.极大似然估计(Maximum Likelihood Estimation)2.MAP(最大后验概率)3.两种策略总结 前言 写作参考概率论书籍、西瓜书、李航《统计学习方法...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 649
精华内容 259
关键字:

参数估计总结