精华内容
下载资源
问答
  • 偏估计 and 无偏估计 方差分母 n-1 - 详细证明 均值 - 无偏估计 方差 - 有偏估计 方差 - 转换成无偏估计

    有偏估计 and 无偏估计 - 方差分母 n-1 - 详细证明

    最近在写一个 Feature Engineering Method 的 Python 库,其中在计算相似度的库中有一个方法,叫做 Pearson 系数,其中包含了方差以及协方差的计算,但分母为 n-1 而不是小时候学习的除以 n,于是乎查阅资料,学习到了有偏估计与无偏估计,在这里总结一下。

    • 均值 - 无偏估计

      以计算学生身高为例,世界上有学生很多,想要知道世界上所有学生身高的均值 μ μ μ,我们会采用这种方式:

      μ = 1 N ∑ i = 1 N h i , h i μ=\frac{1}{N}\sum_{i=1}^{N}h_i,h_i μ=N1i=1Nhihi 表示第 i i i 个学生的身高, N N N 为世界上所有学生的人数。

      但是世界上的学生不计其数,我们无法获取所有学生的身高,所以我们想出了采样的方法,通过计算样本的平均身高 h ˉ \bar h hˉ近似 真实 μ μ μ,所以我们采用:

      h ˉ = 1 n ∑ i = 1 n h i , n \bar h=\frac{1}{n}\sum_{i=1}^{n}h_i,n hˉ=n1i=1nhin 为采集到的样本大小,10 个学生,那我们便计算 10 个学生的均值,以此类推。

      经过多次采样后会发现,多次的均值 h ˉ \bar h hˉ 会在 μ μ μ 周围波动(我们假设 μ μ μ 已知,其实这个老天爷知道)。

      均值是一个无偏估计,在证明之前,先罗列需要用到的几个公式,对随机变量 H H H 有:

      E ( a h i ) = a ⋅ E ( h i ) E(ah_i) = a·E(h_i) E(ahi)=aE(hi)

      E ( ∑ i = 1 n h i ) = ∑ i = 1 n E ( h i ) E(\sum_{i=1}^n h_i) = \sum_{i=1}^n E(h_i) E(i=1nhi)=i=1nE(hi)

      证明如下:

      E [ h ˉ ] = E [ ∑ i = 1 n h i n ] = 1 n ∑ i = 1 n E [ h i ] = 1 n ∑ i = 1 n μ = μ \begin{aligned}E[\bar{h}] =& E[\frac{\sum_{i=1}^n h_i}{n}] \\ =& \frac{1}{n}\sum_{i=1}^nE[h_i] \\ =& \frac{1}{n}\sum_{i=1}^n \mu \\ =& \mu \\ \end{aligned} E[hˉ]====E[ni=1nhi]n1i=1nE[hi]n1i=1nμμ

      也就是说 h ˉ \bar h hˉ 的期望等于随机变量 h h h 的期望 μ μ μ,所以是无偏估计。

    • 方差 - 有偏估计

      现在我们想要看一下世界上所有学生身高的稳定程度,那么就要计算学生身高的方差:

      σ 2 = 1 N ∑ i = 1 N ( h i − μ ) 2 \sigma^2=\frac{1}{N}\sum_{i=1}^{N}(h_i-μ)^2 σ2=N1i=1N(hiμ)2

      但是我们遇到了同样的问题,无法获取所有学生的身高,所以同样采样:

      S 2 = 1 n ∑ i = 1 n ( h i − μ ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}(h_i-μ)^2 S2=n1i=1n(hiμ)2

      利用 S 2 S^2 S2 来近似 σ 2 \sigma^2 σ2,此时便出现了一个问题, μ \mu μ 是未知的,所以我们只能使用均值 h ˉ \bar h hˉ 来代替,于是得到:

      S 2 = 1 n ∑ i = 1 n ( h i − h ˉ ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}(h_i-\bar h)^2 S2=n1i=1n(hihˉ)2

      但是在替换之后问题便出现了,根据最小二乘法,均方差的最优解(能取得 S 2 S^2 S2 最小值的解)就是 h ˉ \bar h hˉ,即:

      h ˉ =       h ∗ a r g m i n [ 1 n ∑ i = 1 n ( h i − h ∗ ) 2 ] \bar h=\mathop{}_{~~~~~h_*}^{argmin}[\frac{1}{n}\sum_{i=1}^{n}(h_i-h_*)^2] hˉ=     hargmin[n1i=1n(hih)2]

      既然 h ∗ = h ˉ h_*=\bar h h=hˉ S 2 S^2 S2 最小,那么我们将 μ μ μ 替换成 h ˉ \bar h hˉ 后则一定有如下不等式成立:

      1 n ∑ i = 1 n ( h i − h ˉ ) 2 ≤ 1 n ∑ i = 1 n ( h i − μ ) 2 \frac{1}{n}\sum_{i=1}^{n}(h_i-\bar h)^2\le \frac{1}{n}\sum_{i=1}^{n}(h_i-μ)^2 n1i=1n(hihˉ)2n1i=1n(hiμ)2

      S 2 ≤ σ 2 S^2\le\sigma^2 S2σ2

      可见,用 S 2 S^2 S2 来近似,低估了 σ 2 \sigma^2 σ2。其实我们希望是这样的 E [ S 2 ] = σ 2 E[S^2]=\sigma^2 E[S2]=σ2,但此时却被低估了。(类似均值 E [ h ˉ ] = μ E[\bar{h}]=\mu E[hˉ]=μ,这里 S 2 S^2 S2 对应 h ˉ \bar{h} hˉ 属于近似值, σ 2 \sigma^2 σ2 对应 μ \mu μ 属于真实期望值)

    • 方差 - 转换成无偏估计

      那具体低估了多少呢?算一下:

      E [ S 2 ] = E [ 1 n ∑ i = 1 n ( h i − h ˉ ) 2 ] = E [ 1 n ∑ i = 1 n ( ( h i − μ ) − ( h ˉ − μ ) ) 2 ] = E [ 1 n ∑ i = 1 n ( ( h i − μ ) 2 + ( h ˉ − μ ) 2 − 2 ( h i − μ ) ( h ˉ − μ ) ] = E [ 1 n ∑ i = 1 n ( h i − μ ) 2 + 1 n ∑ i = 1 n ( h ˉ − μ ) 2 − 1 n ∑ i = 1 n 2 ( h i − μ ) ( h ˉ − μ ) ] = E [ 1 n ∑ i = 1 n ( h i − μ ) 2 ] + E [ ( h ˉ − μ ) 2 − 2 n ( h ˉ − μ ) ∑ i = 1 n ( h i − μ ) ] = σ 2 + E [ ( h ˉ − μ ) 2 − 2 n ( h ˉ − μ ) ∑ i = 1 n ( h i − μ ) ] \begin{aligned}E[S^2]=& E[\frac{1}{n}\sum_{i=1}^{n}(h_i-\bar h)^2] \\ =& E[\frac{1}{n}\sum_{i=1}^{n}((h_i-\mu)-(\bar h - \mu))^2] \\ =& E[\frac{1}{n}\sum_{i=1}^{n}((h_i-\mu)^2+(\bar h - \mu)^2-2(h_i-\mu)(\bar h - \mu)] \\ =& E[\frac{1}{n}\sum_{i=1}^{n}(h_i-\mu)^2+\frac{1}{n}\sum_{i=1}^{n}(\bar h - \mu)^2-\frac{1}{n}\sum_{i=1}^{n}2(h_i-\mu)(\bar h - \mu)] \\ =& E[\frac{1}{n}\sum_{i=1}^{n}(h_i-\mu)^2]+E[(\bar h - \mu)^2-\frac{2}{n}(\bar h - \mu)\sum_{i=1}^{n}(h_i-\mu)] \\ =& \sigma^2+E[(\bar h - \mu)^2-\frac{2}{n}(\bar h - \mu)\sum_{i=1}^{n}(h_i-\mu)] \\ \end{aligned} E[S2]======E[n1i=1n(hihˉ)2]E[n1i=1n((hiμ)(hˉμ))2]E[n1i=1n((hiμ)2+(hˉμ)22(hiμ)(hˉμ)]E[n1i=1n(hiμ)2+n1i=1n(hˉμ)2n1i=1n2(hiμ)(hˉμ)]E[n1i=1n(hiμ)2]+E[(hˉμ)2n2(hˉμ)i=1n(hiμ)]σ2+E[(hˉμ)2n2(hˉμ)i=1n(hiμ)]

      其中,

      h ˉ − μ = ∑ i = 1 n h i − μ = 1 n ∑ i = 1 n h i − 1 n ∑ i = 1 n μ = 1 n ∑ i = 1 n ( h i − μ ) \begin{aligned}\bar h - \mu=&\sum_{i=1}^{n}h_i-\mu \\ =& \frac{1}{n}\sum_{i=1}^{n}h_i-\frac{1}{n}\sum_{i=1}^{n}\mu \\ =& \frac{1}{n}\sum_{i=1}^{n}(h_i-\mu) \end{aligned} hˉμ===i=1nhiμn1i=1nhin1i=1nμn1i=1n(hiμ)

      且有: n ( h ˉ − μ ) = ∑ i = 1 n ( h i − μ ) n(\bar h - \mu)=\sum_{i=1}^{n}(h_i-\mu) n(hˉμ)=i=1n(hiμ)

      将此结果代入得,

      E [ S 2 ] = σ 2 + E [ ( h ˉ − μ ) 2 − 2 n ( h ˉ − μ ) ∑ i = 1 n ( h i − μ ) ] = σ 2 + E [ ( h ˉ − μ ) 2 − 2 ( h ˉ − μ ) 2 ] = σ 2 − E [ ( h ˉ − μ ) 2 ] \begin{aligned}E[S^2]=& \sigma^2+E[(\bar h - \mu)^2-\frac{2}{n}(\bar h - \mu)\sum_{i=1}^{n}(h_i-\mu)] \\ =& \sigma^2+E[(\bar h - \mu)^2-2(\bar h-\mu)^2] \\ =& \sigma^2-E[(\bar h-\mu)^2] \\ \end{aligned} E[S2]===σ2+E[(hˉμ)2n2(hˉμ)i=1n(hiμ)]σ2+E[(hˉμ)22(hˉμ)2]σ2E[(hˉμ)2]

      又,已知计算法则:

      E [ ( X − E [ X ] ) ] = v a r ( X ) E[(X-E[X])]=var(X) E[(XE[X])]=var(X)

      v a r ( a h i ) = a 2 ⋅ v a r ( h i ) var(ah_i) = a^2 ·var(h_i) var(ahi)=a2var(hi)

      v a r ( ∑ i = 1 n h i ) = ∑ i = 1 n v a r ( h i ) var(\sum_{i=1}^n h_i) = \sum_{i=1}^n var(h_i) var(i=1nhi)=i=1nvar(hi)

      所以,

      E [ ( h ˉ − μ ) 2 ] = E [ ( h ˉ − E [ h ˉ ] ) 2 ] = v a r ( h ˉ ) = v a r ( ∑ i = 1 n h i n ) = 1 n 2 v a r ( ∑ i = 1 n h i ) = 1 n 2 ∑ i = 1 n v a r ( h i ) = n σ 2 n 2 = σ 2 n \begin{aligned} E[(\bar{h}-\mu)^2] &= E[(\bar{h} - E[\bar{h}])^2] = var(\bar h) \\ &=var\left(\frac{\sum_{i=1}^n h_i}{n}\right) \\ &=\frac{1}{n^2}var\left(\sum_{i=1}^n h_i\right) \\ &=\frac{1}{n^2}\sum_{i=1}^n var\left( h_i\right) \\ &=\frac{n\sigma^2}{n^2} \\ &=\frac{\sigma^2}{n} \\ \end{aligned} E[(hˉμ)2]=E[(hˉE[hˉ])2]=var(hˉ)=var(ni=1nhi)=n21var(i=1nhi)=n21i=1nvar(hi)=n2nσ2=nσ2

      将结果 E [ ( h ˉ − μ ) 2 ] = σ 2 n E[(\bar{h}-\mu)^2]=\frac{\sigma^2}{n} E[(hˉμ)2]=nσ2 代入得:

      E [ S 2 ] = σ 2 − E [ ( h ˉ − μ ) 2 ] = σ 2 − σ 2 n = n − 1 n σ 2 \begin{aligned} E[S^2]=& \sigma^2-E[(\bar h-\mu)^2] \\ =& \sigma^2-\frac{\sigma^2}{n} \\ =& \frac{n-1}{n}\sigma^2 \\ \end{aligned} E[S2]===σ2E[(hˉμ)2]σ2nσ2nn1σ2

      所以 S 2 S^2 S2 σ 2 \sigma^2 σ2 低估了 σ 2 n \frac{\sigma^2}{n} nσ2

      E [ S 2 ] = E [ 1 n ∑ i = 1 n ( h i − h ˉ ) 2 ] = n − 1 n σ 2 E[S^2]=E[\frac{1}{n}\sum_{i=1}^{n}(h_i-\bar h)^2]=\frac{n-1}{n}\sigma^2 E[S2]=E[n1i=1n(hihˉ)2]=nn1σ2

      S 2 S^2 S2 进行近似,相当于只得到了 n − 1 n σ 2 \frac{n-1}{n}\sigma^2 nn1σ2

      调整式子后,

      n n − 1 E [ 1 n ∑ i = 1 n ( h i − h ˉ ) 2 ] = σ 2 \frac{n}{n-1}E[\frac{1}{n}\sum_{i=1}^{n}(h_i-\bar h)^2]=\sigma^2 n1nE[n1i=1n(hihˉ)2]=σ2

      最终得,

      E [ 1 n − 1 ∑ i = 1 n ( h i − h ˉ ) 2 ] = σ 2 E[\frac{1}{n-1}\sum_{i=1}^{n}(h_i-\bar h)^2]=\sigma^2 E[n11i=1n(hihˉ)2]=σ2

      所以,如果想要使得估计值等于 σ 2 \sigma^2 σ2,应使用 1 n − 1 ∑ i = 1 n ( h i − h ˉ ) 2 \frac{1}{n-1}\sum_{i=1}^{n}(h_i-\bar h)^2 n11i=1n(hihˉ)2

      使用 1 n − 1 \frac{1}{n-1} n11 时才是无偏估计。

    展开全文
  • 总体样本方差无偏估计样本方差为什么除以n-1

    万次阅读 多人点赞 2018-08-01 15:02:22
    1)基本概念 我们先从最基本的一些概念入手。...应该把样本和总体样本一样进行抽象化理解,因此样本也存在期望和方差。 这里有一个重要的假设,就是随机选取的样本与总体样本同分布,它的意思...

    1)基本概念

    我们先从最基本的一些概念入手。

    如下图,脑子里要浮现出总体样本X,还有一系列随机选取的样本X_{1},X_{2},...,X_{n}。只要是样本,脑子里就要浮现出它的集合属性,它不是单个个体,而是一堆随机个体集合。样本X_{i}是总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。

    应该把样本X_{i}和总体样本X一样进行抽象化理解,因此样本X_{i}也存在期望E(X_{i})和方差D(X_{i})

    这里有一个重要的假设,就是随机选取的样本X_{i}与总体样本同分布,它的意思就是说他们的统计特性是完全一样的,即他们的期望值一样,他们的方差值也是一样的:

    E(X_{i})=E(X)=\mu

    D(X_{i})=D(X)=\sigma ^{2}

    另外,由于每个样本的选取是随机的,因此可以假设X_{1},X_{2},...,X_{n}不相关(意味着协方差为0,即Cov(X_{i},X{j})=0,i\neq j),根据方差性质就有:

    D(X_{i}+X_{j})=D(X_{i})+D(X_{j})+2Cov(X_{i},X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2}

    另外,还需要知道方差另外一个性质:

    D(aX_{i})=a^{2}D(X_{i}),a为常数。

    还有一个,别忘了方差的基本公式:

    D(X)=E(X^2)-E^2(X)

    以上的公式都很容易百度得到,也非常容易理解。这里不赘述。

    2)无偏估计

    接下来,我们来理解下什么叫无偏估计。

    定义:设统计量\hat{\Theta}=\hat{\Theta}(X_{1},X_{2},...,X_{n})是总体中未知参数\Theta的估计量,若E(\hat{\Theta })=\Theta,则称\hat{\Theta }\Theta无偏估计量;否则称为有偏估计量。

    上面这个定义的意思就是说如果你拿到了一堆样本观测值,然后想通过这一堆观测值去估计某个统计量\Theta,一般就是想估计总体的期望或方差,如果你选择的方法所估计出来的统计量\hat{\Theta}的期望值与总体样本的统计量\Theta相等,那么我们称这种方法下的估计量是无偏估计,否则,就称这种方法下的估计量为有偏估计量。

    按照这么理解,那么有偏无偏是针对你选择估计的方法所说的,它并不是针对具体某一次估计出来的估计量结果。如果方法不对,即使你恰好在某一次计算出来一个值和总体样本统计量值相同,也并不代表你选的这个方法是无偏的。为什么呢?这是因为单次\hat{\Theta}值是和你选取的样本相关的,每次样本(更加严格的意义是某次样本快照)的值变化了,那么每次\hat{\Theta}的值就有可能跟着变化,你就需对这么多\hat{\Theta}求期望值来判断\hat{\Theta}的可信程度,如果一直重复这个试验,然后它的期望值与总体样本的统计量\Theta一样,那么称按照这种方法估计出来的统计量是无偏的。

    来一点题外话:

    但凡是想通过有限的信息去"估计"一个整体的"量",这种情形下谈这个"估计"的方法“有偏”\“无偏”才有意义。一般来说,这种情形下,这个被估计的"量"肯定是有碍于技术或者现实情况无法严格准确获取,比如因为成本过高这些"量"无法通过穷举或者其他办法获知。否则,如果被估计的"量"很容易获取,就不需要"估计"了,采用统计方法就可以了。

    如果你只是要进行简单的"统计"就能获得你想要的"量",那么没必要去关心所采用的方法是"有偏"还是“无偏";尤其是当整体信息很容易获取的情况下谈"有偏"还是“无偏"就毫无意义。比如要谈某个班级的身高的平均值,直接将身高总数除以班级人数就可以了,因为根本没必要去"估计",因为它仅仅是个"统计"问题;同样的,求一个班级的身高方差也不用任何纠结,求方差过程中除以班级人数就OK了,没有必要非常变态的研究是除以"班级总人数"还是"班级总人数-1",你要是去纠结这个,那就是吃饱了撑的了。但是,假如学校有几万人,你要统计的是整个学校所有的人的平均身高,这个时候一个一个进行统计是不现实的,反而需要使用的"估计"的方法。你采用的方法是随便抓100个人过来,将这100人总的身高数值除以100,估计出来的平均值就可以假设认为是整个学校的身高平均值,因为,你是用部分样本估计了总体样本的一个”量“,所以这个是"估计";此时,要是估计整个学校学生身高的方差,如果要想估计方法"无偏", 那就不是除以100了,而是除以99。当然,如果你是一位粗人,无所谓啥"有偏"还是“无偏"的束缚,那么你直接除以100也不会遭到嘲笑的,具体原因得继续往下看。总之,无法通过整体直接"统计"获得你想要的"量"时,你只能通过"部分样本"来做"整体样本""量"的估计时,谈估计方法的"有偏"还是"无偏"才是有意义的。

    3)样本均值的无偏估计

    接下来探讨一下下面的结论:

    定理1:样本均值\bar{X}是总体样本均值\mu的无偏估计。

    注意:这里样本均值\bar{X}不是指某个样本X_{i}的均值。

    这里需要看上面这张图,这里的均指的是特定某次样本集合(X_{1},X_{2},...,X_{n})的快照(上图红色框),显然这个快照也是一个样本,只不过这个样本它的样本大小固定为n,这与抽象的样本不一样(一般我们想象抽象的样本,比如X_{i},是无限大的)。

    明显,

    第一个样本(快照)均值是长这样子的:\frac{1}{n}(x_{11}+x_{21}+...+x_{i1}+...+x_{n1})=\hat{\mu _{1}}

    第二个样本(快照)均值是长这样子的:\frac{1}{n}(x_{12}+x_{22}+...+x_{i2}+...+x_{n2})=\hat{\mu _{2}}

    ....依此类推...

    x_{ij}表示第j次随机从从本X_{i}获取一个个体。

    试验一直进行下去,你就会有一些列估计出来的样本(快照)均值\hat{\mu _{1}},\hat{\mu _{2}}...\hat{\mu _{i}},\hat{\mu _{m}}...,实际上这也称为了一个样本,我们称为均值的样本,既然是样本,它就也有统计量。我们这里重点关注这个均值样本的期望。因为按照估计量的有偏无偏定义,如果E(\hat{\mu})=\mu,那么按照这个方法估计的均值\hat{\mu }就是无偏的。仔细思考,估计量有偏无偏它是针对你所选定的某个估计方法所形成的估计量样本空间来讨论的,讨论单次试验形成的估计量是没有太大意义的,只有针对形成的估计量样本空间才有意义。

    下面验证上面的方法形成的\hat{\mu}估计是无偏的。

    E(\hat{\mu})=\frac{1}{m}(\hat{\mu}_{1}+\hat{\mu}_{2}+...+\hat{\mu}_{m})

    =\frac{1}{n}(\frac{x_{11}+x_{12}+...+x_{1m}}{m}+\frac{x_{21}+x_{22}+...+x_{2m}}{m}+...+\frac{x_{n1}+x_{n2}+...+x_{nm}}{m})

    =\frac{1}{n}(E(X_{1})+E(X_{2})+...+E(X_{n}))

    =\frac{1}{n}(n*\mu )

    =\mu

    这么一来,就和教科书和网上的资料结果上都对上了,教科书上的公式在下面列出(\hat{\mu}符号用\bar{X}代替):

    E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^{n}X_{i} )=\frac{1}{n}\sum_{i=1}^{n}E(X_{i})=\mu

    有了前面的分析,上面的教科书公式就很好理解了,注意,里头的X_{i}是原始样本,\bar{X}也是样本!!!  公式推导过程中,\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}表示了原始的(X_{1},X_{2},...,X_{n})样本快照求和后再除以n形成的估计量样本,所以是可以对其再进行求期望的。

    讨论完估计量样本\bar{X}的均值,我们别忘了,既然它是个样本,那么可以计算\bar{X}的方差D(\bar X)(后面会用到):

    D(\bar X)=D(\frac{1}{n}\sum_{i=1}^{n}X_{i})

    =\frac{1}{n^2}D(\sum_{i=1}^{n}X_{i})

    =\frac{n\sigma ^2}{n^2}=\frac{\sigma ^2}{n}

    所以,样本(快照)均值的期望还是总体期望,但是,样本(快照)均值的方差却不是原来的方差了,它变成原来方差的1/n。这也容易理解,方差变小了是由于样本不是原来的样本X_{i}了,现在的样本是均值化后的新样本\bar {X},既然均值化了,那么比起原来的老样本X_{i},它的离散程度显然是应当变小的。

    4)样本方差的无偏估计

    定理2:样本方差S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}是总体样本方差\sigma ^{2}的无偏估计。

    也就是需要证明下面的结论:

    E(S^2)=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^2)=\sigma ^2

    首先,脑子里要非常清楚,你截至目前,仅仅知道以下内容:

    E(X_{i})=E(X)=\mu

    D(X_{i})=D(X)=\sigma ^{2}

    Cov(X_{i}X{j})=0,i\neq j

    D(X_{i}+X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2},i\neq j

    D(X)=\sigma ^{2}=E(X^2)-E(X)^2=E(X^2)-\mu^2

    {\color{Red} E(\bar{X})=\mu}

    {\color{Red} D(\bar X)=\frac{\sigma ^2}{n}}

    其中前面5个来自1),最后2个来自3)。

    至于为什么是S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2},而不是S^{2}=\frac{1}{n}\sum_{n}^{i=1}(X_{i}-\bar{X})^{2},需要看下面的证明。

    E(S^{2})=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})=\frac{1}{n-1}E(\sum_{i=1}^{n}X_{i}^2-n \bar{X}^{2})

    =\frac{1}{n-1}(\sum_{i=1}^{n}E(X_{i}^2)-nE(\bar{X}^{2}) )

    =\frac{1}{n-1}(\sum_{i=1}^{n}[D(X_{i})+E^2(X_{i})]-n[D(\bar{X})+E^{2}(\bar{X}) ])

    =\frac{1}{n-1}(\sum_{i=1}^{n}[\sigma ^2+\mu^2]-n[\frac{1}{n}\sigma ^2+\mu^{2} ])=\sigma ^2

     

    那么为什么会导致这么个奇怪的结果,不是\frac{1}{n}而是\frac{1}{n-1}  ?

    仔细看上面的公式,如果D(\bar X)=0,那么就应该是\frac{1}{n}了,但是残酷的事实是D(\bar X)\neq 0(除非\sigma本身就等于0),导致\frac{1}{n-1}的罪魁祸首是D(\bar X)\neq 0。这就有告诉我们,D(\bar X)虽然将方差缩小了n倍,但是仍然还有残存,除非\sigma本身就等于0,才会有D(\bar X)=0,但这就意味着所有样本的个体处处等于\mu

    还有一种情况,如果你事先就知道\mu,那么S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}就是\sigma ^{2}的无偏估计,这个时候就是\frac{1}{n}了。

    ---------------------------------------------------------------------------------------------------------------------------------------------

    有人还是问我为什么\mu(总体均值)已知,就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}作为总体方差\sigma ^{2}的无偏估计,这个完全直接推导就可以证明。证明如下:

    E(S^{2})=E(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2})

    =\frac{1}{n}\sum_{i=1}^{n}E[(X_{i}-\mu)^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[E(X_{i}^2)-2\mu E(X_{i})+\mu^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[E(X_{i}^2)-\mu^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[\sigma^2+\mu^2-\mu^{2}]

    =\sigma^{2}

    这个结论告诉我们,如果某个人很牛逼,他可以知道确切的总体样本均值\mu,那么就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}来估计总体样本方差\sigma^{2},并且这个估计方法是保证你无偏的。

    而上面的S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2},请睁大眼睛看清楚,用的是\bar{X}。大部分的实际应用情况下,谁也不知道总体样本均值\mu(请问你知道全球人均身高么?鬼知道,地球上没有一个人可以知道!我想即使是外星爸爸也不知道!),但是我还是想在全球人都不知道的情况下去估计总体的身高方差,怎么办?现在有个办法,我们可以去抓一些人(部分样本)来做一个部分样本均值,那就用部分样本均值也就是\bar{X}来近似代表\mu(上面的定理1告诉我们这种方法对于估计\mu是无偏的),但是现在我想估计另外一个东东,那个东东叫总体样本方差\sigma^{2}。好了,我们可以也用\bar{X}代入S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}来估计总体样本方差\sigma^{2},并且如前面所分析的,这个估计方法针对\sigma^{2}是无偏的。(至于为啥是奇怪的\frac{1}{n-1},简单直接的原因是因为我不知道总体样本均值\mu,因为如果你能够知道\mu,我们就可以不需要用奇怪的\frac{1}{n-1},我们就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}去估计总体样本方差)。

    总之,S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}是理论上的总体样本方差。S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}是实际应用中采用的总体样本方差估计。

    ------------------------------------------------------------------------------------------------------------------------------------------------------------------

    统计学中还有一个"自由度"的概念。为什么是除以n-1还可以从自由度角度进行解释,具体可以参看下面百度的解释:

    自由度 (统计学的自由度)

    展开全文
  • 综合资料一二三,分析(有偏和无偏估计量)方差。 资料一: 资料二: 资料三: 资料四: 分析: 此处包含方差的一个公式,方差 = 平方的期望 - 期望的平方 ...

    资料众说纷纭,莫衷一是,综合资料一二三,分析了期望和均值的区别,分析了(有偏和无偏估计量)方差。

     

    感谢那神。

     

    分析:  此处包含方差的一个公式,方差 = 平方的期望 - 期望的平方

    D(X)=E((X-EX)^{^{2^{^{}}}}) =E(X^{2}-2X\times EX+(EX)^{2})=E(X^{2})-2EX\times EX+(EX)^{2}=E(X^{2})-(EX)^{2}

     

    期望:期望叫做总体均值,是概率下的平均。平时说的均值叫 算数平均 或是 样本均值,就是简单把几个数加起来再除以个数。

    样本均值也是一个随机变量,它的期望等于总体均值(也就是期望),所以说样本均值是一个无偏统计量。

     

    样本均值:因为没办法直接探知总体是什么情况,只能抽一个样本来计算。样本的平均数,可以用来估计总体的期望是多少。

    比如量一个东西的长度,这个长度是个真实存在的值,但是量了5次,每次数据都不一样,所以用5次测量结果的平均数来估计这个长度。

     

     

    附上正态分布:

     

     

    资料一:

     

    资料二:

     

     

     

    资料三:

     

    资料四:

     

     

     

     

     

    展开全文
  • 从定义开始,一文看懂无偏估计方差为什么是n-1

    万次阅读 多人点赞 2017-10-18 15:11:26
    什么叫无偏估计?为什么方差的定义里写的是1/n,但又说无偏估计是1/(n-1)?本文本着一切都从定义开始的原则,推导无偏估计方差

    什么叫无偏估计?为什么方差的定义里写的是 1 n \frac{1}{n} n1,但又说无偏估计是 1 n − 1 \frac{1}{n-1} n11?好像有人说道自由度是 n − 1 n-1 n1?自由度又是什么?

    本文本着一切都从定义开始的原则,推导无偏估计的方差

    X 1 , X 1 , ⋯   , X n X_1, X_1,\cdots, X_n X1,X1,,Xn是n个采样样本。则这n个样本的无偏估计下的方差为
    σ 2 = 1 n − 1 [ ∑ i = 1 n ( X i − X i ˉ ) 2 ] \sigma^2 = \frac{1}{n-1}[\sum^{n}_{i=1}(X_i-\bar{X_i})^2] σ2=n11[i=1n(XiXiˉ)2]

    证明:
    首先回顾方差期望的知识:

    1.独立变量X和Y,期望值满足: E ( X Y ) = E X ∗ E Y E(XY)=EX*EY E(XY)=EXEY
    可以通过期望独立的定义得出。
    独立变量乘积的期望值的证明

    2.方差、期望、协方差的性质总结
    由独立变量之间的方差的线性性质,容易得到 X ˉ \bar{X} Xˉ的方差:
    V a r ( X ˉ ) = 1 n V a r ( X ) Var(\bar{X})=\frac{1}{n}Var(X) Var(Xˉ)=n1Var(X)
    证明在此。
    或者写作:
    σ ( X ˉ ) 2 = 1 n σ ( X ) 2 \sigma(\bar{X})^2=\frac{1}{n}\sigma(X)^2 σ(Xˉ)2=n1σ(X)2

    3.二阶中心距:
    V a r ( X ) = E ( X 2 ) − ( E ( X ) ) 2 Var(X)=E(X^2)-(E(X))^2 Var(X)=E(X2)(E(X))2,可得:
    E ( X 2 ) = V a r ( X ) + ( E ( X ) ) 2 = σ 2 + μ 2 E(X^2) = Var(X) + (E(X))^2 = \sigma^2+\mu^2 E(X2)=Var(X)+(E(X))2=σ2+μ2
    同理对于 X ˉ \bar{X} Xˉ,则有:
    E ( X ˉ 2 ) = V a r ( X ˉ ) + ( E ( X ˉ ) ) 2 = 1 n σ 2 + μ 2 E(\bar{X}^2) = Var(\bar{X}) + (E(\bar{X}))^2 = \frac{1}{n}\sigma^2+\mu^2 E(Xˉ2)=Var(Xˉ)+(E(Xˉ))2=n1σ2+μ2

    4.无偏估计知识的复习:

    无偏估计的定义是:对随机变量 θ \theta θ的估计是 θ ^ \hat{\theta} θ^,如果 E ( θ ^ ) = E ( θ ) E(\hat{\theta})=E(\theta) E(θ^)=E(θ),则称 θ ^ \hat{\theta} θ^ θ \theta θ的无偏估计。

    首先,方差的定义应该是 1 n [ ∑ i = 1 n ( X i − μ ) 2 ] \frac{1}{n}[\sum^{n}_{i=1}(X_i-\mu)^2] n1[i=1n(Xiμ)2],其中 μ = E ( X i ) \mu=E(X_i) μ=E(Xi)

    注意,关键在于,我们不知道 μ \mu μ,只有 X ˉ \bar{X} Xˉ,但是 X ˉ \bar{X} Xˉ 不等于 μ \mu μ

    我们先根据我们现有的 X i X_i Xi X ˉ \bar{X} Xˉ来计算 ∑ i = 1 n ( X i − X i ˉ ) 2 \sum^{n}_{i=1}(X_i-\bar{X_i})^2 i=1n(XiXiˉ)2的期望。

    E ( ∑ i = 1 n ( X i − X ˉ ) 2 ) E(\sum^{n}_{i=1}(X_i-\bar{X})^2) E(i=1n(XiXˉ)2)
    = E ( ∑ i = 1 n ( X i 2 − 2 X ˉ X i + X ˉ 2 ) =E(\sum^{n}_{i=1}(X_i^2-2\bar{X}X_i+\bar{X}^2) =E(i=1n(Xi22XˉXi+Xˉ2)
    = E ( ∑ i = 1 n X i 2 ) − E ( ∑ i = 1 n 2 X ˉ X i ) + E ( ∑ i = 1 n X ˉ 2 ) =E(\sum^{n}_{i=1}X_i^2)-E(\sum^{n}_{i=1}2\bar{X}X_i)+E(\sum^{n}_{i=1}\bar{X}^2) =E(i=1nXi2)E(i=1n2XˉXi)+E(i=1nXˉ2)
    = ∑ i = 1 n E ( X i 2 ) − 2 E ( X ˉ ∑ i = 1 n X i ) + ∑ i = 1 n E ( X ˉ 2 ) =\sum^{n}_{i=1}E(X_i^2)-2E(\bar{X}\sum^{n}_{i=1}X_i)+\sum^{n}_{i=1}E(\bar{X}^2) =i=1nE(Xi2)2E(Xˉi=1nXi)+i=1nE(Xˉ2)
    = ∑ i = 1 n E ( X i 2 ) − 2 E ( X ˉ ∑ i = 1 n X i ) + n ⋅ E ( X ˉ 2 ) =\sum^{n}_{i=1}E(X_i^2)-2E(\bar{X}\sum^{n}_{i=1}X_i)+n \cdot E(\bar{X}^2) =i=1nE(Xi2)2E(Xˉi=1nXi)+nE(Xˉ2)

    其中第二项可以改写为:
    2 E ( X ˉ ∑ i = 1 n X i ) = 2 E ( X ˉ ⋅ n X ˉ ) = 2 n ⋅ E ( X ˉ 2 ) 2E(\bar{X}\sum^{n}_{i=1}X_i)=2E(\bar{X}\cdot n\bar{X})=2n\cdot E(\bar{X}^2) 2E(Xˉi=1nXi)=2E(XˉnXˉ)=2nE(Xˉ2)
    带入回去,第二三项合并得到:
    E ( ∑ i = 1 n ( X i − X ˉ ) 2 ) = ∑ i = 1 n E ( X i 2 ) − n ⋅ E ( X ˉ 2 ) E(\sum^{n}_{i=1}(X_i-\bar{X})^2)=\sum^{n}_{i=1}E(X_i^2)-n \cdot E(\bar{X}^2) E(i=1n(XiXˉ)2)=i=1nE(Xi2)nE(Xˉ2)
    将第3点的中心距带入:
    E ( ∑ i = 1 n ( X i − X ˉ ) 2 ) = ∑ i = 1 n ( σ 2 + μ 2 ) − n ⋅ ( 1 n σ 2 + μ 2 ) E(\sum^{n}_{i=1}(X_i-\bar{X})^2)=\sum^{n}_{i=1}(\sigma^2+\mu^2)-n \cdot (\frac{1}{n}\sigma^2+\mu^2) E(i=1n(XiXˉ)2)=i=1n(σ2+μ2)n(n1σ2+μ2)
    = n ( σ 2 + μ 2 ) − n ( 1 n σ 2 + μ 2 ) =n(\sigma^2+\mu^2)-n(\frac{1}{n}\sigma^2+\mu^2) =n(σ2+μ2)n(n1σ2+μ2)
    = ( n − 1 ) σ 2 =(n-1)\sigma^2 =(n1)σ2
    我们希望得到的是 σ \sigma σ,而我们可以算出的是 E ( ∑ i = 1 n ( X i − X ˉ ) 2 ) E(\sum^{n}_{i=1}(X_i-\bar{X})^2) E(i=1n(XiXˉ)2)。因此,只要我们最开始的公式中加一个 1 / ( n − 1 ) 1/(n-1) 1/(n1),就能无偏的计算出方差。
    因此,无偏的方差应该是:
    σ 2 = 1 n − 1 [ ∑ i = 1 n ( X i − X i ˉ ) 2 ] \sigma^2 = \frac{1}{n-1}[\sum^{n}_{i=1}(X_i-\bar{X_i})^2] σ2=n11[i=1n(XiXiˉ)2]

    附:

    《概率论与数理统计教程》茆诗松 高等教育出版社: P296
    无偏估计:对于总体,样本均值是总体均值的无偏估计,如果k阶原点距期望存在,则样本的k阶原点矩也是无偏估计, 但中心距不是。
    但不具有不变性,即:若 θ ^ \hat{\theta} θ^ θ \theta θ的无偏估计, g ( θ ^ ) g(\hat{\theta}) g(θ^)不一定是 g ( θ ) g(\theta) g(θ)的无偏估计,除非是线性函数。

    展开全文
  • 估计——最小方差无偏估计

    千次阅读 2019-03-21 11:28:20
    - 确定好的估计量 - 建立数据的数学模型:一般由于数据固有的随机性,则选择它们的PDF来描述它,...- 最佳估计量的选择:估计量性能的评估(无偏性、有效性以及一致性)。常用的方法:期望验证无偏;CRLB(Cramer-R...
  • 样本均值和样本方差  首先对于样本$x_1...x_n$来说,他们的均值为与方差分别为:  $\bar{x} = \frac{1}{n}\sum\limits_{i=1}^{n}x_i$ ... 要证明样本方差无偏性,首先要计算样本均值的方差。 样本均值的方差...
  • 样本方差无偏估计

    千次阅读 2021-04-08 18:16:59
    样本方差无偏估计样本方差问题背景S2S^2S2的近似作用为什么使用Xˉ\bar XXˉ替代后,分母是1n\frac{1}{n}n1​?无偏估计无偏性有效性一致性小结 参考文章:如何理解无偏估计量? by 马同学 样本方差 问题背景 首先...
  • 样本方差是总体方差无偏估计

    千次阅读 2020-07-30 20:47:55
    总体均值 μ=1N∑xi\mu = \frac{1}{N}\sum x_iμ=N1​∑xi​, 总体方差 σ2=1N∑i(xi−μ)2\sigma^2 = \frac{1}{N}\sum_i (x_i - \mu)^2σ2=N1​∑i​(xi​−μ)2 样本均值 xˉ=1n∑xi\bar{x} = \frac{1}{n}\sum x_...
  • 方差无偏估计

    千次阅读 2020-05-21 21:52:30
    方差无偏估计如何计算? 我们常常被问到"方差无偏估计如何计算?和有偏估计的区别是什么?",心想"哎呀,又忘了"。本篇回归问题本质,带你理解这些名词背后解决的实际问题(通过总结回顾,无意中解决了一年...
  • 样本总体方差偏估计无偏估计的理解

    万次阅读 多人点赞 2019-06-22 15:47:34
    是关于方差无偏估计,那么为什么一个是/(n-1),为什么一个是/n呢 首先我们清楚几个公式, D(x)= E(x)= 有一个重要的假设,就是随机选取的样本与总体样本同分布,它的意思就是说他们的统计特性是完全一样的,...
  • 估计——一般最小方差无偏估计

    千次阅读 2019-03-22 22:14:43
    - 回顾 ...前面一直在讲述估计量的有效性(CRLB,线性模型),而没有提到假如估计量的方差没有达到CRLB,即是有效估计量不存在,但能够出MVU估计量(假定存在)仍然是一个重要的事(可参考文章中的图片...
  • import torch dat = torch.Tensor([1,2,3]) # 1.均值 dat_mean = torch.mean(dat) # =>... dat_var1 = tensor(1.),对应于无偏估计 dat_var2 = torch.var(dat, unbiased=False) # => dat_v.
  • 高斯分布的样本方差无偏估计

    千次阅读 2018-12-21 17:05:51
    (一)高斯分布  高斯分布又称正态分布,是大自然中最常见的一种数据分布方式,在机器学习的各类算法中,经常要遇到随机数的生成,我们通常采用高斯分布来进行随机数的...(二)无偏估计  现实生活中,通常要面...
  • 方差无偏估计

    千次阅读 2019-08-01 10:57:56
    今天的博客其实是一...方差其实这个概念相信大家都知道,就是D(x)=1n∑i=1n(xi−E(xi))2D(x)=\frac{1}{n}\sum_{i=1}^n(x_i-E(x_i))^2D(x)=n1​∑i=1n​(xi​−E(xi​))2,其实就是每个样本和均值均方差的平均...
  • 最小方差无偏估计 2.1 无偏估计量 ​ 无偏估计意味着估计量的平均为未知参数的真值。如果 E[θ^]=θ,a<θ<b E[\hat{\theta}]=\theta, a<\theta<b E[θ^]=θ,a<θ<b 说明估计量θ^\hat{\theta}θ...
  • 未决赔款准备金的一致最小方差无偏估计,张丽亚,吴黎军,使用当前保险实务中常用的未决赔款准备金计提方法,我们仅仅可以得到未决赔款准备金的一个估计值,而方差却没有研究。本文基
  • 什么是无偏估计?? 估计是用样本统计量(可以理解为随机抽样)来估计总体参数时的一种偏推断。 无偏估计的要求就是:估计出来的参数的数学期望等于被估计参数的真实值。 所以呢,可以看出:估计值也是一个变量,...
  •    为了方便后面的表述,我们用 X¯X¯\bar{X} 表示样本均值,用 S2S2S^{2} 表示样本方差,用 uuu 表示总体均值,用 σ2σ2\sigma ^{2} 表示总体方差。 总体方差   整体方差的求得过...
  • 文章目录1、无偏估计量2、最小方差准则3、最小方差无偏估计的存在性4、最小方差无偏估计量5、扩展到矢量参数 1、无偏估计量   未知参数进行估计,得到估计量。而所谓无偏估计,是指估计量的均值,等于未知参数...
  • &nbsp; &nbsp; 设样本均值为,样本方差为,总体均值... 很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,样本方差的估计不是无偏估计,比总体方差要小,...
  • 最简单的原因,是因为因为均值已经用了n个数的平均来做估计求方差时,只有(n-1)个数和均值信息是不相关的。而你的第n个数已经可以由前(n-1)个数和均值 来唯一确定,实际上没有信息量。所以在计算方差时,只除以...
  • 样本的均值和方差无偏估计

    千次阅读 2017-06-12 10:39:00
    什么是无偏估计?? 估计是用样本统计量(可以理解为随机抽样)来估计总体参数时的一种偏推断。 无偏估计的要求就是:估计出来的参数的数学期望等于被估计参数的真实值。 所以呢,可以看出:估计值也是一个变量,...
  • 方差无偏估计如何计算?

    千次阅读 2019-06-06 18:23:00
    我们常常被问到"方差无偏估计如何计算?和有偏估计的区别是什么?",心想"哎呀,又忘了"。本篇回归问题本质,带你理解这些名词背后解决的实际问题(通过总结回顾,无意中解决了一年以来萦绕脑海的遗留问题,开森~~...
  • 问题来源在学习模式分类过程中,我们会用到极大似然估计,最常见的是用它来估计期望和方差,而概率论中有这个结论,就是极大似然估计得到的方差是有的,那么为什么呢? 这里我们用数学的方法其证明
  • 均值 X‾=∑i=1nXin\overline X=\frac{\sum_{i=1}^{n}X_i}{n}X=n∑i=1n​Xi​​ ...方差 s=∑i=1n(Xi−X‾)2n−1s=\frac{\sum_{i=1}^{n}(X_i-\overline X)^2}{n-1}s=n−1∑i=1n​(Xi​−X)2​ 为什
  • 样本方差无偏估计样本均值和样本方差的公式为什么样本方差除以n−1n-1n−1而不是nnn呢?无偏估计证明用到的定理 设X1,...,XnX_1, ..., X_nX1​,...,Xn​是从期望为μ\muμ、方差为σ2\sigma^2σ2的总体中抽取的...
  • 样本方差无偏估计与(n-1)的由来 一、无偏估计 所谓总体参数估计量的偏性指的是,基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。  在某些场合下,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,162
精华内容 5,664
关键字:

对无偏估计值求方差