精华内容
下载资源
问答
  • 盐城快速路网N标安全总体方案.doc
  • 总体样本方差的无偏估计样本方差为什么除以n-1

    万次阅读 多人点赞 2018-08-01 15:02:22
    样本是总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。 应该把样本和总体样本一样进行抽象化理解,因此样本也存在期望和方差。 这里有一个重要的假设,就是随机选取的样本与总体样本同分布,它...

    1)基本概念

    我们先从最基本的一些概念入手。

    如下图,脑子里要浮现出总体样本X,还有一系列随机选取的样本X_{1},X_{2},...,X_{n}。只要是样本,脑子里就要浮现出它的集合属性,它不是单个个体,而是一堆随机个体集合。样本X_{i}是总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。

    应该把样本X_{i}和总体样本X一样进行抽象化理解,因此样本X_{i}也存在期望E(X_{i})和方差D(X_{i})

    这里有一个重要的假设,就是随机选取的样本X_{i}与总体样本同分布,它的意思就是说他们的统计特性是完全一样的,即他们的期望值一样,他们的方差值也是一样的:

    E(X_{i})=E(X)=\mu

    D(X_{i})=D(X)=\sigma ^{2}

    另外,由于每个样本的选取是随机的,因此可以假设X_{1},X_{2},...,X_{n}不相关(意味着协方差为0,即Cov(X_{i},X{j})=0,i\neq j),根据方差性质就有:

    D(X_{i}+X_{j})=D(X_{i})+D(X_{j})+2Cov(X_{i},X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2}

    另外,还需要知道方差另外一个性质:

    D(aX_{i})=a^{2}D(X_{i}),a为常数。

    还有一个,别忘了方差的基本公式:

    D(X)=E(X^2)-E^2(X)

    以上的公式都很容易百度得到,也非常容易理解。这里不赘述。

    2)无偏估计

    接下来,我们来理解下什么叫无偏估计。

    定义:设统计量\hat{\Theta}=\hat{\Theta}(X_{1},X_{2},...,X_{n})是总体中未知参数\Theta的估计量,若E(\hat{\Theta })=\Theta,则称\hat{\Theta }\Theta无偏估计量;否则称为有偏估计量。

    上面这个定义的意思就是说如果你拿到了一堆样本观测值,然后想通过这一堆观测值去估计某个统计量\Theta,一般就是想估计总体的期望或方差,如果你选择的方法所估计出来的统计量\hat{\Theta}的期望值与总体样本的统计量\Theta相等,那么我们称这种方法下的估计量是无偏估计,否则,就称这种方法下的估计量为有偏估计量。

    按照这么理解,那么有偏无偏是针对你选择估计的方法所说的,它并不是针对具体某一次估计出来的估计量结果。如果方法不对,即使你恰好在某一次计算出来一个值和总体样本统计量值相同,也并不代表你选的这个方法是无偏的。为什么呢?这是因为单次\hat{\Theta}值是和你选取的样本相关的,每次样本(更加严格的意义是某次样本快照)的值变化了,那么每次\hat{\Theta}的值就有可能跟着变化,你就需对这么多\hat{\Theta}求期望值来判断\hat{\Theta}的可信程度,如果一直重复这个试验,然后它的期望值与总体样本的统计量\Theta一样,那么称按照这种方法估计出来的统计量是无偏的。

    来一点题外话:

    但凡是想通过有限的信息去"估计"一个整体的"量",这种情形下谈这个"估计"的方法“有偏”\“无偏”才有意义。一般来说,这种情形下,这个被估计的"量"肯定是有碍于技术或者现实情况无法严格准确获取,比如因为成本过高这些"量"无法通过穷举或者其他办法获知。否则,如果被估计的"量"很容易获取,就不需要"估计"了,采用统计方法就可以了。

    如果你只是要进行简单的"统计"就能获得你想要的"量",那么没必要去关心所采用的方法是"有偏"还是“无偏";尤其是当整体信息很容易获取的情况下谈"有偏"还是“无偏"就毫无意义。比如要谈某个班级的身高的平均值,直接将身高总数除以班级人数就可以了,因为根本没必要去"估计",因为它仅仅是个"统计"问题;同样的,求一个班级的身高方差也不用任何纠结,求方差过程中除以班级人数就OK了,没有必要非常变态的研究是除以"班级总人数"还是"班级总人数-1",你要是去纠结这个,那就是吃饱了撑的了。但是,假如学校有几万人,你要统计的是整个学校所有的人的平均身高,这个时候一个一个进行统计是不现实的,反而需要使用的"估计"的方法。你采用的方法是随便抓100个人过来,将这100人总的身高数值除以100,估计出来的平均值就可以假设认为是整个学校的身高平均值,因为,你是用部分样本估计了总体样本的一个”量“,所以这个是"估计";此时,要是估计整个学校学生身高的方差,如果要想估计方法"无偏", 那就不是除以100了,而是除以99。当然,如果你是一位粗人,无所谓啥"有偏"还是“无偏"的束缚,那么你直接除以100也不会遭到嘲笑的,具体原因得继续往下看。总之,无法通过整体直接"统计"获得你想要的"量"时,你只能通过"部分样本"来做"整体样本""量"的估计时,谈估计方法的"有偏"还是"无偏"才是有意义的。

    3)样本均值的无偏估计

    接下来探讨一下下面的结论:

    定理1:样本均值\bar{X}是总体样本均值\mu的无偏估计。

    注意:这里样本均值\bar{X}不是指某个样本X_{i}的均值。

    这里需要看上面这张图,这里的均指的是特定某次样本集合(X_{1},X_{2},...,X_{n})的快照(上图红色框),显然这个快照也是一个样本,只不过这个样本它的样本大小固定为n,这与抽象的样本不一样(一般我们想象抽象的样本,比如X_{i},是无限大的)。

    明显,

    第一个样本(快照)均值是长这样子的:\frac{1}{n}(x_{11}+x_{21}+...+x_{i1}+...+x_{n1})=\hat{\mu _{1}}

    第二个样本(快照)均值是长这样子的:\frac{1}{n}(x_{12}+x_{22}+...+x_{i2}+...+x_{n2})=\hat{\mu _{2}}

    ....依此类推...

    x_{ij}表示第j次随机从从本X_{i}获取一个个体。

    试验一直进行下去,你就会有一些列估计出来的样本(快照)均值\hat{\mu _{1}},\hat{\mu _{2}}...\hat{\mu _{i}},\hat{\mu _{m}}...,实际上这也称为了一个样本,我们称为均值的样本,既然是样本,它就也有统计量。我们这里重点关注这个均值样本的期望。因为按照估计量的有偏无偏定义,如果E(\hat{\mu})=\mu,那么按照这个方法估计的均值\hat{\mu }就是无偏的。仔细思考,估计量有偏无偏它是针对你所选定的某个估计方法所形成的估计量样本空间来讨论的,讨论单次试验形成的估计量是没有太大意义的,只有针对形成的估计量样本空间才有意义。

    下面验证上面的方法形成的\hat{\mu}估计是无偏的。

    E(\hat{\mu})=\frac{1}{m}(\hat{\mu}_{1}+\hat{\mu}_{2}+...+\hat{\mu}_{m})

    =\frac{1}{n}(\frac{x_{11}+x_{12}+...+x_{1m}}{m}+\frac{x_{21}+x_{22}+...+x_{2m}}{m}+...+\frac{x_{n1}+x_{n2}+...+x_{nm}}{m})

    =\frac{1}{n}(E(X_{1})+E(X_{2})+...+E(X_{n}))

    =\frac{1}{n}(n*\mu )

    =\mu

    这么一来,就和教科书和网上的资料结果上都对上了,教科书上的公式在下面列出(\hat{\mu}符号用\bar{X}代替):

    E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^{n}X_{i} )=\frac{1}{n}\sum_{i=1}^{n}E(X_{i})=\mu

    有了前面的分析,上面的教科书公式就很好理解了,注意,里头的X_{i}是原始样本,\bar{X}也是样本!!!  公式推导过程中,\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}表示了原始的(X_{1},X_{2},...,X_{n})样本快照求和后再除以n形成的估计量样本,所以是可以对其再进行求期望的。

    讨论完估计量样本\bar{X}的均值,我们别忘了,既然它是个样本,那么可以计算\bar{X}的方差D(\bar X)(后面会用到):

    D(\bar X)=D(\frac{1}{n}\sum_{i=1}^{n}X_{i})

    =\frac{1}{n^2}D(\sum_{i=1}^{n}X_{i})

    =\frac{n\sigma ^2}{n^2}=\frac{\sigma ^2}{n}

    所以,样本(快照)均值的期望还是总体期望,但是,样本(快照)均值的方差却不是原来的方差了,它变成原来方差的1/n。这也容易理解,方差变小了是由于样本不是原来的样本X_{i}了,现在的样本是均值化后的新样本\bar {X},既然均值化了,那么比起原来的老样本X_{i},它的离散程度显然是应当变小的。

    4)样本方差的无偏估计

    定理2:样本方差S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}是总体样本方差\sigma ^{2}的无偏估计。

    也就是需要证明下面的结论:

    E(S^2)=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^2)=\sigma ^2

    首先,脑子里要非常清楚,你截至目前,仅仅知道以下内容:

    E(X_{i})=E(X)=\mu

    D(X_{i})=D(X)=\sigma ^{2}

    Cov(X_{i}X{j})=0,i\neq j

    D(X_{i}+X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2},i\neq j

    D(X)=\sigma ^{2}=E(X^2)-E(X)^2=E(X^2)-\mu^2

    {\color{Red} E(\bar{X})=\mu}

    {\color{Red} D(\bar X)=\frac{\sigma ^2}{n}}

    其中前面5个来自1),最后2个来自3)。

    至于为什么是S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2},而不是S^{2}=\frac{1}{n}\sum_{n}^{i=1}(X_{i}-\bar{X})^{2},需要看下面的证明。

    E(S^{2})=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})=\frac{1}{n-1}E(\sum_{i=1}^{n}X_{i}^2-n \bar{X}^{2})

    =\frac{1}{n-1}(\sum_{i=1}^{n}E(X_{i}^2)-nE(\bar{X}^{2}) )

    =\frac{1}{n-1}(\sum_{i=1}^{n}[D(X_{i})+E^2(X_{i})]-n[D(\bar{X})+E^{2}(\bar{X}) ])

    =\frac{1}{n-1}(\sum_{i=1}^{n}[\sigma ^2+\mu^2]-n[\frac{1}{n}\sigma ^2+\mu^{2} ])=\sigma ^2

     

    那么为什么会导致这么个奇怪的结果,不是\frac{1}{n}而是\frac{1}{n-1}  ?

    仔细看上面的公式,如果D(\bar X)=0,那么就应该是\frac{1}{n}了,但是残酷的事实是D(\bar X)\neq 0(除非\sigma本身就等于0),导致\frac{1}{n-1}的罪魁祸首是D(\bar X)\neq 0。这就有告诉我们,D(\bar X)虽然将方差缩小了n倍,但是仍然还有残存,除非\sigma本身就等于0,才会有D(\bar X)=0,但这就意味着所有样本的个体处处等于\mu

    还有一种情况,如果你事先就知道\mu,那么S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}就是\sigma ^{2}的无偏估计,这个时候就是\frac{1}{n}了。

    ---------------------------------------------------------------------------------------------------------------------------------------------

    有人还是问我为什么\mu(总体均值)已知,就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}作为总体方差\sigma ^{2}的无偏估计,这个完全直接推导就可以证明。证明如下:

    E(S^{2})=E(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2})

    =\frac{1}{n}\sum_{i=1}^{n}E[(X_{i}-\mu)^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[E(X_{i}^2)-2\mu E(X_{i})+\mu^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[E(X_{i}^2)-\mu^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[\sigma^2+\mu^2-\mu^{2}]

    =\sigma^{2}

    这个结论告诉我们,如果某个人很牛逼,他可以知道确切的总体样本均值\mu,那么就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}来估计总体样本方差\sigma^{2},并且这个估计方法是保证你无偏的。

    而上面的S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2},请睁大眼睛看清楚,用的是\bar{X}。大部分的实际应用情况下,谁也不知道总体样本均值\mu(请问你知道全球人均身高么?鬼知道,地球上没有一个人可以知道!我想即使是外星爸爸也不知道!),但是我还是想在全球人都不知道的情况下去估计总体的身高方差,怎么办?现在有个办法,我们可以去抓一些人(部分样本)来做一个部分样本均值,那就用部分样本均值也就是\bar{X}来近似代表\mu(上面的定理1告诉我们这种方法对于估计\mu是无偏的),但是现在我想估计另外一个东东,那个东东叫总体样本方差\sigma^{2}。好了,我们可以也用\bar{X}代入S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}来估计总体样本方差\sigma^{2},并且如前面所分析的,这个估计方法针对\sigma^{2}是无偏的。(至于为啥是奇怪的\frac{1}{n-1},简单直接的原因是因为我不知道总体样本均值\mu,因为如果你能够知道\mu,我们就可以不需要用奇怪的\frac{1}{n-1},我们就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}去估计总体样本方差)。

    总之,S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}是理论上的总体样本方差。S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}是实际应用中采用的总体样本方差估计。

    ------------------------------------------------------------------------------------------------------------------------------------------------------------------

    统计学中还有一个"自由度"的概念。为什么是除以n-1还可以从自由度角度进行解释,具体可以参看下面百度的解释:

    自由度 (统计学的自由度)

    展开全文
  • 总体方差与样本方差分母的小小区别,n还是n-1?引入方差概念方差计算无偏估计样本方差公式相关参考链接样本方差的自由度是n-1 引入 方差概念 方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,用来...

    引入

    方差概念

    方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,用来度量随机变量和其数学期望(即均值)之间的偏离程度。

    方差计算

    定义:
    D X = E ( X − E X ) 2 = E X 2 − ( E X ) 2 D X=E(X-E X)^{2}=E X^{2}-(E X)^{2} DX=E(XEX)2=EX2(EX)2
    离散型和连续型的随机变量计算公式分别为:
    D ( X ) = { ∑ k = 1 ∞ [ x k − E ( X ) ] 2 p k , ∫ − ∞ ∞ [ x k − E ( X ) ] 2 f ( x ) d x \boldsymbol{D}(\boldsymbol{X})=\left\{\begin{array}{c} {\sum_{k=1}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(\boldsymbol{X})\right]^{2} p_{k},} \\ {\int_{-\infty}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(\boldsymbol{X})\right]^{2} f(\boldsymbol{x}) d \boldsymbol{x}} \end{array}\right. D(X)={k=1[xkE(X)]2pk,[xkE(X)]2f(x)dx
    当给出具体数据进行分析时我们常用到如下两个公式
    总体方差:
    σ 2 = ∑ i = 1 N ( x i − μ ) 2 N \sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N} σ2=Ni=1N(xiμ)2
    样本方差:
    S 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{X}\right)^{2} S2=n11i=1n(xiXˉ)2

    那么为什么总体方差和样本方差的分母不同呢?

    首先应该明确
    1、在用样本方差公式进行计算时,我们并不知道x的分布情况,也不知道 μ \mu μ X ˉ \bar{X} Xˉ是所给样本的平均值,其值并不一定等于 μ \mu μ
    2、总体方差是确定的,是综合所有数据后得到的方差,同理, μ \mu μ也是由所有数据得到的确数。而 X ˉ \bar{X} Xˉ S 2 S^{2} S2是根据部分数据 μ \mu μ σ 2 \sigma^{2} σ2进行估计。
    3、总体方差
    也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差,除数是N。如果实现已知期望值,比如测水的沸点,那么测量10次,测量值和期望值之间是独立的(期望值不依测量值而改变,随你怎么折腾,温度计坏了也好,看反了也好,总之,期望值应该是100度),那么E『(X-期望)^2』,就有10个自由度。事实上,它等于(X-期望)的方差,减去(X-期望)的平方。” 所以叫做有偏估计,测量结果偏于那个”已知的期望值“。
    样本方差
    无偏估计、无偏方差(unbiased variance)。对于一组随机变量,从中随机抽取N个样本,这组样本的方差就是Xi^2平方和除以N-1。这可以推导出来的。如果现在往水里撒把盐,水的沸点未知了,那我该怎么办? 我只能以样本的平均值,来代替原先那个期望100度。 同样的过程,但原先的(X-期望),被(X-均值)所代替。 设想一下(Xi-均值)的方差,它不在等于Xi的方差, 而是有一个协方差,因为均值中,有一项Xi/n是和Xi相关的,这就是那个"偏"的由来
    样本方差与总体方差的区别

    我们先讨论一个样本时:
    (此段引自 link.)
    对于样本方差来说,假如从总体中只取一个样本,即n=1,那么样本方差公式的分子分母都为0——方差完全不确定。这很好理解,因为样本方差是用来估 计总体中个体之间的变化大小,只拿到一个个体,当然完全看不出变化大小。反之,如果公式的分母不是n-1而是n,计算出的方差就是0——这是不合理的,因 为不能只看到一个个体就断定总体的个体之间变化大小为0。

    对于总体方差来说,假如总体中只有一个个体,即N=1,那么方差,即个体的变化,当然是0。如果分母是N-1,总体方差为0/0,即不确定,却是不合理的——总体方差不存在不确定的情况。

    以上可帮助理解两式的正确性,关于样本方差的理论推导如下:
    首先回顾一下无偏估计

    无偏估计

    无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
    估计总体平均值μ时,若以样本平均值ξ’为估计量,则可算得ξ’的数学期望E(ξ’)=μ,这说明ξ’是总体平均值μ的无偏估计。

    介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计

    样本方差公式

    假如样本方差公式为如下形式
    S 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 S^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{X}\right)^{2} S2=n1i=1n(xiXˉ)2
    此时我们可以判断一下它是否为总体方差的一个无偏估计,即判断 E ( S 2 ) E\left(S^{2}\right) E(S2)是否为 σ 2 \sigma^{2} σ2

    E [ S 2 ] = E [ 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ] = E [ 1 n ∑ i = 1 n ( ( X i − μ ) − ( X ˉ − μ ) ) 2 ] = E [ 1 n ∑ i = 1 n ( ( X i − μ ) 2 − 2 ( X ˉ − μ ) ( X i − μ ) + ( X ˉ − μ ) 2 ) ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) + 1 n ( X ˉ − μ ) 2 ∑ i = 1 n 1 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) + ( X ˉ − μ ) 2 ] \begin{aligned} \mathrm{E}\left[S^{2}\right] &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(\left(X_{i}-\mu\right)-(\bar{X}-\mu)\right)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right)\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+\frac{1}{n}(\bar{X}-\mu)^{2} \sum_{i=1}^{n} 1\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \end{aligned} E[S2]=E[n1i=1n(XiXˉ)2]=E[n1i=1n((Xiμ)(Xˉμ))2]=E[n1i=1n((Xiμ)22(Xˉμ)(Xiμ)+(Xˉμ)2)]=E[n1i=1n(Xiμ)2n2(Xˉμ)i=1n(Xiμ)+n1(Xˉμ)2i=1n1]=E[n1i=1n(Xiμ)2n2(Xˉμ)i=1n(Xiμ)+(Xˉμ)2]=E[n1i=1n(Xiμ)2n2(Xˉμ)i=1n(Xiμ)+(Xˉμ)2]

    其中 ∑ i = 1 n ( X i − μ ) \sum_{i=1}^{n}\left(X_{i}-\mu\right) i=1n(Xiμ)= ∑ i = 1 n X i \sum_{i=1}^{n} X_{i} i=1nXi ∑ i = 1 n μ \sum_{i=1}^{n} \mu i=1nμ= ∑ i = 1 n X i \sum_{i=1}^{n} X_{i} i=1nXi–n μ \mu μ=n X ˉ \bar{X} Xˉ–n μ \mu μ
    E [ S 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ⋅ n ⋅ ( X ˉ − μ ) + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ˉ − μ ) 2 + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] − E [ ( X ˉ − μ ) 2 ] = σ 2 − E [ ( X ˉ − μ ) 2 ] \begin{aligned} \mathrm{E}\left[S^{2}\right] &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \cdot n \cdot(\bar{X}-\mu)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)^{2}+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}\right]-\mathrm{E}\left[(\bar{X}-\mu)^{2}\right] \\ &=\sigma^{2}-\mathrm{E}\left[(\bar{X}-\mu)^{2}\right] \end{aligned} E[S2]=E[n1i=1n(Xiμ)2n2(Xˉμ)i=1n(Xiμ)+(Xˉμ)2]=E[n1i=1n(Xiμ)2n2(Xˉμ)n(Xˉμ)+(Xˉμ)2]=E[n1i=1n(Xiμ)22(Xˉμ)2+(Xˉμ)2]=E[n1i=1n(Xiμ)2]E[(Xˉμ)2]=σ2E[(Xˉμ)2]
    其中
    E [ ( X ˉ − μ ) 2 ] = 1 n σ 2 \mathrm{E}\left[(\bar{X}-\mu)^{2}\right]=\frac{1}{n} \sigma^{2} E[(Xˉμ)2]=n1σ2
    故:
    E [ 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ] = σ 2 − 1 n σ 2 = n − 1 n σ 2 E\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\sigma^{2}-\frac{1}{n} \sigma^{2}=\frac{n-1}{n} \sigma^{2} E[n1i=1n(XiXˉ)2]=σ2n1σ2=nn1σ2
    但我们要得到总体方差的一个无偏估计
    n n − 1 E [ 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ] = E [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] = σ 2 \frac{n}{n-1} E\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=E\left[\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\sigma^{2} n1nE[n1i=1n(XiXˉ)2]=E[n11i=1n(XiXˉ)2]=σ2
    所以样本方差的分母为n–1而不是n。

    相关参考链接

    link1为什么样本方差(sample variance)的分母是 n-1?.
    其中还包含用 S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 S^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} S2=n1i=1n(Xiμ)2来近似 σ 2 \sigma^{2} σ2等详细步骤。
    在这里插入图片描述
    link2彻底理解样本方差为何除以n-1.

    样本方差的自由度是n-1

    参看自由度(为什么样本方差自由度是n-1)

    其中讨论了离差平方和 S S = ∑ ( x i − x ˉ ) 2 S S=\sum\left(x_{i}-\bar{x}\right)^{2} SS=(xixˉ)2
    总体方差 D ( x ) = S S n D(x)=\frac{S S}{n} D(x)=nSS,样本方差 D ( x ) = S S n − 1 D(x)=\frac{S S}{n-1} D(x)=n1SS

    生动举例解释为什么样本方差自由度为n-1

    展开全文
  • 如是总体,标准差公式根号内除以n如是样本,标准差公式根号内除以(n-1)(样本至少比总体的个数少一)因为我们大量接触的是样本,所以普遍使用根号内除以(n-1) 除以n-1是为了保证样本方差是总体方差的一个无偏估计。。...

    如是总体,标准差公式根号内除以n 
    如是样本,标准差公式根号内除以(n-1) 
    (样本至少比总体的个数少一)因为我们大量接触的是样本,所以普遍使用根号内除以(n-1) 

    除以n-1是为了保证样本方差是总体方差的一个无偏估计。。。

    转载于:https://www.cnblogs.com/vinn/p/8953584.html

    展开全文
  • 为什么样本方差(sample variance)的分母是 n-1? 样本方差计算公式里分母为n-1的目的是为了让方差的估计是无偏的。...因为样本用的平均值不是总体的平均值,一定会导致低估,所以我们放大一点,用n-1
  • 设一组样本(X1,X2,⋯ ,Xn)∼N(μ,σ2)(X_1,X_2,\cdots,X_n)\sim N(\mu,\sigma^2)(X1​,X2​,⋯,Xn​)∼N(μ,σ2),记其期望和离差平方和为 X‾=1n∑i=1nXiSS(X)=∑i=1n(Xi−X‾)2 \begin{gathered} \overline{X}=\...
  • 样本服从正态分布,证明样本容量n乘样本方差与总体方差之比服从卡方分布x^2(n) 正态分布的n阶中心矩参见: http://www.doc88.com/p-334742692198.html 转载于:...
  • 例子1:糖果公司用一个100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟,同时总体方差的点估计量为25分钟,这里的均值估计量是根据样本得出的,而方差是总体方差一般来说给出一个区间比给出一个精确的值更...
  • 总体的分布是正态分布,且方差已知,则无论样本容量是大是小,样本均值的抽样分布都服从正态分布; 而如果总台的分布是正态分布,抽出的样本为小样本,且方差未知,则样本均值的抽样分布服从t分布。...
  • 彻底理解样本方差为何除以n-1

    万次阅读 多人点赞 2017-09-06 00:10:35
    样本方差为,总体均值为,总体方差为,那么样本方差有如下公式: 很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是无偏估计,比总体方差要小...
  • T = (X¯¯¯\overline{X} - μ)/(s/n√\sqrt{n})与上篇文章的置信区间相似,只不过c换成了t置信区间取值范围为(X¯¯¯\overline{X} - t(v)*s/n√\sqrt{n}, X¯¯¯\overline{X} + t(v)*s/n√\sqrt{
  • 总体积为T的背包,n件物品体积分别是w1,w2,...,wn,找出若干件恰好装满背包。找出满足条件的解。 例如,当T=10时,各件物品的体积时{1,8,4,3,5,2}时,可找到下列4组解: (1,4,3,2),(8,2),(1,4,5...
  • (一)单个正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的区间估计 均值μ\muμ的置信区间 (1) σ2\sigma^2σ2已知 设X1,...,XnX_1,...,X_nX1​,...,Xn​是取自N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,σ2\sigma...
  • 【统计学】从样本到总体

    千次阅读 2018-10-22 14:38:56
    总体和样本均值的符号:  n = 样本容量  u = 总体均值  x = 样本均值  σ = 总体标准差  s = 样本标准差   样本均值分布的特征:对于任何样本均值的分布: 样本容量越大,样本均值的分布越接近正态分布 ...
  • //假设有一个能装入总体积为T的背包和n件体积分别为w1,w2....wn.的物品,能否从n件物品中挑选若干件恰好装满背包,即使w1+w2+....+wn=T,要求找出所有满足上述条件的解。例如:当T=10,各件体积为{1,8,4,3,5,2}时,可...
  • 总体、个体及样本

    千次阅读 2018-10-08 19:22:29
    统计问题时,研究对象的全体称为总体。组成总体的每个元素称为个体。 实际的统计研究中,研究总体时,我们关心的只是其中的某一项或几项指标以及该指标在总体中的分布情况(即总体数字特征和总体分布函数)。 例如...
  • 样本方差是总体方差的无偏估计

    千次阅读 2020-07-30 20:47:55
    总体均值 μ=1N∑xi\mu = \frac{1}{N}\sum x_iμ=N1​∑xi​, 总体方差 σ2=1N∑i(xi−μ)2\sigma^2 = \frac{1}{N}\sum_i (x_i - \mu)^2σ2=N1​∑i​(xi​−μ)2 样本均值 xˉ=1n∑xi\bar{x} = \frac{1}{n}\sum x_...
  • 总体与样本的理解

    千次阅读 2016-10-26 19:19:51
    在相同条件下对总体进行n次独立重复观察。将n次观察结果按照试验顺序记为 X 1 , X 2 , . . , X n X_1,X_2,..,X_n 。它们是 相互独立 的, 且都是与X具有相同分布的随机变量 。 X 1 , X 2 , . . , X n X_1,X_2,..,X_n...
  •     设样本均值为,样本方差为,总体均值... 很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是无偏估计,比总体方差要小,...
  • 总体方差和样本方差

    千次阅读 2020-01-03 08:57:01
    在统计描述中,方差用来计算每一个变量*...总体方差计算公式:σ2=∑(X−μ)2N\sigma^2=\frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2​公式中σ2\sigma^2σ2为总体方差,XXX为变量,μ\muμ为总体均值,NNN为总体例数。 ...
  • 样本方差为何除以n-1而不是n

    千次阅读 2020-04-23 14:03:58
    如果除以n,对样本方差的估计不是无偏估计,比总体方差要小,要想是无偏估计就要调小分母,所以除以n-1。 那么问题来了,为什么不是除以n-2、n-3等。所以在这里彻底总结一下,首先交代一下无偏估计,无偏估计的意义...
  • R语言与总体比例的置信区间

    千次阅读 2020-04-27 10:22:52
    假设有一个总体很大,我们共调查了nnn个人,其中持有某种观点的为xxx人,则样本比例为p^=x/n\hat {p}=x/np^​=x/n,那么比例ppp的100(1−α)%100(1-\alpha) \%100(1−α)%近似置信区间为: p^±zα/2p^(1−p^)n \hat{...
  • 标准差公式中,分母是"n"还是"n-1"?

    万次阅读 2017-09-18 22:18:34
    如果我们研究的是总体总体的规模很大甚至无穷,我们对总体进行n次观察,得到容量为n的一组数据,称为总体的一个样本,求标准差时应该用除以n-1的那个。 除以n-1的那个称为样本标准差,它是总体标准差的无偏估计。
  • 用样本估计总体

    千次阅读 2019-07-04 09:59:07
    总体、个体、样本 总体是在进行统计分析时,研究对象的全部; 个体是组成总体的每个研究对象; 样本是从总体X中按一定的规则抽出的个体的全部,用X1,X2,…,XnX_1,X_2,…,X_nX1​,X2​,…,Xn​表示; 样本中...
  • 总体标准差-样本标准差

    万次阅读 2019-03-19 15:18:46
    1,求一组数据的标准差,该组数据就是总体,此时是求总体标准差,公式中分母为n; 2,总体太大或未知,只能每次抽取样本,此时是求样本标准差,分母为n-1。 图片来源:...
  • 总体方差和样本方差大小值的比较

    万次阅读 2018-05-13 15:33:33
    总体方差和样本方差的区别用样本方差去...对于总体方差,除以n;而对于样本方差,除以的是n-1,作为对总体方差的无偏估计。如果分母用n,对于样本估计的方差则会小于真实的方差。关于用n-1的推导公式:点击打开链接...
  • n皇后问题的三种解法

    万次阅读 多人点赞 2014-01-10 12:57:24
    N皇后问题是一个经典的问题,在一个N*N的棋盘上放置N个皇后,每行一个并使其不能互相攻击(同一行、同一列、同一斜线上的皇后都会自动攻击)。 n皇后问题不算是陈词滥调,也是老生常谈了,作为回溯的经典案例,有...
  • 样本标准差与自由度 n-1 卡方分布关系的证明

    万次阅读 多人点赞 2019-05-28 16:47:00
    在一本统计学课本中见到一个熟悉的式子:...该式子的含义是 (n-1)*样本方差与总体方差之比服从自由度为 n-1 的卡方分布。 一直以为这个式子很好证,自己试着没证出来。最后查了查,其实并不好证,要利用到不熟悉的高...
  • 正态总体的抽样分布

    千次阅读 多人点赞 2018-11-21 21:55:20
    由中心极限定理可知,许多随机变量的概率分布...设X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​为来自总体为XXX的容量为nnn的一个样本,样本均值与样本方差分别为X‾=1n∑i=1nXi\overline X=\frac{1}{n}\sum_{i=...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 178,985
精华内容 71,594
关键字:

总体n