精华内容
下载资源
问答
  • 总体方差与样本方差

    千次阅读 2019-03-05 17:35:11
    总体方差 = 总体均值 = 样本均值 = 样本方差(无偏估计) =

    总体方差 = 在这里插入图片描述

    总体均值 = 在这里插入图片描述

    样本均值 = 在这里插入图片描述

    样本方差(无偏估计) = 在这里插入图片描述

    展开全文
  • 总体方差和样本方差

    万次阅读 多人点赞 2018-05-09 22:44:37
    讨论了总体方差和样本方差的区别

    我们知道,统计学上方差的计算公式如下:
    σ 2 = ∑ i = 1 n ( x i − μ ) n \sigma^2=\frac{\sum_{i=1}^{n}(x_i-\mu)}{n} σ2=ni=1n(xiμ)
    这是统计学中方差的定义,已知条件有总体的均值 μ \mu μ,以及总体个数 n n n,公式的另一种写法为:
    σ 2 = E [ ( x − μ ) 2 ] = ∑ ( x − μ ) 2 p ( x ) \sigma^2=E[(x-\mu)^2]=\sum{(x-\mu)^2}p(x) σ2=E[(xμ)2]=(xμ)2p(x)
    其中 p ( x ) p(x) p(x) x x x出现的概率,所以这个公式只对于离散变量有效


    那么,如果总体量很大,不能做到全部采样,那么就需要用样本来估计总体,假设从总体为 N N N的总数中抽取 n n n个样本,其中 ( N > > n ) (N>>n) (N>>n),采样值为 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
    样本均值为:
    x ˉ = ∑ i = 1 n x i n \bar{x}=\frac{\sum_{i=1}^{n}{x_i}}{n} xˉ=ni=1nxi
    样本的方差为:
    S 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n S^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n} S2=ni=1n(xixˉ)2
    但是样本的方差和总体的方差是有差别的,计算样本方差的期望值,来估计样本方差和实际方差 σ 2 \sigma^2 σ2之间差了多少:
    E [ S 2 ] = E [ ∑ i = 1 n ( x i − x ˉ ) 2 n ] E[S^2]=E[\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}] E[S2]=E[ni=1n(xixˉ)2]
    = E [ 1 n ∑ i = 1 n ( ( x i − μ ) − ( x ˉ − μ ) ) 2 ] =E[\frac{1}{n}\sum_{i=1}^{n}{((x_i-\mu)-(\bar{x}-\mu))^2}] =E[n1i=1n((xiμ)(xˉμ))2]
    = E [ 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( x ˉ − μ ) + ( x ˉ − μ ) 2 ) ] =E[\frac{1}{n}\sum_{i=1}^{n}{((x_i-\mu)^2-2(x_i-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^2)}] =E[n1i=1n((xiμ)22(xiμ)(xˉμ)+(xˉμ)2)]
    = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) ∑ i = 1 n ( x i − μ ) + ( x ˉ − μ ) 2 ] =E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}{(x_i-\mu)}+(\bar{x}-\mu)^2] =E[n1i=1n(xiμ)2n2(xˉμ)i=1n(xiμ)+(xˉμ)2]
    其中
    ∑ i = 1 n ( x i − μ ) \sum_{i=1}^{n}{(x_i-\mu)} i=1n(xiμ)
    = ∑ i = 1 n x i − ∑ i = 1 n μ =\sum_{i=1}^{n}{x_i}-\sum_{i=1}^{n}{\mu} =i=1nxii=1nμ
    = n ( x ˉ − μ ) =n(\bar{x}-\mu) =n(xˉμ)
    所以
    = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) ∑ i = 1 n ( x i − μ ) + ( x ˉ − μ ) 2 ] =E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}{(x_i-\mu)}+(\bar{x}-\mu)^2] =E[n1i=1n(xiμ)2n2(xˉμ)i=1n(xiμ)+(xˉμ)2]
    = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 ( x ˉ − μ ) 2 + ( x ˉ − μ ) 2 ] =E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-2(\bar{x}-\mu)^2+(\bar{x}-\mu)^2] =E[n1i=1n(xiμ)22(xˉμ)2+(xˉμ)2]
    = σ 2 − E [ ( x ˉ − μ ) 2 ] =\sigma^2-E[(\bar{x}-\mu)^2] =σ2E[(xˉμ)2]
    (这里 σ 2 \sigma^2 σ2是因为样本方差的期望值是总体方差)
    E [ ( x ˉ − μ ) 2 ] E[(\bar{x}-\mu)^2] E[(xˉμ)2]
    = E ( x ˉ − E [ x ˉ ] ) 2 =E(\bar{x}-E[\bar{x}])^2 =E(xˉE[xˉ])2
    = v a r ( x ˉ ) =var(\bar{x}) =var(xˉ)
    = 1 n 2 v a r ( ∑ i = 1 n x i ) =\frac{1}{n^2}var(\sum_{i=1}^{n}{x_i}) =n21var(i=1nxi)
    = 1 n 2 ∑ i = 1 n v a r ( x i ) =\frac{1}{n^2}\sum_{i=1}^{n}{var(x_i)} =n21i=1nvar(xi)
    = n σ 2 n 2 =\frac{n\sigma^2}{n^2} =n2nσ2
    = σ 2 n =\frac{\sigma^2}{n} =nσ2
    根据上面推导的式子,有以下计算:
    σ 2 − E [ ( x ˉ − μ ) 2 ] \sigma^2-E[(\bar{x}-\mu)^2] σ2E[(xˉμ)2]
    = σ 2 − σ 2 n =\sigma^2-\frac{\sigma^2}{n} =σ2nσ2
    = n − 1 n σ 2 =\frac{n-1}{n}\sigma^2 =nn1σ2
    也就是说,样本估计的方差是总体方差的 n − 1 n \frac{n-1}{n} nn1倍,即所谓的有偏估计。要转换成无偏估计,只需要乘以倍数就可以了
    n n − 1 S 2 = n n − 1 ∑ i = 1 n ( x i − x ˉ ) n = ∑ i = 1 n ( x i − x ˉ ) n − 1 \frac{n}{n-1}S^2=\frac{n}{n-1}\frac{\sum_{i=1}^{n}(x_i-\bar{x})}{n}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})}{n-1} n1nS2=n1nni=1n(xixˉ)=n1i=1n(xixˉ)
    这即是所谓的无偏估计


    当然,还有一种比较直接的解释,由于是求样本中的方差,所以在求解样本均值时,已经用掉了一个自由度的值,所以求方差时,其实有用的值会少一个。例如在只有一个样本时,这时求样本方差是不能估计总体方差的。
    所以,总体方差和样本方差的区别是在于信息量,总体的信息是完全确定的,即这时求出来的统计参数都是能确定地表征总体的分布信息。但是用样本的信息去估计总体,则不能确定表征总体的分布信息,之间相差了一个自由度。

    展开全文
  • 本短文介绍了总体、样本、总体方差、样本方差、抽样方差和标准误等概念以及它们之间的一些关系。因为一些外文材料的翻译不善以及老师课堂教学中的不重视,我身边仍有许多人将它们混淆。本短文的参考资料主要包括...

    本短文介绍了总体、样本、总体方差、样本方差、抽样方差和标准误等概念以及它们之间的一些关系。因为一些外文材料的翻译不善以及老师课堂教学中的不重视,我身边仍有许多人将它们混淆。

    本短文的参考资料主要包括Angrist和Pischke的《Mastering `metrics》以及Wooldridge的《Introductory Econometrics (Fifth edition)》。

    1 总体方差和样本方差

    总体和样本

    首先提一下“总体(population)”“样本(sample)”两个概念。总体包含我们研究的目标群体中所有的个体的数据,比如所有2008年的海归科学家的年龄;样本仅包含总体中一部分个体的数据,假设2008年的海归科学家总共10万人,我们费了大劲找到了1万人,这1万人的年龄就是刚才那个总体的一个样本。当然,总体和样本是相对的概念,如果某人研究时觉得1万个数据还是太多不好搞,从中随机抽了100个数据,这时候那1万个数据就成了总体了。

    虽说样本和总体是相对的概念,但在大多数情况下,我们都会谦虚地认为我们手里的数据只是一个样本,是通过对总体进行抽样而获得的,或者说我们的研究问题总是使得直接研究总体是不可行的。人们把关于总体的统计量叫做“总体XX(population xxx)”,把关于样本的统计量叫做“样本XX(sample xxx)”

    我们用Y来表示刚才提到的2008年的海归科学家的年龄这个随机变量(random variable)。注意,“随机变量”得名是因为它取的值们由随机试验产生,并不直接因为它自己是随机的,这里面有细微的差别。

    总体方差与样本方差

    这里我们区分两种方差,“总体方差(population variance)”

    “样本方差(sample variance)”
    。简单来说,总体方差
    就是对整个总体运用方差计算方法得到的结果:

    其中

    表示这个总体里面所有数据的平均值,即
    “总体均值(population mean)”。总体均值也叫 数学期望,后者记作E( Y)。 N表示总体里数据的个数。 N可以为正无穷,表示这个总体是无穷的。

    但对于一个具体的样本,它的样本方差

    该怎么算,取决于它的用途。因为总体方差在现实中很难获得,所以人们经常用样本方差来估计总体方差,比如在构建某些统计量的时候。这时候为了保证估计的无偏性(unbiasedness,以后详解),样本方差的计算公式就是:

    其中

    (读作
    Y bar)表示这个样本里所有数据的平均值,即 “样本均值(sample mean)”n表示 样本容量,也就是这个样本里数据的个数。注意分母并不是 n而是 n-1但是如果仅仅希望用它来展示这个样本内数据的离散程度,那么样本方差在这里就没必要除以n-1了,除以n就好了。

    方差的算术平方根叫做“标准差(standard deviation)”,“deviation”有“偏离”的意思,指的是对平均值的偏离。当然,标准差同样分为“总体标准差(population standard deviation)”

    “样本标准差(sample standard deviation)”

    在EXCEL里,方差和标准差都分别有总体版本和样本版本,其中样本版本的分母就是数据的个数减1,请根据需求谨慎使用。

    2f4b4396-3422-eb11-8da9-e4434bdf6706.png

    2 抽样方差和标准误

    被衍生出的随机变量—样本均值

    刚才提到,Y的样本均值(sample mean)被记为

    ,也就是在变量符号上加一个横线。因为每从
    Y的总体里进行一次随机抽样就能得到一个
    ,所以根据定义,
    自己也是一个随机变量了,它也拥有了总体、样本等等。这里可能有点抽象,它的总体是什么?是给定样本容量
    n,所有可能的样本的平均值的集合。

    的总体方差被称为
    “抽样方差(sampling variance)”,请注意与样本方差(sample variance)区分。
    的总体标准差被称为
    “标准误(standard error)”,也记作

    标准误是个很重要的统计量,它存在是因为我们认为自己手头的数据只是一个样本而非总体。所以在建立了数学模型并用手头的数据估计出变量系数后,通常我们会问自己一个问题:如果用很多不同的样本估计同样的系数,估计值的变化会有多大?能度量这个变化性的统计量就是标准误。

    如果标准误太大(这个“大”当然是相对于系数的取值而说的,同时和样本容量也有点关系),考虑到我们真正感兴趣的是总体的情况,那么刚才用这个样本估计出的系数就没有任何参考价值,这个系数就“不显著”。

    我们手上毕竟只有一个样本,它只有一个平均值,怎么计算

    的总体方差和总体标准差呢?下文将说明
    的计算方法,它们表示的其实是“潜在的”变化性。

    抽样方差和总体方差的关系

    显然,Y

    这两个随机变量的关系异常紧密,它们各自的总体方差,即
    Y的总体方差
    和抽样方差
    有着这样的关系:

    其中n

    对应的样本容量。推导过程已略去,但是请注意,推导的过程隐含了一个假设,即总体是无穷的(所以不要问如果样本容量和总体一样大怎么办)。在现实中人们更喜欢用两边的算术平方根,即:

    其中SE即为“Standard Error”的缩写,直译过来就是“标准误”。为什么叫做“误(error)”呢?可以简单地这样理解:标准误是

    的总体标准差,如果这个标准差越大,
    的分布就越离散,我们用它来估计
    Y的总体均值
    的时候可能的误差就越大。直观地看,当样本容量
    n逼近无穷大时,根据大数定律,
    会逼近
    Y的总体均值,那么标准误就应该趋近于0。显然,计算公式告诉我们结果的确是这样的。

    之前说过,总体标准差

    在现实中很难获得,于是我们会用
    来替代上式中的

    当然,这里的样本标准差

    是总体标准差
    的估计量,计算
    的时候分母是
    而不是根号下的

    3 小结

    1)人们把关于总体的统计量叫做“总体XX(population xxx)”,把关于样本的统计量叫做“样本XX(sample xxx)”

    2)为了使样本方差成为总体方差的无偏估计量,样本方差计算时的分母并不是样本容量n而是n-1。但如果单纯想研究样本里数据的离散程度,分母就不用减1了。

    3)因为每进行一次抽样就能得到一个样本均值

    ,所以
    同样是一个随机变量。这个新随机变量的总体方差叫做
    “抽样方差(sampling variance)”,这个新随机变量的总体标准差叫做 “标准误(standard error)”。现实中的抽样方差和标准误含义可能更丰富,但都与抽样(sampling)有关。
    展开全文
  • 总体方差与样本方差分母的小小区别,n还是n-1?引入方差概念方差计算无偏估计样本方差公式相关参考链接样本方差的自由度是n-1 引入 方差概念 方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,用来...

    引入

    方差概念

    方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,用来度量随机变量和其数学期望(即均值)之间的偏离程度。

    方差计算

    定义:
    D X = E ( X − E X ) 2 = E X 2 − ( E X ) 2 D X=E(X-E X)^{2}=E X^{2}-(E X)^{2} DX=E(XEX)2=EX2(EX)2
    离散型和连续型的随机变量计算公式分别为:
    D ( X ) = { ∑ k = 1 ∞ [ x k − E ( X ) ] 2 p k , ∫ − ∞ ∞ [ x k − E ( X ) ] 2 f ( x ) d x \boldsymbol{D}(\boldsymbol{X})=\left\{\begin{array}{c} {\sum_{k=1}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(\boldsymbol{X})\right]^{2} p_{k},} \\ {\int_{-\infty}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(\boldsymbol{X})\right]^{2} f(\boldsymbol{x}) d \boldsymbol{x}} \end{array}\right. D(X)={k=1[xkE(X)]2pk,[xkE(X)]2f(x)dx
    当给出具体数据进行分析时我们常用到如下两个公式
    总体方差:
    σ 2 = ∑ i = 1 N ( x i − μ ) 2 N \sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N} σ2=Ni=1N(xiμ)2
    样本方差:
    S 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{X}\right)^{2} S2=n11i=1n(xiXˉ)2

    那么为什么总体方差和样本方差的分母不同呢?

    首先应该明确
    1、在用样本方差公式进行计算时,我们并不知道x的分布情况,也不知道 μ \mu μ X ˉ \bar{X} Xˉ是所给样本的平均值,其值并不一定等于 μ \mu μ
    2、总体方差是确定的,是综合所有数据后得到的方差,同理, μ \mu μ也是由所有数据得到的确数。而 X ˉ \bar{X} Xˉ S 2 S^{2} S2是根据部分数据 μ \mu μ σ 2 \sigma^{2} σ2进行估计。
    3、总体方差
    也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差,除数是N。如果实现已知期望值,比如测水的沸点,那么测量10次,测量值和期望值之间是独立的(期望值不依测量值而改变,随你怎么折腾,温度计坏了也好,看反了也好,总之,期望值应该是100度),那么E『(X-期望)^2』,就有10个自由度。事实上,它等于(X-期望)的方差,减去(X-期望)的平方。” 所以叫做有偏估计,测量结果偏于那个”已知的期望值“。
    样本方差
    无偏估计、无偏方差(unbiased variance)。对于一组随机变量,从中随机抽取N个样本,这组样本的方差就是Xi^2平方和除以N-1。这可以推导出来的。如果现在往水里撒把盐,水的沸点未知了,那我该怎么办? 我只能以样本的平均值,来代替原先那个期望100度。 同样的过程,但原先的(X-期望),被(X-均值)所代替。 设想一下(Xi-均值)的方差,它不在等于Xi的方差, 而是有一个协方差,因为均值中,有一项Xi/n是和Xi相关的,这就是那个"偏"的由来
    样本方差与总体方差的区别

    我们先讨论一个样本时:
    (此段引自 link.)
    对于样本方差来说,假如从总体中只取一个样本,即n=1,那么样本方差公式的分子分母都为0——方差完全不确定。这很好理解,因为样本方差是用来估 计总体中个体之间的变化大小,只拿到一个个体,当然完全看不出变化大小。反之,如果公式的分母不是n-1而是n,计算出的方差就是0——这是不合理的,因 为不能只看到一个个体就断定总体的个体之间变化大小为0。

    对于总体方差来说,假如总体中只有一个个体,即N=1,那么方差,即个体的变化,当然是0。如果分母是N-1,总体方差为0/0,即不确定,却是不合理的——总体方差不存在不确定的情况。

    以上可帮助理解两式的正确性,关于样本方差的理论推导如下:
    首先回顾一下无偏估计

    无偏估计

    无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
    估计总体平均值μ时,若以样本平均值ξ’为估计量,则可算得ξ’的数学期望E(ξ’)=μ,这说明ξ’是总体平均值μ的无偏估计。

    介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计

    样本方差公式

    假如样本方差公式为如下形式
    S 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 S^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{X}\right)^{2} S2=n1i=1n(xiXˉ)2
    此时我们可以判断一下它是否为总体方差的一个无偏估计,即判断 E ( S 2 ) E\left(S^{2}\right) E(S2)是否为 σ 2 \sigma^{2} σ2

    E [ S 2 ] = E [ 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ] = E [ 1 n ∑ i = 1 n ( ( X i − μ ) − ( X ˉ − μ ) ) 2 ] = E [ 1 n ∑ i = 1 n ( ( X i − μ ) 2 − 2 ( X ˉ − μ ) ( X i − μ ) + ( X ˉ − μ ) 2 ) ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) + 1 n ( X ˉ − μ ) 2 ∑ i = 1 n 1 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) + ( X ˉ − μ ) 2 ] \begin{aligned} \mathrm{E}\left[S^{2}\right] &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(\left(X_{i}-\mu\right)-(\bar{X}-\mu)\right)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right)\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+\frac{1}{n}(\bar{X}-\mu)^{2} \sum_{i=1}^{n} 1\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \end{aligned} E[S2]=E[n1i=1n(XiXˉ)2]=E[n1i=1n((Xiμ)(Xˉμ))2]=E[n1i=1n((Xiμ)22(Xˉμ)(Xiμ)+(Xˉμ)2)]=E[n1i=1n(Xiμ)2n2(Xˉμ)i=1n(Xiμ)+n1(Xˉμ)2i=1n1]=E[n1i=1n(Xiμ)2n2(Xˉμ)i=1n(Xiμ)+(Xˉμ)2]=E[n1i=1n(Xiμ)2n2(Xˉμ)i=1n(Xiμ)+(Xˉμ)2]

    其中 ∑ i = 1 n ( X i − μ ) \sum_{i=1}^{n}\left(X_{i}-\mu\right) i=1n(Xiμ)= ∑ i = 1 n X i \sum_{i=1}^{n} X_{i} i=1nXi ∑ i = 1 n μ \sum_{i=1}^{n} \mu i=1nμ= ∑ i = 1 n X i \sum_{i=1}^{n} X_{i} i=1nXi–n μ \mu μ=n X ˉ \bar{X} Xˉ–n μ \mu μ
    E [ S 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( X i − μ ) + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ˉ − μ ) ⋅ n ⋅ ( X ˉ − μ ) + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ˉ − μ ) 2 + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] − E [ ( X ˉ − μ ) 2 ] = σ 2 − E [ ( X ˉ − μ ) 2 ] \begin{aligned} \mathrm{E}\left[S^{2}\right] &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-\frac{2}{n}(\bar{X}-\mu) \cdot n \cdot(\bar{X}-\mu)+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)^{2}+(\bar{X}-\mu)^{2}\right] \\ &=\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}\right]-\mathrm{E}\left[(\bar{X}-\mu)^{2}\right] \\ &=\sigma^{2}-\mathrm{E}\left[(\bar{X}-\mu)^{2}\right] \end{aligned} E[S2]=E[n1i=1n(Xiμ)2n2(Xˉμ)i=1n(Xiμ)+(Xˉμ)2]=E[n1i=1n(Xiμ)2n2(Xˉμ)n(Xˉμ)+(Xˉμ)2]=E[n1i=1n(Xiμ)22(Xˉμ)2+(Xˉμ)2]=E[n1i=1n(Xiμ)2]E[(Xˉμ)2]=σ2E[(Xˉμ)2]
    其中
    E [ ( X ˉ − μ ) 2 ] = 1 n σ 2 \mathrm{E}\left[(\bar{X}-\mu)^{2}\right]=\frac{1}{n} \sigma^{2} E[(Xˉμ)2]=n1σ2
    故:
    E [ 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ] = σ 2 − 1 n σ 2 = n − 1 n σ 2 E\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\sigma^{2}-\frac{1}{n} \sigma^{2}=\frac{n-1}{n} \sigma^{2} E[n1i=1n(XiXˉ)2]=σ2n1σ2=nn1σ2
    但我们要得到总体方差的一个无偏估计
    n n − 1 E [ 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ] = E [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] = σ 2 \frac{n}{n-1} E\left[\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=E\left[\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right]=\sigma^{2} n1nE[n1i=1n(XiXˉ)2]=E[n11i=1n(XiXˉ)2]=σ2
    所以样本方差的分母为n–1而不是n。

    相关参考链接

    link1为什么样本方差(sample variance)的分母是 n-1?.
    其中还包含用 S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 S^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} S2=n1i=1n(Xiμ)2来近似 σ 2 \sigma^{2} σ2等详细步骤。
    在这里插入图片描述
    link2彻底理解样本方差为何除以n-1.

    样本方差的自由度是n-1

    参看自由度(为什么样本方差自由度是n-1)

    其中讨论了离差平方和 S S = ∑ ( x i − x ˉ ) 2 S S=\sum\left(x_{i}-\bar{x}\right)^{2} SS=(xixˉ)2
    总体方差 D ( x ) = S S n D(x)=\frac{S S}{n} D(x)=nSS,样本方差 D ( x ) = S S n − 1 D(x)=\frac{S S}{n-1} D(x)=n1SS

    生动举例解释为什么样本方差自由度为n-1

    展开全文
  • 总体方差和样本方差大小值的比较

    万次阅读 2018-05-13 15:33:33
    总体方差和样本方差的区别用样本方差去估计总体方差。因为总体数据量太大,总体方差很难计算得到。当样本的容量和总体的容量相等时,样本的方差和总体的方差也是相等的。对于总体方差,除以n;而对于样本方差,除以...
  • 设,为总体的一个样本,且其样本均值为,样本方差为,总体方差为σ²,总体期望为μ。 证明1:为什么样本均值的期望等于总体的期望? 因为对于简单随机抽样的样本: 与总体是同分布的,所以各样本的期望均为总体...
  • 样本方差与总体方差

    万次阅读 2019-10-24 11:13:07
    样本方差与总体方差 对一个数据集的描述有很多方式,其中数据的集中趋势、离散程度、偏态与峰态都是可以客观的体现一个数据集的形态。 在数据集的离散程度上,方差和标准差是实际应用较多的特征值。在理解样本方差...
  • 方差与样本方差 协方差与样本协方差
  • 在这里插入图片描述 /**方差计算 *****注意数据类型 *参数 data[] 数据 *使用注意 需要重定义数据类型 typedef unsigned char uint8; typedef unsigned int uint16;...#define METHOD 0 //METHOD = 0 总体方差
  • 总体样本方差的无偏估计样本方差为什么除以n-1

    万次阅读 多人点赞 2018-08-01 15:02:22
    1)基本概念 我们先从最基本的一些概念入手。 如下图,脑子里要浮现出总体样本,还有一系列随机选取的样本。只要是样本,脑子里就要浮现出...这里有一个重要的假设,就是随机选取的样本与总体样本同分布,它的意思...
  • 为什么样本方差(sample variance)的分母是 n-1? 样本方差计算公式里分母为n-1的目的是为了让方差的估计是无偏的。无偏的估计(unbiased estimator)比有偏估计(biased estimator)更好是符合直觉的。 ...
  • 1. 方差 连续型 离散型 2. 样本方差 3. 协方差
  • 统计学基础之样本方差总体方差

    千次阅读 2020-03-14 00:17:36
    统计学基础之样本方差与总体方差 文章目录统计学基础之样本方差与总体方差1. 方差(variance)的定义2. 样本方差3. 总体方差公式的有偏性证明4. 样本方差公式分母为n-1的推导 参考资料:...
  • Excel在统计分析中的应用—第八章—假设检验-总体方差未知且为小样本下的检验-等方差样本的t检验.pdf
  • Excel在统计分析中的应用—第八章—假设检验-总体方差未知且为小样本下的检验-异方差样本的t检验.pdf
  • 样本方差总体方差的无偏估计

    千次阅读 2020-07-30 20:47:55
    总体均值 μ=1N∑xi\mu = \frac{1}{N}\sum x_iμ=N1...样本均值 xˉ=1n∑xi\bar{x} = \frac{1}{n}\sum x_ixˉ=n1​∑xi​, 样本方差 S2=1n−1∑i(xi−xˉ)2S^2 = \frac{1}{n-1}\sum_i (x_i - \bar{x})^2S2=n−11​∑i
  • 统计学---之样本方差与总体方差的区别

    万次阅读 多人点赞 2018-01-24 11:53:53
    前段日子重新整理了一下这个问题的解答,跟大家分享一下,...首先,我们来看一下样本方差的计算公式:   刚开始接触这个公式的话可能会有一个疑问就是:为什么样本方差要除以(n-1)而不是除以n?为了解决
  • 之前一直对于样本方差与总体方差的概念区分不清,对于前者不仅多了“样本”两个字,而且公式中除数是N-1,而不是N。现在写下这么写东西,以能彻底把他们的区别搞清楚。 总体方差: 也叫做有偏估计,其实...
  • 样本方差与样本标准差  1、定义:样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。  注:样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本...
  • 使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算。 variance: 方差 方差(Variance)是概率论中最基础的概念之一,它是由统计学天才罗纳德·费雪1918...
  • 1.研究某随机变量的方差,有无穷多个样本,可以通过抽取一个样本集,以它的方差作为该随机变量方差的估计。 当该样本集的样本数N趋于正无穷时,可以证明除以N-1才是无偏的,即收敛...样本方差针对样本。一个总体可以

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 78,695
精华内容 31,478
关键字:

总体的方差与样本方差的关系