精华内容
下载资源
问答
  • 样本:从总体中选取一部分个体 样本调查:只对样本进行研究或调查 无偏样本:具有与总体相似的特征(统计量) 偏倚样本:与总体的特征(统计量)不相似 抽样的方法 随机抽样:可分为重复抽样与不重复抽样 分层...

    统计学中相关名词

    • 总体:需要对其测量、研究或分析的整个群体
    • 普查:对总体进行研究或调查
    • 样本:从总体中选取一部分个体
    • 样本调查:只对样本进行研究或调查
    • 无偏样本:具有与总体相似的特征(统计量)
    • 偏倚样本:与总体的特征(统计量)不相似

    抽样的方法

    • 随机抽样:可分为重复抽样与不重复抽样
    • 分层抽样:很经常用到
    • 整群抽样:把总体分为一个个相似的群
    • 系统抽样:排列好后,每K个进行抽样
    展开全文
  • 总体样本方差的无偏估计样本方差为什么除以n-1

    万次阅读 多人点赞 2018-08-01 15:02:22
    样本总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。 应该把样本总体样本一样进行抽象化理解,因此样本也存在期望和方差。 这里有一个重要的假设,就是随机选取的样本总体样本同分布,它...

    1)基本概念

    我们先从最基本的一些概念入手。

    如下图,脑子里要浮现出总体样本X,还有一系列随机选取的样本X_{1},X_{2},...,X_{n}。只要是样本,脑子里就要浮现出它的集合属性,它不是单个个体,而是一堆随机个体集合。样本X_{i}是总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。

    应该把样本X_{i}和总体样本X一样进行抽象化理解,因此样本X_{i}也存在期望E(X_{i})和方差D(X_{i})

    这里有一个重要的假设,就是随机选取的样本X_{i}与总体样本同分布,它的意思就是说他们的统计特性是完全一样的,即他们的期望值一样,他们的方差值也是一样的:

    E(X_{i})=E(X)=\mu

    D(X_{i})=D(X)=\sigma ^{2}

    另外,由于每个样本的选取是随机的,因此可以假设X_{1},X_{2},...,X_{n}不相关(意味着协方差为0,即Cov(X_{i},X{j})=0,i\neq j),根据方差性质就有:

    D(X_{i}+X_{j})=D(X_{i})+D(X_{j})+2Cov(X_{i},X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2}

    另外,还需要知道方差另外一个性质:

    D(aX_{i})=a^{2}D(X_{i}),a为常数。

    还有一个,别忘了方差的基本公式:

    D(X)=E(X^2)-E^2(X)

    以上的公式都很容易百度得到,也非常容易理解。这里不赘述。

    2)无偏估计

    接下来,我们来理解下什么叫无偏估计。

    定义:设统计量\hat{\Theta}=\hat{\Theta}(X_{1},X_{2},...,X_{n})是总体中未知参数\Theta的估计量,若E(\hat{\Theta })=\Theta,则称\hat{\Theta }\Theta无偏估计量;否则称为有偏估计量。

    上面这个定义的意思就是说如果你拿到了一堆样本观测值,然后想通过这一堆观测值去估计某个统计量\Theta,一般就是想估计总体的期望或方差,如果你选择的方法所估计出来的统计量\hat{\Theta}的期望值与总体样本的统计量\Theta相等,那么我们称这种方法下的估计量是无偏估计,否则,就称这种方法下的估计量为有偏估计量。

    按照这么理解,那么有偏无偏是针对你选择估计的方法所说的,它并不是针对具体某一次估计出来的估计量结果。如果方法不对,即使你恰好在某一次计算出来一个值和总体样本统计量值相同,也并不代表你选的这个方法是无偏的。为什么呢?这是因为单次\hat{\Theta}值是和你选取的样本相关的,每次样本(更加严格的意义是某次样本快照)的值变化了,那么每次\hat{\Theta}的值就有可能跟着变化,你就需对这么多\hat{\Theta}求期望值来判断\hat{\Theta}的可信程度,如果一直重复这个试验,然后它的期望值与总体样本的统计量\Theta一样,那么称按照这种方法估计出来的统计量是无偏的。

    来一点题外话:

    但凡是想通过有限的信息去"估计"一个整体的"量",这种情形下谈这个"估计"的方法“有偏”\“无偏”才有意义。一般来说,这种情形下,这个被估计的"量"肯定是有碍于技术或者现实情况无法严格准确获取,比如因为成本过高这些"量"无法通过穷举或者其他办法获知。否则,如果被估计的"量"很容易获取,就不需要"估计"了,采用统计方法就可以了。

    如果你只是要进行简单的"统计"就能获得你想要的"量",那么没必要去关心所采用的方法是"有偏"还是“无偏";尤其是当整体信息很容易获取的情况下谈"有偏"还是“无偏"就毫无意义。比如要谈某个班级的身高的平均值,直接将身高总数除以班级人数就可以了,因为根本没必要去"估计",因为它仅仅是个"统计"问题;同样的,求一个班级的身高方差也不用任何纠结,求方差过程中除以班级人数就OK了,没有必要非常变态的研究是除以"班级总人数"还是"班级总人数-1",你要是去纠结这个,那就是吃饱了撑的了。但是,假如学校有几万人,你要统计的是整个学校所有的人的平均身高,这个时候一个一个进行统计是不现实的,反而需要使用的"估计"的方法。你采用的方法是随便抓100个人过来,将这100人总的身高数值除以100,估计出来的平均值就可以假设认为是整个学校的身高平均值,因为,你是用部分样本估计了总体样本的一个”量“,所以这个是"估计";此时,要是估计整个学校学生身高的方差,如果要想估计方法"无偏", 那就不是除以100了,而是除以99。当然,如果你是一位粗人,无所谓啥"有偏"还是“无偏"的束缚,那么你直接除以100也不会遭到嘲笑的,具体原因得继续往下看。总之,无法通过整体直接"统计"获得你想要的"量"时,你只能通过"部分样本"来做"整体样本""量"的估计时,谈估计方法的"有偏"还是"无偏"才是有意义的。

    3)样本均值的无偏估计

    接下来探讨一下下面的结论:

    定理1:样本均值\bar{X}是总体样本均值\mu的无偏估计。

    注意:这里样本均值\bar{X}不是指某个样本X_{i}的均值。

    这里需要看上面这张图,这里的均指的是特定某次样本集合(X_{1},X_{2},...,X_{n})的快照(上图红色框),显然这个快照也是一个样本,只不过这个样本它的样本大小固定为n,这与抽象的样本不一样(一般我们想象抽象的样本,比如X_{i},是无限大的)。

    明显,

    第一个样本(快照)均值是长这样子的:\frac{1}{n}(x_{11}+x_{21}+...+x_{i1}+...+x_{n1})=\hat{\mu _{1}}

    第二个样本(快照)均值是长这样子的:\frac{1}{n}(x_{12}+x_{22}+...+x_{i2}+...+x_{n2})=\hat{\mu _{2}}

    ....依此类推...

    x_{ij}表示第j次随机从从本X_{i}获取一个个体。

    试验一直进行下去,你就会有一些列估计出来的样本(快照)均值\hat{\mu _{1}},\hat{\mu _{2}}...\hat{\mu _{i}},\hat{\mu _{m}}...,实际上这也称为了一个样本,我们称为均值的样本,既然是样本,它就也有统计量。我们这里重点关注这个均值样本的期望。因为按照估计量的有偏无偏定义,如果E(\hat{\mu})=\mu,那么按照这个方法估计的均值\hat{\mu }就是无偏的。仔细思考,估计量有偏无偏它是针对你所选定的某个估计方法所形成的估计量样本空间来讨论的,讨论单次试验形成的估计量是没有太大意义的,只有针对形成的估计量样本空间才有意义。

    下面验证上面的方法形成的\hat{\mu}估计是无偏的。

    E(\hat{\mu})=\frac{1}{m}(\hat{\mu}_{1}+\hat{\mu}_{2}+...+\hat{\mu}_{m})

    =\frac{1}{n}(\frac{x_{11}+x_{12}+...+x_{1m}}{m}+\frac{x_{21}+x_{22}+...+x_{2m}}{m}+...+\frac{x_{n1}+x_{n2}+...+x_{nm}}{m})

    =\frac{1}{n}(E(X_{1})+E(X_{2})+...+E(X_{n}))

    =\frac{1}{n}(n*\mu )

    =\mu

    这么一来,就和教科书和网上的资料结果上都对上了,教科书上的公式在下面列出(\hat{\mu}符号用\bar{X}代替):

    E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^{n}X_{i} )=\frac{1}{n}\sum_{i=1}^{n}E(X_{i})=\mu

    有了前面的分析,上面的教科书公式就很好理解了,注意,里头的X_{i}是原始样本,\bar{X}也是样本!!!  公式推导过程中,\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}表示了原始的(X_{1},X_{2},...,X_{n})样本快照求和后再除以n形成的估计量样本,所以是可以对其再进行求期望的。

    讨论完估计量样本\bar{X}的均值,我们别忘了,既然它是个样本,那么可以计算\bar{X}的方差D(\bar X)(后面会用到):

    D(\bar X)=D(\frac{1}{n}\sum_{i=1}^{n}X_{i})

    =\frac{1}{n^2}D(\sum_{i=1}^{n}X_{i})

    =\frac{n\sigma ^2}{n^2}=\frac{\sigma ^2}{n}

    所以,样本(快照)均值的期望还是总体期望,但是,样本(快照)均值的方差却不是原来的方差了,它变成原来方差的1/n。这也容易理解,方差变小了是由于样本不是原来的样本X_{i}了,现在的样本是均值化后的新样本\bar {X},既然均值化了,那么比起原来的老样本X_{i},它的离散程度显然是应当变小的。

    4)样本方差的无偏估计

    定理2:样本方差S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}是总体样本方差\sigma ^{2}的无偏估计。

    也就是需要证明下面的结论:

    E(S^2)=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^2)=\sigma ^2

    首先,脑子里要非常清楚,你截至目前,仅仅知道以下内容:

    E(X_{i})=E(X)=\mu

    D(X_{i})=D(X)=\sigma ^{2}

    Cov(X_{i}X{j})=0,i\neq j

    D(X_{i}+X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2},i\neq j

    D(X)=\sigma ^{2}=E(X^2)-E(X)^2=E(X^2)-\mu^2

    {\color{Red} E(\bar{X})=\mu}

    {\color{Red} D(\bar X)=\frac{\sigma ^2}{n}}

    其中前面5个来自1),最后2个来自3)。

    至于为什么是S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2},而不是S^{2}=\frac{1}{n}\sum_{n}^{i=1}(X_{i}-\bar{X})^{2},需要看下面的证明。

    E(S^{2})=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})=\frac{1}{n-1}E(\sum_{i=1}^{n}X_{i}^2-n \bar{X}^{2})

    =\frac{1}{n-1}(\sum_{i=1}^{n}E(X_{i}^2)-nE(\bar{X}^{2}) )

    =\frac{1}{n-1}(\sum_{i=1}^{n}[D(X_{i})+E^2(X_{i})]-n[D(\bar{X})+E^{2}(\bar{X}) ])

    =\frac{1}{n-1}(\sum_{i=1}^{n}[\sigma ^2+\mu^2]-n[\frac{1}{n}\sigma ^2+\mu^{2} ])=\sigma ^2

     

    那么为什么会导致这么个奇怪的结果,不是\frac{1}{n}而是\frac{1}{n-1}  ?

    仔细看上面的公式,如果D(\bar X)=0,那么就应该是\frac{1}{n}了,但是残酷的事实是D(\bar X)\neq 0(除非\sigma本身就等于0),导致\frac{1}{n-1}的罪魁祸首是D(\bar X)\neq 0。这就有告诉我们,D(\bar X)虽然将方差缩小了n倍,但是仍然还有残存,除非\sigma本身就等于0,才会有D(\bar X)=0,但这就意味着所有样本的个体处处等于\mu

    还有一种情况,如果你事先就知道\mu,那么S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}就是\sigma ^{2}的无偏估计,这个时候就是\frac{1}{n}了。

    ---------------------------------------------------------------------------------------------------------------------------------------------

    有人还是问我为什么\mu(总体均值)已知,就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}作为总体方差\sigma ^{2}的无偏估计,这个完全直接推导就可以证明。证明如下:

    E(S^{2})=E(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2})

    =\frac{1}{n}\sum_{i=1}^{n}E[(X_{i}-\mu)^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[E(X_{i}^2)-2\mu E(X_{i})+\mu^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[E(X_{i}^2)-\mu^{2}]

    =\frac{1}{n}\sum_{i=1}^{n}[\sigma^2+\mu^2-\mu^{2}]

    =\sigma^{2}

    这个结论告诉我们,如果某个人很牛逼,他可以知道确切的总体样本均值\mu,那么就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}来估计总体样本方差\sigma^{2},并且这个估计方法是保证你无偏的。

    而上面的S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2},请睁大眼睛看清楚,用的是\bar{X}。大部分的实际应用情况下,谁也不知道总体样本均值\mu(请问你知道全球人均身高么?鬼知道,地球上没有一个人可以知道!我想即使是外星爸爸也不知道!),但是我还是想在全球人都不知道的情况下去估计总体的身高方差,怎么办?现在有个办法,我们可以去抓一些人(部分样本)来做一个部分样本均值,那就用部分样本均值也就是\bar{X}来近似代表\mu(上面的定理1告诉我们这种方法对于估计\mu是无偏的),但是现在我想估计另外一个东东,那个东东叫总体样本方差\sigma^{2}。好了,我们可以也用\bar{X}代入S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}来估计总体样本方差\sigma^{2},并且如前面所分析的,这个估计方法针对\sigma^{2}是无偏的。(至于为啥是奇怪的\frac{1}{n-1},简单直接的原因是因为我不知道总体样本均值\mu,因为如果你能够知道\mu,我们就可以不需要用奇怪的\frac{1}{n-1},我们就可以用S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}去估计总体样本方差)。

    总之,S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}是理论上的总体样本方差。S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}是实际应用中采用的总体样本方差估计。

    ------------------------------------------------------------------------------------------------------------------------------------------------------------------

    统计学中还有一个"自由度"的概念。为什么是除以n-1还可以从自由度角度进行解释,具体可以参看下面百度的解释:

    自由度 (统计学的自由度)

    展开全文
  • 我们希望抽取样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。 无偏样本的抽样方法: ① 简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种 ② 分层抽样:将总体分为几...

    统计学系列目录(文末有大奖赠送
    统计学①——概率论基础及业务实战
    统计学②——概率分布(几何,二项,泊松,正态分布)
    统计学④——置信区间
    统计学⑤——假设验证

    一、总体与样本定义

    总体:所研究的所有事件的集合
    样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论

    二、抽样方法

    我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。
    在这里插入图片描述
    无偏样本的抽样方法
    简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种
    分层抽样:将总体分为几个层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样
    整群抽样:将总体分为几个群,群与群之间相似,随机抽取几个群作为样本
    系统抽样:随机选取一个数据K,每次到第K个抽样单位就抽一次

    三、总体参数的估计

    ①总体均值
    当通过抽样获得无偏样本后,可以直接用样本的均值来估计总体的均值,如下:
    在这里插入图片描述
    在这里插入图片描述
    ②总体方差
    方差是否可以直接用样本方差呢?答案是No,因为方差衡量的是分散性,样本相对总体而言,数量较少,可能会将一些异常值排除在外,导致样本的方差要少于总体
    在这里插入图片描述
    如果要确切知道总体的方差,并且拥有总体的数据,方差的计算如下:
    在这里插入图片描述
    如果需要用样本估计总体的方差,计算如下:
    在这里插入图片描述
    之所以用n-1而不是n,,是因为n-1会使得方差稍微大一些,更接近总体方差

    ③总体比例
    样本比例直接估计总体比例
    在这里插入图片描述

    四、比例抽样分布

    当考虑从一个总体中抽取所有大小为n的样本,由这些样本中的某个比例所形成的分布,就叫比例的抽样分布,一般用Ps表示样本比例变量

    一般用来求解这类问题:当得知公司生产的糖果有25%的红色的,那么随机抽取100个样本,至少有50%的糖果是红色的概率?

    Ps的期望和方差定义为:
    在这里插入图片描述
    如果n>30时,二项分布可以近似为正态分布
    在这里插入图片描述
    需要进行连续性修正

    五、均值抽样分布

    如果考虑从一个总体中抽出所有大小为n的样本,然后用这些样本的均值形成一个分布,那么这个分布就叫均值抽样分布。

    一般用来求解这类问题:总体中每个袋子平均有10颗糖,那么随机抽取一个袋子中糖的个数小于8的概率是多少?

    期望和方差的计算如下:
    在这里插入图片描述
    样本的均值期望就是总体的均值,而方差却不等于总体方差,这里是为什么呢?

    因为总体方差衡量的是总体样本的分散性,而均值方差衡量的是所有抽取的样本的均值的分散性,是2个不同的东西。用总体的方差/n 表示随着样本数量增多,样本均值方差会越来越小,意味着样本均值越来越接近于总体均值

    如果总体符合均值为μ,方差为σ^2的正态分布,那么抽取的样本均值符合如下分布:
    在这里插入图片描述
    如果总体不是正态分布时,那样本均值还会符合上述分布吗?答案是看情况,如果抽取的样本n很大时,还是符合上述分布的,这里要重点引出中心极限定理:
    在这里插入图片描述
    中心极限定理可以运用于:

    ① 如果总体属于二项分布,用X~B(n,p)表示,n>30,则样本均值的抽样分布近似N(np,pq/n)
    ② 如果总体属于泊松分布,用Po(λ)表示,n>30,则样本均值的抽样分布近似N(λ,λ/n)

    因为均值的抽样分布属于正态分布,就可以通过标准化再差概率表得到特定样本均值的概率了


    本人互联网数据分析师,目前已出ExcelSQLPandasMatplotlibSeaborn机器学习统计学个性推荐关联算法工作总结系列。


    微信搜索并关注 " 数据小斑马" 公众号,回复“统计”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学9本统计学入门到精通必备经典教材
    在这里插入图片描述

    展开全文
  • 总体样本样本的抽样分布

    千次阅读 2020-06-07 21:48:08
    梳理一下 假设检验、卡方检验、t检验、F检验、P值、置信区间、置信水平、AB测等问题。 首先明确几个关于总体样本的概念及符号: 总体 样本 样本均值

    本文介绍关于总体、样本、样本抽样分布的理解,及2个重要的统计学原理:中心极限定理和大数定理。

    总体:就是一个概率分布。
    样本:从总体中随机抽取的一个子集。其中,样本具有和总体相同的分布,样本之间两两独立。
    抽样分布:对原来的分布总体,以一定样本容量抽取样本值,多次抽取后,样本的统计量(比如均值或方差)形成的分布。
    其中,
    样本容量(大小)/样本量:每个样本里有多少个数据,每一次试验的样本值个数,通常说n个(x1,x2,...,xn)x_1,x_2,...,x_n)
    样本数量(空间):抽样的时候,包含多少个样本,或者说抽多少次。
    抽样分布可以分为两类:
    一类:关于均值的分布:正态分布和t-分布;
    一类:关于方差的分布:卡方分布和F-分布。

    今天先说样本均值的抽样分布,此处涉及中心极限定理
    通俗的说,给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本值(样本容量),一共抽 m 次(样本数量),然后把这 m 组样本分别求出平均值, 这些平均值(样本均值)的分布接近正态分布。
    其中,
    1、总体本身的分布不要求正态分布;
    2、样本容量n越大,样本均值的分布约趋近于正态分布,标准差越小,即分布越集中。

    所以,样本均值的抽样分布是服从正态分布,即x\overline{x}~N(μ,σ2/n\mu,σ^2/n)

    (参考:网易公开课-可汗学院-统计学
    网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html)

    通过模拟试验,可以看到有关于样本均值抽样分布的图形化过程,当n取不同值时,抽样分布的形状。
    下图是从视频中截取的示例图,最上面深灰色的是总体分布,中间的是n=5的样本均值抽样分布,最下面是n=25的样本均值抽样分布。
    可以发现抽样发生10000次时,不同样本容量的均值相差不大分别为14.48和14.44,和总体均值近似。但是标准差相差较多,n=5时,sd=4.34;n=25时,st=1.91,即样本容量更大时,分布更集中了。另外n=25时的偏度和峰度都比n=5时更小。
    在这里插入图片描述

    接下来,再看看上述3类分布的均值、方差、标准差常用的基本符号和计算:
    p.s.第一次编辑数学公式,方法参考:https://www.zybuluo.com/codeep/note/163962

    均值 方差 标准差
    总体(容量N) μ\mu σ2σ^2 σ\sigma
    样本(容量n) x\overline{x} S2S^2 SS
    样本均值的抽样分布(容量n) μx\mu_{\overline{x}} σx2\sigma_{\overline{x}}^{2} σx\sigma_{\overline{x}}

    其中,

    • 均值

      • 总体均值μ=i=1NxiN\mu=\frac { \sum_{i=1}^N{x_i} } {N}

      • 样本均值x=xn=i=1nxin\overline{x}=\overline{x}_n=\frac { \sum_{i=1}^n{x_i }} {n}

      • 大数定理:当n—>∞时,xn\overline{x}_n—>E(X)=μ。即当样本量n足够大的时候,样本均值收敛于总体均值或随机变量期望值,揭示了频率和概率的关系。

      • 样本均值抽样分布的均值μx\mu_{\overline{x}}是总体均值μ的估计,即可以认为:μx=μ\mu_{\overline{x}}=\mu

    • 方差

      • 总体方差σ2=i=1N(xiμ)2Nσ^2=\frac { \sum_{i=1}^N(x_i - \mu)^2 } {N}

      • 样本方差Sn2=i=1n(xix)2nS_{n}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {n}
        因为n<N,抽到的样本会比总体相对更集中,波动更小一些,即样本方差S2S^2通常会比总体方差σ2σ^2小,所以需要对样本方差进行了修正。

      • 修正后的样本方差(无偏方差)Sn12=i=1n(xix)2n1S_{n-1}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {{n-1} }

      • 如果知道总体均值μμ,那么就不用(n-1)进行无偏估计,可以直接写成:Sn2=i=1n(xiμ)2nS_{n}^2=\frac { \sum_{i=1}^n(x_i - \mu)^2 } {n}

      • 样本均值抽样分布的方差(均值方差)
        这里区分总体方差已知和总体方差未知2种情况:
        总体方差σ2σ^2已知:σx2=σ2n\sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}
        总体方差σ2σ^2未知,则用样本方差S2S^2来估计:
        σx2=σ2nS2n\sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}≈\frac {S^2 } {n}

    当样本容量n>30时,可以认为,样本方差SS可以比较好的估计总体方差σ\sigma,根据中心极限定理,认为样本均值的抽样分布符合正态分布;
    n<30时,样本方差SS和总体方差σ\sigma相差比较大,认为符合t分布。

    展开全文
  • 基本概念 ...这一章主要阐述了在现实情况下我们很难或者不能对总体进行调查,所以提出了利用样本估计总体的思想,而抽取样本的核心关键在于确保样本是无偏样本,于是提出了确保无偏样本的具体方法
  • 总体样本

    2017-02-09 20:28:00
    总体样本 总体:指在某种共性的基础上由许多个别事物结合起来的整体。简言之总体是我们要调查或统计某一现象全部数据的集合。比如调查国内教师薪水情况中全中国的所有教师,调查某一高中高三学生成绩分布中所有的...
  • 总体样本的理解

    千次阅读 2016-10-26 19:19:51
    特别需要理解的是:样本中的每一个取值我们也视作随机变量,因为抽样的随机性,因此每一个个体都是对总体的反应,所以和总体X是平级的,比如总体X的取值范围,在每一个个体上,取值范围也是相同的。 对于抽取的...
  • 概率论第五章——总体样本

    千次阅读 2020-02-06 21:41:21
    样本——从总体X中抽取的待考察的个体称为样本样本中个体的数量n称为样本总量,容量为n的样本常纪委X1,X2···Xn.样本一旦经过考查,得到的事n个具体的数(x1,x2···xn)称为样本的依次观...
  • 统计抽样的运用:抽取样本 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理。首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集。诚然...
  • MU为n*d的矩阵,R中的每一行为以MU中对应的行为均值的正态分布中抽取的一个样本。 SIGMA为d*d的对称半正定矩阵,或者为d*d*n的array。若SIGMA为array,R中的每一行对应的分布的协方差矩阵为该array对应的...
  • 如何抽取样本 确定目标整体 尽可能准确地挑选研究整体 定义样本空间 样本可能有偏差 样本发生偏差的情况 样本空间中未包含所有对象 抽样单位错误 调查问卷设计不当 缺乏随机性 抽样方法 简单随机抽样 重复抽样:...
  • 总体方差和样本方差

    万次阅读 多人点赞 2018-05-09 22:44:37
    讨论了总体方差和样本方差的区别
  • 数理统计假定随机变量的分布未知,通过样本的观察分析来进行研究。 例如:对n次抛硬币实验讨论有k次为正面的概率,明显是概率论角度问题;对n个学生数学成绩,观察分析猜测总体的具体分布,明显是数理统计角度问题。...
  • 联合抽取总体上有哪些方法?各有哪些缺点?Q6:介绍基于共享参数的联合抽取方法?Q7:介绍基于联合解码的联合抽取方法?Q8:实体关系抽取的前沿技术和挑战有哪些?如何解决低资源和复杂样本下的实体关系抽取?如何...
  • 数理统计学习笔记——总体样本

    千次阅读 2014-09-28 10:29:57
    总体样本样本值的关系 例如:考察某大学一年级2000名男生的身高 总体:2000名男生身高的所有可能值。等价于某个随机变量X。 样本:例如抽取10名男生,则这10名男生的身高可能值为一个样本。可表示为...
  • 总体标准差-样本标准差

    万次阅读 2019-03-19 15:18:46
    总体标准差和样本标准差公式: 解释: 1,求一组数据的标准差,该组...2,总体太大或未知,只能每次抽取样本,此时是求样本标准差,分母为n-1。 图片来源:https://www.cnblogs.com/webRobot/p/7722820.html ...
  • 样本估计总体

    千次阅读 2019-07-04 09:59:07
    总体、个体、样本 总体是在进行统计分析时,研究对象的全部; 个体是组成总体的每个研究对象; 样本是从总体X中按一定的规则抽出的个体的全部,用X1,X2,…,XnX_1,X_2,…,X_nX1​,X2​,…,Xn​表示; 样本中...
  • 1. 总体样本 0x1:数理统计中为什么要引入总体和个体这个概念 概率论与数理统计中,一个很重要的研究对象就是总体的概率分布,理论上说,我们希望获得被研究对象的总体样本,基于这份总体样本进一步研究其概率...
  • 总体样本 总体:研究对象(可以是物体的某个属性,或某种数量指标)的全体,总体中每个成员称为个体 由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性。从而可以把这种数量指标看作一个随机...
  • 总体、个体及样本

    千次阅读 2018-10-08 19:22:29
    统计问题时,研究对象的全体称为总体。组成总体的每个元素称为个体。 实际的统计研究中,研究总体时,我们关心的只是其中的某一项或几项指标以及该指标在总体中的分布情况(即总体数字特征和总体分布函数)。 例如...
  • 总体样本的估计:进行预测 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理。首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集。...
  • (下面的讨论有些基于《医用统计方法》的相关章节,有些是个人...在上次的讨论中提到,由于数据的整体很难得到,只能抽取有限的样本进行计算。而由样本的状况来估计和推测整体数据的状况,就成为必须要做的事情。通俗点
  • 本文内容: 第10章 统计抽样的运用 抽取样本 第11章 总体与样本的估计 进行预测
  • 采样偏差:是由于抽样过程中没有达到足够随机而产生 抽样的方式会严重影响样本的随机性,从而影响对总体的预测,抽样的方法有多种,可以使用一定的方法来减小采样误差,然而采样误差是无法避免的。 2.误差:不确定...
  • 样本方差与总体方差

    万次阅读 2018-12-08 11:59:00
    样本方差与总体方差 一、方差(variance):衡量随机变量或一组数据时离散程度的度量。 概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。  统计中的方差(样本方差)是每个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,638
精华内容 4,655
关键字:

总体抽取样本的方法