精华内容
下载资源
问答
  • 总体样本样本抽样分布
    千次阅读
    2020-06-07 21:48:08

    本文介绍关于总体、样本、样本抽样分布的理解,及2个重要的统计学原理:中心极限定理和大数定理。

    总体:就是一个概率分布。
    样本:从总体中随机抽取的一个子集。其中,样本具有和总体相同的分布,样本之间两两独立。
    抽样分布:对原来的分布总体,以一定样本容量抽取样本值,多次抽取后,样本的统计量(比如均值或方差)形成的分布。
    其中,
    样本容量(大小)/样本量:每个样本里有多少个数据,每一次试验的样本值个数,通常说n个( x 1 , x 2 , . . . , x n ) x_1,x_2,...,x_n) x1,x2,...,xn)
    样本数量(空间):抽样的时候,包含多少个样本,或者说抽多少次。
    抽样分布可以分为两类:
    一类:关于均值的分布:正态分布和t-分布;
    一类:关于方差的分布:卡方分布和F-分布。

    今天先说样本均值的抽样分布,此处涉及中心极限定理
    通俗的说,给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本值(样本容量),一共抽 m 次(样本数量),然后把这 m 组样本分别求出平均值, 这些平均值(样本均值)的分布接近正态分布。
    其中,
    1、总体本身的分布不要求正态分布;
    2、样本容量n越大,样本均值的分布约趋近于正态分布,标准差越小,即分布越集中。

    所以,样本均值的抽样分布是服从正态分布,即 x ‾ \overline{x} x~N( μ , σ 2 / n \mu,σ^2/n μ,σ2/n)

    (参考:网易公开课-可汗学院-统计学
    网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html)

    通过模拟试验,可以看到有关于样本均值抽样分布的图形化过程,当n取不同值时,抽样分布的形状。
    下图是从视频中截取的示例图,最上面深灰色的是总体分布,中间的是n=5的样本均值抽样分布,最下面是n=25的样本均值抽样分布。
    可以发现抽样发生10000次时,不同样本容量的均值相差不大分别为14.48和14.44,和总体均值近似。但是标准差相差较多,n=5时,sd=4.34;n=25时,st=1.91,即样本容量更大时,分布更集中了。另外n=25时的偏度和峰度都比n=5时更小。
    在这里插入图片描述

    接下来,再看看上述3类分布的均值、方差、标准差常用的基本符号和计算:
    p.s.第一次编辑数学公式,方法参考:https://www.zybuluo.com/codeep/note/163962

    均值方差标准差
    总体(容量N) μ \mu μ σ 2 σ^2 σ2 σ \sigma σ
    样本(容量n) x ‾ \overline{x} x S 2 S^2 S2 S S S
    样本均值的抽样分布(容量n) μ x ‾ \mu_{\overline{x}} μx σ x ‾ 2 \sigma_{\overline{x}}^{2} σx2 σ x ‾ \sigma_{\overline{x}} σx

    其中,

    • 均值

      • 总体均值 μ = ∑ i = 1 N x i N \mu=\frac { \sum_{i=1}^N{x_i} } {N} μ=Ni=1Nxi

      • 样本均值 x ‾ = x ‾ n = ∑ i = 1 n x i n \overline{x}=\overline{x}_n=\frac { \sum_{i=1}^n{x_i }} {n} x=xn=ni=1nxi

      • 大数定理:当n—>∞时, x ‾ n \overline{x}_n xn—>E(X)=μ。即当样本量n足够大的时候,样本均值收敛于总体均值或随机变量期望值,揭示了频率和概率的关系。

      • 样本均值抽样分布的均值 μ x ‾ \mu_{\overline{x}} μx是总体均值μ的估计,即可以认为: μ x ‾ = μ \mu_{\overline{x}}=\mu μx=μ

    • 方差

      • 总体方差 σ 2 = ∑ i = 1 N ( x i − μ ) 2 N σ^2=\frac { \sum_{i=1}^N(x_i - \mu)^2 } {N} σ2=Ni=1N(xiμ)2

      • 样本方差 S n 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n S_{n}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {n} Sn2=ni=1n(xix)2
        因为n<N,抽到的样本会比总体相对更集中,波动更小一些,即样本方差 S 2 S^2 S2通常会比总体方差 σ 2 σ^2 σ2小,所以需要对样本方差进行了修正。

      • 修正后的样本方差(无偏方差) S n − 1 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 S_{n-1}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {{n-1} } Sn12=n1i=1n(xix)2

      • 如果知道总体均值 μ μ μ,那么就不用(n-1)进行无偏估计,可以直接写成: S n 2 = ∑ i = 1 n ( x i − μ ) 2 n S_{n}^2=\frac { \sum_{i=1}^n(x_i - \mu)^2 } {n} Sn2=ni=1n(xiμ)2

      • 样本均值抽样分布的方差(均值方差)
        这里区分总体方差已知和总体方差未知2种情况:
        总体方差 σ 2 σ^2 σ2已知: σ x ‾ 2 = σ 2 n \sigma_{\overline{x}}^{2}=\frac {σ^2 } {n} σx2=nσ2
        总体方差 σ 2 σ^2 σ2未知,则用样本方差 S 2 S^2 S2来估计:
        σ x ‾ 2 = σ 2 n ≈ S 2 n \sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}≈\frac {S^2 } {n} σx2=nσ2nS2

    当样本容量n>30时,可以认为,样本方差 S S S可以比较好的估计总体方差 σ \sigma σ,根据中心极限定理,认为样本均值的抽样分布符合正态分布;
    n<30时,样本方差 S S S和总体方差 σ \sigma σ相差比较大,认为符合t分布。

    更多相关内容
  • 八种样本抽样方法介绍

    万次阅读 多人点赞 2019-10-16 09:24:15
    介绍 你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存...是否有一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整...

    介绍

    你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存不足"错误。

    即使是最优秀的人也会遇到这种事。这是我们在数据科学中面临的最大障碍之一,在受计算限制的计算机上处​​理大量数据(并非所有人都拥有Google的资源实力!)。

    那么我们如何克服这个问题呢?是否有一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整个数据集?

    这种方法称为抽样。我相信你在学校期间,甚至在你的职业生涯中,都会遇到这个名词很多次。抽样是合成数据子集并进行分析的好方法。但是,那我们只是随机取一个子集呢?

    我们将在本文中进行讨论。我们将讨论八种不同类型的抽样技术,以及每种方法的使用场景。这是一篇适合初学者的文章,会介绍一些统计的知识

    目录

    1. 什么是抽样?
    2. 为什么我们需要抽样?
    3. 抽样步骤
    4. 不同类型的抽样技术
    5. 概率抽样的类型
    6. 非概率抽样的类型

    什么是抽样?

    让我们从正式定义什么是抽样开始。

    抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。

    上图完美地说明了什么是抽样。让我们通过一个例子更直观的进行理解。

    我们想要找到Delhi这个城市所有成年男性的平均身高。Delhi的人口大约为3千万,男性大约为1500万(这些都是假想数据,不要当成实际情况了)。你可以想象,要找到Delhi所有男性的身高来计算平均身高几乎是不可能的。

    我们不可能接触到所有男性,因此我们无法真正分析整个人口。那么,什么可以我们做的呢?我们可以提取多个样本,并计算所选样本中个体的平均身高。

    但是,接下来我们又提出了一个问题,我们如何取样?我们应该随机抽样吗?还是我们必须问专家?

    假设我们去篮球场,以所有职业篮球运动员的平均身高作为样本。这将不是一个很好的样本,因为一般来说,篮球运动员的身高比普通男性高,这将使我们对普通男性的身高没有正确的估计。

    这里有一个解决方案,我们在随机的情况下随机找一些人,这样我们的样本就不会因为身高的不同而产生偏差。

    为什么我们需要抽样?

    我确定你在这一点上已经有了直觉的答案。

    抽样是为了从样本中得出关于群体的结论,它使我们能够通过直接观察群体的一部分(样本)来确定群体的特征。

    • 选择一个样本比选择一个总体中的所有个体所需的时间更少
    • 样本选择是一种经济有效的方法
    • 对样本的分析比对整个群体的分析更方便、更实用

    抽样步骤

    将概念形象化是在记忆的好方法。因此,这是一个以流程图形式逐步进行抽样的流程图!

    让我们以一个有趣的案例研究为例,将这些步骤应用于执行抽样。几个月前,我们在印度举行了大选。你一定看过当时每个新闻频道的民意调查:

    这些结果是根据全国9亿选民的意见得出的还是根据这些选民的一小部分得出的?让我们看看是怎么做的。

    第一步

    抽样过程的第一步是明确定义目标群体。

    因此,为了进行民意调查,投票机构仅考虑18岁以上且有资格在人口中投票的人。

    第二步

    抽样框架(Sampling Frame) –这是构成样本总体的个体列表。

    因此,这个例子的抽样框架将是是名字出现在一个选区的所有投票人列表。

    第三步

    一般来说,使用概率抽样方法是因为每一张选票都有相等的价值。不考虑种姓、社区或宗教,任何人都可以被包括在样本中。不同的样品取自全国各地不同的地区。

    第四步

    样本量(Sample Size)-是指样本中所包含的个体的数量,这些个体的数量需要足量以对期望的准确度和精度进行推断。

    样本量越大,我们对总体的推断就越准确。

    在民意调查中,各机构试图让尽可能多的不同背景的人参与抽样调查,因为这有助于预测一个政党可能赢得的席位数量。

    第五步

    一旦确定了目标人群,抽样框架,抽样技术和样本数量,下一步就是从样本中收集数据。

    在民意测验中,机构通常会向人民提出问题,例如他们要投票给哪个政党或前政党做了什么工作,等等。

    根据答案,各机构试图解释选民投票给谁,以及一个政党要赢得多少席位。

    不同类型的抽样技术

    这里是另一个图解!这一个是关于我们可以使用的不同类型的采样技术:

    • 概率抽样: 在概率抽样中,总体中的每个个体都有相等的被选中的机会。概率抽样给了我们最好的机会去创造一个真正代表总体的样本
    • 非概率抽样:在非概率抽样中,所有元素被选中的机会都不相等。因此,有一个显著的风险,即最终得到一个不具代表性的样本,它不会产生可推广的结果

    例如,假设我们的人口由20个人组成。每个个体的编号从1到20,并由特定的颜色(红色、蓝色、绿色或黄色)表示。在概率抽样中,每个人被选中的概率是1/20。

    对于非概率抽样,这些概率是不相等的。一个人被选中的机会可能比别人大。现在我们对这两种抽样类型有了一定的了解,让我们分别深入了解每种抽样类型,并理解每种抽样的不同类型。

    概率抽样的类型

    简单随机抽样

    这是你一定要遇到的一种抽样技术。在这里,每个人都是完全由随机选择的,人口中的每个成员都有被选择的机会。

    简单的随机抽样可减少选择偏差。

    这种技术的一大优点是它是最直接的概率抽样方法。但它有一个缺点,它可能不会选择特别多我们真正感兴趣的个体元素。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

    系统抽样

    在这种类型的抽样中,第一个个体是随机选择的,其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。

    假设我们的总体大小是x,我们必须选择一个样本大小为n的样本,然后,我们要选择的下一个个体将是距离第一个个体的x/n个间隔。我们可以用同样的方法选择其余的。

    假设,我们从第3个人开始,样本容量是5。因此,我们要选择的下一个个体将是(20/5)= 4,从第3个人开始,即7(3 4),依此类推。

    3、3 4=7、7 4=11、11 4=15、15 4=19 . 3、7、11、15、19

    系统抽样比简单随机抽样更方便。然而,如果我们在人群中选择项目时存在一种潜在的模式,这也可能导致偏差(尽管这种情况发生的几率非常低)。

    分层抽样

    在这种类型的抽样中,我们根据不同的特征,如性别、类别等,把人口分成子组(称为层)。然后我们从这些子组中选择样本:

    在这里,我们首先根据红、黄、绿、蓝等不同的颜色将我们的种群分成不同的子组。然后,从每一种颜色中,我们根据它们在人口中的比例选择一个个体。

    当我们想要从总体的所有子组中得到表示时,我们使用这种类型的抽样。然而,分层抽样需要适当的人口特征的知识。

    整群抽样

    在整群抽样中,我们使用总体的子组作为抽样单位,而不是个体。全体样本被分为子组,称为群,并随机选择一个完整的群作为抽样样本。

    在上面的例子中,我们将人口分为5个群。每个群由4个个体组成,我们在样本中选取了第4个群。我们可以根据样本大小包含更多的群。

    当我们集中在一个特定领域或区域时,就会使用这种类型的抽样。

    非概率抽样的类型

    便利抽样

    这可能是最简单的抽样方法,因为个人的选择是基于他们的可用性和参与意愿。

    这里,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

    便利抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

    配额抽样

    在这种抽样中,我们根据预先确定的总体特征来选择样本。考虑到我们必须为我们的样本我们选择一个倍数为4的个体:

    因此,编号为4、8、12、16和20的个人已经为我们的样本保留。

    在配额抽样中,选择的样本可能不是未考虑的人口特征的最佳代表。

    判断抽样

    这也称为选择性抽样。在选择要求参加者时,取决于专家判断。

    假设,我们的专家认为,应该将编号为1、7、10、15和19的人作为我们的样本,因为它们可以帮助我们更好地推断人口。你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。

    雪球抽样

    我很喜欢这种抽样方法。现有的人被要求推荐更多他们认识的人,这样样本的大小就会像滚雪球一样增加。当抽样框架难以识别时,这种采样方法是有效的。

    在这里,我们随机选择了1个人作为样本,然后他推荐了6个人,6个人推荐了11个人,依此类推。

    1-> 6-> 11-> 14-> 19

    雪球抽样有很大的选择偏见风险,因为被引用的个体将与推荐他们的个体具有共同的特征。

    结尾

    在本文中,我们了解了抽样的概念,抽样所涉及的步骤以及不同类型的抽样方法。抽样在统计世界和现实世界中都有广泛的应用。

    欢迎关注磐创博客资源汇总站:http://docs.panchuang.net/

    欢迎关注PyTorch官方中文教程站:http://pytorch.panchuang.net/

    展开全文
  • 抽样方法、用样本估计总体及正态分布.pptx
  • 一、总体与样本定义 总体:所研究的所有事件的集合 样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论 二、抽样方法 我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种...

    统计学系列目录(文末有大奖赠送
    统计学①——概率论基础及业务实战
    统计学②——概率分布(几何,二项,泊松,正态分布)
    统计学④——置信区间
    统计学⑤——假设验证

    一、总体与样本定义

    总体:所研究的所有事件的集合
    样本:是从总体中抽出的数量相对较小的集合,可用于做出对总体的结论

    二、抽样方法

    我们希望抽取的样本分布和总体分布一致,这样用样本估计总体会比较准确,这种样本叫作无偏样本。
    在这里插入图片描述
    无偏样本的抽样方法
    简单随机抽样:抽签,随机编号生成器,有放回抽样和不放回两种
    分层抽样:将总体分为几个层,层内部相似,层与层之间差距较大,再对每一层进行简单随机抽样
    整群抽样:将总体分为几个群,群与群之间相似,随机抽取几个群作为样本
    系统抽样:随机选取一个数据K,每次到第K个抽样单位就抽一次

    三、总体参数的估计

    ①总体均值
    当通过抽样获得无偏样本后,可以直接用样本的均值来估计总体的均值,如下:
    在这里插入图片描述
    在这里插入图片描述
    ②总体方差
    方差是否可以直接用样本方差呢?答案是No,因为方差衡量的是分散性,样本相对总体而言,数量较少,可能会将一些异常值排除在外,导致样本的方差要少于总体
    在这里插入图片描述
    如果要确切知道总体的方差,并且拥有总体的数据,方差的计算如下:
    在这里插入图片描述
    如果需要用样本估计总体的方差,计算如下:
    在这里插入图片描述
    之所以用n-1而不是n,,是因为n-1会使得方差稍微大一些,更接近总体方差

    ③总体比例
    样本比例直接估计总体比例
    在这里插入图片描述

    四、比例抽样分布

    当考虑从一个总体中抽取所有大小为n的样本,由这些样本中的某个比例所形成的分布,就叫比例的抽样分布,一般用Ps表示样本比例变量

    一般用来求解这类问题:当得知公司生产的糖果有25%的红色的,那么随机抽取100个样本,至少有50%的糖果是红色的概率?

    Ps的期望和方差定义为:
    在这里插入图片描述
    如果n>30时,二项分布可以近似为正态分布
    在这里插入图片描述
    需要进行连续性修正

    五、均值抽样分布

    如果考虑从一个总体中抽出所有大小为n的样本,然后用这些样本的均值形成一个分布,那么这个分布就叫均值抽样分布。

    一般用来求解这类问题:总体中每个袋子平均有10颗糖,那么随机抽取一个袋子中糖的个数小于8的概率是多少?

    期望和方差的计算如下:
    在这里插入图片描述
    样本的均值期望就是总体的均值,而方差却不等于总体方差,这里是为什么呢?

    因为总体方差衡量的是总体样本的分散性,而均值方差衡量的是所有抽取的样本的均值的分散性,是2个不同的东西。用总体的方差/n 表示随着样本数量增多,样本均值方差会越来越小,意味着样本均值越来越接近于总体均值

    如果总体符合均值为μ,方差为σ^2的正态分布,那么抽取的样本均值符合如下分布:
    在这里插入图片描述
    如果总体不是正态分布时,那样本均值还会符合上述分布吗?答案是看情况,如果抽取的样本n很大时,还是符合上述分布的,这里要重点引出中心极限定理:
    在这里插入图片描述
    中心极限定理可以运用于:

    ① 如果总体属于二项分布,用X~B(n,p)表示,n>30,则样本均值的抽样分布近似N(np,pq/n)
    ② 如果总体属于泊松分布,用Po(λ)表示,n>30,则样本均值的抽样分布近似N(λ,λ/n)

    因为均值的抽样分布属于正态分布,就可以通过标准化再差概率表得到特定样本均值的概率了


    本人互联网数据分析师,目前已出ExcelSQLPandasMatplotlibSeaborn机器学习统计学个性推荐关联算法工作总结系列。


    微信搜索并关注 " 数据小斑马" 公众号,回复“统计”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学9本统计学入门到精通必备经典教材
    在这里插入图片描述

    展开全文
  • 样本与抽样 总体与样本 假设一个情境:曼帝糖果公司生产超长效口香糖球,这种产品具有多种颜色,可以满足多种口味。为了宣传口香糖球的口味持续时间,公司决定招聘试吃者进行口味检验。 我们当然不能让试吃者吃完...

    样本与抽样

    总体与样本

    假设一个情境:曼帝糖果公司生产超长效口香糖球,这种产品具有多种颜色,可以满足多种口味。为了宣传口香糖球的口味持续时间,公司决定招聘试吃者进行口味检验。

    我们当然不能让试吃者吃完所有的糖球。因此,我们需要从总体中抽出样本

    糖球总体

    糖球总体表示现有的每一粒糖球总和。

    统计学上的总体指的是准备对其进行测量、研究或分析的整个群体,可以是人、得分,也可以是糖果一关键在于总体指的是所有对象。

    普查指的是对总体进行研究或调查。在曼帝糖果的实例中,他们对每一粒糖球进行品尝,因此,是对糖球总体进行普查。普查可以给出关于总体的准确信息,但并不是在任何情况下都切实可行。当总体数量很大,或者说无穷无尽时,就不可能对每一个对象进行研究了。

    糖球样本

    不需要尝遍所有糖球也能搞清楚糖球口味持续时间一你可以不检验总体,而检验样本。

    一个统计样本就是从总体中选取的一部分对象。通过选取样本,使其恰当地代表总体,从而得到代表总体的一个子集。对于曼帝糖果来说,一个口香糖球样本就是所选取的一小部分糖球,而不是每一粒糖球。

    仅对总体的一个样本进行的研究或调查称为**样本调查,**在多数情况下,进行样本调查比进行普查更切实可行,通常样本调查所费的时间和费用都较低,且不用考虑整个总体。由于不使用总体,对口香糖球进行样本调查则意味着调查完毕后还会剩下大量糖球。

    抽样方法

    建立一个好样本的关键是尽量选择最符合总体的样本,如果样本具有代表性,则表示样本具有与总体十分相似的特性,进而意味着可以通过样本预测出总体具有哪种特性。

    就如以下所示,如果抽样具有代表性,那么抽样结果数据就会和总体数据很相似:

    在这里插入图片描述

    但是,如果样本不能代表总体,就有可以导致错误的结论。比如从各种颜色的糖球中只抽样红色的糖球,调查其持续时间,这样就可能导致错误。

    在这里插入图片描述

    如何设计样本

    1. 确定目标总体

    首先要弄清楚目标总体何在,才知道样本取自哪里。这里的目标总体指的是你正在研究的、并且打算为其采集结果的群体。你所选择的目标总体在很大程度上取决于你的研究目的,例如,你打算收集世界上所有的口香糖球的数据,还是收集某个特定品牌或某个特定类型的口香糖球的数据?

    目标总体要尽可能精确,这样能更为容易地得出尽可能代表总体的样本。

    在例子中:目标总体是所有口香糖球。

    1. 确定抽样单位

    一旦确定目标总体,就需要决定要抽取哪一类对象,通常,要抽样的对象类型就是在确定目标总体时所描述的对象类型,例如,可以是一粒口香糖球,也可以是一盒口香糖球。

    在例子中:抽样单位是一粒超长效口香糖球。

    1. 确定抽样空间

    最后,你需要列一张表,表中列出目标总体范围内的所有抽样单位,最好给每个抽样单位取个名或编个号。这张表被称为抽样空间,基本上,你可以从这张表中选取样本。

    有时候不可能得出涵盖整个目标总体的抽样空间表,例如,如果要收集生活在某个地区的居民的观点,由于人口流动表中列举的名字就会受到影响;如果所处理的是一些相似的对象,例如口香糖球,那么为每一粒糖球命名或编号恐怕是不可能的,或者说是不现实的。

    为什么要抽样空间?

    **如果不好好设计,样本有可能不精确。**设计样本需要额外付出不少准备时间,但是,比起费时、费钱地进行调查却换来一些错误结果,这要好多了。后者会让金钱和时间付诸东流,更有甚者,恐怕会有人根据错误的调查结果做出错误的决策。

    设计不当的样本会引起偏倚

    什么是偏倚?

    如果每个样本都能做到十分可观,那么就不会偏倚,否则最终结果会发生扭曲。人可能无意或有意带入样本的某种个人偏好就是偏倚,这时的样本不再是从总体中随机选择的结果。

    无偏样本

    无偏样本可以代表目标总体,即该样本与总体样本具有相似特性,我们可以利用这些相似特性对总体本身做出判断。

    一个无偏样本的分布形状与作为其来源的总体的分布形状相似,如果我们知道样本的分布形状,就可以据此以合理程度的置信水平预测总体的分布形状。

    在这里插入图片描述

    偏倚样本

    偏倚样本无法代表目标总体,由于样本与总体的特性不相似,无法根据样本对总体做出判断。如果我们试图用样本的分布形状预测总体的分布形状,最终将会得出错误的结果。

    在这里插入图片描述

    偏倚的来源

    1. 抽样空间中条目不齐全,因此未包含目标总体中的所有对象。如果条目不出现在抽样空间中,那么也不会出现在样本中。
    2. 抽样单位不正确。例如,也许抽样单位不应该是一粒粒的口香糖球,而应该是一盒盒的口香糖球。
    3. 为样本选取的一个个抽样单位未出现在实际样本中。例如,你可能发出一份调查问卷,但并不是人人都给出回应。
    4. 调查问卷的问题设计不当。设计的问题要中性,要适合每个人回答。例如,“曼帝糖果公司的糖果比其他品牌的糖果更可口,您同意吗?”这种提问带有偏倚,较好的做法是请受调查者自己说出他们偏爱的糖果品牌。
    5. 样本缺乏随机性。例如,如果在大街上展开调查,你可能会回避行色匆匆或气势汹汹的人,于是你就将气势汹汹的人或行色匆匆的人排除在调查范围以外。

    问:这么说抽样空间就是我们所抽取的所有对象的列表?

    答:抽样空间列出总体中的所有独立单位,被作为样本的基础,但它并不是样本本身,这是因为我们不会抽取抽样空间中的所有对象。

    问:我如何形成抽样空间?

    答:具体做法以及所用对象取决于你的目标总体,例如,如果你的目标总体是所有汽车车主,那么可以采用汽车车主花名册;如果你的目标总体是入读某所大学的全体学生,那么可以采用大学注册表。

    问:电话簿之类的东西怎么样?能作为抽样空间吗?

    答:这完全取决于你的目标总体。电话簿上不列出未装电话的家庭,还有一些家庭尽管装了电话,但会选择不在电话簿上公开。如果你的目标总体是有公开的电话号码的家庭,那么使用电话薄是一个不错的主意;如果你的目标总体是所有装有电话的家庭或甚至是所有家庭,那么你的抽样空间不会十分精准一这会带来偏倚。

    目标总体、抽样单位、抽样空间、不偏倚例题

    在这里插入图片描述

    如何选择样本

    简单随机抽样

    一种做法是随机选取样本。假设你有一个包含 N 个抽样单位的总体,需要选取包含个抽样单位的样本。简单随机抽样就是通过随机过程选取一个大小为 n 的样本,所有大小为 n 的可能样本被选中的可能性都相同。

    简单随机抽样有两种具体做法:重复抽样不重复抽样

    重复抽样

    重复抽样指的是:在选取一个抽样单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体中。这样做的结果是某个抽样单位有可能被选取不止一次。重复抽样的例子有:决定向大街上的行人提问,事前并不查看是否已经向该行人提问过。当你拦住行人请他们回答问题,然后在问完后让他们离开,实际上就是将行人放回了总体,这意味着你有可能不止一次向他们提问。

    不重复抽样

    不重复抽样指的是:不再将抽样单位放回总体。不重复抽样的例子有:口香糖球检验一尝过的口香糖球是不会被放回总体的。

    如何选取简单随机样本

    主要2种方法:抽签、或使用随机编号

    抽签

    抽签就是把抽样空间中的成员的名字或编号写在纸上或是球上,然后将其全部放人一个容器,再随机取出个名字或编号,以便得到足够的样本单位。

    随机编号生成器

    如果你所处理的是一个大型抽样空间,抽签可能不太可行,于是可以采用另一种做法一随机编号生成器或者随机编号表。这时,你为抽样空间的每个成员编一个编号,再生成一组共个随机编号,然后从该空间中取出编号等于所生成的随机编号的成员。

    重要提示:确保每个编号的生成机会相同,从而避免偏倚。

    如果运气不好,可能最终都会抽到黄色口香糖球,导致偏倚,我们还有其他方法。

    分层抽样

    有一个方法可以取代简单随机抽样,即分层抽样。这种抽样类型将总体分割为几个相似的组,每个组具有类似的特性。这些特性或者组被称为层。例如,我们可以将口香糖球划分为不同的颜色一黄色、绿色、红色及粉色,这样每一种颜色就形成一个不同的层。

    完成以上分层工作之后,就可以对每一个层进行简单随机抽样,确保最终样本中具有每一个组的代表。为此需查看每一个层在总体中所占的比例,然后按照相应比例从每一个层中抽取抽样单位。例如,如果曼帝糖果公司所生产的口香糖球有 50%是红色的,那么样本的一半应该由红色口香糖球组成。

    整群抽样

    如果总体中包括大量相似的组或群,则整群抽样可以派上用场。例如,口香糖球可能会按盒出售,每一盒中的口香糖球的数量和颜色组成都相似,于是每一盒糖球形成一个群。

    进行整群抽样时,不是对抽样单位进行简单随机抽样,而是对群进

    行简单随机抽样,然后对每一个群的各种特性进行调查。例如,你可以对一盒盒口香糖球进行简单随机抽样,然后品尝这些盒子里的糖球的味道。

    整群抽样之所以行得通,是因为群与群相互之间很相似,另外它还有一个优点,不需要使用总体抽样空间就可以进行整群抽样。例如,如果你正在调查树木情况,并把几片特定的森林作为群,则只需要了解你所选定的几片森林中的树木就行了。

    整群取样的问题在于可能做不到完全随机。例如,很有可能一盒包装中的所有口香糖球都是同一个厂家生产的一如果有不同生产厂家,你就不能选取这些糖球。

    在这里插入图片描述

    系统抽样

    使用系统抽样时,按照某种顺序列出总体名单,然后每 k 个单位进行一次调查,其中 k 为一个特定数字。例如,可以选择每 10 个样本抽样一次。

    相对而言,系统抽样既快捷又简单,但却有一个重大缺陷:如果总体中存在某种循环模式,则样本将会有偏倚。例如,如果糖球的生产工艺造成每到第 10 个糖球就是红色,那么你最终抽到的都是红色糖球,这会导致你对总体形成错误结论。

    在这里插入图片描述

    问:分层抽样和整群抽样有何区别?

    答:分层抽样将总体划分为不同的组,或者叫做层,每一个层中的所有抽样单位相互之间尽量相似,也就是说,你认定一些特征或属性,例如性别,将其作为分层的依据。一旦将总体划分为层,就能对每个层进行简单随机抽样。

    整群抽样的目的是将总体划分为多个群,同时尽量保证群与群相似,随后通过简单随机抽样选取群,再接着就是对这些群中的对象进行抽样。

    抽样例题

    在这里插入图片描述

    在这里插入图片描述

    展开全文
  • 高中数学人教新课标理洞察高考个热点热点三十一考查抽样方法与样本估计总体PPT课件.pptx
  • 本短文介绍了总体样本总体方差、样本方差、抽样方差和标准误等概念以及它们之间的一些关系。因为一些外文材料的翻译不善以及老师课堂教学中的不重视,我身边仍有许多人将它们混淆。本短文的参考资料主要包括...
  • 总体与样本的理解

    千次阅读 2016-10-26 19:19:51
    特别需要理解的是:样本中的每一个取值我们也视作随机变量,因为抽样的随机性,因此每一个个体都是对总体的反应,所以和总体X是平级的,比如总体X的取值范围,在每一个个体上,取值范围也是相同的。 对于抽取的...
  • 江苏专版2019版高考数学一轮复习第十一章统计概率课时跟踪检测五十抽样方法样本估计总体文201805284207
  • 总体XXX ~ N(μ,σ2)N(μ, σ^2)N(μ,σ2),X1,X2,……,XnX_1,X_2,……,X_nX1​,X2​,……,Xn​是来自总体样本样本均值为X‾\overline{X}X,其中X‾=1n∑i=1nXi\overline{X}=\frac{1}{n}\sum_{i=1}^{...
  • 九年级数学下册第30章样本与总体30.1抽样调查的意义3这样选择样本合适吗课件华东师大版20200325426
  • 2013届高三数学二轮复习热点 专题一 高考中选择题、填空题解题能力突破30 考查抽样方法与样本估计总体
  • 九年级数学下册第28章样本与总体28.1抽样调查的意义2这样选择样本合适吗同步练习新版华东师大版
  • 九年级数学下册第28章样本与总体28.2用样本估计总体第1课时简单随机抽样调查可靠吗同步练习新版华东师大版
  • 九年级数学下册第30章样本与总体30.1抽样调查的意义1人口普查和抽样调查课件华东师大版20200327127
  • 九年级数学下册第30章样本与总体30.1抽样调查的意义1人口普查和抽样调查课件华东师大版20200325424
  • 九年级数学下册第28章样本与总体28.1抽样调查的意义1普查和抽样调查同步练习新版华东师大版
  • 随机抽样样本估计总体正态分布.pptx
  • 总体样本抽样很多小样本,每个小样本有一个均值,均值总体均值有差值t,差值用t估计。 可能很多差值估计都是t,t出现的次数占所有小样本的比例:概率,所有t值的概率分布:t分布的一个曲线 另外做个抽样,每...
  • 九年级数学下册第30章样本与总体30.1抽样调查的意义1人口普查和抽样调查习题课件华东师大版20200326557
  • 九年级数学下册第30章样本与总体30.1抽样调查的意义2从部分看全体课件华东师大版20200325425
  • 1、概述 总体、个体、样本 2、点估计和区间估计 2.1、点估计 2.2、区间估计 置信度:总体参数有多大的概率位于置信区间 置信区间:
  • 2019_2020学年九年级数学下册第28章样本与总体28.1抽样调查的意义作业设计新版华东师大版20200312335
  • 九年级数学下册第30章样本与总体30.1抽样调查的意义2从部分看全体3这样选择样本合适吗课件华东师大版20200327128
  • 2018_2019学年九年级数学下册第28章样本与总体28.2用样本估计总体28.2.1简单随机抽样调查可靠吗同步练习新版华东师大版
  • 九年级数学下册第30章样本与总体30.1抽样调查的意义2从部分看全体3这样选择样本合适吗习题课件华东师大版20200326558
  • 本文对抽样分布的概念、无偏差和最小偏差等性质,以及中心极限定理和样本比例的抽样分布进行总结。2 抽样分布基本概念 参数(parameter):参数是对总体的数值描述,因为是总体,所以值经常是未知的。 样本统计量...
  • 总体抽样等价于从分布中抽样 总体分为有限总体与无限总体,本书以无限总体为研究对象 样本:从总体中随机地抽象n个个体,记其指标值为x1,x2,…,xn,称x1,x2,…,xn为总体的一个样本,n称为样本容量,或简称...
  • 2018_2019学年九年级数学下册第28章样本与总体28.1抽样调查的意义28.1.2这样选择样本合适吗同步练习新版华东师大版

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,556
精华内容 5,822
关键字:

总体样本与抽样方法