精华内容
下载资源
问答
  • 抽样分布的概念

    千次阅读 2018-05-09 18:16:39
    随机抽样(Random Sampling)和随机变量(Random Variable) 我们想研究一个总体(Population)或叫母体某些参数(Parameter),比如均值(平均特征)、方差(分散特征)、中位数(比例特征),我们很多情况下,不能...

    随机抽样(Random Sampling)和随机变量(Random Variable)

    我们想研究一个总体(Population)或叫母体的某些参数(Parameter),比如均值(平均特征)、方差(分散的特征)、中位数(比例的特征),我们很多情况下,不能把所有的个体分别研究,例如我们想研究中国的成年女性罩杯的大小,总不能把所有中国女人的胸都两个两个拿来测吧?所以,我们只能抽样。相对的,如果全面地,一个一个地查,那叫普查。通常,样本总体可能太大,甚至就是抽象无限的,所以普查不可行,我们只能抽样。可是,我们要研究的是总体的特征啊,你只给我个抽样的,你怎么给我保证,你的抽样能代表总体?这是一个关键的问题。这里有两个前提,第一是,抽样这个行为必须是随机的;第二是,样本中的每个个体有相同的概率被抽中。这两点可以统一归纳为一个名词–随机抽样(Random Sampling)。通过随机抽样抽出的样本,例如,我们抽n个,他们就是这个总体的容量为n的随机样本,记为

    X1,X2,X3,,Xn,
    其中每个Xi,i=1,2,,n为一个服从总体分布的随机变量(Random Variable),每一个随机变量是独立同分布(Independent and Identically Distributed,i.i.d. or iid or IID)的。什么是独立?独立就是抽取样本的这个行为互相之间没有影响。可是我们都知道,在概率论里我们经常研究的抽小球的问题中,如果小球抽出不放回,则每次的抽取是会影响总体分布的,不同的抽取实验之间也是不独立的。而很多时候我们抽样是不放回的,例如,意见征求的调查中,我们不希望重复问到一个人,这样的抽样是不放回的。所以照这样分析,这个抽样是独立的吗?实际上,对于抽样我们有一个隐含的无限总体假设,那就是当样本数 n 和总体个数 N 之比小于 5% 时,即 nN<0.05 时,可以认为总体是无限的,此时抽取出来的样本可以视作对总体分布无影响。我们也可以从一个例子来理解这件事,例如,小明有1000块钱,如果我跟他借50块钱,可能他会觉得不痛不痒,可是如果小明只有100块钱,我还是借50块钱,可能他第二天就要找我算账了,就是这个道理,所有有时候我们也可以把这个假设理解成为借钱假设。那什么是同分布呢?先啰嗦地说一下变量服从分布是什么意思吧。我自己在这一点的理解一开始就是有偏差的,我当时想不明白一个随机变量服从分布是什么意思,一个分布不是要画成一条曲线吗,至少应该有很多点才可以描成一条曲线,然后画出来的曲线像是某个分布的曲线才叫服从吧。实际上,一个变量确实是没办法画成一条曲线,但是却不妨碍它成为曲线的一部分,而我们知道,例如正态分布(Normal Distribution)的曲线,是中间高,两边矮,意思是说在中间分布的比较密集,两边比较稀疏,我们的变量服从这个分布,要求的是抽取出来的这个变量的属性会符合这个分布所描述的特性,例如从所有中国成年男性随机抽取一个人,按照总体的分布,这个人的身高在170cm概率是比较高的,如果这个人的身高是一个服从总体分布的随机变量,那么这个变量的取值的概率应该是和总体取各值的概率是相近的,这样就叫服从分布。所以,这些随机变量同分布的意思就是,他们取到各个值的概率,都符合总体分布中取到各个值的概率。

    一般大学里都是先教概率论再教统计,所以有时候容易忽略总体的数据是难以获得的这一现实,因为在概率论中我们都假设总体就服从某一分布,然后来研究它的一些特性和相关定理和计算的问题。虽然我们不知道总体的分布,但它却是本身就存在的,我们做抽样,就是要用抽样样本的统计特性去估计总体的特性。也是为了达成这个目的,我们需要随机抽样,这些被抽取出来的样本,每个都是一个随机变量,它们之间是相互独立且同分布与总体的分布的。反过来说,总体分布和这些随机变量的分布也是同分布的,从这里也许我们可以发掘出一些抽样数据的意义。

    抽样分布大致概念

    我们首先要区别总体和样本关于某些特性的不同,下面列举三个最常见最重要的三个特征–平均特征、分散性特征、分布比例特征:

    总体参数样本统计量μX¯σS2pp^

    上表从上到下分别对应均值、方差、比例三个特性,在总体中我们管它们叫参数,在抽样的样本中我们叫统计量。它们有什么区别?总体的这些参数,之所以敢叫参数,是因为它们是有把握确定的。例如统计全体中国公民的身高,我把十三四亿人的身高全测了一遍,一个不漏,来算平均值,我可以很有自信的说,这就是中国所有公民的平均身高。这样算出来的均值,它可以为你研究这个总体提供一个参考,因此也配得上叫参数。但样本就不一样所以,首先样本容量肯定是小于而且基本上是远小于总体容量的,比方说我们样本容量 n=500 好了,那么我一次抽500个人,有可能求出来的平均身高是 175cm ,可是我下一次抽,可能只有 160cm 了。

    所以说,总体的参数,是这个总体固有的,与生俱来的,例如给定一个总体的身高,它的平均身高也就定了,而抽样的统计量却是根据抽样不同而不同的,可能有时候抽的高有时候抽的矮,是有误差的。更进一步的,这些抽样的统计量,如X¯,S2,p^ ,它们还是随机变量。例如,总体是中国全体公民,每次抽500个人算平均身高(就把每个样本身高累加除以500),这个身高是一个随机变量(实际上,它就是这些样本的函数,当然会是随机变量,因为这些样本都是服从整体分布的随机变量),这个随机变量可能大可能小,但它服从一定的分布。这些抽样统计量的分布情况,就叫做抽样分布

    抽样分布–统计量的分布

    有了以上的基础,我们以统计量的均值和方差为例,简要讨论它们的抽样分布。它们的计算式如下:

    X¯=i=1nXi
    S2=i=1n(XiX¯)2(n1)

    样本均值很好理解,就是把所有的样本值相加除以样本容量。但方差要除以 n1 可能就不太好理解了。既然说讨论分布,我们理所应当就应该讨论一下它们的特性,例如均值,方差等。

    对,就是要讨论“均值的均值”。

    我们说了,以测量身高为例,可能这个均值一会儿大一会儿小,因此,单个样本的均值是没多大意义的。但是我们也说了这个样本的均值是服从一定分布的。例如我们原来的样本服从标准正态分布,那么可以想象的是这个均值也一定会服从正态分布,不过就不一定是标准的了。还是以身高为例吧,假设我们的样本容量是500,我们就把抽500个人测身高算一次实验,那么我们做多次实验,每次实验算平均身高,再把这些平均身高再平均一次,假设我们的实验足够多,最后肯定会得到跟总体一样的平均身高吧。这其实说明了一件事,那就是

    E[X¯]=μ
    即样本的均值的期望等于总体的期望。可以这样理解,对,我们抽500个人,是偶尔会抽到高一点的500个人,但总不可能每次都抽到的都高吧,同理,不可能每次抽到的都矮吧(这里高矮相对总体期望而言),肯定是各种情况都有一点,但是,综合起来,肯定是跟总体的期望差不多的。

    那如何理解方差的计算呢?方差就是差异的大小嘛,差异就是跟期望比嘛,我们实在是没有期望,就只好和样本均值比咯。但是我认为关键的地方是要理解为什么要除以一个数。我们还是抽500个人,在中国,要你在街上找1个185的人,很轻松吧,至少不难。要你同时找10个,平均身高185,可能有点难,但还是可能的。这时,我告诉你,给我找500个平均身高185的人……拜托,中国成年男性2010年人口普查平均身高才167……所以嘛,如果500个人,均值要为185,是比随机抽一个人,或10个人均值为185的难度都要大很多对不对,因此,它肯定是更集中分布,也就是那种本来总体就比较少的情况,在样本的均值里面更加小概率出现了。因此它的方差肯定是更小了,要除一个数,那么除什么呢,除 n1 。为什么?可以看这里
    暂时没时间写了,遛了……

    展开全文
  • 统计抽样概念,变量抽样和属性抽样的区别
    在讲这两者区别之前先要了解什么是抽样,其定义就是从总体中抽取有代表性的样本,从而来推断或观察总体的特征和规律,就是我们所说的“观一斑而知全豹”。事物的特征分为定性的和定量的,用于推断定性的抽样方法就是属性抽样,用于推断定量的抽样方法就是变量抽样。可能您还是觉得有点抽象,没关系我们通过举具体的例子来说明。


    一、属性抽样
       属性抽样时,每个样本的结果都是非此即彼(比如,要么是,要么不是;要么合格,要么不合格),但是其统计结果却可以是一个数量,比如,合格率80%。
       举例一,某商场决定提升服务水平,确定是否增加一个儿童设施,这时需要调研来商场的儿童比例,调研表上规定年龄低于14周岁以下的确定为儿童(定性,非儿童即成年人),并进行调研,调研结果显示,来商场儿童所占的比例为38%。
       举例二,某车间对其生产的产品“钢圈”进行检查,钢圈的直径范围落在5.3~5.4之间的为合格品(范围界限,非里即外),之外的为次品,某日进行了500批次的抽检,其合格率为89%。


    二、变量抽样
       变量抽样时,需要从量的角度通过样本来推断总体,比如,估算中体的平均值,预测总体的偏差情况等,其结果是一个数量,这个数量说明什么则根据具体应用而定。
       举例一,某商场决定提升服务水平,确定是否增加一个儿童设施,这时需要调研来商场儿童的平均年龄,再根据平均年龄的分布来确定购买什么样的儿童设施,商场工作人员连续一周对进入商场的儿童的平均年龄进行调研,得出结果为1~3岁18%,3~6岁56%,6岁以上26%。
       举例二,某车间对其生产的产品“钢圈”进行检查,来确定总体各批次的平均直径和标准偏差,工作人员随机抽取的8个批次,每个批次抽取100个进行检验,得出相应的数据。
    展开全文
  • 抽样分布概念及其三大重要分布

    千次阅读 2019-12-14 19:23:55
    抽样分布概念 总体容量很大,我们需要从总体抽出样本进行一些规律分析,进而对总体分布情况进行推断,因此抽样分布具有重要意义。 分析抽样样本规律过程中,需要对抽样特征进行提取,进而对原始数据进行...

    抽样分布概念

    总体的容量很大,我们需要从总体抽出的样本进行一些规律的分析,进而对总体的分布情况进行推断,因此抽样分布具有重要意义。

    分析抽样样本规律的过程中,需要对抽样特征进行提取,进而对原始数据进行运算得出的具有代表性的数字对原始信息进行提取,这些代表性的数字叫做统计量。

    抽样分布:从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。

    常用统计量

    如下图,总体样本X,还有一系列随机选取的样本在这里插入图片描述。样本不是单个个体,而是一堆随机个体集合。样本是总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。
    在这里插入图片描述
    (1)在这里插入图片描胜多负少的述,样本的均值,反应出总体的X数学期望的信息。
    (2)在这里插入图片描述,样本方差,样本中的每个值与样本平均值的平方和除以样本数减去1的值,反应总体X方差的信息。
    (3)在这里插入图片描述,变异系数,是标准差与均值的商,反应总体变异系数C的信息,表示各观测值离散程度的统计量,如果变异系数大于15%,则要考虑该数据可能不正常,应该剔除。变异系数无量纲,可以比较不同组之间的离散程度,例如可以比较一组学生中的身高和体重那个离散程度更大。
    (4)在这里插入图片描述,样本K阶矩。反应总体k阶矩的信息。
    (5)在这里插入图片描述,样本K阶中心距。反应总体的K阶中心距的信息。V2是样本方差。
    (6)在这里插入图片描述样本偏度,同样反应总体偏度信息,反应抽样的样本低于众数和高于众数的数量分布情况。
    (7)在这里插入图片描述样本峰度,反应总体峰度的信息,反应抽样的样本低于众数和高于众数的数量中具体的数据的分布情况。

    三大重要分布

    卡方分布(X²)

    若n个相互独立的随机变量X1,X2,…,Xn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其卡方分布分布规律称为χ²(n)分布,其中参数 n 称为自由度,自由度不同就是另一个χ²分布,正如正态分布中均值或方差不同就是另一个正态分布一样。示意图如下所示:
    在这里插入图片描述
    χ²分布的均值为自由度 n,记为 E(χ²)=n,χ²分布的方差为2倍的自由度(2n),记为 D(χ²)=2n。
    在这里插入图片描述
    χ²分布具有可加性:若有K个服从χ²分布且相互独立的随机变量,则它们之和仍是χ²分布,新的χ²分布的自由度为原来K个χ²分布自由度之和。表示为:
    在这里插入图片描述

    T分布

    设随机变量X~N (0,1),Y~χ²(n),且X与Y独立,则,
    在这里插入图片描述
    其分布称为t分布,记为t(n),其中,n为自由度。自由度为1的分布称为柯西分布,随着自由度n的增加,t分布的密度函数越来越接近标准正态分布的密度函数。一般当样本数n>=30时,t分布与标准正态分布就非常接近。示意图如下所示:
    在这里插入图片描述
    t分布的自由度越大,则该t分布的曲线就越接近标准正态分布。当自由度大于30时,与标准正态分布的差异很小
    在这里插入图片描述

    F分布

    设X、Y为两个独立的随机变量,X服从自由度为k1的χ²分布,Y服从自由度为k2的χ²分布,这2 个独立的χ²分布
    被各自的自由度除以后的比率这一统计量的分布,随机变量X有如下表达式:
    在这里插入图片描述
    即:上式X服从第一自由度为k1,第二自由度为k2的F分布,即为F(m,n),如下图所示:
    在这里插入图片描述
    在这里插入图片描述

    中心极限定理

    中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
    其中要注意的几点:
    1.总体本身的分布不要求正态分布
    上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。(神奇!)
    2.样本每组要足够大,但也不需要太大
    取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。
    样本的期望和方差:
    设总体均值为
    在这里插入图片描述

    展开全文
  • 本文对抽样分布的概念、无偏差和最小偏差等性质,以及中心极限定理和样本比例的抽样分布进行总结。2 抽样分布基本概念 参数(parameter):参数是对总体的数值描述,因为是总体,所以值经常是未知的。 样本统计量...

    本文对抽样分布的概念、无偏差和最小偏差等性质,以及中心极限定理和样本比例的抽样分布进行总结。

    2 抽样分布基本概念

    参数(parameter):参数是对总体的数值描述,因为是总体,所以值经常是未知的。
    样本统计量(sample statistics):样本的数值描述,利用样本计算而来。

    常见的参数和样本统计量如下表所示。

    总体参数样本统计量
    均值μx¯
    中位数ηm
    方差σ2s2
    标注差σs
    二项比率pp^

    抽样分布(sampling distribution):统计量的概率分布,根据n个测量值的样本计算得到。

    2 抽样分布的性质

    性质一:无偏性

    无偏估计(unbisaed estimate):样本统计量的抽样分布均值和要估计的总体参数相等,就认为这个统计量是参数的无偏估计。
    有偏估计(biased estimate):抽样分布的均值和要顾及的参数不相等,就认为这个统计量是参数的有偏估计。

    性质二:最小方差

    如果两组统计量的抽样分部都无偏,我们更加倾向选择标注差最小的,抽样分部的标准差也被成为统计量的标准误(standard error of the statistic)

    3 样本均值的抽样分布和中心极限定理

    3.1 x¯的抽样分部的性质:

    x¯的抽样分布的性质:
    1.抽样分部的均值等于抽样总体的均值,即μx¯=E(x¯)=μ
    2.抽样分部的标准差等于:
    σx¯=σn。(标准差σx¯一般被称为均值的标准误(standard error of the mean)
    3.正态分布的抽样分布:如果从一个服从正态分布的总体中选取一个有n个观测值的随机样本,那么x¯的抽样分布也是一个正态分布。

    3.2 中心极限定理

    从一个均值为 μ 、标准差为σ的总体中选取一个有n个观测值的随机样本。那么当n足够大时,x¯的抽样分布将近似服从均值μx¯=μ 、标准差σx¯=σ/n的正态分布。并且样本量越大,对x¯ 的抽样分布的正太近似越好。

    4 样本比例的抽样分布

    和样本均值是总体均值的良好估计一样,样本比例(记为p^),是总体比例p的良好估计。和样本均值的抽样分布有着类似的性质。

    p^的抽样分布性质:
    1. 抽样分布的均值等于二项比例p,也就是E(p^)=p。因此,p^p的无偏估计。
    2. 抽样分布的标准差等于p(1p)/n,即σp^=p(1p)/n
    对于大样本,抽样分布近似于正太。

    展开全文
  • 它不是抽样调查固有,即使是全面调查也存在。 如:过失性错误,调查员错测、错记、被调查者无回答;测量误差(又称随机误差)。前者可通过调查人员培训、教育、宣传、检查,后者无法避免只能通过仪器改进或样本量...
  • 抽样方法

    2019-12-10 13:48:22
    抽样的概念 抽样调查与普查 非抽样误差 抽样形式 统计过程 从总体中抽取样本,通过样本计算统计量基于样本的统计量来推断总体 抽样的概念 指在不能进行全数调查时,为了推断总体的倾向,抽取真实地代表调查总体的...
  • 定理1:设(ξ1,ξ2,......ξn\xi _1,\xi _2,......\xi _nξ1​,ξ2​,......ξn​)是来自总体ξ\xiξ...样本均值期望和方差:E(ξ‾)=μ,D(ξ‾)=1nσ2样本均值期望和方差:E(\overline{\xi})=\mu,D(\overli...
  • Spark中组件Mllib学习19之分层抽样

    千次阅读 2016-05-23 22:38:37
    分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层1和层2,对层1和层2按不同的概率进行抽样 数据aa bb cc dd ee
  • eg:在考察一个年级2000名学生身高试验中,每个男生身高是一个可能观察值,所形成总体中共含2000个可能观察值,是一个有限总体。 无限总体: 容量为无限总体。 eg:考察全国正在使用某种型号灯泡寿命所...
  • 目录 ... 抽样的基本概念 1.1 全及总体与样本总体 1.2 全及指标与抽样指标 1.3 样本容量与样本个数 1.4 重复抽样和不重复抽样 2. 抽样误差 2.1 抽样误差 2.2 影响抽样误差的因素 ...
  • 要理解重点抽样法得首先了解随机抽样法,因为重点抽样法就是在随机抽样基础上优化得到。 1.1 随机抽样法 随机抽样法也叫蒙特卡罗方法,简单理解就是采用模拟方法来逼近真实问题理论答案。 例如: 一枚...
  • PMBOK(2004 3rd 英) P191中提到了质量控制中要注意区分几个概念,其中提到了属性抽样与变量抽样这一对概念,书上没有详细解释,查阅如下:Attribute Sampling ...:Statistical procedure used to study the ch
  • 通信系统之信号的抽样(二)1、低通型信号的抽样1.1 抽样的概念及实现1.2、低通型信号的抽样定理2、带通型信号的抽样2.1、带通型信号的抽样定理2.2、低通型信号与带通型信号的抽样信号频谱的比较 1、低通型信号的...
  • hive 抽样统计

    2013-11-29 19:38:45
    用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的 其实很多时候不需要理论,想也是可以想到的,不过还是总结一下 0.测试表: [code="sql"] dr...
  • Spark之分层抽样

    千次阅读 2017-06-13 10:19:07
    分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层1和层2,对层1和层2按不同的概率进行抽样 数据aa bb cc dd ee ...
  • 统计的抽样分布

    2012-04-01 15:36:16
    统计的抽样分布 抽样分布 定义和主要概念: • 用来估计一个未知总体参数的抽样统计称为 估计。 • 真实参数值和估计值间差异称为抽样误 差。 • 带有概率分布随机变量统计称为抽样分 布,由重复抽样产生。 • ...
  • 在通信中经常会遇到几个概念,比特率、波特率、数据传输率、采样率等,总结如下: 部分转载:https://blog.csdn.net/lu_embedded/article/details/53329124 ... 1、比特率 比特率(bit rate)又称传信率、信息传输速率...
  • Spark Mllib之分层抽样

    2018-10-16 23:36:00
    Spark中组件Mllib的学习之基础概念篇1、解释分层抽样的概念就不讲了,具体的操作:RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个(1)将字符串长度为2划分为层2,字符串长度为3划分为层1...
  • 重复抽样中每次抽选时,总体待抽选单位数是不变,前面被抽到单位在后面抽选中还有可能被抽中,这样每次抽选概率都是相等,n 次抽取就相当于n 次相互独立试验。 不重复抽样 不重复抽样是在逐个抽取个体...
  • 抽样估计

    2016-03-07 12:24:41
    抽样估计(概率)概念 通过样本指标推断总体指标 抽样估计的几个问题  科学性 如何抽样 抽样的误差 抽样估计方法 点估计 (样本平局=总体平局) 区间估计 (发生在指定区间的概率大)
  • 目录导引Chap 3 分层随机抽样3.1 概念,符号3.1.1 分层抽样的定义3.1.2 分层抽样的作用3.1.3 分层抽样的原则3.1.4 符号说明3.2 简单估计量3.2.1 对总体均值的估计3.2.2 对总体总量的估计3.2.3 对总体比例的估计3.2.4...
  • 分层抽样

    2018-07-11 15:08:00
    统计学理论中,分层抽样针对的是对一个总体(population)进行抽样的方法。尤其适用于当总体内部,子总体(subpopulations)间差异较大时。每一个 subpopulation,也称为层(stratum)。 LL表示层的数量,其中...
  • 几个概念 总体:将要调查或研究的事物或现象的全体 个体:组成总体的每个元素 容量:总体中包含个体的个数 抽样:从总体中按一定的抽样技术抽取若干个个体的过程 样本:所抽取的部分个体 ...6.1.1 统计量的概念 定...
  • 针对P2P类不平衡问题提出将复杂的多类不平衡问题转化为简单的两类不平衡问题,再通过迭代SMOTE过抽样技术丰富P2P的概念表达,从而提高P2P流量的识别率。实验结果表明,该方法可以显著提高诸如Na?ve Bayes这样的简单...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 761
精华内容 304
关键字:

抽样的概念