精华内容
下载资源
问答
  • 2022-02-10 20:06:18

    概述

    当数据集过于庞大时,我们无法加载如此庞大的数据,为了克服这种问题,同时确保数据信息尽可能少的丢失,我们需要使用抽样技术,选取数据的一个子集去较好的表示整个数据集。

    基本概念

    目标总体与抽样总体

    • 目标总体:所有研究对象的全体,或是希望从中获取信息的总体
    • 抽样总体:从中抽取样本的总体。通常与目标总体一致,但有时对于一个目标总体,抽样总体会有不同的选择

    抽样框与抽样单元

    抽样总体的具体表现是抽样框。

    • 抽样框:一份包含所有抽样单元的名单,对每个抽样单元编号,从而按一定的随机化程序抽样
    • 抽样单元:可以只包含一个个体,也可也包含若干个个体,还可以分级。

    总体参数与统计量

    抽样调查的目的是获得总体的某些特征,即总体参数,包括了总体均值、总体总值、总体比例、总体比率。

    • 总体均值
    • 总体总值
    • 总体比例
    • 总体比率

    总体范围确定后,总体参数是客观存在的,但未知的需要通过抽样,根据样本调查结果对总体参数进行推断。常用的估计量有均值估计、总值估计、比例估计、比率估计、方差估计、偏差估计和均方误差估计。

    • 均值估计
    • 总值估计
    • 比例估计
    • 比率估计
    • 方差估计
    • 偏差估计
    • 均方误差估计

    抽样误差与非抽样误差

    • 抽样误差:由于抽取样本的随机性造成的样本值与总体值之间的差异。
    • 非抽样误差:不少由于抽样的随机性,而是由于多种原因引起的估计值与总体参数之间的差异。

    精度由误差来表现,若不考虑非抽样误差,则精度的具体体现就是抽样误差。

    • 抽样误差越小,样本统计量对总体参数进行估计的精度越高
    • 样本量越大,在其他条件相同的情况下,抽样误差越小,精度越高。

    几种抽样方法

    简单随机抽样

    从抽样框中的N个抽样单元中随机地、一个一个地抽取n个单元作为样本,每次抽选中,所有未入选的待选单元入选样本的概率相等。或是所有样本一次从抽样框中同时抽出,每个样本被抽中的概率相等。

    分层抽样

    将抽样单元按某种特征或规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。可分为等比例抽样和不等比例抽样。

    整群抽样

    把总体划分为群,抽样时只需要群的抽样框,对群内所有单位进行抽样调查。

    优点:由于只需要群的抽样框,简化了编制抽样框的工作量

    缺点:估计精度较差,因为同一群内的单元比较相似,在样本量相同的情况下,抽样误差较大

    多阶段抽样

    类似整群抽样,首先抽取群,但不是调查群内的所有基本单元,而是进一步抽样,从群中选择若干个基本单元进行调查。例如,第一阶段抽取初级单元,第二阶段抽取二级单元,第三阶段抽取接受调查的基本单元就是三阶段抽样。但一般会尽可能减少抽取样本的阶段,每增加一个抽样阶段就会增添一份抽样误差,对总体的估计也会更加复杂。

    优点:保证了样本相对集中,节约调查费用,不需要包含所有低阶段抽样单元的抽样框。在较大规模的抽样调查中经常使用。

    系统抽样

    将总体中抽样单元按一定顺序排列,在规定范围内随机抽取一个单元作为初始单元,然后按规则确定其他样本单元。

    优点:均匀分布,操作简便,通过辅助信息对总体内的单元有组织的排列,能有效提高估计精度。

    缺点:对方差的估计比较困难。

    更多相关内容
  • 适合统计学的学生
  • 抽样技术中文版 科克伦。抽样技术(sampling techniques)是统计学的一个分支学科,研究抽样调查中的抽样方法及总体目标量估计方法(包括估计量的精度)的一门技术,一般地,抽样方法可以分为两类,概率抽样与非概率抽样...
  • 2.1判断下列抽样方法是否是等概的: (1)总体编号1~64,在0~99中产生随机数r,若r=0或r>64则舍弃重抽。 (2)总体编号1~64,在0~99中产生随机数r,r处以64的余数作为抽中的数,若余数为0则抽中64. (3)总体20000~...
  • 抽样技术.zip

    2019-07-12 08:41:42
    抽样调查技术课件,浙江农林大学,管宇等老师的课件。
  • 审计测试中抽样技术的运用.pptx
  • 抽样技术习题答案

    2014-09-27 20:15:20
    抽样技术习题答案!人大抽样技术教材的答案,杜子芳老师讲的这门课!
  • 抽样技术-第三章.pptx

    2021-09-23 02:53:26
    抽样技术-第三章.pptx
  • 抽样技术-第5章.pptx

    2021-09-23 02:53:15
    抽样技术-第5章.pptx
  • 抽样技术

    千次阅读 多人点赞 2020-05-06 18:39:11
    主要关于《抽样技术》一书的知识点总结。

    金勇进.抽样技术[M].第四版.北京:中国人民大学出版社,2015.

    1.简单随机抽样

    1.1简单随机抽样的思路

    1. 线性估计:即不借助辅助变量,仅利用变量的样本观察值对总体特征进行直接估计,也即利用样本特征的线性组合表示总体特征。
    2. 非线性估计:借助辅助变量,用样本特征的非线性组合表示总体特征。

    1.2非线性估计

    1.2.1比率估计量的性质
    1. 作为辅助变量,应当满足的条件:
    • 辅助变量与主变量高度相关
    • 辅助变量与主变量之间的相关关系保持稳定
    • 辅助变量的总体总值必须已知,或容易获得
    • 辅助变量的信息质量更好,调查成本更低
    1. 比率估计的应用
    • 估计主变量的总体均值: Y ˉ ^ R = X ˉ y ˉ x ˉ \hat{\bar{Y}}_R=\bar{X}\frac{\bar{y}}{\bar{x}} Yˉ^R=Xˉxˉyˉ
    • 估计主变量的总体总值
    1. 比率估计的性质
    • 在简单随机抽样中,比率估计量是有偏的,但是当样本容量比较大时,是近似无偏的。
    • 比率估计量的方差: V ( y ˉ R ) ≈ 1 − f n 1 N − 1 ∑ i = 1 N ( Y i − R X i ) 2 = 1 − f n ( S 2 − 2 R ρ S S x + R 2 S x 2 ) . V(\bar{y}_R) \approx \frac{1-f}n \frac1 {N-1}\sum_{i=1}^N(Y_i-RX_i)^2 = \frac{1-f}n(S^2-2R\rho SS_x + R^2S_x^2). V(yˉR)n1fN11i=1N(YiRXi)2=n1f(S22RρSSx+R2Sx2).其中 ρ \rho ρ为两变量之间的相关系数 ρ = S y x S S x \rho = \frac{S_{yx}}{SS_x} ρ=SSxSyx。该式证明的过程中利用了性质:当样本容量较大时: M S E → V . MSE \to V. MSEV.由于均方误差综合考虑了方差和偏差的影响,因此估计量的均方误差小比存在偏移是更好的性质,此时虽然比率估计量是有偏的,但是均方误差却因此降低。
    • 比率估计量的精度:将比率估计量的方差与简单随机抽样的方差进行比较,可得当 ρ > R S x 2 S \rho > \frac{RS_x}{2S} ρ>2SRSx即主变量与辅助变量之间的相关性尽可能高时,比率估计就比简单估计更精确。
    1. 比率估计的其他注意问题
    • 是否可对比率 R ^ = y ˉ x ˉ \hat{R} = \frac{\bar{y}}{\bar{x}} R^=xˉyˉ的分子分母分别按照简单估计得到置信区间,然后再对比率的置信度进行调整?
      答:理论上可行。但这种方法存在两个问题:(1)若分别进行估计,则在求估计量的期望和方差时涉及到两个不独立变量的随机变量的关系,求法比较复杂;(2)虽然该方法可以提高精度,估计更加稳健,但是会增大费用。
    • 是否可以先对每个样本点计算比率 r i r_i ri,然后再用 r ˉ \bar{r} rˉ计算 R R R
      答:理论上可行,但在实际抽样过程中,先加后比要比先比后加在计算过程中更具有优越性,而且一般实际应用中二者的差别不是很大。
    1.2.2.回归估计量及其性质

    回归估计量主要借助主变量和辅助变量之间的线性相关关系提高主估计量的精度。

    1. 回归估计量的定义
      y ˉ l r = y ˉ + β ( X ˉ − x ˉ ) \bar{y}_{lr} = \bar{y} + \beta(\bar{X}-\bar{x}) yˉlr=yˉ+β(Xˉxˉ)其中 β \beta β表示主变量相对于辅助变量的变化率。
      关于回归估计量有很有趣的应用:1937年沃森第一次使用回归估计量,他将一棵树上所有叶子重量作为辅助变量,通过回归估计得到叶子的平均面积的估计。
    2. 对回归系数的讨论
    • 回归系数是已知的,可以用以前的估计值当成已知值。
      此时的思路是求得 β \beta β,极小化 V ( y ˉ l r ) V(\bar{y}_{lr}) V(yˉlr) β = S x y S x 2 \beta = \frac{S_{xy}}{S_x^2} β=Sx2Sxy此时 V ( y ˉ l r ) = 1 − f n S 2 ( 1 − ρ 2 ) V(\bar{y}_{lr}) = \frac{1-f}n S^2(1-\rho^2) V(yˉlr)=n1fS2(1ρ2)
    • 回归系数是未知的,一般使用样本进行估计,选择最小二乘估计: b = ∑ ( y i − y ˉ ) ( x i − x ˉ ) ∑ ( x i − x ˉ ) 2 b = \frac{\sum (y_i-\bar{y})(x_i-\bar{x})}{\sum(x_i-\bar{x})^2} b=(xixˉ)2(yiyˉ)(xixˉ)

    此时 y ˉ l r \bar{y}_{lr} yˉlr是有偏的,但当样本量足够大时近似无偏, M S E → V ( y ˉ l r ) MSE \to V(\bar{y}_{lr}) MSEV(yˉlr)

    1.2.3 各种估计量精度的比较
    • 注意只有当样本量足够大时,非线性估计量才是近似无偏的,且此时可用 M S E MSE MSE近似代替方差。
      各种估计量的方差
      一般来说回归估计的效果都要优于简单估计,且当辅助变量与主变量之间的相关关系较高时,比率估计的精度也要高于简单估计。
    • 当样本量不足够大时,比率估计和回归估计的偏差无法忽视,此时要慎用非线性估计。

    2.分层随机抽样

    2.1比率估计量

    在分层抽样中应用比率估计以提高估计精度时,主要有两种思路:一是对每层样本分别考虑比估计量,然后对各层比估计量进行加权平均,将其称为分别比估计;二是对比率的分子和分母分别加权得到分层估计量,然后用分层估计量构造比估计量,将其称为联合比估计

    2.1.1 分别比估计
    1. 分别比估计的前提:各层的样本量都要较大。
    2. 分别比估计量: y ˉ R S = ∑ h W h y ˉ h = ∑ h W h X ˉ h y ˉ h x ˉ h \bar{y}_{RS} =\sum_h W_h\bar{y}_h=\sum_h W_h\bar{X}_h\frac{\bar{y}_h}{\bar{x}_h} yˉRS=hWhyˉh=hWhXˉhxˉhyˉh
    2.1.2 联合比估计
    1. 联合比估计量: y ˉ R C = y ˉ s t x ˉ s t X ˉ \bar{y}_{RC} = \frac{\bar{y}_{st}}{\bar{x}_{st}}\bar{X} yˉRC=xˉstyˉstXˉ
    2. 联合比估计的优点:(1)关于辅助变量,只需要知道总体信息即可,不需要知道每层中的总体信息。(2)不需要每层样本容量都足够大,只需要总样本容量足够大。
    2.1.3 分别比估计和联合比估计的比较
    1. 当每一层的总体比值 R h R_h Rh都等于总体比值 R R R时,分别比估计和联合比估计的精度是一样的。
    2. R h ≠ R R_h \ne R Rh=R时,若 R h R_h Rh近似等于层内回归系数时,分别比估计的效果要好于联合比估计。

    总之,(1)当各层 n h n_h nh较大,且各层比率 R h R_h Rh之间差异较大时,分别比估计优于联合比估计。(2)当各层 n h n_h nh不够大,且比率之间差异不大时,为简化流程起见,优先适用联合比估计。

    2.2 回归估计量

    和比估计量相似,回归估计量用于分层随机样本时,也有两种思路:分别回归估计联合回归估计

    2.2.1 分别回归估计
    1. 分别回归估计量: y ˉ l r s = ∑ W h y ˉ l r h = ∑ W h [ y ˉ h + β h ( X ˉ h − x ˉ h ) ] \bar{y}_{lrs} =\sum W_h\bar{y}_{lrh} = \sum W_h[\bar{y}_h + \beta_h (\bar{X}_h -\bar{x}_h)] yˉlrs=Whyˉlrh=Wh[yˉh+βh(Xˉhxˉh)]
    2. 分别回归估计量的性质
    • 当各层回归系数 β h \beta_h βh给定时,分别回归估计是无偏估计量。此时 β h = S x y h S x h 2 \beta_h=\frac{S_{xyh}}{S_{xh}^2} βh=Sxh2Sxyh时,估计量方差达到最小, V ( y ˉ l r s ) = ∑ W h 2 ( 1 − f h ) n h S y h 2 ( 1 − ρ h 2 ) V(\bar{y}_{lrs}) = \sum \frac{W_h^2(1-f_h)}{n_h}S_{yh}^2(1-\rho_h^2) V(yˉlrs)=nhWh2(1fh)Syh2(1ρh2)
    • 当各层回归系数不能事先给定时,一般取 β h \beta_h βh为各层回归系数的最小二乘估计量。此时分别回归估计是右偏估计量,当各层样本量较大时,偏差可以忽略不计。
    2.2.2 联合回归估计
    1. 联合回归估计量: y ˉ l r c = y ˉ s t + β ( X ˉ − x ˉ s t ) = ∑ W h y ˉ h + β ( X ˉ − ∑ W h x ˉ h ) \bar{y}_{lrc} =\bar{y}_{st} +\beta(\bar{X} - \bar{x}_{st}) = \sum W_h\bar{y}_h + \beta(\bar{X} - \sum W_h \bar{x}_h) yˉlrc=yˉst+β(Xˉxˉst)=Whyˉh+β(XˉWhxˉh)
    2. 联合回归估计量的性质
    2.2.3 分别回归估计与联合回归估计的比较
    1. 若各层样本容量较大,其各层回归系数之间差异较大时,应该采用分别回归估计
    2. 若各层样本容量不是很大,且各层回归系数大致相同,则采用联合回归估计。

    2.3 各种估计方法的比较


    3.整群抽样

    3.1 整群抽样概述

    3.1.1 整群抽样的特点

    优点:

    1. 简化抽样框编制工作。当利用简单随机抽样或分层抽样时,需要有包含总体所有单位的名单,编制这样的抽样框成本往往较大。
    2. 实施调查便利、节省费用。从关于群的抽样框中抽取的单元分布相对集中,便于调查的实施,节省经费。

    缺点:整群抽样的抽样误差往往较大。因为抽取的样本较为集中,不同群之间的差异较大,抽样误差通常大于简单随机抽样。

    3.1.2 群的划分

    根据方差分析的思想,总体方差可以划分为群内方差和群间方差,由于对群内实施全面调查,因此抽样误差大小主要由群间方差决定。
    划分群时应当使得群内各单元差异尽可能大,群间方差尽可能小,从而避免群内各单元提供重复信息。


    注意与分层抽样的对比:
    进行分层抽样划分层时,需要使得层内差异尽可能小,层间差异尽可能大,在每一层中都进行独立的随机抽样。这样得到的样本结构与总体结构比较接近。

    3.1.3 群的规模

    群的规模大,估计精度低但节省费用;群的规模小,估计精度高,但费用较大。一般群的规模不能过大,否则应当采用多阶段抽样。

    3.2 等概率整群抽样

    3.2.1 群规模相等时的估计

    群规模相等时,即可采用简单随机抽样方法,只需要把每个群平均值作为观测值计算简单随机估计量即可。

    • 均值估计量 y ˉ ˉ = ∑ i = 1 n ∑ j = 1 M y i j n M \bar{\bar{y}}= \sum_{i=1}^n\sum_{j=1}^M\frac{y_{ij}}{nM} yˉˉ=i=1nj=1MnMyij
    • 均值估计量的方差 V ( y ˉ ˉ ) = 1 − f n 1 N − 1 ∑ i = 1 N ( Y ˉ i − Y ˉ ˉ ) 2 = 1 − f n M S b 2 V(\bar{\bar{y}})=\frac{1-f}n\frac1{N-1}\sum_{i=1}^N(\bar{Y}_i-\bar{\bar{Y}})^2=\frac{1-f}{nM}S_b^2 V(yˉˉ)=n1fN11i=1N(YˉiYˉˉ)2=nM1fSb2
      其中 S b 2 S_b^2 Sb2是总体群间方差: S b 2 = 1 N − 1 ∑ i = 1 N ∑ j = 1 M i ( Y ˉ i − Y ˉ ˉ ) 2 S_b^2 = \frac1{N-1}\sum_{i=1}^N\sum_{j=1}^{M_i}(\bar{Y}_i- \bar{\bar{Y}})^2 Sb2=N11i=1Nj=1Mi(YˉiYˉˉ)2当群规模相等时,即为 S b 2 = M N − 1 ∑ i = 1 N ( Y ˉ i − Y ˉ ˉ ) 2 S_b^2=\frac{M}{N-1}\sum_{i=1}^N(\bar{Y}_i-\bar{\bar{Y}})^2 Sb2=N1Mi=1N(YˉiYˉˉ)2
    3.2.2 整群抽样的效率

    分层抽样估计量的精度: V ( y ˉ ) = ∑ 1 − f h n h W h 2 S h 2 V(\bar{y}) = \sum \frac{1-f_h}{n_h}W_h^2S_h^2 V(yˉ)=nh1fhWh2Sh2因此分层抽样的估计精度取决于层内变异性,需要层内变异尽可能小,层间变异尽可能大。
    整群抽样与分层抽样恰好相反,整群抽样中需要层间差异尽可能小,层内差异尽可能大。
    可以计算得出群规模相等条件下的整群抽样的设计效应为: d e f f = V ( y ˉ ) V s r s ( Y ˉ ˉ ) ≈ 1 + ( M − 1 ) ρ c deff = \frac{V(\bar{y})}{V_{srs}(\bar{\bar{Y}})}\approx 1+(M-1)\rho_c deff=Vsrs(Yˉˉ)V(yˉ)1+(M1)ρc
    其中 ρ c \rho_c ρc为群内相关系数,描述同一个群内成对个体单元之间的相关程度:在这里插入图片描述
    因此整群抽样的效率是简单随机抽样的 1 + ( M − 1 ) ρ c 1+(M-1)\rho_c 1+(M1)ρc倍,与群内相关系数密切相关。
    当群内单元的值相等时, ρ c = 1 \rho_c = 1 ρc=1 d e f f = M deff = M deff=M达到最大值。
    当群内方差与总体方差相等时, ρ c ≈ 0 \rho_c\approx 0 ρc0, d e f f = 1 deff = 1 deff=1,此时整群抽样与简单随机抽样的效率相同。
    当群间方差 S b 2 = 0 S_b^2=0 Sb2=0时, p c p_c pc达到极小值 − 1 M − 1 -\frac1{M-1} M11,此时整群抽样效率优于简单随机抽样。

    3.2.3 群规模不等时的估计
    1. 等概率抽样,无偏估计
      以群规模为权数,乘以各群均值,得到群观察值总值,然后将 n n n个群的总值进行平均,除以群的规模,得到均值估计 Y ˉ ˉ = ∑ i = 1 n M i y ˉ i n M ˉ \bar{\bar{Y}} =\sum_{i=1}^n \frac{M_i\bar{y}_i}{n\bar{M}} Yˉˉ=i=1nnMˉMiyˉi
      这种估计方法当群规模的差异很大时,会产生很大的估计误差,导致估计精度不够好。
    2. 等概率抽样,比率估计
      预期样本总值与群的规模有关,以 M i M_i Mi为辅助变量,得到总体比值的比率估计量。该估计量是有偏估计,但是当群数较大时,偏倚较小。

    4.系统抽样

    4.1 系统抽样方法概述

    1. 系统抽样的概念
      首先将总体的全部单元按某一已知变量进行排序,接着按照简单随机抽样方法从总体中抽取第一个样本点(称为随机起点),然后按照某种固定顺序和规律依次抽取其他样本点,构成整个样本。
    2. 系统抽样的特点
      (1)除第一个样本点的抽取是随机外,其他样本点的抽取都不是随机的
      (2)第一个样本点一经抽出,其他样本点的抽取就完全确定了
      (3)在进行抽样前需要将总体的单元进行排序
    3. 系统抽样的优点
      (1)简化抽样框编制工作,对抽样框的要求不高,有些场合甚至不需要抽样框。
      (2)根据系统抽样得到的样本单元在总体中的分布比较均匀,因此具有较好的代表性。尤其是存在于总体结构有关的辅助变量时,根据辅助变量进行系统抽样,可以大大提高抽样精度。
    4. 系统抽样的定义
      设总体中 N N N个单元按照某种顺序进行编号,先按照简单随机抽样方式抽取一个起始单元编号,然后按照固定间隔 k k k选取其他单元编号,直到抽满 n n n个为止,将这种抽样称为等距系统抽样。

    4.2 等距抽样方法的理解

    特别地,考虑 N = n k N=nk N=nk的情形。将总体的 N N N个单元排列成 k k k n n n列的情形。
    在这里插入图片描述
    此时将系统抽样可以看做按简单随机抽样方法从 k k k行中随机抽出一行。
    注意,此时每行被抽中的概率是 1 k \frac1k k1且行中每个样本被抽中的概率也相等,于是恰好也符合简单随机抽样的定义。但是要注意系统抽样并不完全等同于简单随机抽样,因为系统抽样中抽样单元的顺序一旦确定,则所有可能的样本数目只有 k k k个,而简单随机抽样的所有可能样本数目为 C N n C_N^n CNn个。
    如果再对单元重新进行编号,直接将第 r r r行第 j j j列的单元观测值记为 Y r j Y_{rj} Yrj,则有:在这里插入图片描述
    此时会发现,如果按照行来看,则系统抽样可以看做是从 k k k个群中随机抽取一个群的整群抽样。
    如果按照列来看,系统抽样时从 n n n个层中每层抽取1个单元的特殊分层抽样。
    当然严格意义上来说系统抽样并不完全等同于整群抽样或分层抽样,因为系统抽样中抽样单元需要预先经过排序。

    4.3 系统抽样的精度

    • 系统抽样的样本均值: y ˉ s y = y ˉ r = 1 n ∑ j = 1 n y r j \bar{y}_{sy} = \bar{y}_r =\frac1n \sum_{j=1}^ny_{rj} yˉsy=yˉr=n1j=1nyrj它是总体均值的无偏估计
    • 总体均值估计量的方差: V ( y ˉ s y ) = N − 1 N S 2 − k ( n − 1 ) N S w s y 2 V(\bar{y}_{sy})= \frac{N-1}NS^2 -\frac{k(n-1)}NS^2_{wsy} V(yˉsy)=NN1S2Nk(n1)Swsy2其中 S 2 = 1 N − 1 ∑ r = 1 k ∑ j = 1 n ( y r j − Y ˉ ) 2 S^2 = \frac1{N-1}\sum_{r=1}^k\sum_{j=1}^n(y_{rj} - \bar{Y})^2 S2=N11r=1kj=1n(yrjYˉ)2表示总体方差; S w s y 2 = 1 k ( n − 1 ) ∑ r = 1 k ∑ j = 1 n ( y r j − y ˉ r ) 2 S^2_{wsy} = \frac1{k(n-1)}\sum_{r=1}^k\sum_{j=1}^n (y_{rj}-\bar{y}_r)^2 Swsy2=k(n1)1r=1kj=1n(yrjyˉr)2表示“系统样本”内方差。
    • 与简单随机抽样的比较
      计算可得 V ( y ˉ s y ) − V ( y ˉ s y s ) = k ( n − 1 ) N ( S 2 − S w s y 2 ) V(\bar{y}_{sy}) - V(\bar{y}_{sys}) = \frac{k(n-1)}N(S^2-S^2_{wsy}) V(yˉsy)V(yˉsys)=Nk(n1)(S2Swsy2)因此若要使系统抽样精度高于简单随机抽样,应当选择合适的抽样单元排列顺序,尽可能增大“系统样本”内方差,使得每个“系统样本”内的差异尽可能大,“系统样本”间的差异尽可能小。

    4.4系统抽样与前述三种抽样方式的比较

    前面已经提到,系统抽样可以同时看成简单随机抽样、整群抽样、分层抽样的特殊形式。这种相似是不是一种巧合?
    显然不是。
    首先,本质上说随机抽样只存在简单随机抽样一种。整群抽样是包含了较多单位的抽样单元的简单随机抽样,分层抽样是各层独立进行的简单随机抽样,系统抽样则是简化的简单随机抽样。
    其次,如果总体单元的排列顺序与所要研究的总体特征高度相关,则系统抽样更接近分层抽样;如果总体单元排列顺序与所要研究的总体特征变量关系不是很大时,系统抽样更接近简单随机抽样。

    展开全文
  • 抽样技术》练习题及标准答案.pdf
  • 抽样技术第三版全部课后答案
  • 公共卫生相关业务采抽样技术PPT课件.pptx
  • 审计测试中的抽样技术(ppt 61页).pptx
  • 抽样技术课后习题集参考答案解析金勇进.doc
  • 应用抽样技术课后习题答案PPT学习教案.pptx
  • EXCEL抽样技术的实施

    2019-01-06 10:54:49
    用Excel进行随机数的生成及数据简单随机二阶抽样
  • [精选]控制测试中与实质性程序中审计抽样技术的运用.pptx
  • 抽样技术笔记

    2022-04-11 20:33:52
    抽样调查又可分为概率抽样和非概率抽样。 1.2.1 概率抽样 即随机抽样,按照概率原则,根据“单元是否按照一定的概率入样”划分,总体中每个单位都有一定的概率被选入样本,使得样本对总体具有充分代表性,避免...

    1. 调查的基本概念

    1.1 普查

    是为了某个特定目的专门组织的全面调查

    1.2 抽样调查

    是一种非全面调查,按照一定程序从总体中抽选一部分单位进行调查或者观察,对总体参数作出推断的调查方式。有可能获得比普查质量更高的数据质量。抽样调查又可分为概率抽样和非概率抽样。

    1.2.1 概率抽样

    即随机抽样,按照概率原则,根据“单元是否按照一定的概率入样”划分,总体中每个单位都有一定的概率被选入样本,使得样本对总体具有充分代表性,避免人为因素干扰。

    1.2.2 非概率抽样

    即非随机抽样,以方便为出发点或者根据研究者主观的判断来抽取样本。依赖研究者个人的经验和判断,无法估计、控制抽样误差,无法用样本来估计总体

    1.2.3 应用领域

    调查内容:社会现象调查、经济现象调查,比如收入水平调查、新冠疫情防控调查等等。

    调查执行者:市场调查、政府统计调查

    1.3 目标总体与抽样总体

    1.3.1 目标总体

    即总体,指所要研究对象的全体,组成总体的各个个体称作总体单元或者单位。

    1.3.2 抽样总体

    抽样总体指从总体中抽取样本的总体。

    1.4 抽样框与抽样单元

    即抽样总体的具体表现,是一份包含所有抽样单元的名单。形式可以是名单、手册、数据包等。

    要求:抽样框必须是有序的,即抽样单元必须编号且根据某种顺序进行了排序。抽样框中包含的抽样单元务必要“不重不漏”,否则会出现抽样框误差

    抽样框的数量与抽样单元的层次是相对应的,我们常常会对抽样单元进行分级:

    初级单元-->次级单元-->三级单元...-->基本抽样单元

    例子:市-->区-->学校-->班级-->学生

    1.5 总体参数和(样本)统计量

    总体参数:即总体某个特征或者属性的数量表现,如总体总值、总体均值、总体比例、总体比率。

    统计量:根据样本的n个单元的变量值计算而出的一个量,也称估计量,是对总体参数的估计。

    估计量方差:它从平均的意义上说明了估计值与待估参数的差异状况。可以用此对抽样方案进行评价。

    偏差:指按照某一抽样方案反复进行抽样,估计值的数学期望和待估参数之间的离差。无偏估计量偏差为零。

    均方误差:Mean Square Error,指所有可能的估计值和待估参数之间离差平方的均值,等于估计量方差假设偏差的平方。

    1.6 抽样误差和非抽样误差

    抽样误差:是抽样的随机性导致的样本值与总体值之间的差异。随机抽样的抽样误差是可以度量的。

    非抽烟误差:是由其他多种原因引起的估计值与总体参数之间的差异,如抽样框误差、计量误差等等。

    1.7 精度与费用

    精度:是由误差来体现的。通常情况下,样本量越大,在其他条件相同的情况下,抽样误差就越小,抽样调查的精度就越高。

    费用:是一个与样本量有关的函数,最简单的是线性费用函数。

    最优抽样设计:即用最小的费用(或要求的费用)达到了要求的精度。

    1.8 几种基本的抽样方式

    1.8.1 概率抽样

    简单随机抽样:又称顺随机抽样,从包含N个单位的总体中抽取n个单位作为样本。如果是不放回的情况,则可能有C(N,n)个样本。如果每个样本被抽中的概率相等,则得到的样本叫做简单随机样本(SRS)。

    分层抽样:Stratified sampling,又称类别抽样。先将总体分层,在各层中采取简单随机抽样或者系统抽样的方式抽取样本单位。分层时应该使得层间方差尽可能大,层内方差尽可能小。分为等比例抽样和不等比例抽样。

    系统抽样:将N个总体单位排序,随机抽取一个单位作为样本第一个单位,然后按照某种确定的规则抽取样本其他单位,最简单的规则是等间隔抽样。排列顺序分成与调查项目有关和无关两种。简单易行,但是抽样误差计算复杂,周期性重合时会影响调查的精确度。

    整群抽样:先将总体划分为多个不重合的子总体或者群,再按照某种随机方式抽取若干群,对群内所有单位进行检查。整群抽样没有总体最终单位的抽样框。注意分群时应该使得群内方差尽可能大,群间方差尽可能小。

    多阶段抽样:指抽取样本单位时分几个阶段进行。首先在总体中按随机原则抽取若干初级单位,然后从被抽中的初级单位中抽取若干次级单位。若到此为止,称为二阶段抽样,但也可以更多。在大规模抽样调查中,尤其是抽样单位为各行政单位时,常采用这种方法。

    1.8.2 非概率抽样

    在客观条件限制下无法进行随机抽样,或者为了快速获得调查结果,或者调查对象不确定,或者总体各单位间离散程度不大且调查员有丰富经验时可采用。

    判断抽样(典型抽样&重点抽样):根据研究人员的主观意愿、经验等,从总体中选择具有典型代表性样本作为调查对象。

    方便抽样:根据调查者的方便与否来抽取样本,如街头拦人法。

    滚雪球抽样:前提是总体单位之间具有一定的联系。

    配额度抽样:事先对总体中所有单位按其属性分为若干型,这些属性称作“控制特征”,如年龄等。然后按照各个控制特征分配样本数额。

    1.9 抽样调查步骤

    (1)确定调研问题

    (2)抽样方案步骤

    1)抽样调查的目的、任务、要求

    2)抽样调查对象的范围和抽样单位

    3)抽样方法

    4)确定必要样本数

    5)对主要抽样指针的精确度提出要求

    6)确定总体目标量的估算方法

    7)制定实施总体方案的办法和步骤

    (3)问卷设计

    (4)实施调查过程

    (5)数据处理分析(找出异常值、缺失值啊等等)

    (6)撰写调查报告

    2. 简单随机抽样SRS

    2.1 概述

    第一章有讲哦。

    2.1.1 放回的简单抽样 SRS with replacement

    不管从前是否有被抽取中,每次都在N个样本中随机抽取,此时,所有可能的样本为N的平方个(如果考虑样本的顺序),每个样本被抽中的概率相同。注意,由于每次抽样前都会将前一次抽样的单元放回,因此总体结构不变,抽样是相互独立进行的

    样本量不受总体大小的限制(总体一直保持N个),可以是任意的。

    2.1.2 不放回的简单抽样

    样本量受到总体大小的限制,若非特意说明,简单随机抽样都指不放回的随机抽样。

    2.2 样本的抽取

    讲容量为N的有限总体所有单元从1到N编号,然后从N个中逐个抽取n个(不可以一次性抽取n个哦)。

    具体抽取方法有:

    (1)抽签法

    (2)随机数表法

    (3)通过计算机产生伪随机数(因为计算机的算法始终具有一定规律)

    抽取的原则:

    (1)按随机原则取样

    (2)每个抽样单元被抽中的概率都是已知或事前确定的

    (3)每个抽样单元被抽中的概率相等

    2.3 简单估计量和性质

    注意一下通常的书写方法:总体用大写字母表示,样本用小写字母表示。通常人们只关注四个方面的总体特征,即总体均值、总体总值、总体比例、总体比率。

    2.3.1 对总体均值的估计

    以样本均值作为总体均值的估计,如下公式:

    \overline{y}=\frac{1}{n}\sum_{i-1}^{n}y_i

    性质1:对于简单随机抽样,\overline{y}\overline{Y} 的无偏估计。

    证明性质1:对于有限总体,样本估计量的期望即对所有可能的样本求平均值:

    E(\overline{y})=\frac{\sum \overline{y}}{\binom{N}{n}}=\frac{\sum (y_1+y_2+...+y_n)}{n\binom{N}{n}}

    总体中每个特定的单元yi在不同样本中出现的次数为

    \sum \overline{y}=\frac{1}{n}\sum (y_1+...+y_n)=\frac{1}{n}\binom{N-1}{n-1}\sum_{i=1}^{N} Y_i

    且有

    \binom{N}{n}=\frac{N!}{n!(N-n)!}=\frac{N}{n}\frac{(N-1)!}{(n-1)!(N-n)!}=\frac{N}{n}\binom{N-1}{n-1}

    因此

    E(\overline{y})=\frac{\sum \overline{y}}{\binom{N}{n}}=\frac{1}{N}\sum Y_i=\overline{Y}

    可证。

    证明性质1(对称性论证法):

    由于每个单元出现在样本中的次数相同,因此E(y1+y2+...+yn)一定是E(Y1+Y2+...+Yn)的倍数,且这个倍数就是n/N。

    因此

    E(\overline{y})=\frac{1}{n}E(\sum_{i-1}^{n}y_i)=\frac{1}{n}\frac{n}{N}\sum_{i=1}^{N}Y_i=\overline{Y}

    可证。

    性质2:对于简单随机抽样,\overline{y} 的方差:

    V(\overline{y})=\frac{N-n}{Nn}S^2=\frac{1-f}{n}S^2

    式中,f=n/N为抽样比,1-f为有限总体校正系数。

    展开全文
  • 抽样技术与抽样检验.pptx
  • 抽样技术其他抽样方法培训课件.pptx
  • 抽样技术不等概抽样培训课件.pptx
  • 八种抽样技术的科学指南

    千次阅读 2019-10-11 13:45:03
    以上就是八种抽样技术的介绍和使用方法,总体可以分为概率抽样和非概率抽样,大家可以根据自己的需求,在数据比较大需要抽样的时候使用抽样来解决数据的处理问题,当然具体使用什么样的方法,还是需要根据自己的数据...

    介绍

    首先假定一种场景,我相信这种场景你们都会很熟悉。假如你下载了一个相对较大的数据集,很高兴的开始分析它并建立你的机器学习模型。当你急不可耐的尝试加载数据集时,你的计算机突然丢给你了一行“内存不足”错误,这个时候你会想到什么呢。

    这正在不断的发生在我们身上。这是我们在数据科学中面临的最大障碍之一–在受计算限制的计算机上处理大量数据(并不是所有人都拥有像BAT那种级别公司的运算资源能力!)。

    那么我们如何克服这个长期存在的问题呢?那么有没有一种方法可以选择数据的子集并进行分析-并且这个子集可以很好地表示整个数据集?

    在这里插入图片描述

    当然有了! 这种方法称为抽样。我相信你在学校/大学期间,甚至在你的职业生涯中,都会遇到很多次这个名词。抽样是获取数据子集并进行分析的好方法。但是,我们是不是应该随机抽取一个数据的子集呢?

    我们将在本文中进行讨论这个问题。我们将讨论八种不同类型的抽样技术,以及如果使用这些技术。这是一篇适合初学者的文章,因为有一些有关描述性统计的知识将为你服务。

    本文主要介绍6部分:

    1. 什么是采样?
    2. 为什么我们需要抽样?
    3. 抽样步骤
    4. 不同类型的抽样技术
    5. 概率抽样的类型
    6. 非概率抽样的类型

    什么是采样

    让我们从抽样的正式定义开始。

    抽样是一种方法,它允许我们从总体(抽样)的一个子集的统计数据中获得关于总体的信息,而不必调查每个个体。。

    在这里插入图片描述

    上图完美地说明了抽样是什么。让我们通过一个例子来更直观地理解这个问题。

    我们想要找到A城市中所有成年男性的平均身高。A城市的人口大约为3千万,男性大约为1500万(这只是这个例子的假设,不要在意这些细节!)。你可以想象,要找到城市里所有男性的平均身高几乎是不可能的。

    我们不可能覆盖所有的男性,因此我们无法真正分析男性的整体。那么,我们可以做什么呢?我们可以提取多个样本,并计算所选样本中个体的平均身高。

    在这里插入图片描述

    但是,接下来我们又有了另外一个问题–我们应该如何提取样本呢?我们应该随机抽样吗?还是说我们必须去问专家?

    假设我们去篮球场,以所有职业篮球运动员的平均身高作为样本。这并不是一个很好的样本,因为一般来说,篮球运动员的身高比普通男性高,而这将使我们对普通男性的身高没有正确的估计。

    在随机情况下寻找随机的人,这些情况下我们的样本不会根据身高而产生偏差,这就是一个潜在的解决方案。

    为什么我们需要抽样?

    我相信你对这个问题有一个很好的直觉。

    进行抽样是为了从样本中得出有关群体的结论,它使我们能够通过直接观察群体的一部分(或样本)来确定种群的特征。

    • 与选择总体中的每个项目相比,选择样本所需的时间更少
    • 样本选择是一种经济高效的方法
    • 与对整个人群进行分析相比,对样本进行分析不那么麻烦且更实用

    抽样所涉及的步骤

    我坚信,将一个概念形象化是将它植入你的脑海中的好方法。因此,下面这是一个以流程图形式逐步进行抽样的分步过程!

    在这里插入图片描述

    让我们进行一个有趣的案例研究,并应用以下步骤执行抽样。相信大家都看过一些美剧,假设,我们现在在一个国家中,而国家中正在进行选举总统。这个时候,你一定已经看到当时的每个新闻频道都在播放的民意调查:

    这些结果是通过考虑到全国所有选民或这些选民的一小部分的意见得出的吗?让我们看看它是如何完成的。

    第一步

    抽样过程的第一阶段是明确界定目标的群体。

    因此,为了进行民意调查,调查机构仅考虑18岁以上且有资格在人群中投票的人。

    第二步

    抽样结构 – 它是一个列表的项目或人组成的群体,其中的样本是抽样。

    因此,抽样结构将是所有姓名出现在选区选民名单上的所有人员的名单。

    第三步

    一般来说,使用概率抽样方法是因为每一张选票都具有同等价值,并且任何人都可以被包括在样本中,而不管其性别、肤色、人种、社区或宗教信仰如何。不同的样本取自全国不同的地区。

    第四步

    样本容量–指的是样本中所包含的个体或项目的数量,这些个体或项目足以对所需的准确性和精确度来推断总体。

    样本量越大,我们对总体的推断就越准确。

    在民意调查中,各种机构试图让尽可能多的具有不同背景的人包括在样本中,因为这将有助于预测一个政党可以赢得多少的席位数。

    第五步

    一旦确定了目标群体,抽样框架,抽样技术和样本数量,下一步就是从样本中收集数据

    在民意调查中,机构通常会向人们提出问题,例如他们要投票给哪个政党或前政党做了什么工作,等等。

    根据答案,各机构试图解释一个选区哄的选民投票给谁,以及一个政党要赢得多少席位。这是非常令人兴奋的工作,对吧?

    不同类型的采样技术

    这是另一张图片说明!这一部分我们将讨论可以使用的不同类型的抽样技术:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0On56gLU-1570772682128)(.\图片\不同技术.png)]

    • 概率抽样: 在概率抽样中,总体的每个元素被选中的概率都相等。概率抽样为我们提供了创建一个真正代表总体的样本的最好机会
    • 非概率采样:在非概率采样中,并非所有的元素都有相同被选中的机会。因此,有一个非常显著的风险,也就是最终会导致我们得到一个不具有代表性的样本,而且它不能产生可以推广的结果。

    例如,假设我们的整体由20个人组成。每个人的编号从1到20,并用特定的颜色(红色,蓝色,绿色或黄色)表示。每个人在都有二十分之一的概率在概率抽样中被选中。

    对于非概率采样,这些概率并不是相等的。某一个人可能比其他人更有机会被选中。现在,我们对这两种抽样类型有了一个概念,让我们深入了解每种抽样类型,并了解每个部分下的不同抽样类型。

    概率抽样的类型

    简单随机抽样

    这是一种抽样技术,你肯定在某个时刻遇到过。在这里,每个人都完全是被随机选中的,每个人都有平等的机会被选上。

    简单的随机采样可以减少选择偏差。

    在这里插入图片描述

    该技术的一大优点是它是最直接的概率抽样方法。但它带有一个警告-它可能无法选择出足够多的具有我们感兴趣特征的个体。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

    系统抽样

    在这种类型的抽样中,首先随机选择第一个个体,然后使用固定的“抽样间隔”选择其他个体。让我们用一个简单的例子来理解这一点。

    假设总体大小是x,样本大小是n,那么下一个选择的个体距离第一个个体有x/n个间隔。我们可以用同样的方法选择其余的部分。

    在这里插入图片描述

    假设,我们从第3个人开始,我们希望样本容量是5。因此,我们要选择的下一个个体的间隔将是(20/5)= 4从第三个人,即7(3+4),以此类推。

    3,3 + 4 = 7,7 + 4 = 11,11 + 4 = 15,15 + 4 = 19 = 3,7,11,15,19

    在这里插入图片描述

    系统抽样比简单的随机抽样更方便。然而,如果我们从人群中选择项目时存在一种潜在的模式,这也可能导致偏见(尽管发生这种情况的几率相当低)。

    分层抽样

    在这种类型的抽样中,我们根据性别,类别等不同特征将总体分为子组(称为阶层)。然后,从这些子组中选择样本:

    在这里插入图片描述
    在这里,我们首先根据红色、黄色、绿色和蓝色的不同颜色将我们的种群划分为子组。然后,从每一种颜色中,根据他们在人口中的比例,我们选择一个个体。

    当我们想要表示总体的所有子组时,我们使用这种类型的抽样。但是,分层抽样需要适当了解总体的特征。

    整群抽样

    在聚类样本中,我们使用总体的子组作为抽样单位,而不是个体。该群体被分为子群体,称为集群,随机选择一个完整的集群纳入研究:

    在这里插入图片描述

    在上面的示例中,我们将总体分为5个类。每个类由4个个体组成,我们在样本中选取了第4个类。我们可以根据样本的大小觉得每个类包括的个体,或者更多的类。

    当我们关注特定区域或群体时,将使用这种类型的抽样。

    非概率抽样的类型

    简单抽样

    这可能是最简单的抽样方法,因为个人的选择是基于他们的可用性和参与意愿。

    这里,假设编号为4,7,12,15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

    在这里插入图片描述

    简单抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

    配额抽样

    在这种抽样中,我们根据预先确定的总体特征来选择。考虑到我们必须为我们的样本选择一个数字是4的倍数的个体:

    在这里插入图片描述

    因此,编号为4、8、12、16和20的个体已经预留给我们的样本了。

    在配额抽样中,所选择的样本可能不是未被考虑的总体特征的最佳表示。

    判断抽样

    判断抽样也称为选择性采样。在选择要求的参加者时,取决于专家的判断。

    在这里插入图片描述

    假设,我们的专家认为编号为1、7、10、15和19的人应该考虑作为我们的样本,因为他们可能帮助我们更好地推断总体。可以想象,配额抽样也容易受到专家的偏见,不一定具有代表性。

    雪球采样

    我非常喜欢这种采样技术。**请现有人员提出他们所认识的其他人员,以便样本的大小像滚雪球一样增加。**当抽样样本难以识别时,这种抽样方法很有效。

    在这里插入图片描述
    这里,我们随机选择了第一个人作为样本,然后他/她推荐了第6个人,第6个人推荐了第11个人,以此类推。

    1-> 6-> 11-> 14-> 19

    在滚雪球式的抽样中,有很大的选择偏差风险,因为被引用的个体将与推荐他们的人有共同的特征。

    总结

    以上就是八种抽样技术的介绍和使用方法,总体可以分为概率抽样和非概率抽样,大家可以根据自己的需求,在数据比较大需要抽样的时候使用抽样来解决数据的处理问题,当然具体使用什么样的方法,还是需要根据自己的数据来选择合适的方法。

    原文链接:https://www.analyticsvidhya.com/blog/2019/09/data-scientists-guide-8-types-of-sampling-techniques/

    展开全文
  • 抽样技术--系统抽样

    2022-01-04 10:51:33
    文章目录定义直线等距抽样圆形等距抽样等概系统抽样不等概系统抽样 定义 N个单元按一定顺序排列,抽一个起始单元,然后等距抽样直到满n个为止 直线等距抽样 r为初始起点,( j - 1 )k表示第几个抽样间隔 圆形等距...
  • 抽样技术6二阶及多阶抽样.pptx
  • 抽样技术PPT.pptx

    2021-10-04 04:13:19
    抽样技术PPT.pptx
  • 多阶段抽样(抽样技术__蒋妍).pptx
  • 抽样技术与抽样方案.pptx
  • 抽样技术3分层抽样.pptx

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 35,791
精华内容 14,316
关键字:

抽样技术