精华内容
下载资源
问答
  • 抽样方法
    千次阅读
    2021-06-03 11:14:14

    抽样步骤

    1. 定义目标群体:明确调查的全部对象及其范围。
    2. 定义抽样框:抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
    3. 选择抽样方法:确定抽样测算所使用的抽样方法。
    4. 确定样本数量:确定抽样测算需要的样本数量,样本数越大精确度越高。
    5. 收集数据:从抽取的样本中收取测算数据。
    • 已美国大选民意调查为例
    1. 仅考虑18岁以上且有资格投票的人。
    2. 抽样框是每一个选区的所有投票人列表。
    3. 选择使用概率抽样方法,因为每一张选票都是等价的,还可以将不同背景的人进行分层,使用分层抽样。
    4. 样本数为选区人口1%
    5. 通过电话访问样本人员,通过提问获取投票意向。

    概率抽样

    概率抽样是指在调查总体样本中的每个单位都具有同等可能性被抽中的机会。又称随机抽样,概率抽样以概率理论和随机原则为依据来抽取样本的抽样,是使总体中的每一个单位都有一个事先已知的非零概率被抽中的抽样。总体单位被抽中的概率可以通过样本设计来规定,通过某种随机化操作来实现,虽然随机样本一般不会与总体完全一致。

    简单随机抽样/单纯随机抽样/纯随机抽样/SRS抽样

    概念:简单随机抽样也称为单纯随机抽样、纯随机抽样、SRS抽样 ,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

    例子:从投票人列表中根据随机数抽取样本。

    优点:简单,直接。

    缺点:结果不确定性太强,每次结果可能不一样。

    蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

    分层抽样/类型抽样

    概念:分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。

    例子:

    优点:样本的代表性比较好,抽样误差比较小。

    缺点:抽样手续较简单随机抽样还要繁杂些

    定量调查中的分层抽样是一种卓越的概率抽样方式,在调查中经常被使用。

    聚类抽样/整群抽样

    聚类取样(Cluster Sampling)又称整群抽样。是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。

    在上面的例子中,我们将人口分为5个群。每个群由4个个体组成,我们在样本中选取了第4个群。我们可以根据样本大小包含更多的群。

    当我们集中在一个特定领域或区域时,就会使用这种类型的抽样。

    系统抽样/等距抽样/机械抽样

    先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元,这类抽样方法被称为等距抽样(Systematic Sampling)。等距抽样又称为机械抽样、系统抽样。等距抽样往往不能给出估计量的估计方差。

    在这种类型的抽样中,第一个个体是随机选择的,其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。

    系统抽样比简单随机抽样更方便。然而,如果我们在人群中选择项目时存在一种潜在的模式,这也可能导致偏差(尽管这种情况发生的几率非常低)。

    非概率抽样

    非概率抽样是指调查者根据自己的方便或主观判断抽取样本的方法。它不是严格按随机抽样原则来抽取样本,所以失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体。虽然根据样本调查的结果也可在一定程度上说明总体的性质,特征,但不能从数量上推断总体。非概率抽样主要有偶遇抽样,主观抽样,定额抽样,滚雪球抽样等

    1.随意抽样/便利抽样

    方便抽样又称随意抽样、偶遇抽样,是一种为配合研究主题而由调查者于特定的时间和特定社区的某一位置上,随意选择回答者的非概率抽样方法。这种抽样方法适合于对一些特殊情况的调查,像一些时过境迁的突发性事件或现象(违章驾车、骚乱、聚众闹事等等)。通过在当场抽取样本询问当事者、目击者、旁观者以及过往的行人,可以了解事件发生的经过、原因以及对事件的看法和态度。

    这里,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

    便利抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

    2.判断抽样/立意抽样

    立意抽样是指当调查人员对自己的研究领域十分熟悉,对调查总体比较了解时采用这种抽样方法,可获代表性较高的样本。这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。例如,要对福建省旅游市场状况进行调查,有关部门选择厦门、武夷山、泰宁金湖等旅游风景区做为样本调查,这就是立意抽样。

    假设,我们的专家认为,应该将编号为1、7、10、15和19的人作为我们的样本,因为它们可以帮助我们更好地推断人口。你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。

    3.配额抽样/定额抽样

    配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式。
    配额抽样和分层随机抽样既有相似之处,也有很大区别。配额抽样和分层随机抽样有相似的地方,都是事先对总体中所有单位按其属性、特征分类,这些属性、特征我们称之为“控制特性。”例如市场调查中消费者的性别、年龄、收入、职业、文化程度等等。然后,按各个控制特性,分配样本数额。但它与分层抽样又有区别,分层抽样是按随机原则在层内抽选样本,而配额抽样则是由调查人员在配额内主观判断选定样本。

    在这种抽样中,我们根据预先确定的总体特征来选择样本。考虑到我们必须为我们的样本我们选择一个倍数为4的个体:

    因此,编号为4、8、12、16和20的个人已经为我们的样本保留。

    在配额抽样中,选择的样本可能不是未考虑的人口特征的最佳代表。

    4.滚雪球抽样

    滚雪球抽样是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。滚雪球抽样往往用于对稀少群体的调查。在滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。

    在这里,我们随机选择了1个人作为样本,然后他推荐了6个人,6个人推荐了11个人,依此类推。

    雪球抽样有很大的选择偏见风险,因为被引用的个体将与推荐他们的个体具有共同的特征。

     

    参考:

    1. https://blog.csdn.net/fendouaini/article/details/102579343
    更多相关内容
  • 用MATLAB实现的随机抽样方法
  • JCT 620-2021 石灰取样方法
  • 时序数据取样方法 语境 (Context) In most studies, it is pretty hard (or sometimes impossible) to analyse a whole population, so researchers use samples instead. In statistics, survey sampling is the ...

    时序数据取样方法

    语境 (Context)

    In most studies, it is pretty hard (or sometimes impossible) to analyse a whole population, so researchers use samples instead. In statistics, survey sampling is the process by which we get a sample from our population, in order to conduct a survey. As data scientists, we usually use data that was previously collected, so we don’t spend too much time thinking about how to actually do this. As we will see in this article, however, our data can have different biases, depending on how it was sampled, so you better understand the implications of each of this sampling designs. There are many ways of drawing those samples and, depending on the context, some can be better than others.

    在大多数研究中,很难分析整个人口 (有时甚至是不可能),因此研究人员使用样本代替。 在统计中,调查抽样是我们从人口中获取样本以进行调查的过程。 作为数据科学家,我们通常使用以前收集的数据,因此我们不会花太多时间思考如何实际执行此操作。 但是,正如我们将在本文中看到的那样,我们的数据可能会有不同的偏差,具体取决于如何采样,因此您可以更好地理解每种采样设计的含义。 绘制这些样本的方法有很多,根据上下文的不同,有些方法可能更好。

    概率x非概率 (Probability x non-probability)

    There are two broad categories of sampling designs: probability and non-probability. In probability sampling, each element of the population has a known and non-zero probability of being in the sample. This method is usually preferable, since its properties, such as bias and sampling error, are usually known. In non-probability sampling, some elements of the population may not be selected and there is a great risk of the sample being non-representative of the population as a whole. However, probability sampling can sometimes not be possible under some circumstances, or it can just be cheaper to do it non-randomly.

    抽样设计分为两大类:概率和非概率。 在概率抽样中 ,总体中的每个元素都有一个已知非零的 概率出现在样本中。 通常首选此方法,因为它的属性(例如偏差采样误差 )通常是已知的。 在非概率抽样中 ,可能不会选择总体的某些元素,并且存在很大的风险,即抽样不能代表整个总体。 但是,在某些情况下有时不可能进行概率采样,或者非随机地进行概率采样会更便宜。

    Let’s now take a look at some of the different sampling designs in each category and their properties.

    现在,让我们看一下每个类别中的一些不同采样设计及其属性。

    概率抽样 (Probability sampling)

    简单随机抽样,无需替换(SRSWR) (Simple random sampling without replacement (SRSWR))

    This is probably the most obvious sampling method there is: if you have a population of 1000 individuals and you can only analyse 100, then you will randomly select one individual at a time, until you have your sample of 100. This will give each individual the same probability of being in the sample.

    这可能是最明显的抽样方法:如果您有1000个人,并且只能分析100,那么您将一次随机选择一个人,直到获得100个样本。这将给每个人出现在样本中的可能性相同。

    SRSWR is an unbiased sampling design, meaning that we expect the parameters calculated from the sample to be unbiased. It is often the preferable sampling design, but with a small caveat: you risk getting a really bad sample, completely out of bad luck, and having results that are not at all representative of your population. In this case, stratifying your sample might help (we’ll get to that later).

    SRSWR是一种无偏抽样设计,这意味着我们期望从样本计算得出的参数是无偏的。 它通常是更可取的抽样设计,但有一个小警告:您可能会冒出真正糟糕的样本,完全是因为运气不好而导致的结果,这完全不能代表您的总体。 在这种情况下, 样本进行分层可能会有所帮助(我们稍后会介绍)。

    In practice, however, it is not that simple to get an actual simple random sample. For election polls, for instance, how do you do it? You can’t actually have a list of every person in the country to randomly select from. You can, for instance, have a list of all the personal phone numbers available, and select from there. My point is that you probably need a list of your whole population to do this — if you are randomly interviewing people in the streets, it is actually not completely random: depending on which location you choose to go to, your sample might yield different results.

    然而,实际上,获得实际的简单随机样本并不是那么简单。 例如,对于选举民意测验,您如何做? 您实际上无法获得要随机选择的国家/地区中每个人的列表。 例如,您可以列出所有可用的个人电话号码,然后从中进行选择。 我的观点是,您可能需要列出整个人口的清单,如果您在街上随机采访人们,实际上并不是完全随机的:根据您选择去的地点,样本可能会产生不同的结果。

    泊松采样 (Poisson sampling)

    In Poisson sampling design, every element on your population will go through a Bernoulli trial, to define if they will be in the sample or not. If the probability is the same for every element in the population, this is a special case called Bernoulli sampling. It will also depend on having a list of every element in your population. Let’s say you have a list of all the companies in your country, and you want to survey them. You could assign a probability p for each one of them to be in your sample, or even a different probability for each, depending on their size, for instance (you might want to give a greater weight to bigger companies). Note that, in this case, you can’t know the exact size of your sample beforehand — it is what we call a random size sampling design.

    在Poisson抽样设计中,总体中的每个元素都会经过一次Bernoulli试验,以定义它们是否会出现在样本中。 如果总体中每个元素的概率都相同,则这是称为伯努利抽样的特例。 这也将取决于您人口中每个元素的清单。 假设您拥有您所在国家/地区的所有公司的列表,并且想要对其进行调查。 例如,您可以为每个样本中的每个样本分配一个概率p ,甚至为每个样本分配一个不同的概率,具体取决于样本的大小(您可能希望更大的公司获得更大的权重)。 请注意,在这种情况下,您无法事先知道样本的确切大小,这就是我们所说的随机大小抽样设计

    分层抽样 (Stratified sampling)

    Under certain conditions, it might actually be useful to stratify your population, according to some features. Let’s say you want to do a survey with your company’s 1000 employees to see how happy they are at their jobs, but you only have the time to interview 100 of them, so you take a sample. With a SRSWR, you could risk getting 50 guys from accounting and no data scientists. This would make you think your company’s employees are much unhappier than they actually are, since data scientists are the happiest people at their jobs, and accountants… well, they are accountants. In this case, what you can do, is split your population into departments, and then sample randomly from each department, taking samples that are proportional to the department size.

    根据某些功能,在某些情况下,对您的人群进行分层实际上可能很有用。 假设您想对公司的1000名员工进行调查,以了解他们对工作的满意程度,但是您只有时间采访其中的100名员工,因此您进行了抽样调查。 使用SRSWR,您可能会冒着从会计界招募50名专家而没有数据科学家的风险。 这会让您认为公司的员工比他们实际的要快乐得多,因为数据科学家是他们工作中最快乐的人,而会计师……好吧,他们是会计师。 在这种情况下,您可以做的是将您的总体分为多个部门,然后从每个部门中随机抽样,并与部门规模成正比。

    This method can be really useful under some conditions:

    在某些情况下,此方法可能非常有用:

    1. Variability within strata is small (you know, from previous studies, that people within the same department tend to feel more or less the same in terms of happiness at work)

      阶层中的差异很小 (您从以前的研究中可以知道,同一部门的人们在工作上的幸福感或多或少地相同)

    2. Variability between strata is big (your level of happiness at work depends a lot on your department)

      阶层之间的差异很大 (您的工作幸福感在很大程度上取决于您所在的部门)

    However, in practice, it can be expensive and complicated to implement. Since it needs previous information on your population, it might be useful when you conduct smaller studies in between broader, more expensive ones (ex.: if you have a census on your country every 10 years and you need intermediate information every 5 years, you can use your census data to help the intermediate, smaller studies).

    但是,在实践中,实施起来可能既昂贵又复杂。 由于它需要有关您的人口的先前信息,因此当您在范围更广,成本更高的研究之间进行较小的研究时(例如:如果您每10年进行一次国家人口普查,而每5年需要一次中间信息,则您可能会有用)可以使用您的人口普查数据来帮助中等规模较小的研究)。

    非概率抽样 (Non-probability sampling)

    义工抽样 (Volunteer sampling)

    It is a widely used method: it’s what you get when you post a survey form on a Facebook group and ask people to fill it for you. It’s easy and cheap, but it can lead to a lot of bias, since you are actually sampling people who are on Facebook, saw your post, and most importantly: that are willing to fill that form for you. This might oversample people who like you, or people who have enough free time to fill in the form.

    这是一种广泛使用的方法:这是在Facebook组上发布调查表并要求人们为您填写时所得到的。 它既简单又便宜,但是会导致很多偏差,因为您实际上是在抽样Facebook上的人,看过您的帖子以及最重要的是:愿意为您填写表格的人。 这可能会使喜欢您的人或有足够空闲时间来填写表格的人过多。

    It can be used as a first validation step to see if there might be an interest in pursuing more expensive methods later on.

    可以将其用作第一个验证步骤,以查看以后是否有兴趣追求更昂贵的方法。

    判断抽样 (Judgement sampling)

    In this sampling design, you will choose your sample based on your existing domain knowledge. If you want to survey potential customers for a new coding online course, you might already have an idea of the type of people who would like it, and start looking for them on LinkedIn.

    在此抽样设计中,您将根据您现有的领域知识选择样本。 如果您想调查潜在客户以学习新的在线编码课程,则可能已经对想要的人类型有所了解,然后开始在LinkedIn上寻找他们。

    It goes without saying that this method is prone to your own biases, and you should not take definitive conclusions based on its results. It can be used under the same circumstances as volunteer sampling.

    不用说,这种方法容易引起您的偏见 ,并且您不应该根据其结果得出明确的结论。 它可以在与志愿者抽样相同的情况下使用。

    结论 (Conclusion)

    Now you know some of the most common sampling designs, when to use them and their caveats. Survey sampling is a whole field of expertise on itself, specially useful for those who work as statisticians for govern agencies, but it is good for data scientists to know the basics in order to understand what are the implications of their collection methods, or to conduct surveys themselves.

    现在,您了解了一些最常见的采样设计,何时使用它们及其注意事项。 调查抽样本身就是一个完整的专业领域,对作为政府机构的统计学家的那些人特别有用,但对于数据科学家来说,了解基础知识以了解其收集方法的含义或进行操作是一件好事。调查自己。

    Once you have sampled your data, then what? Well, you will need to apply some feature engineering to make sense out of it. Additionally, you might like this article on project management workflows for data scientists.

    一旦采样了数据,那又如何呢? 好吧,您将需要应用一些功能工程以使其有意义。 此外,您可能喜欢这篇关于数据科学家的项目管理工作流的文章。

    Feel free to reach out to me on LinkedIn if you would like to discuss further, it would be a pleasure (honestly).

    如果您想进一步讨论,请 随时在 LinkedIn 上与我联系 ,这是一种荣幸(诚实)。

    翻译自: https://towardsdatascience.com/sampling-methods-for-data-science-ddfeb5b3c8ed

    时序数据取样方法

    展开全文
  • 抽样方法

    千次阅读 2019-12-10 13:48:22
    抽样的概念 抽样调查与普查 非抽样误差 抽样形式 统计过程 从总体中抽取样本,通过样本计算统计量基于样本的统计量来推断总体 抽样的概念 指在不能进行全数调查时,为了推断总体的倾向,抽取真实地代表调查总体的...

    抽样的概念
    抽样调查与普查
    非抽样误差
    抽样形式

    统计过程

    从总体中抽取样本,通过样本计算统计量基于样本的统计量来推断总体

    抽样的概念

    指在不能进行全数调查时,为了推断总体的倾向,抽取真实地代表调查总体的调查对象。

    抽样调查与普查

    抽样调查特点:

    • 抽样调查花费较少

    • 迅速地获取信息

    • 争取时效是非常重要的

    • 总体太大,实际上无法实行普查

    • 个别对象难以接近

    • 实验是破坏性的

    • 科学地抽样——样本具有代表性,——可控制抽样误差

    普查特点

    • 总体较小

    • 总体差异(方差)较大

    • 抽样误差较大

    误差:抽样误差(可控制)、非抽样误差

    非抽样误差

    • 非抽样误差是指抽样误差外,由于人为的差错引起的误差,也叫偏差

    • 问题地定义、处理问题的途径、量表问卷中的问题的设计、访问的方法、实施的质量控值、数据分析和分析的失当都会造成非抽样误差

    • 非抽样误差包括研究员、访问员、被访者三方面的误差

    • 为确保调查结果的准确性,应该消除抽样误差,至少应该尽可能使之最小化

    非抽样误差—无回答误差的处理

    • 无回答误差在调查实施中经常发生。

    • 主要有两类:样本单元无回答、项目无回答

    • 解决:访问员培训、多访问、替代样本、敏感问题

    • 解决:二重抽样、加权调整、估算法

    抽样过程

    明确调查目的定义总体、抽样单元确定主要目标量的精度
    确定、购置抽样框选择抽样方案确定样本量制定实施细节和步骤

    两个基本原则:

    • 实现抽样的随机性原则
      等概率或不等概率

    • 实现抽样效果最佳原则
      固定费用,抽样误差最小
      确定精度下,调查费用最小

    抽样单元

    为了便利地实现随机抽样,常常把总体划分为有限个互不重叠的部分,每个部分叫做一个抽样单元

    抽样框

    抽样框是包含全部抽样单元的资料

    • 一般来说,普查可以提供抽样框资料
    • 表现形式名单、地图、统计年鉴
    • 很多时候,很难获得完整的抽样框资料

    抽样形式

    概率抽样 probability samples

    • 等概率抽样—所有的样本单位所出现的机会是相同的。
    • 不等概率抽样—可以计算每个样本单位所出现的概率。
    • 按照随机/概率规则的原则,从总体中抽取样本。可以对总体进行推断

    非概率抽样 non probability sample

    • 所有的样本单位所出现的机会是不确定的。
    • 不能计算每个样本单位所出现的概率,因为选择样本的方法是非随机的。
      • **方便抽样:**利用会议、展览、商场、街头抽样;报刊问卷调查,网络问卷。
      • **判断抽样:**依据研究者主观判断,选取可代表总体的个体作为样本。
      • **配额抽样:**按照调查对象的某种属性或者特征,将总体中所有个体分类,然后按照一定比例分别抽取样本。配额抽样有可能接近概率抽样的结果。前提是各类群同质,无需随机抽样;类型划分合理;配额符合总体中各类型的分布。
      • **滚雪球抽样:**又称裙带抽样、推荐抽样,是一种在稀释总体中寻找受访者的抽样方法。

    简单随机抽样

    简单抽样方法和系统抽样方法是指,对所有调查对象编上一连串的号码,据此从名册中进行随机抽样的方法。

    在可以对所有调查对象进行编号的情况下所使用的抽样方法。通过查随机数表示的方法,随机地抽取调查对象的号码。

    例如,假设在顾客名册中登记了500人,给他们编上一连串的号码。查随机数表,选出50个不重复的随机数,所对应的号码的人即为样本。虽然简单抽样方法可以均匀地抽取代表总体的样本,是一种精度较高的方法,但由于样本量越多查随机数表的次数也越多,进行起来较为繁琐。

    当研究总体不太大,或总体单元的元素有完备的名单,简单随机抽样非常适用。

    系统抽样(等距抽样)

    系统抽样方法先求出抽样间隔值(为名册登记人数÷抽取人数所得的值舍去小数点后面数字的整数),接着,在这个范围内选择一个随机数作为起始号码。起始号码加抽样间隔值,所对应的即为样本。进而,反复地在这个值的基础上加上抽样间隔值,以抽足所有的样本。抽取的样本量多于要求的样本量时,使用简单抽样方法从中抽取需要剔除的样本。

    例如,假设从一个500人的顾客名册中挑选50人,抽样间隔值是500÷50=10,从随机数表中选出起始号码4,接着是4+10=14,再接着是14+10=24…以此类推,直到494为止,抽取50人。

    另外,系统抽样方法的规则较简单,但如果名册是按一定的规律进行登记的,当每个部门的人数相等,而且按职务大小进行排列时。起始号码为1,如果以部门人数作为间隔,最终选出的将只是部门的头儿。因此,需要弄清楚名册的特证之后再选择抽样的方法。

    简单随机和系统抽样特征及实施程序

    优点缺点
    简单抽样方法精度高费事费时
    进行调查总体范围广的访问调查时,实施费用多
    系统抽样方法不省事,不省时精度比简单抽样方法低
    调查总体清单有规律地排列时,抽取出来的可能只是特定性质的样本

    **用系统抽样方法只能抽出具有某种特定性质的样本的例子:**通过员工名册抽样(从1000人中抽取100人),从NO.3开始,抽样间隔为10的情形,抽出的都是代理科长。

    简单随机和系统抽样特征及实施程序

    简单抽样

    1.给调查总体所有的人编上一连串的号码
    2.通过随机数表抽取样本
    比所要求的样本多一些,通过Excel函数产生随机数来确定
    3.选择与产生的随机数号码相一致的样本,重复号码则跳过

    系统抽样(等距抽样)

    1.给调查总体所有的人编上一连串的号码
    2.计算抽样间隔
    举例:要从999人中抽取50个样本时,999÷50=19.98去除小数点后取整,抽样间隔值为19
    3.随机抽出起始号码
    4.计算出抽取样本的号码
    根据起始号码+抽样间隔,直到超出最后的号码之前,按顺序抽取16、35、54、73、92、111、…985
    因为抽出了51个,有51-50=1个样本是多余的
    5.通过随机抽样选出并剔除多余的样本
    给选出的样本编上一连串的号码,在多余的号码,在抽出的样本数的范围内产生随机数,剔除其对应的号码
    例如编上1-5的一连串的号码,在此范围吗内产生的随机数
    因为产生的随机数是6,所以剔除第6个样本号码111


    概率与规模成比例抽样

    PPS抽样

    这是抽样单位

    这是抽样单位在2个以上的时的抽样方法,通过缩小区域和调查对象的范围,从大规模的总体中高效地进行抽样。它是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方法。

    PPS抽样实际上是整体抽样与简单抽样或等距抽样(系统抽样)配合的两阶段抽样。

    **PPS抽样是指按概率比例抽样,属于概率抽样的一种。**是指在多阶段抽样中,尤其是二阶段抽样中,**初级抽样单位被抽中的几率取决于其初级抽样单位的规模大小,**初级抽样单位规模越大,被抽中的的机会越大,初级抽样单位规模越小,被抽中的几率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。


    分层抽样

    分层原则:层内差异小,层间差异较大

    优点

    • 子总内的抽样单元之间差异比较小,子样本具有较好的均匀性,可能得到较高精度的估计量
    • 有效消除特殊个体的影响
    • 可对各层的特性加以比较
    • 实施管理方便

    区域抽样

    概念:

    在访问调查中,由于居民基本登记名册使用起来不方便,一级抽样选出街区后,在二级抽取样本(家庭户和个人)时,
    也有用住宅地图来代替抽样名册的情况。这种将住宅地图用作抽样名册的方法,称为区域抽样

    特征:

    • 在没有调查对象清单的访问调查中使用

    优点:

    • 没有居民基本登记名册,也可以实施访问调查
    • 便于寻找通过外表即可看出是否符合条件的家庭户(有院子的家庭、有车的家庭等)

    缺点:

    • 有可能偏向经常在家的调查对象无法从外表看出是否符合条件和以个人为对象进行调查时,效率低下
      (访问家庭与调查条件不符,调查对象正在外出等)

    **还需要注意的是,区域抽样有可能偏向经常在家的调查对象。**因此,为了使样本具有代表性,
    可以按照与调查总体的特征构成比相近的比例分配样本,或者在统计时,按照与调查总体特征构成比相近的比例进行加权。

    时间抽样

    按时间间隔抽取行人的时间抽样、以及通过随机数造出电话号码进行调查的RDD等。

    概念:

    时间抽样指,比如,从50个行人中邀请1人接受调查时使用的抽样。由于不清楚调查总体的情况,所以不能计算抽样比。
    但是,只要样本量足够大,并尽量按相等的抽样间隔进行抽样,就可以保持样本的代表性。
    为了使样本具有代表性,从经验上讲,样本量需要500人以上、最好能达到1000人。

    如果事先测定好调查地点从周一到周日各天不同时间段的行人数量,对于确认所需的访问员人数、抽样间隔和调查结果回收目标人数会有
    较大的帮助。例如,如果用不同调查地点的行人数除以调查结果回收目标人数,就能计算出每隔多少人邀请1个人接受访问为好。
    当事先观察到的不同时间段的行人,以及不同时间段的回收样本构成和实际情况不相符时,则通过“加权”对统计结果进行调整。

    时间抽样的特征

    特征:街头调查、到场者调查等,按一定的时间间隔对到达其场所的人进行抽样

    优点:不需要名册

    缺点:调查总体的人数不清楚
    由于在不同时间段,行人以及到场者的人数都有所不同,所以必须考虑在不同的时间段,抽样比也要有所不同。

    1.事先在调查地点观察不同时间段的行人和到场的人数。
    2.根据事前观察的结果,研究如何按不同的时间段分配样本量、安排访问员等
    3.实际回收结果的不同时间段的样本构成比与实际情况有出入时、必须用“加权”对统计结果进行调整

    展开全文
  • 确定信息收集对象和抽样方法.pptx
  • 化工原料取样方法及规定.pdf
  • 产品经理需要学会的抽样方法和置信区间的计算方法
  • 八种样本抽样方法介绍

    万次阅读 多人点赞 2019-10-16 09:24:15
    介绍 你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存...是否有一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整...

    介绍

    你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存不足"错误。

    即使是最优秀的人也会遇到这种事。这是我们在数据科学中面临的最大障碍之一,在受计算限制的计算机上处​​理大量数据(并非所有人都拥有Google的资源实力!)。

    那么我们如何克服这个问题呢?是否有一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整个数据集?

    这种方法称为抽样。我相信你在学校期间,甚至在你的职业生涯中,都会遇到这个名词很多次。抽样是合成数据子集并进行分析的好方法。但是,那我们只是随机取一个子集呢?

    我们将在本文中进行讨论。我们将讨论八种不同类型的抽样技术,以及每种方法的使用场景。这是一篇适合初学者的文章,会介绍一些统计的知识

    目录

    1. 什么是抽样?
    2. 为什么我们需要抽样?
    3. 抽样步骤
    4. 不同类型的抽样技术
    5. 概率抽样的类型
    6. 非概率抽样的类型

    什么是抽样?

    让我们从正式定义什么是抽样开始。

    抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。

    上图完美地说明了什么是抽样。让我们通过一个例子更直观的进行理解。

    我们想要找到Delhi这个城市所有成年男性的平均身高。Delhi的人口大约为3千万,男性大约为1500万(这些都是假想数据,不要当成实际情况了)。你可以想象,要找到Delhi所有男性的身高来计算平均身高几乎是不可能的。

    我们不可能接触到所有男性,因此我们无法真正分析整个人口。那么,什么可以我们做的呢?我们可以提取多个样本,并计算所选样本中个体的平均身高。

    但是,接下来我们又提出了一个问题,我们如何取样?我们应该随机抽样吗?还是我们必须问专家?

    假设我们去篮球场,以所有职业篮球运动员的平均身高作为样本。这将不是一个很好的样本,因为一般来说,篮球运动员的身高比普通男性高,这将使我们对普通男性的身高没有正确的估计。

    这里有一个解决方案,我们在随机的情况下随机找一些人,这样我们的样本就不会因为身高的不同而产生偏差。

    为什么我们需要抽样?

    我确定你在这一点上已经有了直觉的答案。

    抽样是为了从样本中得出关于群体的结论,它使我们能够通过直接观察群体的一部分(样本)来确定群体的特征。

    • 选择一个样本比选择一个总体中的所有个体所需的时间更少
    • 样本选择是一种经济有效的方法
    • 对样本的分析比对整个群体的分析更方便、更实用

    抽样步骤

    将概念形象化是在记忆的好方法。因此,这是一个以流程图形式逐步进行抽样的流程图!

    让我们以一个有趣的案例研究为例,将这些步骤应用于执行抽样。几个月前,我们在印度举行了大选。你一定看过当时每个新闻频道的民意调查:

    这些结果是根据全国9亿选民的意见得出的还是根据这些选民的一小部分得出的?让我们看看是怎么做的。

    第一步

    抽样过程的第一步是明确定义目标群体。

    因此,为了进行民意调查,投票机构仅考虑18岁以上且有资格在人口中投票的人。

    第二步

    抽样框架(Sampling Frame) –这是构成样本总体的个体列表。

    因此,这个例子的抽样框架将是是名字出现在一个选区的所有投票人列表。

    第三步

    一般来说,使用概率抽样方法是因为每一张选票都有相等的价值。不考虑种姓、社区或宗教,任何人都可以被包括在样本中。不同的样品取自全国各地不同的地区。

    第四步

    样本量(Sample Size)-是指样本中所包含的个体的数量,这些个体的数量需要足量以对期望的准确度和精度进行推断。

    样本量越大,我们对总体的推断就越准确。

    在民意调查中,各机构试图让尽可能多的不同背景的人参与抽样调查,因为这有助于预测一个政党可能赢得的席位数量。

    第五步

    一旦确定了目标人群,抽样框架,抽样技术和样本数量,下一步就是从样本中收集数据。

    在民意测验中,机构通常会向人民提出问题,例如他们要投票给哪个政党或前政党做了什么工作,等等。

    根据答案,各机构试图解释选民投票给谁,以及一个政党要赢得多少席位。

    不同类型的抽样技术

    这里是另一个图解!这一个是关于我们可以使用的不同类型的采样技术:

    • 概率抽样: 在概率抽样中,总体中的每个个体都有相等的被选中的机会。概率抽样给了我们最好的机会去创造一个真正代表总体的样本
    • 非概率抽样:在非概率抽样中,所有元素被选中的机会都不相等。因此,有一个显著的风险,即最终得到一个不具代表性的样本,它不会产生可推广的结果

    例如,假设我们的人口由20个人组成。每个个体的编号从1到20,并由特定的颜色(红色、蓝色、绿色或黄色)表示。在概率抽样中,每个人被选中的概率是1/20。

    对于非概率抽样,这些概率是不相等的。一个人被选中的机会可能比别人大。现在我们对这两种抽样类型有了一定的了解,让我们分别深入了解每种抽样类型,并理解每种抽样的不同类型。

    概率抽样的类型

    简单随机抽样

    这是你一定要遇到的一种抽样技术。在这里,每个人都是完全由随机选择的,人口中的每个成员都有被选择的机会。

    简单的随机抽样可减少选择偏差。

    这种技术的一大优点是它是最直接的概率抽样方法。但它有一个缺点,它可能不会选择特别多我们真正感兴趣的个体元素。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

    系统抽样

    在这种类型的抽样中,第一个个体是随机选择的,其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。

    假设我们的总体大小是x,我们必须选择一个样本大小为n的样本,然后,我们要选择的下一个个体将是距离第一个个体的x/n个间隔。我们可以用同样的方法选择其余的。

    假设,我们从第3个人开始,样本容量是5。因此,我们要选择的下一个个体将是(20/5)= 4,从第3个人开始,即7(3 4),依此类推。

    3、3 4=7、7 4=11、11 4=15、15 4=19 . 3、7、11、15、19

    系统抽样比简单随机抽样更方便。然而,如果我们在人群中选择项目时存在一种潜在的模式,这也可能导致偏差(尽管这种情况发生的几率非常低)。

    分层抽样

    在这种类型的抽样中,我们根据不同的特征,如性别、类别等,把人口分成子组(称为层)。然后我们从这些子组中选择样本:

    在这里,我们首先根据红、黄、绿、蓝等不同的颜色将我们的种群分成不同的子组。然后,从每一种颜色中,我们根据它们在人口中的比例选择一个个体。

    当我们想要从总体的所有子组中得到表示时,我们使用这种类型的抽样。然而,分层抽样需要适当的人口特征的知识。

    整群抽样

    在整群抽样中,我们使用总体的子组作为抽样单位,而不是个体。全体样本被分为子组,称为群,并随机选择一个完整的群作为抽样样本。

    在上面的例子中,我们将人口分为5个群。每个群由4个个体组成,我们在样本中选取了第4个群。我们可以根据样本大小包含更多的群。

    当我们集中在一个特定领域或区域时,就会使用这种类型的抽样。

    非概率抽样的类型

    便利抽样

    这可能是最简单的抽样方法,因为个人的选择是基于他们的可用性和参与意愿。

    这里,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

    便利抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

    配额抽样

    在这种抽样中,我们根据预先确定的总体特征来选择样本。考虑到我们必须为我们的样本我们选择一个倍数为4的个体:

    因此,编号为4、8、12、16和20的个人已经为我们的样本保留。

    在配额抽样中,选择的样本可能不是未考虑的人口特征的最佳代表。

    判断抽样

    这也称为选择性抽样。在选择要求参加者时,取决于专家判断。

    假设,我们的专家认为,应该将编号为1、7、10、15和19的人作为我们的样本,因为它们可以帮助我们更好地推断人口。你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。

    雪球抽样

    我很喜欢这种抽样方法。现有的人被要求推荐更多他们认识的人,这样样本的大小就会像滚雪球一样增加。当抽样框架难以识别时,这种采样方法是有效的。

    在这里,我们随机选择了1个人作为样本,然后他推荐了6个人,6个人推荐了11个人,依此类推。

    1-> 6-> 11-> 14-> 19

    雪球抽样有很大的选择偏见风险,因为被引用的个体将与推荐他们的个体具有共同的特征。

    结尾

    在本文中,我们了解了抽样的概念,抽样所涉及的步骤以及不同类型的抽样方法。抽样在统计世界和现实世界中都有广泛的应用。

    欢迎关注磐创博客资源汇总站:http://docs.panchuang.net/

    欢迎关注PyTorch官方中文教程站:http://pytorch.panchuang.net/

    展开全文
  • 检验内容采用试验规程和标准抽样频率取样方法1土工颗粒分析.doc
  • 下面通过行波管原理的简单叙述,介绍几种收集极电源的稳压取样方法。  1 行波管工作原理  螺旋线行波管是一种特殊的电真空器件,采用螺线状的慢波结构;灯丝电源通过灯丝给阴极加热,受热的阴极不断发射电子,...
  • 主要介绍简单随机抽样 、分层抽样 、整群抽样 、系统抽样 以及多级抽样这五种概率抽样方法。 1. 简单随机抽样 > 简单随机抽样(simple random sampling ,SRS)是最简单的概率抽样方 法 ,也是其他抽样方法的基础 ...
  • 随机抽样方法

    2021-04-11 04:16:27
    应用程序可以使用多种方式使用基础(伪)随机数生成器进行采样,并为其中许多提供伪代码。
  • 用r语言进行简单的切片mcmc抽样,切片抽样属于马氏链蒙特卡洛方法
  • 实用标准文案 MSA分析数据取样方法 1 重复性与再现性数据取样方法 1根据测量治具或测试设备选用 10 个被测样品并进行编号 2 选用 ABC 三个具有该测量治具或测试设备实际操作经验的测量人员进 行测量评价 3 将测量...
  • 基于标量衍射理论和快速傅里叶变换,分析了光衍射的数值模拟时可以采用的不同抽样方法及其适用性。理论分析表明,按照抽样对象的不同,存在三种适用范围不同的算法:传递函数抽样法、点扩展函数抽样法和加权函数抽样法。...
  • 基于 Python 的 8 种常用抽样方法

    千次阅读 2021-06-26 22:45:18
    今天来和大家聊聊抽样的几种常用方法,以及在Python中是如何实现的。 抽样是统计学、机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到。所以我们需要抽样,比如在...
  • 抽样方法总结

    千次阅读 2020-07-21 17:28:25
    抽样方法分类 1. 简单随机抽样 简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等完全随机地抽取调查单位 2. 系统随机抽样 系统抽样是将总体的观察单位,按一定顺序号平均分成n个部分,每一...
  • 我的课程作业……包括Metropolis,Metropolis Hastings, Laplace Approximation, Gibbs,Bayesian liner regression,Bayesian logistic regression的原理简单介绍和算法,水平有限一定会有错,发这就是为了保存...
  • 论文研究-求解探测概率门限因子的一种重要度抽样方法.pdf, 在不同探测环境下确定探测概率时 ,首先需要根据给定的虚警率来确定相应的探测概率门限因子 ,这时需要在杂波和...
  • 资源里面一共三种随机抽样方法,分别是别名表抽样、罐子抽样、直接抽样 使用MATLAB语言实现的,希望对你有帮助。
  • 为了解决以往安全文化问卷调查过程中忽视抽样方法设计这一问题,对抽样方法设计中的抽样方法的选择及样本容量的确定进行研究.通过对企业员工结构的分析以及各种抽样方法的比较,确定分层抽样是最适合企业安全文化...
  • 抽样方法,采样方法 shuffle

    千次阅读 2020-11-24 16:24:27
    抽样方法概览 随机抽样—总体个数较少 每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时,它的主要特征是从总体中逐个抽取。 1、抽签法 2、随机数法:随机数表、随机数骰子或计算机...
  • 为了使并联系统失效概率估计值的方差大大减小,依据并联系统重要方向的定义和单模式线抽样方法的基本原理,建立了适用于并联系统可靠性分析的马尔可夫链线抽样方法,给出了并联系统马尔可夫链线抽样方法失效概率估算...
  • 抽样技术其他抽样方法培训课件.pptx
  • 结合现场获取的测试数据,对目前普遍采用的直接进气法和低温二次冷凝法2种取样方法进行对比分析,得出同一实验环境下2种方法的关联值;为使测试数据更加准确可靠,对测试方法与工艺测点进行匹配。结果表明,在目前实验室...
  • 简单随机抽样三种抽样方法.ppt

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 110,808
精华内容 44,323
关键字:

抽样方法