精华内容
下载资源
问答
  • 抽样方法

    2020-11-08 20:54:44
    文章目录抽样在挖掘中的作用抽样方法简单随机抽样(SPS)分层抽样(STR)系统抽样多段抽样 抽样在挖掘中的作用 快速获得数据的基本特征 数据量较大,建模速度较慢 数据不足时 数据平衡 数据分为训练集、验证集、...

    抽样在挖掘中的作用

    快速获得数据的基本特征
    数据量较大,建模速度较慢
    数据不足时
    数据平衡
    数据分为训练集、验证集、测试集

    抽样方法

    抽样方法 简单随机抽样(SPS)
    分层抽样(STR)
    系统抽样
    多段抽样

    简单随机抽样(SPS)

    从总体中不加任何分组、分类、排序等,完全随机地抽取调查单位。

    • 特点
      1)每个样本被抽中的概率相等,样本的每个单位完全独立,彼此之间无一定的关联性或排斥性
      2)简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小数目较少时,才采用这种方法。

    • 局限性
      1)当总体单位数量很大时,就难以实现简单随机抽样,且抽样误差大

    分层抽样(STR)

    也称为类型抽样。总体分成不同的”层“,然后在每一层内进行抽样。

    两种方法:
    1)等数分配法
    2)等比分配法

    系统抽样

    也称为等距抽样,步骤如下:
    1)按照某一标志值的大小,将总体单位进行排序,并按照顺序编号
    2)根据确定的抽样比例确定抽样间距
    3)随机确定第一个样本单位
    4)按顺序总体,等间距地抽取其余样本单位

    • 系统抽样的随机性主要体现在第一个样本单位的选取上,因此一定要保证抽取的第一个样本单位的随机性
    • 该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况

    多段抽样

    将调查分成两个或两个以上的阶段进行抽样。第一阶段先将总体以一定的规范分成若干抽样单位,称为一级抽样单位
    再把抽中的一级抽样单位分成若干个二级抽样单位,从抽中的二级抽样单位中再分三级抽样单位等。
    这样就形成一个多阶段抽样过程,分为若干个阶段逐步执行

    展开全文
  • python 抽样方法概率和统计的PYTHON(PYTHON FOR PROBABILITY AND STATISTICS) 为什么我们需要采样? (Why do we need Sampling?) Sampling is used when we try to draw a conclusion without knowing the ...

    python 抽样方法

    概率和统计的PYTHON(PYTHON FOR PROBABILITY AND STATISTICS)

    为什么我们需要采样? (Why do we need Sampling?)

    Sampling is used when we try to draw a conclusion without knowing the population. Population refers to the complete collection of observations we want to study, and a sample is a subset of the target population. Here’s an example. A Gallup poll¹, conducted between July 15 to 31 last year, found that 42% of Americans approve of the way Donald Trump is handling his job as president. The results were based on telephone interviews of a random sample of ~4500 calls (assuming one adult per call. ~4500 adults), aged 18 and older, living in the U.S. The poll was conducted during a period of controversy over Trump’s social media comments. For this survey, the population is ALL the U.S citizens aged 18 and older, and the sample is 4500 adults.

    当我们尝试在不知道总体的情况下得出结论时,将使用抽样。 人口是指我们要研究的观测资料的完整集合,样本是目标人口的子集。 这是一个例子。 去年7月15日至31日进行的盖洛普民意调查¹发现,有42%的美国人赞成唐纳德·特朗普处理总统职位的方式。 结果基于电话采访,随机抽样了约4500个电话(假设每个电话约一个成年人。约4500个成年人),他们居住在美国,年龄在18岁及以上。该调查是在特朗普社交媒体评论引起争议的一段时间内进行的。 在本次调查中,人口为18岁及以上的所有美国公民,样本为4500名成人。

    If sampling is done wrong, it will lead to biases that affect the accuracy of your research/survey results. To avoid selection biases, we have to carefully choose a subset of a population that can be representative of the group as a whole.

    如果采样做错了,将导致偏差,从而影响您的研究/调查结果的准确性。 为了避免选择偏见,我们必须仔细选择总体的一个子集 可以代表整个团体。

    概率抽样的类型 (Types of Probability Sampling)

    简单随机抽样(Simple Random Sampling)

    Simple Random Sampling
    Image by Author using Powerpoint
    图片作者使用Powerpoint

    Simple random sampling means we randomly select samples from the population where every unit has the same probability of being selected.

    简单随机抽样意味着我们从总体中随机选择样本,每个样本单元都有相同的被选择概率。

    Pros: there’s no need to divide the population into subgroups or take any other additional steps before selecting members of the population at random.

    优点:在随机选择总体成员之前,无需将总体划分为子组或采取任何其他其他步骤。

    Cons: the samples might not be representative, and it could be time-consuming for large populations.

    缺点:样本可能不具有代表性,并且对于大量人群可能很耗时。

    Use Case: it’s used when we don’t know too much about the population.

    用例:当我们对人口不太了解时使用。

    #let's create a dataframe first!
    import numpy as np
    import pandas as pd
    from numpy.random import randn
    # Define total number of customers
    number_of_customers = 10
    # Create data dictionary
    data = {'customer_id':np.arange(1, number_of_customers+1).tolist(),
    'customer_life_time_value':randn(10)}
    # Transform dictionary into a data frame
    df = pd.DataFrame(data)
    # View data frame
    df
    Image for post
    Created a data frame (Image by Author)
    创建了一个数据框(作者提供的图像)
    #only using random(), we can generate 4 samples from this dataset
    # Obtain simple random samplesimple_random_sample = df.sample(n=4).sort_values(by='customer_id')
    simple_random_sample
    Image for post
    Randomly selected customers (Image by Author)
    随机选择的客户(作者提供的图片)

    分层抽样 (Stratified Sampling)

    Stratified Sampling
    Image by Author using Powerpoint
    图片作者使用Powerpoint

    For stratified sampling the population is divided into subgroups (called strata), then randomly select samples from each stratum.

    对于分层抽样,将总体分为子组(称为分层),然后从每个分层中随机选择样本。

    Pros: it captures key population characteristics, so the sample is more representative of the population.

    优点:它捕获了关键的人口特征,因此样本更能代表人口。

    Cons: it’s ineffective if subgroups cannot be formed.

    缺点:如果不能形成小组,这是无效的。

    Use Case: it’s commonly used in geographic sampling where strata can be states, countries, or ecoregions.

    用例:通常用于地层可以是州,国家或生态区的地理采样。

    #Let's add subgroup labels to the datasetdf['strata']=[0, 0, 0, 1, 1, 1, 1, 1, 2, 2]sss = StratifiedShuffleSplit(n_splits=5, test_size=0.5, random_state=0)for x, y in sss.split(df, df['strata']):
    stratified_random_sample = df.iloc[y].sort_values(by='customer_id')
    stratified_random_sample
    Image for post
    Randomly selected customers from each stratum (Image by Author)
    从每个阶层中随机选择的客户(作者提供的图片)

    整群抽样 (Cluster Sampling)

    Cluster Sampling
    Image by Author using Powerpoint
    图片作者使用Powerpoint

    For clustering sampling, the population is divided into different clusters. Then a fixed number of clusters are randomly sampled and all units within each of the selected clusters are included in the sample.

    对于聚类抽样,将总体分为不同的聚类。 然后,对固定数量的聚类进行随机采样,并将每个选定聚类内的所有单元包括在样本中。

    Pros: it reduces variability, and it’s easy to conduct.

    优点:它减少了可变性,并且易于操作。

    Cons: it is possible to introduce bias during sampling.

    缺点:在采样过程中可能会引入偏差。

    Use Case: it’s used when all individuals in each cluster can be representative of the populations.

    用例:当每个群集中的所有个人都可以代表总体时使用。

    #create 4 different clusters based on customers' lift time valuesdf['cluster'] = pd.cut(df['customer_life_time_value'], bins=4, labels=False) +1
    Image for post
    Added “cluster” column (Image by Author)
    添加了“群集”列(作者提供的图像)
    # predefine which clusters/groups we want to select samples fromn=[2,4]def clustering_sampling(df,n):
    df_list=[]
    for i in range(len(n)):
    df1=df[df['cluster']==n[i]]
    df_list.append(df1)
    final_df=pd.concat(df_list, ignore_index=True)

    return final_dfclustering_sampling(df,n)
    Image for post
    Selected all customers from cluster 2 and 4 in the sample (Image by Author)
    从样本中的集群2和集群4中选择了所有客户(作者提供的图像)

    系统采样 (Systematic Sampling)

    Systematic Sampling
    Select every other person from the population (Image by Author using Powerpoint)
    从人口中选择其他所有人(作者使用Powerpoint拍摄)

    A systematic sample is drawn by selecting units systematically from a sample frame. (i.e every other unit is included in the sample)

    通过从样本框架中系统选择单位来绘制系统样本。 (即样本中包含其他所有单位)

    Pros: it can eliminate clustered selection, and it’s simple to execute.

    优点:它可以消除集群选择,并且执行简单。

    Cons: we need to predetermine the estimated population size. It doesn’t work well if the population has a type of standardized pattern.

    缺点:我们需要预先确定估计的人口规模。 如果总体具有某种标准化模式,则效果不佳。

    Use Case: it’s used when the relevant data does not exhibit patterns.

    用例:当相关数据不显示模式时使用。

    def systematic_sampling(df, step):

    indexes = np.arange(0,len(df),step=step)
    systematic_sample = df.iloc[indexes]
    return systematic_sample

    systematic_sampling(df, 1)
    Image for post
    Every other customer_id is included in the sample (Image by Author)
    示例中还包含其他所有customer_id(作者提供的图片)

    翻译自: https://towardsdatascience.com/probability-sampling-methods-explained-with-python-4c0a19a59456

    python 抽样方法

    展开全文
  • 抽样方法总结

    2020-07-21 17:28:25
    抽样方法分类 1. 简单随机抽样 简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等完全随机地抽取调查单位 2. 系统随机抽样 系统抽样是将总体的观察单位,按一定顺序号平均分成n个部分,每一...

    抽样方法分类

    1. 简单随机抽样

    简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等完全随机地抽取调查单位

    2. 系统随机抽样

    系统抽样是将总体的观察单位,按一定顺序号平均分成n个部分,每一部分抽取第k号观察单位组成样本,这里的k是随机确定的,其体现了系统抽样中的随机性

    3. 分层随机抽样

    分层抽样是先按对主要研究指标影响较大的某种特征,将总体分为若干类别(统计上称之为“层”),再从每一层内随机抽取一定数量的观察单位,合起来组成样本。其随机性体现在层内的抽样过程
    分层抽样要求各层之间的差异很大,层内个体或单元差异小

    4. 整群随机抽样

    整群抽样是先将总体按照某种与主要研究指标无关的特征划分为K个“群”,每个群包含若干观察单位,然后再随机抽取k个“群”,由抽取的各个群的全部观察单位组成样本。其随机性主要体现在“群”的抽取过程。
    整群抽样要求群与群之间的差异比较小,群内个体或单元差异大

    抽样误差

    一般情况下,当样本含量一定,几种方法抽样误差大小的排序为:分层抽样 ≤ 系统抽样 ≤ 简单随机抽样 ≤ 整群抽样

    参考文章
    参考文章1

    展开全文
  • 学习目标目标知道总体、样本、样本大小、样本数量知道样本统计量和总体统计量知道总体分布、样本分布和抽样分布知道常用的抽样方法某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者...

    学习目标目标

    知道总体、样本、样本大小、样本数量

    知道样本统计量和总体统计量

    知道总体分布、样本分布和抽样分布

    知道常用的抽样方法

    某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者帮忙完成检验,结果却让人大跌眼镜!

    没文化,真可怕!我该怎么办? 有时候数据很容易收集,例如参加健身俱乐部的人的年龄,后这一家游戏公司的销售数据。但有时候不太容易,该怎么办呢? 是时候拿出终极武器了— 抽样

    1.抽样相关概念

    总体:是指研究对象的整个群体。

    公司生产的一批糖果

    样本:是从总体中选取的一部分,用于代表总体的整体情况。

    在这批糖果中随机抽取50颗糖果

    样本数量:又叫样本空间,是表示有多少个样本。

    在这批糖果中随机抽取50颗糖果,抽5次:样本数量=5

    样本大小:也叫样本容量,表示每个样本里有多少个数据。

    每个样本50颗糖果:样本大小=50

    统计量:

    统计量是对数据进行统计得到的量,例如:均值、方差、标准差、比例等。总体统计量:总体XX

    对总体进行统计得到的统计量总体均值$$\mu$$:整批所有糖果数据的均值

    总体方差$$\sigma^2$$:整批所有糖果数据的方差

    样本统计量:样本XX

    对样本进行统计得到的统计量样本均值$$\bar{X}$$:抽取的某个样本糖果数据的均值

    样本方差$$S^2$$:抽取的某个样本糖果数据的方差

    分布:总体分布

    总体数据的概率分布:整批所有糖果数据的概率分布往往未知,很多时候无法获得总体所有元素的观测值

    可以通过理论计算进行假定

    样本分布

    抽取的样本中数据的概率分布:抽取的某个样本糖果数据的概率分布假设总体大小为m,样本大小为n,n趋近于m时,样本分布趋近于总体分布

    样本分布又称经验分布

    注意:样本分布与总体分布近似(抽样正确的前提下)抽样分布对样本统计量概率分布的一种描述:所有样本均值的概率分布

    2.抽样方法

    ​ 抽样的目的是为了通过样本获得总体的信息,所以关键点是怎么抽样才能保证获得的样本具有代表性,下面,我们简单介绍几种常用的抽样方法。简单随机抽样(simple random sampling)。原理和我们抽扑克牌、抽奖一样,就是从一个固定的总体中(比如有N个对象),利用抽签或其他随机方法(如随机数表)抽取n个对象。所谓随机,是指总体中每一个对象被抽中的概率相等。假设两个人抽扑克牌比大小,两个人抽中大王的概率其实一样,都是1/54。

    系统抽样(systematic sampling)。这种抽样方法的核心在于确定一个所谓的“抽样间隔”。比如将总体对象随机编号,从1至100,我们只抽取编号个位数是7的对象,即编号为7,17,27,…的样本,本质上他们相邻的编号有一个固定的间隔——10。

    分层抽样(stratified sampling),是指先将总体按照某种特征分为若干层,比如按照性别分为男女两层,然后再从每一层内进行简单随机抽样。分层的目的就在于提升样本对总体的代表性,提高估计的精确度,比如一般的理工院校男生多女生少,采用分层抽样可以保证男性和女性样本都能被抽中。

    整群抽样(cluster sampling),是将总体分成几个群,比如我国开展的大型调查一般会以省或地区为群,先采用简单随机抽样的方法抽取群,然后从抽中的群中再抽取相关的个体进行研究。现实过程中可以将抽中的群中的所有对象作为研究样本,也可以在群内部再次进行抽样获得部分调查对象作为样本。

    3.小结抽样相关概念 【知道】

    总体:是指研究对象的整个群体。

    样本:从总体中选取的一部分

    样本大小:每个样本里有多少个数据

    样本数量:表示有多少个样本。

    统计量

    总体XX

    总体均值$$\mu$$

    总体方差$$\sigma^2$$

    样本XX

    样本均值$$\bar{X}$$

    样本方差$$S^2$$

    分布:

    总体分布

    样本分布

    抽样分布

    抽样方法 【知道】

    简单随机抽样:随机抽

    系统抽样:等间隔抽

    分层抽样:每种分别抽

    整群抽样:直接抽一拨

    展开全文
  • 抽样方法概览 随机抽样—总体个数较少 每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时,它的主要特征是从总体中逐个抽取。 1、抽签法 2、随机数法:随机数表、随机数骰子或计算机...
  • Bootstrap重抽样方法

    千次阅读 2019-11-10 18:33:05
    Bootstrap重抽样方法 非参数重抽样 Non-parametric resampling 此方法不假设数据的分布或模型。数据表示为n个独立观测向量yobsy_{obs}yobs​, 假设求参数的参数θ^(yobs)\hat{\theta}(y_{obs})θ^(yobs​)的置信区间...
  • 动态社区检测的自适应随机游动抽样方法
  • 学习目标目标知道总体、样本、样本大小、样本数量知道样本统计量和总体统计量知道总体分布、样本分布和抽样分布知道常用的抽样方法某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者...
  • 目标知道总体、样本、样本大小、样本数量知道样本统计量和总体统计量知道总体分布、样本分布和抽样分布知道常用的抽样方法某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者帮忙完成...
  • 学习目标目标知道总体、样本、样本大小、样本数量知道样本统计量和总体统计量知道总体分布、样本分布和抽样分布知道常用的抽样方法 某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃...
  •    抽样调查在 统计学 与 Python数据分析/数据挖掘/数据科学 中非常常用,在实际业务中也是高频刚需,而 Python 并没有专有的抽样方法库,所以将自己以前的笔记汇总到自写库中,用到时直接调用函数即可,快速且...
  • 接着之前的话题,开始说说抽样方法,今天说的是简单随机抽样。简单随机抽样是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。在细分的话,还可以分为重复抽样和不重复...
  • 一、分享简单随机抽样的几种方法1、抽样分析工具抽样2、INDIRECT+RANDBETWEEN函数抽样3、RAND+排序抽样4、SAS抽样二、分层抽样方法1、Python分层抽样2、SAS分层抽样3、EXCEL函数及功能分层抽样简单随机抽样的几种...
  • 【数理统计】抽样方法

    千次阅读 2018-01-02 14:43:36
    1 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是渐进抽样。
  • 基于标量衍射理论和快速傅里叶变换,分析了光衍射的数值模拟时可以采用的不同抽样方法及其适用性。理论分析表明,按照抽样对象的不同,存在三种适用范围不同的算法:传递函数抽样法、点扩展函数抽样法和加权函数抽样法。...
  • 一种基于空间相关性的海洋环境监测数据优化抽样方法
  • 一、分享简单随机抽样的几种方法1、抽样分析工具抽样2、INDIRECT+RANDBETWEEN函数抽样3、RAND+排序抽样4、SAS抽样二、分层抽样方法1、Python分层抽样2、SAS分层抽样3、EXCEL函数及功能分层抽样简单随机抽样的几种...
  • 第五章:重抽样方法

    2019-11-27 13:34:59
    抽样方法第五章:重抽样方法5.1 交叉验证法(cross-validation)5.1.1验证集方法(validation set approach)5.1.2 留一交叉验证法(leave-one-out cross-validation,LOOCV)5.1.3 K折交叉验证(k-fold CV) ...
  • 所谓概率抽样,是指按照一定的概率从构成总体的所有单元中随机选择一部分单元进入样本的抽样方法。下面主要介绍简单随机抽样 、分层抽样 、整群抽样 、系统抽样 以及多级抽样这五种概率抽样方法。 简单随机抽样  ...
  • 学习目标目标知道总体、样本、样本大小、样本数量知道样本统计量和总体统计量知道总体分布、样本分布和抽样分布知道常用的抽样方法某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者...
  • 抽样方法介绍

    2020-12-09 15:48:22
    常用的统计方法有四大类: 1.随机抽样 主要特征:从总体中逐个抽取; 优点:操作简便易行 缺点:总体过大不易实行 方法 (1)抽签法:把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,...
  • Gibbs抽样方法详解

    千次阅读 2016-10-23 10:34:54
    Gibbs抽样方法的作用: 积分,期望或者联合分布很难计算,通常情况下当前面三个问题是NP问题时才需要Gibbs Sampling。 不然的话,直接计算就可以了嘛,既准确又快速,干嘛还要Gibbs Sampling呢。补充一句Gibbs ...
  • 食品检验 抽样方法 误差分析 食品抽检 抽样特性曲线 接受概率 抽检方案 一次抽检 不合格率 为合格

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,606
精华内容 1,442
关键字:

抽样方法