精华内容
下载资源
问答
  • 常用抽样方法

    千次阅读 2015-12-09 08:39:25
    转载自:... 1.非概率抽样(Non-probability sampling)  又称非随机抽样,指根据一定主观标准抽取样本,令总体中每个个体的被抽取不是依据其本身的机会,而是完全决定于调研者的意愿。  其特点

    转载自:http://tj.100xuexi.com/view/specdata/20100207/0CD3F00B-3980-4C39-AF91-2603851CE2CA.html


    1.非概率抽样(Non-probability sampling)

      又称非随机抽样,指根据一定主观标准抽取样本,令总体中每个个体的被抽取不是依据其本身的机会,而是完全决定于调研者的意愿。
      其特点为不具有从样本推断总体的功能,但能反映某类群体的特征,是一种快速、简易且节省的数据收集方法。当研究者对总体具有较好的了解时可以采用此方法,或是总体过于庞大、复杂,采用概率方法有困难时,可以采用非概率抽样来避免概率抽样中容易抽到实际无法实施或“差”的样本,从而避免影响对总体的代表度。
      
        常用的非概率抽样方法有以下四类:
      方便抽样(Convenience sampling)
      指根据调查者的方便选取的样本,以无目标、随意的方式进行。例如:街头拦截访问(看到谁就访问谁);个别入户项目谁开门就访问谁。
      优点:
      适用于总体中每个个体都是“同质”的,最方便、最省钱;可以在探索性研究中使用,另外还可用于小组座谈会、预测问卷等方面的样本选取工作。
      缺点:
      抽样偏差较大,不适用于要做总体推断的任何民意项目,对描述性或因果性研究最好不要采用方便抽样。
      
            判断抽样(Judgment sampling)
      指由专家判断而有目的地抽取他认为“有代表性的样本”。例如:社会学家研究某国家的一般家庭情况时,常以专家判断方法挑选“中型城镇”进行;也有家庭研究专家选取某类家庭进行研究,如选三口之家(子女正在上学的);在探索性研究中,如抽取深度访问的样本时,可以使用这种方法。
      优点:
      适用于总体的构成单位极不相同而样本数很小,同时设计调查者对总体的有关特征具有相当的了解(明白研究的具体指向)的情况下,适合特殊类型的研究(如产品口味测试等);操作成本低,方便快捷,在商业性调研中较多用。
      缺点:
      该类抽样结果受研究人员的倾向性影响大,一旦主观判断偏差,则根易引起抽样偏差;不能直接对研究总体进行推断。
      
            配额抽样(Quota sampling)
      指先将总体元素按某些控制的指标或特性分类,然后按方便抽样或判断抽样选取样本元素。
      相当于包括两个阶段的加限制的判断抽样。在第一阶段需要确定总体中的特性分布(控制特征),通常,样本中具备这些控制特征的元素的比例与总体中有这些特征的元素的比例是相同的,通过第一步的配额,保证了在这些特征上样本的组成与总体的组成是一致的。在第二阶段,按照配额来控制样本的抽取工作,要求所选出的元素要适合所控制的特性。例如:定点街访中的配额抽样。
      优点:
      适用于设计调查者对总体的有关特征具有一定的了解而样本数较多的情况下,实际上,配额抽样属于先“分层”(事先确定每层的样本量)再“判断”(在每层中以判断抽样的方法选取抽样个体);费用不高,易于实施,能满足总体比例的要求。
      缺点:
      容易掩盖不可忽略的偏差。
      
            滚雪球抽样(Snowball sampling)
      指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。
      第一批被访者是采用概率抽样得来的,之后的被访者都属于非概率抽样,此类被访者彼此之间较为相似。例如:如在目前中国的小轿车车主等。
      优点:
      可以根据某些样本特征对样本进行控制,适用寻找一些在总体中十分稀少的人物。
      缺点:
      有选择偏差,不能保证代表性。
      


    2.概率抽样(Probability sampling)
      又称随机抽样,指在总体中排除人的主观因素,给予每一个体一定的抽取机会的抽样。
      其特点为,抽取样本具有一定的代表性,可以从调查结果推断总体;操作比较复杂,需要更多的时间,而且往往需要更多的费用。
      常用的有以下六种类型:
      
            简单抽样(Simple sampling)
      即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如:按照“抽签法”、“随机表”法抽取访问对象,从单位人名目录中抽取对象。
      优点:
      随机度高,在特质较均一的总体中,具有很高的总体代表度;是最简单的抽样技术,有标准而且简单的统计公式。
      缺点:
      未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低;有可能抽到一个“差”的样本,使抽出的样本分布不好,不能很好地代表总体。
      
           系统抽样(Systematic random sampling)
      将总体中的各单元先按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。例如:从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点<间距)后每100号码抽一访问号码。
      优点:
      兼具操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。
      如果起点是随机确定的,总体中单元排列是随机的,等距抽样的效果近似简单抽样;与简单抽样相比,在一定条件下,样本的分布较好。
      缺点:
      抽样间隔可能遇到总体中某种未知的周期性,导致“差”的样本;未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低。
      
            分层抽样(Stratified random sampling)
      是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本。例如:调查零售店时,按照其规模大小或库存额大小分层,然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干;调查城市时,按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等,再抽出具体的各类型城市若干。
      优点:
      适用于层间有较大的异质性,而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样;能保证“层”的代表性,避免抽到“差”的样本;同时,不同层可以依据情况采用不同的抽样框和抽样方法。
      缺点:
      要求有高质量的、能用于分层的辅助信息;由于需要辅助信息,抽样框的创建需要更多的费用,更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。
      
            整群抽样(Cluster sampling)
      是先将调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调查。例如:入户调查,按地块或居委会抽样,以地块或居委会等有地域边界的群体为第一抽样单位,在选出的地块或居委会实施逐户抽样;市场调查中,最后一级抽样时,从居委会中抽取若干户,然后调查抽中户家中所有18岁以上成年人。
      优点:
      适用于群间差异小、群内各个体差异大、可以依据外观的或地域的差异来划分的群体。
      缺点:
      群内单位有趋同性,其精度比简单抽样为低。
      
            多级抽样(Multistage sampling)
      也叫多阶段抽样或阶段抽样,以二级抽样为例,二级抽样就是先将总分组,然后在第一级和第二中分别随机地抽取部分一级单位和部分二级单位。例如:以全国性调查为例,当抽样单元为各级行政单位时,按社会发展水平分层后(或按经济发展水平,或按地理位置分层),从每层中先抽几个地区,再从抽中的地区抽市、县、村,最后再抽至户或个人。
      优点:
      具体整体抽样的简单易行的优点,同时,在样本量相同的情况下又整群抽样的精度高。
      缺点:
      计算复杂。
        
            抽中概率与规模成比例抽样(PPS)
      是不等概率中最常用的一种方法,指在总体中参照各单位的规模进行抽样,规模大的被抽取的机会大,总体中每个个体被抽中的概率与该个体的规模成正比的抽样。例如:在进行企业调查时,根据PPS抽样方法抽取企业,令规模大的企业被抽取机会大。
      优点:
      使用了辅助信息,可以提高抽样方案的统计效率。
      缺点:
      如果研究指标与规模无直接关系时,不合适采取这种方法。
      
            此外,在抽样方法划分上,还有多阶段抽样和两相抽样等,有兴趣的读者可参阅其他相关书籍。
      前面谈到抽样方法的一些基本分类和各自特点,需要注意的是,在实际的运用中,一个调查方案  常常不是只局限于使用某一种抽样方式,而根据研究时段的不同采用多种抽样方法的组鸽为实现不同的研究目的,有时甚至在同一时段综合运用几种抽样方法。
      例如,设计一个全国城市的入户项目,在抽样上可以分为几个不同的步骤,包括:
      1)在项目正式开始前,可以采用判断抽样法选出某一城市先作试点,在问卷设计初期可以采用任意抽样法选出部分人群进行问卷试访。
      2)采用分层随机抽样法,确定全国要分别在多少个超大型市、多少个大型市、多少个中型市、多少个小型市实施(先分出城市的几个层次,再依据研究需要在各层用PPS法选取具体城市)
      3)采用简单抽样法或PPS抽样法,确定抽出城市中应抽的地块或居委会;
      4)采用整群抽样法,确定抽出地块或居委会应访问的家庭户;
      5)在项目后期,可以采用判断抽样法选取某城市进行深入研究。
     
    展开全文
  •    抽样调查在 统计学 与 Python数据分析/数据挖掘/数据科学 中非常常用,在实际业务中也是高频刚需,而 Python 并没有专有的抽样方法库,所以将自己以前的笔记汇总到自写库中,用到时直接调用函数即可,快速且...

    引言

       抽样调查在 统计学 与 Python数据分析/数据挖掘/数据科学 中非常常用,在实际业务中也是高频刚需,而 Python 并没有专有的抽样方法库,所以将自己以前的笔记汇总到自写库中,用到时直接调用函数即可,快速且精确。

      进行统计学分析,假设检验,方差分析,单因素xx,t 检验,xx 检验的时候,样本量数据如果过大,则的出来的统计检验力如 p 值等就不可信。即假如我们的整体数据有 10 万,进行假设检验的时候只需要根据数据分布情况分层抽样一小部分就行了,所以分层抽样用得也是最多的,但很可惜 Python 并没有这样的库,只能自己写,以往的学习中我也不记得这个库是从哪里找到的了,不过一直都非常非常好用,效率 10 倍 max。

    行文思路

      全部源代码(根据填入参数选择不同的抽样方法) --》 对每一方法进行单独使用并附上效果图

      以某电信客户数据为例

    数据预览

    在这里插入图片描述

    随机抽样

    在这里插入图片描述

    两种方法实现分层抽样

    方法一:每层相同的数量
    在这里插入图片描述
    方法二:每层相同的百分比 20%
    在这里插入图片描述

    系统抽样

    系统抽样用得太少,我不会

    全部源代码(含注释)

    # ----------------------  抽样函数  --------------------------
    def get_sample(df, sampling="simple_random", k=1, stratified_col=None):
        """
        对输入的 dataframe 进行抽样的函数
    
        参数:
            - df: 输入的数据框 pandas.dataframe 对象
    
            - sampling:抽样方法 str
                可选值有 ["simple_random", "stratified", "systematic"]
                按顺序分别为: 简单随机抽样、分层抽样、系统抽样
    
            - k: 抽样个数或抽样比例 int or float
                (int, 则必须大于0; float, 则必须在区间(0,1)中)
                如果 0 < k < 1 , 则 k 表示抽样对于总体的比例
                如果 k >= 1 , 则 k 表示抽样的个数;当为分层抽样时,代表每层的样本量
    
            - stratified_col: 需要分层的列名的列表 list
                只有在分层抽样时才生效
    
        返回值:
            pandas.dataframe 对象, 抽样结果
        """
        import random
        import pandas as pd
        from functools import reduce
        import numpy as np
        import math
        
        len_df = len(df)
        if k <= 0:
            raise AssertionError("k不能为负数")
        elif k >= 1:
            assert isinstance(k, int), "选择抽样个数时, k必须为正整数"
            sample_by_n=True
            if sampling is "stratified":
                alln=k*df.groupby(by=stratified_col)[stratified_col[0]].count().count() # 有问题的
                #alln=k*df[stratified_col].value_counts().count() 
                if alln >= len_df:
                    raise AssertionError("请确认k乘以层数不能超过总样本量")
        else:
            sample_by_n=False
            if sampling in ("simple_random", "systematic"):
                k = math.ceil(len_df * k)
            
        #print(k)
    
        if sampling is "simple_random":
            print("使用简单随机抽样")
            idx = random.sample(range(len_df), k)
            res_df = df.iloc[idx,:].copy()
            return res_df
    
        elif sampling is "systematic":
            print("使用系统抽样")
            step = len_df // k+1          #step=len_df//k-1
            start = 0                  #start=0
            idx = range(len_df)[start::step]  #idx=range(len_df+1)[start::step]
            res_df = df.iloc[idx,:].copy()
            #print("k=%d,step=%d,idx=%d"%(k,step,len(idx)))
            return res_df
    
        elif sampling is "stratified":
            # assert 设置断言
            assert stratified_col is not None, "请传入包含需要分层的列名的列表"
            assert all(np.in1d(stratified_col, df.columns)), "请检查输入的列名"
            
            grouped = df.groupby(by=stratified_col)[stratified_col[0]].count()
            if sample_by_n==True:
                group_k = grouped.map(lambda x:k)
            else:
                group_k = grouped.map(lambda x: math.ceil(x * k))
            
            res_df = pd.DataFrame(columns=df.columns)
            for df_idx in group_k.index:
                df1=df
                if len(stratified_col)==1:
                    df1=df1[df1[stratified_col[0]]==df_idx]
                else:
                    for i in range(len(df_idx)):
                        df1=df1[df1[stratified_col[i]]==df_idx[i]]
                idx = random.sample(range(len(df1)), group_k[df_idx])
                group_df = df1.iloc[idx,:].copy()
                res_df = res_df.append(group_df)
            return res_df
    
        else:
            raise AssertionError("sampling is illegal")
    
    

    后记

       这个函数是我最喜欢的函数之一,希望对你有帮助。珍藏函数超详解,你值得拥有,后面会有更多的珍藏函数,领域涉及统计学,数据分析,数据清洗/处理,数据可视化。

    展开全文
  • 抽样方法主要包括:随机抽样、分层抽样、整体抽样、系统抽样。(1) 随机抽样就是按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(N&gt;n)。这种方法简便易学,常用的办法就是抽签了。不过,这适合...
    抽样方法主要包括:随机抽样、分层抽样、整体抽样、系统抽样。
    (1) 随机抽样就是按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(N>n)。这种方法简便易学,常用的办法就是抽签了。不过,这适合总体单位较少时使用。
    (2) 分层抽样是指在抽样时,将总体分成互不相交的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。
    (3) 整群抽样又称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群。然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
    (4) 系统抽样亦称为机械抽样、等距抽样。当总体中的个体数较多时,采用简单随机抽样显得较为费事。这时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。
    可以简化为: 随机抽样就是抽签,用于数量较小的;分层抽样就是一组样品中有几中性质不同的,按性质来分;系统抽样就是按100一隔或者50一隔来分。
    整群抽样与分层抽样的区别:
    (1) 分层抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大;
    (2) 分层抽样的样本是从每个层内抽取若干单元或个体构成,而整群抽样则是要么整群抽取,要么整群不被抽取。

    展开全文
  • 1、随机抽样(rand()函数) 方法一:order by与rand函数结合 limit关键字限制抽样返回的数据 案例:order by 全局排序耗时长 select * from app.table_name order by rand() limit 100; 方法二:distribute和sort与...

    1、随机抽样(rand()函数)

    方法一:order by与rand函数结合

    limit关键字限制抽样返回的数据
    案例:order by 全局排序耗时长

    select * 
    from app.table_name 
    order by rand() 
    limit 100;
    

    方法二:distribute和sort与rand函数结合

    limit关键字限制抽样返回的数据
    案例:rand函数前的distribute和sort关键字可以保证数据在mapper和reducer阶段是随机分布的

    select * 
    from app.table_name
    where datekey='2020-11-26' 
    distribute by rand() sort by rand() 
    limit 100;  
    

    2、数据块抽样(tablesample()函数)

    百分比(percent)

    • 语法:tablesample(n percent)
    • 功能:根据hive表数据的大小按比例抽取数据。如:抽取原hive表中10%的数据
    • 案例:
      指定where条件可能会报错哦,推荐最好还是不要加where为好
    select * 
    from dwd.hr_employee 
    tablesample(10 percent);
    

    大小(m)

    • 语法:tablesample(n M)
    • 功能:指定抽样数据的大小,单位为M。

    行数(rows)

    • 语法:tablesample(n rows)
    • 功能:指定抽样数据的行数,其中n代表每个map任务均取n行数据,map数量可通过hive表的简单查询语句确认(关键词:number of mappers: x)
    • 案例:
      不指定where条件,用时374ms
    select * 
    from dwd.hr_employee 
    tablesample(5 rows) ;
    
    name gender
    吴** F
    张** F
    孙** M
    林** F
    李** M

    指定where条件,用时36s,而且可以看出是tablesample函数是在where条件之前生效的~

    select * 
    from dwd.hr_employee 
    tablesample(5 rows) 
    where gender='F';
    
    name gender
    吴** F
    张** F
    林** F

    3、分桶抽样

    hive中分桶其实就是根据某一个字段Hash取模,放入指定数据的桶中,比如将表table_1按照ID分成100个桶,其算法是hash(id) % 100,这样,hash(id) % 100 = 0的数据被放到第一个桶中,hash(id) % 100 = 1的记录被放到第二个桶中。创建分桶表的关键语句为:CLUSTER BY语句。
    分桶抽样语法:

    • 语法:TABLESAMPLE (BUCKET x OUT OF y [ON colname])
    • 功能:分桶抽样,其中x是要抽样的桶编号,桶编号从1开始,colname表示抽样的列,y表示桶的数量。
    • 案例:
    select * 
    from table_01 
    tablesample(bucket 1 out of 10 on rand())
    
    展开全文
  • 学习目标目标知道总体、样本、样本大小、样本数量知道样本统计量和总体统计量知道总体分布、样本分布和抽样分布知道常用抽样方法某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者...
  • 考纲原文随机抽样(1)理解随机抽样的必要性和重要性.(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.知识点详解一、简单随机抽样1.定义:设一个总体含有N个个体,从中逐个不放回抽取n个...
  • -专业提供SPC软件解决方案随机抽样的类型及实际应用案例-专业提供SPC软件解决方案摘要:随机抽样即按照随机的原则即保证总体中每个单位都有同等机会被抽中的原则抽取样本的方法本文主要针对常用的四种抽样法
  • 统计分析中常用抽样方法之一,帮助你迅速学习基本的抽样理论方法。
  • Hive实现数据抽样常用三种方法

    千次阅读 2018-11-15 10:21:55
    Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示: 1、随机抽样(rand()函数) (1)使用rand()函数进行随机抽样,limit关键字...
  • 如何进行随机抽样

    千次阅读 2017-07-25 08:44:15
    从不同的角度分析了从N个数据集中抽取k个数据的方法。详细说明了大数据抽样常用的蓄水池抽样算法。
  • 抽样方法介绍

    2020-12-09 15:48:22
    1.随机抽样 主要特征:从总体中逐个抽取; 优点:操作简便易行 缺点:总体过大不易实行 方法 (1)抽签法:把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,...
  • 抽样调查的领域涉及如何用有效的方式得到样本。这些调查都利用了问卷,而问卷的设计则很有学问。它设计如何用词、问题的次序和问题的选择与组合等等。涉及包括心理学、社会学等知识。...概率抽样方法 假定...
  • 抽样调查方法小结

    2020-01-30 15:38:04
    抽样方法可以分成两大类:非概率抽样和概率抽样。非概率抽样常用于某些特定研究项目,而概率抽样才是更常用的抽样方式。 (1)常用的非概率抽样方式 · 方便抽样:抽样时,以方便为原则。例如,某影评人为收集观众对...
  • 常用的数据分析方法

    2021-04-04 14:30:56
    一、数据的分类 ...总体中每个个体都有同等可能被抽到,常用抽签或随机表来保证样品的代表性-----当个体的种类不多时,样本总数较少,且抽取的样本数较少,随机抽样是一种有效的抽样方法 4.2分层抽样法 先将.
  • 哎,看模拟退火算法的时候好多用到抽样的,然后找到这篇博客被完爆了。统计的基础太差,先留着以明志。。 转自:http://blog.csdn.net/xianlingmao/article/details/7065318 通常,我们会遇到很多问题...
  • [DataAnalysis]常用数据预处理方法汇总

    万次阅读 2018-09-08 18:37:26
    常用的包括聚集、降维、离散化和标准化等 聚集aggregating 将两个或多个对象合并成单个...抽样方法包括:简单随机抽样;分层抽样等。 维归约(降维) 数据集可能包含大量特征,选择维归约是维度降低许多数据挖...
  • 不过没关系,蓄水池抽样算法给了我们在不知道长度的情况下,等概率随机抽样方法。假设我们要从一大堆元素中选择k个元素,不知道多少,反正很多很多。使用蓄水池抽样算法的具体的思路是:先初始化一个...
  • Satisfy 常用数据分析方法 培训主要内容 1了解数据总体本的含义及随机抽样的一般方法; 2掌握排列图因果分析图的作图方法和应用; 3掌握分层法统计图表法的应用 4了解直方图的原理作用作图方法及应用 培训要求 好学习...
  • 介绍一下抽样方法及实现几种常用抽样方法:1.简单随机抽样(simple random sampling)将所有调查总体编号,再用抽签法或随机数字表随机抽取部分观察数据组成样本。优点:操作简单,均数、率及相应的标准误计算简单。...
  • 介绍一下抽样方法及实现几种常用抽样方法:1.简单随机抽样(simple random sampling)将所有调查总体编号,再用抽签法或随机数字表随机抽取部分观察数据组成样本。优点:操作简单,均数、率及相应的标准误计算简单。...
  • 在分析数据或进行算法模型训练前有时需要先对数据进行抽样,这里整理了抽样的一些知识点。...常用数据抽样的方法随机抽样(用的最多)该抽样方法是按等概率原则直接从总中抽取n个样本,这种随机样本方法简单,易...
  • 介绍一下抽样方法及实现几种常用抽样方法:1.简单随机抽样(simple random sampling)将所有调查总体编号,再用抽签法或随机数字表随机抽取部分观察数据组成样本。优点:操作简单,均数、率及相应的标准误计算简单。...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 137
精华内容 54
关键字:

常用随机抽样方法