精华内容
下载资源
问答
  • 统计分析中常用抽样方法之一,帮助你迅速学习基本的抽样理论方法。
  • DPMO(defects per million opportunities,百万机会的缺陷数) two-tiered error band 两层误差带 相关链接:https://wenku.baidu.com/view/74419438ad1ffc4ffe4733687e21af45b307fe9c.html

    DPMO(defects per million opportunities,百万机会的缺陷数)

    two-tiered error band 两层误差带

    这个问题中confidence level为95%,那么Z方查表等于1.96。p取0.1%时,DPMO=1000,所以E=0.15%。那么所有的变量都变成常量了。

    相关链接:https://wenku.baidu.com/view/74419438ad1ffc4ffe4733687e21af45b307fe9c.html

    α/2=0.025,(1-α/2)=0.975,表中0.9750所对行为1.9,列为0.06,相加为1.96。

    正态分布Z值表:https://jingyan.baidu.com/article/fdbd4277322f9df99e3f48e3.html

    展开全文
  • 抽样方法主要包括:随机抽样、分层抽样、整体抽样、系统抽样。(1) 随机抽样就是按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(N>n)。这种方法简便易学,常用的办法就是抽签了。不过,这适合...
    抽样方法主要包括:随机抽样、分层抽样、整体抽样、系统抽样。
    (1) 随机抽样就是按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(N>n)。这种方法简便易学,常用的办法就是抽签了。不过,这适合总体单位较少时使用。
    (2) 分层抽样是指在抽样时,将总体分成互不相交的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。
    (3) 整群抽样又称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群。然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
    (4) 系统抽样亦称为机械抽样、等距抽样。当总体中的个体数较多时,采用简单随机抽样显得较为费事。这时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。
    可以简化为: 随机抽样就是抽签,用于数量较小的;分层抽样就是一组样品中有几中性质不同的,按性质来分;系统抽样就是按100一隔或者50一隔来分。
    整群抽样与分层抽样的区别:
    (1) 分层抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大;
    (2) 分层抽样的样本是从每个层内抽取若干单元或个体构成,而整群抽样则是要么整群抽取,要么整群不被抽取。

    展开全文
  • 常用抽样方法

    万次阅读 2017-06-20 18:56:06
    在数据挖掘的实际工程中,多数时候需要从总体中抽取样本来进行模型预测。抽样方法有多种,此处例举常见的几种。

    在数据挖掘的实际工程中,多数时候需要从总体中抽取样本来进行模型预测。抽样的方法有多种,此处例举常见的几种。

    1、简单抽样。

       简单抽样分为有放回抽样和无放回抽样。无放回抽样:从N个个体中随机抽取n个个体,每次抽取一个个体,且抽取后不再放回。有放回抽样:跟无放回类似,但是每次抽取个体之后,要放回。

    2、簇抽样

    先将总体分为多个不想交的簇,然后再抽取一个或多个簇作为样本。例如:把某中学二年级的学生按班级分为多个簇(假设一个班就是一个簇),每次抽取一个或多个班(簇)作为样本,这种抽样方法就是簇抽样。簇抽样要求簇内的差异较大,簇之间的差异较小,从而使得簇抽取的样本具有代表性。

    3、分层抽样

    将总体分为多个不想交的部分,叫做层,然后按照一个定的比例在每个层中进行抽样。例如:将某中学的所有学生作为总体,每个年级的学生作为一个层,再从每个层中随机抽样一定数量的学生,这种方法就是分层抽样。分层抽样要求层内的差异较大,而层之间的差异较小。

    4、系统抽样(针对样本容量很大的情况)

       从N个个体中抽取n个个体,做法是先确定k=N/n(对k向上取整),把N个个体分为n段,每段有k个个体,设定一个整数m1 <= m <= k,在每段中抽取第m个个体,抽取完n段得到n个个体,这n个个体就是抽样的结果。这种抽样方法就是整体抽样。

    5、自助抽样

       假设总体的个体(实例)个数为N,自助抽样的思想是:每次从总体里面抽取一个个体,抽取N次,这样有一部分个体一次都没被抽中,而另一部分个体至少被抽中一次。一次都没抽中的个体数量大概是,当N很大时,其值为 ≈ 0.368,而至少被抽中一次的个体数占总体的0.682

    6、蓄水池抽样

       当总体的数量足够大,不能读进计算机内存的时候,前面几种方法就不适用了,这个可以采用蓄水池抽样法。其具体实现的伪代码如下(假设从N个个体中抽取k个个体)


    展开全文
  •    抽样调查在 统计学 与 Python数据分析/数据挖掘/数据科学 中非常常用,在实际业务中也是高频刚需,而 Python 并没有专有的抽样方法库,所以将自己以前的笔记汇总到自写库中,用到时直接调用函数即可,快速且...

    引言

       抽样调查在 统计学 与 Python数据分析/数据挖掘/数据科学 中非常常用,在实际业务中也是高频刚需,而 Python 并没有专有的抽样方法库,所以将自己以前的笔记汇总到自写库中,用到时直接调用函数即可,快速且精确。

      进行统计学分析,假设检验,方差分析,单因素xx,t 检验,xx 检验的时候,样本量数据如果过大,则的出来的统计检验力如 p 值等就不可信。即假如我们的整体数据有 10 万,进行假设检验的时候只需要根据数据分布情况分层抽样一小部分就行了,所以分层抽样用得也是最多的,但很可惜 Python 并没有这样的库,只能自己写,以往的学习中我也不记得这个库是从哪里找到的了,不过一直都非常非常好用,效率 10 倍 max。

    行文思路

      全部源代码(根据填入参数选择不同的抽样方法) --》 对每一方法进行单独使用并附上效果图

      以某电信客户数据为例

    数据预览

    在这里插入图片描述

    随机抽样

    在这里插入图片描述

    两种方法实现分层抽样

    方法一:每层相同的数量
    在这里插入图片描述
    方法二:每层相同的百分比 20%
    在这里插入图片描述

    系统抽样

    系统抽样用得太少,我不会

    全部源代码(含注释)

    # ----------------------  抽样函数  --------------------------
    def get_sample(df, sampling="simple_random", k=1, stratified_col=None):
        """
        对输入的 dataframe 进行抽样的函数
    
        参数:
            - df: 输入的数据框 pandas.dataframe 对象
    
            - sampling:抽样方法 str
                可选值有 ["simple_random", "stratified", "systematic"]
                按顺序分别为: 简单随机抽样、分层抽样、系统抽样
    
            - k: 抽样个数或抽样比例 int or float
                (int, 则必须大于0; float, 则必须在区间(0,1)中)
                如果 0 < k < 1 , 则 k 表示抽样对于总体的比例
                如果 k >= 1 , 则 k 表示抽样的个数;当为分层抽样时,代表每层的样本量
    
            - stratified_col: 需要分层的列名的列表 list
                只有在分层抽样时才生效
    
        返回值:
            pandas.dataframe 对象, 抽样结果
        """
        import random
        import pandas as pd
        from functools import reduce
        import numpy as np
        import math
        
        len_df = len(df)
        if k <= 0:
            raise AssertionError("k不能为负数")
        elif k >= 1:
            assert isinstance(k, int), "选择抽样个数时, k必须为正整数"
            sample_by_n=True
            if sampling is "stratified":
                alln=k*df.groupby(by=stratified_col)[stratified_col[0]].count().count() # 有问题的
                #alln=k*df[stratified_col].value_counts().count() 
                if alln >= len_df:
                    raise AssertionError("请确认k乘以层数不能超过总样本量")
        else:
            sample_by_n=False
            if sampling in ("simple_random", "systematic"):
                k = math.ceil(len_df * k)
            
        #print(k)
    
        if sampling is "simple_random":
            print("使用简单随机抽样")
            idx = random.sample(range(len_df), k)
            res_df = df.iloc[idx,:].copy()
            return res_df
    
        elif sampling is "systematic":
            print("使用系统抽样")
            step = len_df // k+1          #step=len_df//k-1
            start = 0                  #start=0
            idx = range(len_df)[start::step]  #idx=range(len_df+1)[start::step]
            res_df = df.iloc[idx,:].copy()
            #print("k=%d,step=%d,idx=%d"%(k,step,len(idx)))
            return res_df
    
        elif sampling is "stratified":
            # assert 设置断言
            assert stratified_col is not None, "请传入包含需要分层的列名的列表"
            assert all(np.in1d(stratified_col, df.columns)), "请检查输入的列名"
            
            grouped = df.groupby(by=stratified_col)[stratified_col[0]].count()
            if sample_by_n==True:
                group_k = grouped.map(lambda x:k)
            else:
                group_k = grouped.map(lambda x: math.ceil(x * k))
            
            res_df = pd.DataFrame(columns=df.columns)
            for df_idx in group_k.index:
                df1=df
                if len(stratified_col)==1:
                    df1=df1[df1[stratified_col[0]]==df_idx]
                else:
                    for i in range(len(df_idx)):
                        df1=df1[df1[stratified_col[i]]==df_idx[i]]
                idx = random.sample(range(len(df1)), group_k[df_idx])
                group_df = df1.iloc[idx,:].copy()
                res_df = res_df.append(group_df)
            return res_df
    
        else:
            raise AssertionError("sampling is illegal")
    
    

    后记

       这个函数是我最喜欢的函数之一,希望对你有帮助。珍藏函数超详解,你值得拥有,后面会有更多的珍藏函数,领域涉及统计学,数据分析,数据清洗/处理,数据可视化。

    展开全文
  • 上面所说的都是以概率为基础的,实际上还有一类非概率的抽样方法,因此总体上归纳为两大种类: 概率抽样:根据概率理论选择样本,每个样本有相同的概率被选中。 非概率抽样:根据非随机的标准选择样本,并不是每...
  • 研究抽样的八种方法

    千次阅读 2021-06-03 11:14:14
    概率抽样 非概率抽样
  • 抽样调查的领域涉及如何用有效的方式得到样本。这些调查都利用了问卷,而问卷的设计则很有学问。它设计如何用词、问题的次序和问题的选择与组合等等。涉及包括心理学、社会学等知识。问题的语言应该和被调查者的...
  • 大数据抽样- 概率抽样随机采样

    万次阅读 2018-02-26 11:29:58
    在统计学中,抽样(Sampling)是一种推论统计方法,是指从目标总体(Population,或称为母体)中抽取一部分...简单随机抽样(simple random sampling),也叫纯随机抽样。从总体N个单位中随机地抽取n个单位作为样...
  • R语言中常用抽样函数

    千次阅读 2020-04-28 19:08:00
    简单随机抽样 简单随机抽样分为有放回抽样和无放回抽样,这两种形式都可以通过base包中的sample()函数实现。 sample(x, size, replace = FALSE, prob =NULL) x: 带抽取对象,若为整数则表示从1-n的整数中抽取,...
  • 1、随机抽样(rand()函数) 方法一:order by与rand函数结合 limit关键字限制抽样返回的数据 案例:order by 全局排序耗时长 select * from app.table_name order by rand() limit 100; 方法二:distribute和sort与...
  • 如何进行随机抽样

    千次阅读 2017-07-25 08:44:15
    从不同的角度分析了从N个数据集中抽取k个数据的方法。详细说明了大数据抽样常用的蓄水池抽样算法。
  • 数据挖掘中的抽样方法--简单记录

    千次阅读 2017-03-07 07:29:36
    简单随机抽样:选定任何项的概率相等。 两种变形:(1)有放回抽样;(2)无放回抽样 在有放回抽样中,相同的对象可能会被多次抽中。 当样本与数据集相比相对较少的时候,两种方法 产生的样本差别不大。 分层...
  • Hive实现数据抽样常用三种方法

    千次阅读 2018-11-15 10:21:55
    Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示: 1、随机抽样(rand()函数) (1)使用rand()函数进行随机抽样,limit关键字...
  • 常用的条件类型有以下几种。 下图为测试的原始数据: 比较运算:大于(&amp;amp;gt;),小于(&amp;amp;lt;),大于等于,小于等于,不等于,例如:df[df.comments&amp;amp;gt;1000]; #导包 ...
  • 对给定的样本随机排序、随机抽样、分层抽样在日常生活工作中非常常见,本文将以若干案例来介绍实现这几种常见需求的简单解决方案。 自带的sample函数是实现随机抽样最基础的函数,以此为基础,dplyr中的sample_n与...
  • 下面主要介绍简单随机抽样 、分层抽样 、整群抽样 、系统抽样 以及多级抽样这五种概率抽样方法简单随机抽样  简单随机抽样(simple random sampling ,SRS)是最简单的概率抽样方 法 ,也是其他抽样方法的...
  • 本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!...随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Sim
  • 抽样方法概览 随机抽样—总体个数较少 每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时,它的主要特征是从总体中逐个抽取。 1、抽签法 2、随机数法:随机数表、随机数骰子或计算机...
  • 随机采样方法研究综述

    千次阅读 2017-06-12 11:00:53
    然后根据深度学习算法的随机采样方法,概述了接受-拒绝抽样、重要性采样、MCMC方法和吉布斯采样3类主流随机采样的基本思想和方法;可以看到:深度学习在不同应用领域都取得了明显的优势,但仍存在需要进一步探
  • 随机采样方法

    千次阅读 2016-08-04 16:35:40
    随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在...
  • 抽样概念及常见方法

    2021-08-01 17:53:30
    抽样的概念 抽样调查与普查 非抽样误差 抽样形式 指在不能进行全数调查时,为了推测总体的倾向,抽取真实地代表调查总体的调查对象。 抽样调查特点: 抽样调查花费较少 迅速地获取信息 争取时效是非常...
  • 人工智能

    千次阅读 多人点赞 2019-08-09 19:03:15
    “蒙特卡洛树搜索”是一类启发式的搜索策略,能够基于对搜索空间的随机抽样来扩大搜索树,始终保证选取当前抽样中的最优策略从而不断接近全局最优,确定每一步棋应该怎么走才能够创造更好机会。另外还包括:计划、...
  • 随机模拟的基本思想和常用采样方法(sampling)

    万次阅读 多人点赞 2012-07-23 15:27:44
    通常,我们会遇到很多问题无法用分析的方法来求得精确解,例如由于式子特别,真的解不出来; 一般遇到这种情况,人们经常会采用一些方法去得到近似解(越逼近精确解越好,当然如果一个...本文要谈的随机模拟就是一类近
  • 2.2 QPSK 在数字信号的调制方式中,QPSK 四相移键控是目前最常用的一种数字信号调制方式,它具有较高的频谱利用率、较强的抗干扰能力,电路上实现方式也较为简单。四相相移调制是利用载波的四种不同相位差来表征...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,278
精华内容 4,911
关键字:

常用的简单随机抽样方法