精华内容
下载资源
问答
  • 概率抽样

    千次阅读 2017-02-23 20:00:36
    1、按比例抽样比如按照比例P=0.7抽样: 生成0,1间的随机浮点数,通过与P比较判断抽样,random>P,抽出样本,否则,不抽 如果P值是一个复杂的小数,比如P=0.932930100011123213,编程语言支持小数精度无法进行准确...

    1、按比例抽样

    比如按照比例P=0.7抽样:
    生成0,1间的随机浮点数,通过与P比较判断抽样,random>P,抽出样本,否则,不抽
    如果P值是一个复杂的小数,比如P=0.932930100011123213,编程语言支持小数精度无法进行准确比较时,可以采用概率模拟。
    随机0-100000000000000000的整数,与932930100011123213进行比较。

    2、按数量等概率抽样

    (1)已知总数n,抽样数量m
    按照概率m/n对每个样本进行抽样
    (2)未知总数n,抽样数量m(即未知总数的流式数据等概率抽样m)
    抽样目标:对于任意n,每个样本被抽中的概率相等,即被抽中的概率为m/n,未被抽中的概率为n-m、n
    分析:可以把这个过程看作一个动态变化的过程,一开始只有m个样本,样本逐次加一,逐渐增长到n个。在这个过程里,每个样本被抽出的概率都是相等的。
    抽样策略:
    用一个数c来记录目前的样本数量。
    start:n=m
    sample1 sample2 … samplem,共m个样本,从中抽样m个,每个样本到的概率为1

    then n=m+1时:
    sample1 sample2 … samplem sample(m+1)

    在start步骤中,我们抽出了sample1-m,等到样本数据流中出现sample(m+1)时,我们考虑这时n=m+1,我们只要证明每个样本(当然包括sample(m+1))被抽中的概率为m/m+1,按照我们的策略,我们以概率m/m+1将sample(m+1)替换sample1-m中的一个,sample1-m中的每个样本被替换的概率都是1/m,那么在这种情况下,sample(m+1)
    被抽中的概率为m/m+1
    sample1-m不被抽中的概率为(即被sample(m+1)换掉的概率):
    1/m+1
    所以sample1-m被抽中的概率也是m/m+1

    final:

    当样本一个接一个出现,n>>m时,
    对于任意一个samplek (k>m)
    以m/k的概率将被抽中的m个样本中的一个替换samplek

    那么samplek最后被选定为样本的概率为:

    m/k * (k/k+1) ( k+1/k+2) … * (n-1/n) = m/n

    解释一个这个式子:
    samplek想要最后被抽出,
    首先要在他出现的时候以m/k替换掉已经被抽出的m个中的一个,
    然后,不会被后面的每一个替换掉,
    他被sample(k+1)替换的概率为m/(k+1) * 1/m = 1/(k+1)
    不被替换的概率为k/k+1
    这些事件相互独立,最终概率为这些独立事件的乘积,m/n,所以无论n取值多少,以这种方式取得样本是等概率取样的。

    这也可以被描述为:在一个不知道数据量大小的数据流中进行等概率抽样。
    方式:
    (1)抽取前m备选,从第m+1个开始,按上述策略取样
    (2)用一个数字c记录当前已抽样样本数,迭代此过程

    def sample_unknown_n(m):
    import sys
    import random
    c = 1
    sample = []
    for line in sys.stdin:
    num = float(line.strip())
    if c<= m:
    sample.append(num)
    else:
    if random.random < float(m)/c:
    index = random.randint(0,m-1)
    sample[index] = num
    c += 1
    return sample

    展开全文
  • 统计学思维导图合集,包含描述性统计、概率概率分布、抽样分布、区间估计、假设检验、两总体均值之差和比例之差的推断、总体方差统计推断、多个比率的比较、独立性检验、拟合优度检验、方差分析、线性回归、残差...
  • R语言:PPS抽样

    千次阅读 2016-12-15 22:52:07
    PPS 抽样是指按概率比例抽样,属于概率抽样中的一种。是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位...

    今天有朋友咨询我怎么写PPS抽样的代码,试着找了下,找到一个实现PPS抽样的R包。

    百度百科:
    PPS 抽样是指按概率比例抽样,属于概率抽样中的一种。是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。

    R语言源码:

    function (m, x) 
    {
        N <- length(x)
        pk <- x/sum(x)
        cumpk <- cumsum(pk)
        U <- runif(m)
        ints <- cbind(c(0, cumpk[-N]), cumpk)
        sam <- rep(0, m)
        for (i in 1:m) {
            sam[i] <- which(U[i] > ints[, 1] & U[i] < ints[, 2])
        }
        return(cbind(sam, pk[sam]))
    }
    

    这段代码来自R包:TeachingSampling,从代码便可以知道它的原理。

    例子:

    > library(TeachingSampling)
    > data(Lucy)
    > attach(Lucy)
    The following objects are masked from Lucy (pos = 3):
    
        Employees, ID, Income, Level, SPAM, Taxes, Ubication, Zone
    
    > res<-S.PPS(400,Income)#基于Income抽样
    > head(res)
          sam             
    [1,]  894 0.0002994541
    [2,] 1717 0.0006278877
    [3,]   49 0.0003226377
    [4,] 2336 0.0015590934
    [5,]  194 0.0003187737
    [6,] 1700 0.0007921045
    > sam <- res[,1]
    > head(sam)
    [1]  894 1717   49 2336  194 1700
    > data <- Lucy[sam,]#得到的抽样样本
    > head(data)
             ID Ubication  Level Zone Income Employees Taxes SPAM
    894  AB2054     c10k3  Small    C    310        94     4  yes
    1717 AB1145    c18k34 Medium    A    650       117    21  yes
    49    AB050     c1k49  Small    A    334        16     5   no
    2336 AB1126    c25k59    Big    A   1614       159   138  yes
    194  AB1398     c2k95  Small    B    330        39     4  yes
    1700 AB1122    c18k17 Medium    A    820        82    34  yes
    > dim(data)
    [1] 400   8
    

    理论部分的解释请看:http://blog.csdn.net/zrjdds/article/details/50231551

    展开全文
  • 论文研究-基于不等概率抽样的不完全信息条件下复杂网络抗毁性模型.pdf, 为了填补随机失效与故意攻击之间的空白,将复杂网络攻击信息的获取抽象成无放回的不等概率抽样...
  • 已知样本比例抽样分布计算是一种理想的抽样分布算法,通常用来学习抽样理论。其已知的信息为总体的分布特征,并求在抽取一定容量的样本后,样本的分布特征。 例如:已知1980年美国总统选举中,有3490万选民支持...

    作者:长行

    时间:2019.03.24

    统计学解释

    已知样本比例的抽样分布计算是一种理想的抽样分布算法,通常用来学习抽样理论。其已知的信息为总体的分布特征,并求在抽取一定容量的样本后,样本的分布特征。

    例如:已知1980年美国总统选举中,有3490万选民支持民主党,有4320万选民支持共和党。求事先随机抽取150位选民能够成功预测共和党胜出的概率。

    这实际上是二项随机变量的概率计算的一种实际应用。抽取的样本服从二项分布,X~b(n,p),其中n为样本量,p为要研究的事件发生的概率。因此可以使用二项分布的公式,要研究的事件发生的次数为k的概率:
    P{X=k}=Cnkpk(1p)nk,k=0,1,2,...,n P\{X=k\}=C^{k}_{n}p^{k}(1-p)^{n-k},\qquad{k=0,1,2,...,n}

    实现代码

    参考二项随机变量的概率计算的计算方法,我们有如下的函数计算要研究的事件发生的次数大于等于x的概率:

    def binomial_distribution_morethan(p, n, x):
        count = 0
        for i in range(x, n, 1):
            c = math.factorial(n) / math.factorial(n - i) / math.factorial(i)
            count += c * (p ** i) * ((1 - p) ** (n - i))
        return count
    

    其中参数p为要研究的事件发生的概率,n为抽取的样本容量,x为要研究的事件发生的次数。

    例如在1980年美国总统选举的样例中:p为抽取的选民支持共和党的概率,其概率为4320/(4320+3490)=0.5531;n为抽取的样本量150;x为预测共和党胜出至少需要样本中支持共和党的人数,即76。因此调用函数的方法为:

    binomial_distribution_morethan(0.5531,150,76)
    

    其结果为:

    0.8896861732667398
    

    实际应用

    在一些特殊情况下,我们会事先进行抽样并预测总体分布情况,而事后我们又可以得到总体的确切的分布情况,例如选举。

    在这种情况下,我们可以依据事后得到的总体分布情况,此计算出之前我们抽取的样本被抽出的概率,并依据实际推断原理检验抽样方法是否存在漏洞。

    例如在1980年美国总统选举的样例中,如果我们抽取的样本显示民主党将获胜,那么抽出这样样本的概率仅有11%,显然我们就需要分析我们的抽样方法是否存在问题了。

    展开全文
  • (1) 随机抽样就是按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(N&gt;n)。这种方法简便易学,常用的办法就是抽签了。不过,这适合总体单位较少时使用。(2) 分层抽样是指在抽样时,将总体分成...
    抽样方法主要包括:随机抽样、分层抽样、整体抽样、系统抽样。
    (1) 随机抽样就是按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(N>n)。这种方法简便易学,常用的办法就是抽签了。不过,这适合总体单位较少时使用。
    (2) 分层抽样是指在抽样时,将总体分成互不相交的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。
    (3) 整群抽样又称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群。然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
    (4) 系统抽样亦称为机械抽样、等距抽样。当总体中的个体数较多时,采用简单随机抽样显得较为费事。这时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。
    可以简化为: 随机抽样就是抽签,用于数量较小的;分层抽样就是一组样品中有几中性质不同的,按性质来分;系统抽样就是按100一隔或者50一隔来分。
    整群抽样与分层抽样的区别:
    (1) 分层抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大;
    (2) 分层抽样的样本是从每个层内抽取若干单元或个体构成,而整群抽样则是要么整群抽取,要么整群不被抽取。

    展开全文
  • 7.2选取样本从有限总体中抽样概率模型之简单随机抽样: 有放回的简单随机抽样:日常中用的比较多 无放回的简单随机抽样:更符合简单随机抽样的原理从无限总体中抽样无限总体的情形:生产线上的物品,到达某个...
  • 文章目录抽样抽样方法:概率抽样和非概率抽样样本量估计总体概率公式样本量公式汇总均值差异显著性检验单样本总体比例的检验两总体比例之差的显著性检验 抽样 抽样方法:概率抽样和非概率抽样 样本量估计 样本...
  • 抽样分布

    2019-12-08 23:58:12
    1、当碰到需要为样本计算概率的问题时,不需要计算样本比例概率,而需计算样本平均值的概率。要计算样本平均值的概率,则先要得出样本均值的概率分布,才能用该分布求出概率。 2、中心极限定理定义:如果从一个非...
  • 记得刚开始接触临床试验数据分析及报表工作时,看到分层抽样,觉得挺陌生、高深。 今天,才发现分层抽样只是一种随机抽样,并不难理解。 “分层抽样法也叫类型抽样法...定量调查中的分层抽样是一种卓越的概率抽样方式
  • 零基础理解抽样分布

    2020-03-06 17:51:13
    文章目录抽样分布1 样本统计量2 正态分布3 三大抽样分布3.1 卡方分布3.2 t分布3.3 F分布4 统计量的抽样分布4.1 样本均值的抽样分布4.2 样本比例抽样分布4.3 样本方差的抽样分布 定义:样本统计量的概率分布,是一...
  • 常见的数据抽样方法

    千次阅读 2018-07-29 15:29:04
    采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样概率。比如按10%的比例随机抽样,则每一个观测值都有10%的机会被取到。 2、等距抽样 比如按5%的比例对一个有100个观测值的数据集进行等距抽样,则有...
  • 分层取样,分层抽样

    千次阅读 2018-11-16 14:36:53
    分层抽样法 也叫做类型抽样法。 分层抽样法也叫类型抽样法。...定量调查中的分层抽样是一种卓越的概率抽样方式,在调查中经常被使用。 定量调查: 定量调查就是对一定数量的有代表性的样本,进行封闭式(结构...
  • python抽样方法详解及实现

    万次阅读 多人点赞 2019-09-03 23:21:02
    每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时,它的主要特征是从总体中逐个抽取。 1、抽签法 2、随机数法:随机数表、随机数骰子或计算机产生的随机数。 分层抽样——总体存在差异...
  • 概率题目汇总

    千次阅读 2019-05-22 20:11:26
    概率题目汇总球队两强相遇蚂蚁碰头男女比例随机函数等概率产生0和1出现概率变为k次方等概率打印概率动态变化-蓄水池抽样算法 球队两强相遇 8只球队,有3个强队,其余都是弱队,随机把它们分成4组比赛,每组两个队,...
  • 5.4数据准备之抽样和权重计算

    千次阅读 2018-02-23 20:43:00
    另外在logistic回归模型中,总体中正常和违约事件的初始比例应当作为因变量的先验概率??? 分层抽样中,用一个或多个与业务申请相关的变量值将数据分层 二.样本规模 依据内部标准实际实践和理论基础 三.编程...
  • 定量调查中的分层抽样是一种卓越的概率抽样方式,在调查中经常被使用。 本例说明: 本例中用到的数据是高分一号遥感数据,数据格式如下图所示,其中B1-B4四列是波长,TYPE是地物类型,本例中地物一共分为6类,分别...
  • 概率校准-特殊方法

    2020-05-29 09:17:10
    一般情况下给到的坏样本比例会高于真实比例。这时候做完模型后,要进行概率校准。 下面举一个例子,某评分卡模型建模样本各分数段的好坏分布如下: 而我们抽样前or根据经验,实际上该产品的违约率只有2%左右,...
  • 通过研究不同类型电动汽车的充电特性,针对混合电动汽车改进了初始荷电状态的抽样方法;计及充电时间长度对开始充电时刻选择的影响,同时引入电动汽车实时充电数量的随机因素,建立了多种类型电动汽车充电负荷需求的...
  • 欢迎关注博主或CSDN专栏《适合初学者的神经网络机器学习理论到实践入门...然后我们估计这个袋子红白比例可能是4:1。这就是统计,根据抽样来估计整体的样本分布规律。 什么是概率?:已知袋子有10个球,红球8个,白...
  • 欢迎关注博主或CSDN专栏《适合初学者的神经网络机器学习理论到实践入门》 统计就是根据样本估计总体的概率...然后我们估计这个袋子红白比例可能是4:1。这就是统计,根据抽样来估计整体的样本分布规律。 什么是概率...
  • http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html ...回到上面的“模型已定,参数未知”的说法,此时,我们已知的为,未知为,故似然定义为: ...这和我们常识中按抽样中的比例
  • 它能够组合不同类型的变量(连续变量,序数变量和名义变量),并在复杂的调查设计中适应不同的抽样概率。 该模型基于位置混合模型,该模型在关联的潜在变量的位置参数之前具有Poisson-Dirichlet过程。 引用 如果您...
  • 鸽子学统计

    2021-05-16 23:35:32
    基础统计0 统计学的目的和本质0.1 统计分析的目的0.2 统计学的本质1 描述统计1.1 变量的测量尺度分类1.2 均值1.3 众数和中位数1.4 极差和标准差...抽样3.5 简单随机抽样和系统抽样3.6 概率与规模成比例抽样(PPS抽样)3.7
  • 抽样分布 区间估计 假设检验 两总体均值&amp; 比例的推断 总体方差的统计推断 多个比率的比较/ 独立性/拟合优度检验 实验设计 | 方差分析 简单线性回归 残差分析...
  • 统计基础

    2019-04-11 00:23:26
    抽样抽样分布 区间估计 假设检验 总体均值和比例的统计推断 总体方差的统计推断 描述数据集常用的4个指标:平均值、四分位数、标准差、标准分。 四分位数在图表上表现为箱线图如图,用python绘制箱线图。 ...
  • 统计学最全思维导图

    千次阅读 2020-05-26 20:41:36
    本文用一系列 「思维导图」 ...抽样分布 区间估计 假设检验 两总体均值&比例的推断 总体方差的统计推断 多个比率的比较/独立性/拟合优度检验 实验设计 | 方差分析 简单线性回归 残差分析 多元回归 时间
  • 目录5. 概率概率分布5.1 概率...中心极限定理6.4 样本比例抽样分布6.5 两个样本平均值之差的分布6.6 样本方差的分布6.7 F分布、t分布、正态分布与卡方分布的联系与区别7. 参数估计7.1 参数估计的基本原理7.2 一个总
  • π=拥有一些特征,是样本的符合条件的概率。 0≤p≤1 当n较大时,p近似为正态分布。 (假设从有限总体中进行替换或从无限总体中不进行替换的...样本量为200,抽样满足a的比例多大概率是0.4到0.45之间 解答: ...
  • 本篇目录参考资料:电子工业出版社的《深入浅出统计学》前言具体内容一、总体均值的估计二、总体方差的估计三、比例抽样分布1、比例分布的期望和方差2、比例分布的概率计算四、均值的抽样分布1、均值分布的期望和...

空空如也

空空如也

1 2 3 4
收藏数 69
精华内容 27
关键字:

概率比例抽样