精华内容
下载资源
问答
  • bootstrap抽样

    2021-08-07 18:47:03
    ,在现实生活中,我们只抽取一个样本,计算出一个统计量(样本均值,样本方差,样本比例等)的值,将其作为总体参数的一个估计值,这种方法也称点估计,但是这样做往往不准确,但是我们有了抽样分布的概念,指的是...

    推断统计是指用样本数量特征推断总体特征 ,在现实生活中,我们只抽取一个样本,计算出一个统计量(样本均值,样本方差,样本比例等)的值,将其作为总体参数的一个估计值,这种方法也称点估计,但是这样做往往不准确,但是我们有了抽样分布的概念,指的是所有估计值的集合,以样本均值为例,由中心极限定理(clt)知,

    从均值 μ \mu μ、方差为 σ 2 {\sigma^2} σ2的任意一个总体中抽取样本容量为 n n n的样本,当 n n n充分大时,样本均值 x ˉ \bar{x} xˉ的抽样分布渐进服从均值为 μ \mu μ,方差为 σ 2 n \frac{\sigma^2}{n} nσ2的正态分布。

    #中心极限定理实现
    import numpy as np
    import matplotlib.pyplot as plt
    random_data=np.random.randint(1,3,10000)
    s=[]
    for i in range(10000):
        sample=np.random.choice(random_data,1000)
        s.append(sample.mean())
    plt.hist(s,bins=30)
    
    

    在这里插入图片描述

    但是样本容量小或者说我们收集到的数据有限时,抽样分布不再服从正态分布,那我们如何做统计推断呢,可以采用bootstrap抽样法,

    基本思想是从总体中抽出一个样本,然后从这个样本中进行有放回抽样,抽取若干个样本(一般大于1000且每个样本容量和初始抽取样本容量相同,每个样本计算出样本统计量的值,仍以均值为例,计算出 x 1 ˉ , x 2 ˉ … x n ˉ \bar{x_1},\bar{x_2}\ldots\bar{x_n} x1ˉ,x2ˉxnˉ,得到均值的抽样分布,此时
    总体均值 μ ^ = ∑ i = 1 n x i ˉ n \hat{\mu}=\frac{ \sum_{i=1}^n\bar{x_i} }{n} μ^=ni=1nxiˉ
    总体方差 σ 2 ^ = ∑ i = 1 n ( μ − x i ˉ ) 2 ^ n − 1 \hat{\sigma^2}=\frac{ \sum_{i=1}^n(\hat{\mu-\bar{x_i} )^2} }{n-1} σ2^=n1i=1n(μxiˉ)2^
    这就是用bootstrap方法去估计总体均值和方差。

    # bootstrap实现
    np.random.seed(123)
    s=np.random.choice(random_data,100)
    b=[]
    for i in range(10000):
        c=np.random.choice(s,1000)
        b.append(c.mean())
    plt.hist(b,bins=30)
    
    

    在这里插入图片描述

    展开全文
  • Bootstrap抽样和Monte Carlo思想

    万次阅读 多人点赞 2018-01-17 10:28:51
    总是搞不懂、记不住这些名字好像很厉害的算法思想,这篇文章主要写一下Bootstrap抽样和蒙特卡罗算法思想。 一、Bootstrap抽样 1、基本思想 Bootstrap抽样的基本思想是在全部样本未知的情况下,借助部分样本的...

    写在前面

    总是搞不懂、记不住这些名字好像很厉害的算法思想,这篇文章主要写一下Bootstrap抽样和蒙特卡罗算法思想。

    一、Bootstrap抽样

    1、基本思想

    Bootstrap抽样的基本思想是在全部样本未知的情况下,借助部分样本的有放回多次抽样,构建某个估计的置信区间,抽象地说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重采样,把剩余价值发挥在构建置信区间上。

    2、算法流程

    对于一个样本 x1,x2,...,xn ,其总体的概率分布中的参数 θ 是未知的,(参数 θ 可以简单理解为一些指标,比如,均值、中位数、方差等,当然还有一些比较复杂的指标),现在想要利用这些有限的样本得到一个估测值 θ^
    Step1:根据自己的需要选择确定重采样的次数i,1000或者2000等;
    Step2: x1,x2,...,xn 有放回的抽取n次(这个n必须要已知样本数目相等),因为是有放回的,所以在n次抽取之后,可能有的样本被抽取多次,也可能有的样本一次都没有被抽取。
    Step3:重复Step2,一共i次(Step1中的i),对每次抽取后的结果都计算出一个 θ^ 值。
    Step4:利用得到的 θ1^,θ1^,...,θi^ 作为一个sample,计算其 α2100% (1α)100% 的百分位置,得到的就是近似出的,估测总体参数 θ 的置信区间的最低和最高点 [x,y]

    3、举例说明

    想要统计全校学生的平均年龄,但是学校总体的数据比较难拿到,而且数据量很大,但是现在你已经有了一部分学生的年龄信息,比如200个学生的信息。
    现在你从这200个学生信息中有放回的抽取200次,计算对应的平均年龄 θ^ ,重复30次(即上文中的i),这30个 θ^ 的分布大概就能代表全校学生的平均年龄。
    可能会有疑问,觉得这种方法结果不准确,但是我们使用这个方法的原因就是不能知道准确的全部样本,所以才使用bootstrap模拟,模拟出来的只是一个相对准确的结果。

    二、蒙特卡罗思想

    蒙特卡罗是一类随机算法的统称,其主要思想是采样越多,得到的结果越近似于最优解。更多的是从总体中抽一个样本,计算估计量(均值等),作为整体估计。
    举例说明,一个有1000个整数的集合,要求其中位数,可以从中抽取m<1000个数,把它们的中位数近似地看作这个集合的中位数。随着m增大,近似结果是最终结果的概率也在增大,但除非把整个集合全部遍历一边,无法知道近似结果是不是真实结果。

    三、Bootstrap抽样思想和Monte Carlo思想区别

    Monte Carlo和Bootstrap是两种思想,都是基于random sampling去近似某一目标。Monte Carlo的目标一般是一个难以计算的积分,bootstrap的目标一般是统计推断。
    bootstrap是从部分样本有放回的重采样i次(全部样本是未知的),将多次抽样的估计量(均值等)的分布作为整体的分布结果。而蒙特卡罗是在已知总体样本的情况下,不想计算全部值,就从中抽取一个样本(或多个),用这个抽取样本的估计量当做整体估计。

    参考文章:https://www.zhihu.com/question/22929263

    展开全文
  • Bootstrap方法:每当选中一个元组,这个元组同样也可能再次被选中并再次添加到训练集中。例如,想象一台从训练集中随机选择元组的机器,在有放回的的抽样中,允许机器多次选择同一个元组。 有多种自助方法,最常用...

    随机森林中的Bootstrap抽样是有放回抽样么?Bootstrap抽样过程描述一下

    Bootstrap方法:每当选中一个元组,这个元组同样也可能再次被选中并再次添加到训练集中。例如,想象一台从训练集中随机选择元组的机器,在有放回的的抽样中,允许机器多次选择同一个元组。

    有多种自助方法,最常用的是 .632自助法。方法如下:​假设给定的数据集包含d个元组,该数据集有放回的抽样d次,产生d个样本的自助样本集或训练集。原始数据元组中的某些元组很可能在该样本集中出现多次。没有进入该训练集的数据元组最终形成检验集。假设进行这样的抽样多次。其结果是:在平均情况下,63.2%原始数据元组将出现在自助样本中,而其他36.8%的元组将形成检验集。

    “数字63.2%从何而来?”​每个元组被选中的概率是 1/d, 因此未被选中的概率是(1-1/d), 需要挑选 d 次,因此一个元组在 d 次都未被选中的概率是(1-1/d)^d。如果 d 很大,该概率近似为 e^(-1)=0.368。因此36.8%的元组将作为验证集。

    可以重复抽样过程 k 次,其中在每次迭代中,使用当前的检验集得到从当前自助样本​得到的模型的准确率估计。模型的总体准确率则用下式估计

    展开全文
  • 统计学中的Bootstrap方法(Bootstrap抽样

    万次阅读 多人点赞 2020-08-27 22:10:18
    Bootstrap又称自展法、自举法、自助法、靴带法 , 是统计学习中一种重采样(Resampling)技术,用来估计标准误差、置信区间和偏差 Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。机器学习中的...

          Bootstrap又称自展法、自举法、自助法、靴带法 ,  是统计学习中一种重采样(Resampling)技术,用来估计标准误差、置信区间和偏差

          Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。机器学习中的Bagging,AdaBoost等方法其实都蕴含了Boostrap的思想,在集成学习的范畴里 Bootstrap直接派生出了Bagging模型
     

     

    子样本之于样本,可以类比样本之于总体

     

    举例

    栗子:我要统计鱼塘里面的鱼的条数,怎么统计呢?假设鱼塘总共有鱼1000条,我是开了上帝视角的,但是你是不知道里面有多少。

    步骤

    1. 承包鱼塘,不让别人捞鱼(规定总体分布不变)。
    2. 自己捞鱼,捞100条,都打上标签(构造样本)
    3. 把鱼放回鱼塘,休息一晚(使之混入整个鱼群,确保之后抽样随机)
    4. 开始捞鱼,每次捞100条,数一下,自己昨天标记的鱼有多少条,占比多少(一次重采样取分布)。
    5. 重复3,4步骤n次。建立分布。

    (原理是中心极限定理)

     

           假设一下,第一次重新捕鱼100条,发现里面有标记的鱼12条,记下为12%,放回去,再捕鱼100条,发现标记的为9条,记下9%,重复重复好多次之后,假设取置信区间95%,你会发现,每次捕鱼平均在10条左右有标记,所以,我们可以大致推测出鱼塘有1000条左右。其实是一个很简单的类似于一个比例问题。这也是因为提出者Efron给统计学顶级期刊投稿的时候被拒绝的理由--"太简单"。这也就解释了,为什么在小样本的时候,bootstrap效果较好,你这样想,如果我想统计大海里有多少鱼,你标记100000条也没用啊,因为实际数量太过庞大,你取的样本相比于太过渺小,最实际的就是,你下次再捕100000的时候,发现一条都没有标记,,,就尴尬了。。。

     



     

    展开全文
  • 通过利用shi,Shi-Jiang算法和一个Bootstrap抽样技巧,给出了一个推广了的序约束推断方法,在不需要满足方差恒定假设的前提下处理相同的选择和聚类问题。模拟结果显示此方法比Peddada和Simmons-Peddada方法更好地...
  • Bootstrap抽样(自展法)

    2019-10-07 03:42:55
    Bootstrap的思想,是生成一系列bootstrap伪样本,每个样本是初始数据有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次bootstrap,求平均值的置信区间,可以对每个伪样本计算平均值。这样就...
  • What does RandomForestClassifier() do if we choose bootstrap = False?According to the definition in this linkbootstrap : boolean, optional (default=True) Whether bootstrap samplesare used when buildin...
  • Bootstrap抽样:0.632自助法

    千次阅读 2018-01-15 21:05:57
    Bootstrap方法:每当选中一个元组,这个元组同样也可能再次被选中并再次添加到训练集中。例如,想象一台从训练集中随机选择元组的机器,在有放回的的抽样中,允许机器多次选择同一个元组。 有多种自助方法,最...
  • 如何基于bootstrap抽样进行置信区间计算? 目录 置信区间(Confidence Intervals)是什么?如何计算置信区间?置信区间的两种计算方法是什么?二值样本置信区间如何计算?如何基于bootstrap抽样进行置信区间计算...
  • Bootstrap抽样方法

    千次阅读 2019-11-10 18:33:05
    数据表示为n个独立观测向量yobsy_{obs}yobs​, 假设求参数的参数θ^(yobs)\hat{\theta}(y_{obs})θ^(yobs​)的置信区间,非参数bootstrap抽样的步骤如下: 从yobsy_{obs}yobs​中不放回的重抽样nnn次,得到...
  • 开始今天的内容之前,需要大吼一声放假啦!感恩节假期正式开始,并且为防止节假日人流带来的更严重的新冠传染,感恩节之后本学期所有的...回到我们的计量话题,今天要讲的内容是bootstrap抽样。我还记得我在统计...
  • 在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。当样本来自总体,能以正态...
  • 介绍bootstrap抽样的思想及运用SAS标准统计软件进行操作
  • R语言与抽样技术学习笔记(bootstrap

    万次阅读 多人点赞 2014-04-19 22:43:25
    R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrapBootstrap方法  Bootstrap一词来源于西方神话故事“The adventures of Baron Munchausen”归结出的短语“to pull oneself up by one's ...
  • Bootstrap Sample (有放回抽样)

    万次阅读 2014-12-24 21:59:37
    一个盒子里有100个小球(编号1到100),抽样规则是每次从盒子里随机挑选一个小球,记录该球的编号,并将小球放回。重复抽样步骤100次,问抽样得到的不重复小球的个数是多少? 问题分析 首先,问题的答案应该是一个...
  • bagging通过bootstrap构建集成分类器

    千次阅读 2018-04-02 23:03:36
    一、bagging集成分类器bagging没有使用相同的训练集拟合集成分类器中的单个成员分类器,bagging集成分类器的训练集使用了bootstrap抽样(有放回的随机抽样)。bagging可以提高不稳定模型的准确率,并且可以降低过拟合...
  • 那很多时候数据是不符合正态分布,或者是我们不知道样本总体是否符合正态分布,但是我们又需要求取置信区间时,就可以用到我们的今天的主角–在乐字节课堂上教的Bootstrap抽样的方法。 Bootstrap是对样本进行有放回...
  • Bootstrap

    2017-06-05 13:48:00
    其核心思想和基本步骤如下:[1](1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。(2)根据抽出的样本计算给定的统计量T。(3)重复上述N次(一般大于1000),得到N个统计量T。...
  • Bootstrap抽样 Bagging算法(Bootstrap Aggregating) 随机森林(Random Forests) Bagging(Bootstrap Aggregating)算法是建立在一种随机抽样的基础之上的,这种随机抽样叫Boostrap Sample,自助抽样,有的...
  • bootstrap

    2017-07-14 09:12:00
    Bootstrap的一般的抽样方式都是“有放回地全抽”(其实样本量也要视情况而定,不一定非要与原样本量相等),意思就是抽取的Bootstrap样本量与原样本相同,只是在抽样方式上采取有放回地抽,这样的抽样可以进行B次,...
  • 随机森林是一种判别模型,既支持分类问题,也支持回归问题,并且支持多分类问题。它是一种非线性模型,其预测函数为分段常数函数。...Bootstrap抽样的做法是在n个样本的集合中有放回的抽取n个样本形
  • 常用的K值选择方法是通过寻找“拐点”确认,或者下游...如果数据为其他分布,可尝试修改bootstrap simulation过程以及重新定义95%概率值。       下文转自:https://blog.csdn.net/xbinworld/article/d...
  • Bootstrap 聚合

    2018-10-28 22:30:25
    是一种在原始数据集上通过有放回抽样选取新数据集来训练分类器的集成技术。(i.e.新数据集是允许重复的) 流程图 一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本...
  • Bootstrap重采样实战

    千次阅读 2019-06-19 10:23:35
    首先统计学中的Bootstrap就是一种获得样本的抽样方法。Bootstrap的一般的抽样方式就是“有放回地全抽”。一次性全量获取数据来训练模型或抽样那么我们就只能得到一个模型或一个分布结果。但是多次“有放回地全抽“.....
  • 注:本文是叶楚韵对Bootstrap方法在R、MATLAB、Python以及SAS中实现的介绍通过之前关于Bootstrap的介绍 (重抽样方法),相信大家已经对Bootstrap的原理和用途有了一定的了解。本文将为大家介绍在R、MATLAB、Python...
  • BootStrap思想

    2013-12-19 17:32:00
    一句话,讲白了就是对已有的观测样本反复的有放回抽样,通过多次计算这些放回抽样的结果,获取统计量的分布。 以下是收集的一些例子: 1979年美国Stanford大学统计系教授Bradley Efron[1]在总结、归纳前人研究...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,470
精华内容 1,788
关键字:

bootstrap抽样