精华内容
下载资源
问答
  • 样本容量确定

    万次阅读 2018-03-15 08:46:29
    重复抽样一旦确定了置信水平(1-α),Zα/2的值就确定了,对于给定的的值和总体标准差σ,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:由此可以推到出确定样本容量的公式如下...
    样本容量:

    样本中个体的数目或组成抽样总体的单位数。

    必要样本容量

    亦称必要样本单位数,是指满足调查目的要求的情况下,至少需要选择的样本单位数。

    一、估计总体均值时样本容量的确定

    1.重复抽样

    一旦确定了置信水平(1-α),Zα/2的值就确定了,对于给定的的值和总体标准差σ,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:


    由此可以推到出确定样本容量的公式如下:


    2.重复抽样


    样本容量 n 与总体方差成正比
    绝对误差成 反比,
    概率度成正比。

    例:拥有MBA学位的研究生年薪的标准差大约为4000 元,假定想要估计年薪95%的置信区间,希望允许误差为10000 元,应抽取多大的样本容量?


    二、估计总体比例时样本容量的确定

    1.重复抽样

    一旦确定了置信水平(1-α),Zα/2的值就确定了。由于总体比例的值是固定的,所以允许误差由样本容量来确定,样本容量越大允许误差就越小。估计的精度就越好。因此,对于给定的π,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:

    由此可以推导出重复抽样和无限总体抽样条件确定样本容量的公式如下:

    2.重复抽样

    d 的取值一般小于 0.1
    π 未知,以样本比例 p 替代
    π p 都未知时,可取 0.5 ,这是一种谨慎估计

    某社区想通过抽样调查了解居民参加体育活动的比率,如果把误差范围设定在5%,问如果以95%的置信水平进行参数估计,需要多大的样本?


    影响样本容量n的因素

    a) 总体个单位之间的差异
    b) 概率保证程度
    c) 允许误差的大小
    d) 抽样方式
    e) 抽样的组织形式


    确定样本容量的注意事项

    一、在实际中采用不重复抽样,但常用重复抽样下的公式代替;

    二、若和p未知,其处理方式是:

            1.用过去近期的数据代替,

            2.用样本数据代替,

            3.p=0.5或最接近0.5的值;

    三、对同一总体,若求出的NxNp不等,这时取较大的作为必要样本容量,

            以同时满足做两种调查的需要;

    四、在实际工作中,常使用重复抽样下的简单随机抽样公式。

    展开全文
  • 怎样确定样本容量的理论解释

    千次阅读 2018-07-18 21:02:03
    设随机变量的均值为 μμ\mu,方差为 σ2σ2\sigma^2,则 nnn 个样本的均值为 μμ\mu,方差为 σ2nσ2n\frac{\sigma^2}{n}。 在给定的置信水平 1−α1−α1-\alpha 下, 设样本的均值为 X¯¯¯¯X¯\overline{X}...

    研究随机问题时,基本都要用到抽样仿真,比较仿真结果与实验结果的偏差。

    设随机变量的均值为 μ μ ,方差为 σ2 σ 2 ,则 n n 个样本的均值为 μ,方差为 σ2n σ 2 n

    在给定的置信水平 1α 1 − α 下, 设样本的均值为 X¯¯¯¯ X ¯ ,其误差 ε ε 由下列计算公式得出:

    ε=|X¯¯¯¯μ| ε = | X ¯ − μ |

    1. 若 σ σ 已知

    由于中心极限定理,大量样本服从正态分布,样本的标准差为 σ/n σ / n ,根据正态分布概率的计算公式,

    Φ(|X¯¯¯¯μ|σ/n)=α/2 Φ ( | X ¯ − μ | σ / n ) = α / 2

    因此,
    ε=|X¯¯¯¯μ|=Zα/2σn ε = | X ¯ − μ | = Z α / 2 σ n

    可以推出样本容量 n n 的计算公式为:

    n=Zα/22σ2ε2

    2. 若 σ σ 未知

    大部分情况下 σ σ 是未知的,为了消除 σ σ 的影响,有学者引入了 t t 分布,

    t=X¯μS/n

    上面这个表达式为 自由度为 n1 n − 1 t t 分布,其中 S 为样本方差,则

    ε=|X¯¯¯¯μ|=tα(n1)Sn ε = | X ¯ − μ | = t α ( n − 1 ) S n

    得到 n n 的计算公式为:

    n=tα2(n1)S2ε2

    在样本容量 n>30 n > 30 时,置信水平 α<0.05 α < 0.05 时,一般可以近似采用下面的计算公式:

    n=4S2ε2 n = 4 S 2 ε 2

    若样本容量实在很小,则采用 “试差法” 确定 n n <script type="math/tex" id="MathJax-Element-30">n</script>.

    参考资料:
    1. https://en.wikipedia.org/wiki/Student%27s_t-distribution
    2. https://wenku.baidu.com/view/45a2dab5f605cc1755270722192e453610665bef.htmlrec_flag=default&sxts=1531916030126

    展开全文
  • 总体300万的一个数据,值是0或者1,但是没法全部取,所以要抽样,想问抽样多少能代表总体
  • 统计学——小样本容量置信区间

    千次阅读 2018-01-05 12:01:29
    一般来讲,n T分布和正态分布相似,具有fatter tail,因为...有些记法在上面加了个帽子记为,表示这是由样本标准差估算出来的sample mean的standard devication。 例题:7名学生在使用了新研制的钙片3个

    一般来讲,n<30,不能进行好的估计,针对这种情况,给出t distribution对sample mean分布进行修正。

    T分布和正态分布相似,具有fatter tail,因为低估了S。对应的,不再去查z table,而是去查t table。T table的列为自由度degrees of freedom,即n-1。

    有些记法在上面加了个帽子记为,表示这是由样本标准差估算出来的sample mean的standard devication。




    例题:7名学生在使用了新研制的钙片3个月后,他们的血液中的钙含量分别上升了1.5, 2.9, 0.9, 3.9, 3.2, 2.1, 1.9。所有使用新钙片的学生的钙含量增加的平均值的95%的置信区间。


    分析:首先,我们有一个抽样样本,样本的容量为7,均值为:2.34,无偏方差为1.04。

    我们知道,样本的无偏方差可以认为是总体的方差,所以总体的方差为1.04,抽样样本均值的方差即为1.04/7 = 0.149,抽样样本均值的标准差为:0.385.

    因为样本小于30,所以样本均值的分布服从t分布,下图是t分布表,我们看双侧,同时需要看自由度:(n-1)=6,得到的值为:2.447。所以意味着需要离开均值2.447个标准差的置信区间是95%。

    所以本题相当于:


    所以总体的真实均值为[2.34-2.447*0.385, 2.34+2.447*0.385],即总体均值在[1.39, 3.28]的置信度为95%





    展开全文
  • 最经典的神经网络就是BP神经网络,对神经网络的训练至关重要,本文讨论如何合理选取样本容量
  • 区间估计 --- 样本容量的求解

    千次阅读 2018-09-05 17:31:53
    应用场景:对于美国汽车租赁已有的市场发现,租赁一辆中型汽车的租赁费用大约每天约55美元,假定...求:所需的样本容量的大小 数据符合正态分布特征 技术场景:E值是使用者能接受的边际误差,z 值可以直接由区间...
    应用场景:对于美国汽车租赁已有的市场发现,租赁一辆中型汽车的租赁费用大约每天约55美元,假定该项研究的组织者想要进行一项新的调查,对在美国一辆中型汽车的租赁费用的总体均值进行估计。当新研究的设计中,当项目负责人估计每天租赁费用的总体均值时,设定的置信水平为95%,边际误差为2美元
    求:所需的样本容量的大小
    数据符合正态分布特征
    技术场景:E值是使用者能接受的边际误差,z 值可以直接由区间估计中所用到的置信水平确定,这里要求总体的标准差std是已知的,
    如果总体的标准差未知,解决方案:
      1> 根据以前的研究数据,计算总体标准差的估计值作为std的计划值
      2> 利用实验性研究,选取一个初始样本,以初始样本的标准差作为std的计划值
      3> 对std值进行判断或最优猜测 
    
    import numpy as np
    
    global base_data
    
    def GetBaseData():
    
        # 假设:这里生成过去一段时间的汽车租赁费用数据,求取的标准差,作为总体的std的计划值
    
        global base_data
        base_data = np.random.randint(low=45, high=65, size=500)
    
        return
    
    def PresionWork():
    
        return
    
    def WorkSpace():
    
        GetBaseData()
        print('base_data=', base_data)
    
        a = 0.95     # 置信为95%
        E = 2        # 能接受的边际误差为2
        x_mean = 55  # 以往的经验值,汽车租赁费用每天大概55美元
        Z = 1.96     # 因为选取了a = 0.95,这里查表得到的Z
    
        # 求取以往的标准差std,作为std的计划值
        std_list = list([])
        for j in range(300):
            data = np.random.choice(base_data, size=100)
            std_one = np.std(data, ddof=1)
            std_list.append(std_one)
            j = j + 1
    
        std_list = np.array(std_list)
        std = np.mean(std_list)
        print('step1')
        n = ((Z * Z) * (std * std)) / (E * E)
        print('求取的样本容量为:', n)
    
        # 结果:求取的样本容量为:33.866656791753286, 我们向下取整,为34个
    
    
        return
    
    WorkSpace()
     
    展开全文
  • 在对系统输出进行辨识分类建模时,当实际试验样本量不足时,工程上通常考虑利用各种信息源合理增加补充试验样本,而合理确定补充样本容量,避免过多的样本“淹没”实际系统信息,是补充样本需要考虑的关键因素之一。...
  • Chinese : 在学术环境中,尤其是研究环境中可以看出,样本量设置是其中之一使用统计进行数据分析的最重要章节众所周知,最基本的对于研究,它是基于从样本确定中获得的原始数据,但是大多数研究人员发现很难确定...
  • ( )A....简单随机抽样条件下, 当极限误差扩大一倍, 则样本容量( )A. 只需原来的1/2 B. 只需原来的1/4C. 需要原来的1倍 D. 需要原来的4倍8.在其他条件不变的情况下, 总体方差越大, 所需样本容量( ...
  • Power Analysis 估算样本容量前言一、使用G*power计算统计检验力 前言 为什么要进行功效分析? 统计功效指的是某检验能够正确的拒绝一个错误的虚无假设的能力,1-β。 为了确定研究的效应是否稳定。在假设检验中,...
  • 的值无法确定,可以用以前相同或者类似的标准差来替代,也可以试验调查的办法,选择一个初始样本,以该样本的标准差作为 的估计值 b、样本量的优化为整数,比如说24.1,24.8都转化成25 2...
  • 如何确定抽样的样本数量

    万次阅读 多人点赞 2019-03-20 21:28:12
    总体为9200人,预设的整体置信度为95%,最大容许误差为正负5%,求样本容量 网上搜到的第一个有价值的内容如下: 题目 某公司对60000人中的吸烟比例做调查,置信度为95%的情况下,若要使误差保持在4%以内,需要的最小...
  • 首页专栏python文章详情0统计科学系列之最小样本量计算张俊红发布于 35 分钟前这一篇我们讲讲统计中的最小样本量计算。大家先想想为什么叫最小样本量,而不是最大或者直接叫样本量计算呢?这是因为最小样本量这个...
  • 假设检验时,将原假设和备择假设互换,有时候会产生完全相反的结果。例如下面这题,如果令H0 :u>...在同样显著性水平下,用同样的样本进行假设检验时,不同的原假设和备择假设产生了相反的结论。 ...
  • 抽样知识整理

    2020-09-07 11:19:02
    这里写自定义目录标题浅谈简单随机抽样和分层抽样简介:最近在工作上负责一个项目,需要从110万样本中抽出4万个样本,尽可能的代表四级标题五级标题六级标题 浅谈简单随机抽样和分层抽样 简介:最近在工作上负责一个...
  • 样本容量确定过程中,在预调查的基础上,利用尼曼分配法计算出在既定可靠性下安全文化测量中样本总量及各层样本量.最后通过实例分析证实利用分层抽样和尼曼分配法得到的样本量符合企业实际情况,并具有数学统计...
  • R语言样本量计算

    千次阅读 2020-12-30 11:36:19
    不同结局指标样本量计算二分类结局已知样本含量计算功效已知统计功效计算样本量连续型变量已知样本含量计算功效已知统计功效计算样本量绘制统计功效与样本量的散点图组间差异与样本量散点图绘制 一般的研究设计中,...
  • 样本采样

    2020-06-14 09:05:10
    当您对一组人进行研究时,几乎不可能从该组中...首先,您需要了解总体与样本之间的差异,并确定研究的目标人群。 总体是您要得出结论的整个群体。 该样本是您要从中收集数据的特定人群。 可以根据地理位置,年龄,收入
  • 最小样本量计算

    万次阅读 2019-11-23 11:02:32
    总第179篇/张俊红这一篇我们讲讲统计中的最小样本量计算。大家先想想为什么叫最小样本量,而不是最大或者直接叫样本量计算呢?这是因为最小样本量这个概念主要用在抽样统计中,抽样统计为了研究某一事物的情况而从...
  • R语言 基础统计学之样本量计算

    千次阅读 2020-02-07 19:20:36
    以下介绍基础统计学关于样本量计算的问题,主要解决实际问题中在已知一些统计特征下,计算所必要的样本量,共有三种方式:总体方差已知时,总体方差未知时 ,估计比例为P时的三种情况下的样本量。 总体方差σ已知 若...
  • 例如,学生t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。 将正态分布拟合到采样...
  • 假设数据总体数量是N,总体均值u,总体标准差σ,样本大小是n,样本均值u’,样本标准差σ’,样本中符合条件A的占比(比如推荐系统中点击占比):p’ 点估计 从总体中抽取一个样本(batchsize=n),得到样本均值u’,...
  • (转)蓄水池抽样(Reservoir sampling)解决在不知道样本容量的情况下随机抽取一个或多个元素的问题
  • 样本及抽样分布

    2020-06-04 23:21:11
    ②、确定性:样本抽取后,就得到n个确定值 2、抽样方式 统计上,一般采取有放回抽样。从总体X中有放回选取的n样本Xi,称为来自总体的简单样本,简称样本 样本特点: 注:总体容量很大时,无放回选取的样本也叫做...
  • 今天听课听到这样一个结论:如果假设检验的样本量很大,那么显著性水平α应该设得小一点。为什么呢?我没想通,于是去网上试图查找答案。结果发现网上很多人还在纠结:如果假设检验的样本量很大,那么会使假设检验的...
  • 在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为a方支持率为45.3%;b方支持率为30.2%; c方支持率为8.5%;...最后都会说明一下,此次电话调查的数量2300,置信度为95%﹐最大容许误差...
  • 统计抽样的运用:抽取样本 作者 白宁超 2015年10月15日18:30:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理。首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集。诚然...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,147
精华内容 6,058
关键字:

样本容量确定