精华内容
下载资源
问答
  • R语言入门小白,请问这个语句要怎么实现?...从指数分布中抽取10个独立样本,平均值为5,并计算样本均值。我们复制上述程序200次。 我自己打的是这样: x=rexp(10,1/5) mean(x) rep(x, 200) 请问要如何改正呢?
  • 2020/11/11为了便于计算,假设 之间相互独立,且 对 成立。...从而 的期望为:可以计算 的期望为:从而, 的方差为:令 表示样本均值,则样本均值的倒数为 ,故样本均值的倒数的期望为样本均值的倒数的方差为整...

    2020/11/11

    为了便于计算,假设

    之间相互独立,且

    成立。令

    由于指数分布是特殊的gamma分布,则由gamma分布的可加性知,

    从而

    的概率密度函数为

    ,则易得

    的概率密度函数为

    也可以通过定义求解

    的分布函数,再求导得到其概率密度函数。从而

    的期望为:

    可以计算

    的期望为:

    从而,

    的方差为:

    表示样本均值,则样本均值的倒数为

    ,故样本均值的倒数的期望为

    样本均值的倒数的方差为

    整体思路就是,根据总体分布求样本和的分布,再求和的倒数的分布,计算出和的倒数的均值和方差,最后求样本均值的倒数的均值和方差。亦可用原概率密度函数直接对均值倒数求期望和方差,如有错误请指正~

    期中考以后用蒙特卡洛模拟看看结果对不对

    2020/12/3

    回来更新啦~

    一般情况:设样本的每个个体独立同分布服从于参数为

    的指数分布,即

    ,也可写成

    。则

    ,根据上述步骤,容易计算得到:

    因此样本均值倒数的期望为:

    方差为:

    根据中心极限定理,通过蒙特卡洛模拟获取的期望和方差的样本数据,其样本均值的概率分布近似为正态分布,并且随着样本量(模拟次数)趋于无穷大,样本均值会收敛于期望值,因此我们可以通过样本均值估计理论值,并进行假设检验,验证理论值是否reasonable。原假设和备择假设分别为:

    以及:

    这里以

    为例,模拟通过Python实现,代码如下:

    import numpy as np

    import random

    from scipy.stats import norm

    #生成服从指数分布的 x 总体

    np.random.seed(0)

    beta = 5

    u = np.random.uniform(0, 1, 1000)

    population = (-1/beta * np.log(1 - u)).tolist()

    #初始化样本容量 n

    n = 50

    #通过 m 次抽样获得的目标值(样本均值倒数)的波动,用于检验方差

    m = 100

    #初始化模拟次数 M

    M = 1000

    #定义用于检验方差的函数,每调用一次这个函数,会返回一个方差估计值(基于 m 次抽取容量为 n 的样本数据)

    def var_est(population, m, n):

    data = [1/np.mean(random.sample(population, n)) for i in range(m)]

    return np.var(data, ddof = 1)

    #定义模拟函数,参数 target 用于选择要研究的统计量

    def simulation(population, M = 1000, n = 50, target = 'mean'):

    if target == 'mean':

    theoretical_value = n * beta / (n-1)

    data = [1/np.mean(random.sample(population, n)) for i in range(M)]

    elif target == 'variance':

    theoretical_value = n**2 * beta**2 / (n-1)**2 / (n-2)

    data = [var_est(population, m, n) for i in range(M)]

    return theoretical_value, data

    #模拟两组数据,分别用于检验期望和方差

    random.seed(1)

    mean_theory, data_mean = simulation(population, M, n, target = 'mean')

    variance_theory, data_var = simulation(population, M, n, target = 'variance')

    #先看看期望和方差的理论值

    mean_theory, variance_theory(5.1020408163265305, 0.5423087602387894)

    #再看看样本数据的均值

    np.mean(data_mean), np.mean(data_var)(5.080338272542856, 0.5403331158305243)

    差异不大。

    设定显著性水平为5%,分别计算两个假设检验问题的检验统计量和对应的p值:

    test_mean = abs(np.mean(data_mean) - mean_theory) / np.std(data_mean, ddof = 1)

    test_var = abs(np.mean(data_var) - variance_theory) / np.std(data_var, ddof = 1)

    p_mean = 2 - 2 * norm.cdf(test_mean, loc = 0, scale = 1).round(3)

    p_var = 2 - 2 * norm.cdf(test_var, loc = 0, scale = 1).round(3)

    #输出 p 值

    p_mean, p_var(0.976, 0.982)

    两组假设检验的p值均大于0.05,因此没有充分证据表明我们的理论值是错误的~感兴趣的小伙伴可以调整样本容量,模拟次数和

    展开全文
  • 如何计算均值、标准差和标准误差

    千次阅读 2019-12-12 11:51:32
    本文将向你展示如何计算。 方法1 数据 1 获得一组你想要分析的数据。这些信息也称为样本。 例如,一个由5个学生组成的班级接受了一次测试,测试结果为12, 55, 74, 79和90。 方法2 均值 ...

    收集数据后,你要做的第一件事往往就是对它进行分析。这通常都免不了要计算均值、标准差和标准误差。本文将向你展示如何计算。

     

     

    方法1

    数据

    1.  

      1

      获得一组你想要分析的数据。这些信息也称为样本。
      • 例如,一个由5个学生组成的班级接受了一次测试,测试结果为12, 55, 74, 79和90。

       

     

    方法2

    均值

    1. 以Calculate Mean, Standard Deviation, and Standard Error Step 2为标题的图片

      1

      计算均值。把所有数值相加,再除以总体大小:
      • 均值 (μ) = ΣX/N,这里的 Σ 是求和(加法)符号, xi 是每个单一数值,而N则是总体大小。
         
      • 在上例中,均值 μ 就是 (12+55+74+79+90)/5 = 62。

       

     

    方法3

    标准差

    1.  

      1

      计算标准差。它表征总体的分布情况。 标准差 = σ = sqrt [(Σ((X-μ)^2))/(N)].
      • 对以上给出的例子,标准差是 sqrt[((12-62)^2 + (55-62)^2 + (74-62)^2 + (79-62)^2 + (90-62)^2)/(5)] = 27.4。(注意,如果要求样本的标准差,则应除以n-1,即样本大小减1。

     

    方法4

    均值的标准误差

    1. 计算(均值的)标准误差。它表征的是样本均值与总体均值的近似度。样本越大,标准误差就越小,样本均值与总体均值也就越接近。将标准差除以样本大小N的平方根即可得出标准误差。标准误差 = σ/sqrt(n)
      • 就以上的例子而言,如果从一个有50名学生的班级中抽取5个学生做样本,而50名学生的标准差为17 (σ = 21),则标准误差即为 17/sqrt(5) = 7.6。

    小提示

    • 均值、标准差和标准误差的计算对于分析正态分布的数据最有用。距离中心位置1个标准差的范围覆盖了约68%的数据,距离其2个标准差的范围覆盖了95%的数据,而3个标准差能覆盖99.7%的数据。随着样本大小的增加,标准误差会变小(分布范围变窄)。
    • 易用在线标准差计算器
    展开全文
  • 但测试是有成本的,样本量小时不能判断出...如果你不想了解统计学原理或者统计学原理对你来说就是无字天书,请直接跳至文末福利部分,用在线计算器计算样本量就可以。不过建议您了解一下原理部分,其实并没有那么...

    为了对比不同策略的效果,如新策略点击率的提升是否显著,常需要进行A/B测试。但测试是有成本的,样本量小时不能判断出差异是否是由抽样误差引起,样本量太大时如果效果不好则会造成难以挽回的损失。如何科学地选择样本量呢?需要了解A/B测试的统计学原理。

    如果你不想了解统计学原理或者统计学原理对你来说就是无字天书,请直接跳至文末福利部分,用在线计算器计算样本量就可以。不过建议您了解一下原理部分,其实并没有那么晦涩难懂。

    一、 A/B测试的统计学原理

    (一)大数定律和中心极限定理

    A/B 测试样本量的选取基于大数定律和中心极限定理。通俗地讲:

    1. 大数定律:当试验条件不变时,随机试验重复多次以后,随机事件的频率近似等于随机事件的概率。

    2. 中心极限定理:对独立同分布且有相同期望和方差的n个随机变量,当样本量很大时,随机变量

    v2-f8667d83f0d46c7bd6de7db9eda1cb8b_b.jpg

    近似服从标准正态分布N(0,1)。

    根据大数定律和中心极限定理,当样本量较大(大于30)时,可以通过Z检验来检验测试组和对照组两个样本均值差异的显著性。

    注:样本量小于30时,可进行t检验。

    (二)假设检验

    在进行假设检验时,我们有两个假设:原假设H0(两个样本没有显著性差异)和备择假设H1(两个样本有显著性差异)。相应地,我们可能会犯两类错误:

    v2-d1ec216356b818d2d06eb5c8024d334f_b.jpg

    第I类错误:H0为真,H1为假时,拒绝H0,犯第I类错误(即错误地拒绝H0)的概率记为alpha。

    第II类错误:H0为假,H1为真时,接受H0,犯第II类错误(即错误地接受H0)的概率记为beta。

    1. 犯第I类错误的概率alpha与置信水平1-alpha

    通常,将犯第I类错误的概览alpha称为显著性,把没有1-alpha称为置信水平,即有1-alpha的概率正确接受了H0。

    一般,alpha取值为0.05或更小的数值,即容忍犯第I类错误的概率最大为alpha。

    2. 犯第II类错误的概率beta与统计功效power=1-beta

    通常,将犯第II类错误的概率称为beta;将1-beta称为统计功效,即正确拒绝H0的概率。

    一般,beta取10%~20%,则统计功效的取值为80%~90%。

    v2-9850a29fd805a968e220361dece5180d_b.jpg

    犯第一类错误的概览alpha与犯第二类错误的概览beta之间的关系如下图:

    v2-36842d793f183e66941123d07e5aea82_b.jpg

    3. 统计显著性p-value

    当p-value<alpha时,即原假设成立的概率小于预设的显著性水平,可拒绝原假设。p-value只说明两个样本有没有显著性差异,并不说明差异的大小。

    根据统计学原理计算样本量,需要根据显著性水平查正态分布表,工作中用到的比较少,这里省略。

    工作中可用python中的已有的包和函数计算。

    二、样本量计算的python实现

    Python统计包statsmodels.stats.power中,有一个NormalIndPower工具,可以用其中的solve_power函数实现。

    Solve_power函数中的参数如下:

    (1)参数effect_size : 两个样本均值之差/标准差

    (2)nobs1:样本1的样本量,样本2的样本量=样本1的样本量*ratio

    (3)alpha:显著性水平,一般取0.05

    (4)power:统计功效,一般去0.8

    (5)ratio: 样本2的样本量/样本1的样本量,一般取1

    (6)alternative:字符串str类型,默认为‘two-sided’,也可以为单边检验:’larger’ 或’small’

    例:目前的点击率CTR是0.3,我们要想提升10%,将点击率提升到0.33,测试组和对照组的样本量相同。

    计算如下:

    v2-48cdea1fe4af1074aae87404a4759716_b.jpg

    输出结果为:

    3662.8015711721328

    文末福利

    A/B测试样本量在线计算器“

    https://abtestguide.com/abtestsize/

    如:想要提升的现有基准——转化率(conversion rate,可以为点击率、订阅率等)为10%;想要在此基础上提高10%(minimum detectable effect),即提高到11%;统计显著性为5%,统计功效选80%,则计算出结果为14751,即对照组和测试组需要的样本量均为14751。

    v2-1b5f746b23a03df3fdab98f68806e403_b.jpg

    检测效果变化值越小,需要的样本量越大;检测效果变化值越大,需要的样本量越小。因为,变化效果越小,越有可能是抽样误差引起的;为了避免抽样误差的影响,需要增大样本量。

    v2-ecaa822acc61f016717fedf2f627c220_b.jpg
    展开全文
  • 均值的95%置信区间以样本的平均值为中心,在两个方向上对称延伸。延伸的距离等于SEM乘以一个常数,这个常数是由样本量大小决定的。下图显示了不同样本量所对应的常数:常数=TINV(0.05, N-1),其中N为样本量,TINV是...

    均值的95%置信区间以样本的平均值为中心,在两个方向上对称延伸。延伸的距离等于SEM乘以一个常数,这个常数是由样本量大小决定的。

    下图显示了不同样本量所对应的常数:

    e7a112fbe2f0549c1d33a8afd2e9807d.png

    常数=TINV(0.05, N-1),其中N为样本量,TINV是excel中的函数。

    假设我们的样本量为500,计算其对应的常数,调用excel中的函数TINV (),如下所示,可以看到计算得到的常数与上图中呈现的一致的。

    abcf6fdd54cacfb67efaf3743d35d546.png

    实际上,对于大样本量而言,这个常数基本等于2。

    假设我们有样本数据为1, 2, 3, 4, 5, 6, 7, 8, 9, 10共记十个数据。那么95%置信区间的上区间值就等于5.5(平均值)+0.9574(SEM)*2.262(10个样本量对应的常数)=7.66;下区间等于5.5(平均值)-0.9574(SEM)*2.262(10个样本量对应的常数)=3.33。

    下面我们用GraphPad软件来检验一下。

    1. 输入数据。

    8b15c3ff3255805b9acce8f1c686a3d1.png

    2. 选择Column statistcis,点击OK

    8232aa47ec0ef6b28133f9cd4437e5af.png

    3. 选择95% CI of the mean,点击OK

    07e3165eba3274f5b4cde38afae75b9b.png

    4. 结果解读。可以看到,95%置信区间与我们上述计算的是一致的。

    426e15a38d7d26f42b42392215be21f5.png

    展开全文
  • 如何通俗地理解均值95%置信区间呢?1、置信区间是随机区间置信区间不是固定的,它是一个随机变动的区间,不同的样本有不同的均值置信区间。举例:某生产车间每天分AB2个班组,每个班组可制作100个零件,现在请从A...
  • 那么这个均值怎么来的呢,实际上就是计算所有训练样本的平均值,计算出来后,保存为一个均值文件,在以后的测试中,就可以直接使用这个均值来相减,而不需要对测试图片重新计算。 一、二进制格式的均值计算 caffe...
  • 分析:本题考查矩阵之间的简单运算,相似矩阵的概念,相似矩阵的特征值,简单的矩阵多项式,以及矩阵多项式的特征值,利用特征值计算矩阵的行列式等内容,虽然计算量很小,但其实有一定的难度。具体解题中,第一步是...
  • 如何选择样本方差的计算方法

    千次阅读 2015-11-26 18:17:15
    为了回答本文的标题,在这篇文章中将介绍正太分布数据的均值和方差计算公式。如果有些读者对这些公式的背后推导不感兴趣,而仅仅只是想知道两种计算公式(除以NN和除以N−1N-1)的使用场景,请看如下的概述 ...
  • 统计学核心思想:用样本信息来估计总体信息之前我们用样本给出一个精确值来估计总体,这个点估计值是有价值的,但可能存在误差,因为有估计就会有误差,误差不可避免但是可以减少。点(精确值)误差 > 区间...
  • 例如,学生t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。 将正态分布拟合到采样...
  • 样本T检验小贴士 T检验,亦称student T检验(Student's T test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。T检验是用T分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著...
  • 使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算。 variance: 方差 方差(Variance)是概率论中最基础的概念之一,它是由统计学天才罗纳德·费雪1918...
  • 本文介绍如何在ř中计算两个样本的秩检验。 可视化数据并在ř中计算的Wilcoxon测试 ř函数用于计算的秩检验 为了执行两个样本的Wilcoxon检验,比较两个独立样本(x&y)的均值,R函数wilcox.test()可以如下...
  • 如男女两个总体的平均起薪的差异进行区间估计供应商A和B生产的产品中次品的比例是否存在差异进行假设检验1两总体均值之差的推断1.1两总体均值之差的推断:独立样本1.1.1两总体均值之差的推断...
  • 但是,如果使用25组每组5个样本的总数据计算标准差,再以三倍的标准差为控制线作图,则显示控制图比较好。1)为什么两种算法得出的控制线差异如此巨大?2)可不可以使用样本总数计算的三倍标准差来作为控制线?为...
  • 本文介绍如何在ř中计算两个样本的秩检验。 可视化数据并在ř中计算的Wilcoxon测试 ř函数用于计算的秩检验 为了执行两个样本的Wilcoxon检验,比较两个独立样本(x&y)的均值,R函数wilcox.test()可以如下使用...
  • 原文链接:r语言中如何进行两组...可视化数据并在ř中计算的Wilcoxon测试ř函数用于计算的秩检验为了执行两个样本的Wilcoxon检验,比较两个独立样本(x&y)的均值,R函数wilcox.test()可以如下使用:wilcox.te...
  • 原文链接:r语言中如何进行两组...可视化数据并在ř中计算的Wilcoxon测试ř函数用于计算的秩检验为了执行两个样本的Wilcoxon检验,比较两个独立样本(x&y)的均值,R函数wilcox.test()可以如下使用:wilcox.te...
  • IBM SPSS Statistics的配对样本T检验与独立样本T检验相似,都可用于对比两个组的均值差异,不同的是,配对样本T检验对比的是两组变量的平均值,计算的是单个个案在两个变量的值的差异,检验其平均差值是否有差异,...
  • 可以从上图看到,样本均值与总体均值不同,但是随着测量越来越多的数据,x-bar会越来越接近μ。 方差、标准差 方差和标准差,代表数据是如何在总体均值周围分布的,计算总体方差的公式: x-μ, 代表从每个数据
  • caffe2——图片均值文件

    千次阅读 2016-12-24 22:52:14
    通过对所有训练样本取平均,保存成一个均值文件mean.binaryproto,在测试时也需要使用这个均值相减。那么如何快速生成均值文件?二进制格式的均值计算: caffe中是用的均值数据格式是binaryproto。caffe中的tools...
  • 统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。 方差是衡量源数据和期望值相差的度量值。 SwiftUI 计算数组方差Variance ...
  • 本文价值与收获 ...统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。 方差是衡量源数据和期望值相差的度量值。 ...
  • 如何用科学计算器求均值与方差 (卡西欧触屏系列除外) 初始页面————按ON 1.首先按MODE键,会出现如下页面 到 2.按2键进入统计模式(SD),此时页面会出现SD小标 ...4. 计算样本均值和样本标准差 先
  • K-均值聚类算法(K-means)

    千次阅读 2015-09-25 16:55:21
    可以将一批数据分为K个不同的簇,并且每个簇的中心采用簇中所含样本均值计算而成.  K-means算法的K值需要由用户指定,算法开始时随机选择K个初始点作为质心,然后将数据集中的每个点分配到一个簇中.那么,如何确定某...
  • LDA算法对于两类问题的LDA(Matlab实现)1 function [ W] = FisherLDA(w1,w2)2 %W最大特征值对应的特征向量3 %w1 第一类样本4 %w2 第二类样本56 %第一步:计算样本均值向量7 m1=mean(w1);%第一类样本均值8 m2=mean(w2)...
  • [如何正确使用「K均值聚类」? 1、k均值聚类模型 给定样本,每个样本都是m为特征向量,模型目标是将n个样本分到k个不停的类或簇中,每个样本到其所属类的中心的距离...首先,计算样本之间的距离,这里选欧氏距离平...

空空如也

空空如也

1 2 3 4 5
收藏数 94
精华内容 37
关键字:

如何计算样本均值