-
python方差的计算公式为什么减一_计算样本方差时为什么是除以(n-1)?
2020-12-06 01:35:18负责任的老师讲到这里一般会给你抛出一个叫“自由度”的概念,说因为“计算过程中,我们用样本均数代替总体均数,所以自由度要损失1,因此就是(n-1)”。然后就继续往下讲了,你懂了吗?肯定不懂。今天我就带着大家...特别专题:计算样本方差时为什么是除以(n-1)?
对于初学者,上面这个问题可能会感到十分困扰,计算平均数难道不应该直接除以样本量n吗,怎么好好地偏要除以(n-1)?实难理解。负责任的老师讲到这里一般会给你抛出一个叫“自由度”的概念,说因为“计算过程中,我们用样本均数代替总体均数,所以自由度要损失1,因此就是(n-1)”。然后就继续往下讲了,你懂了吗?肯定不懂。
今天我就带着大家一步一步搞懂这其中的道理,期待能帮你解惑!
如果听过我们“丁点帮你”公众号的《SPSS软件应用与统计思维》课的同学可能会觉得:怎么讲的这么基础啊?那些还用讲吗?是的,我们这套课程就是完全强调基础的一门课。因为我们发现,往往理解的难处实际在于基础知识的似是而非,在很简单地地方犯糊涂。比如,方差这个概念,看着很简单,实则有一些很重要的内容稍不留神就被忽略。
首先,我们要知道,方差分为总体方差和样本方差(这一点如果没有区分,你是弄不懂为什么除以(n-1)这个问题的)。接着,如何计算方差?不就是用每一个数减去均数,再平方,然后加和求平均吗?说着很简单,但你知道这里的均数是指什么均数吗?答案是“总体均数”,对,是“总体均数”!也就是说,如果总体均数已知,你求样本方差的时候是除以n的,而不是除以(n-1),计算公式如下:
注:上式S的平方代表样本方差;Xi 代表样本值,μ代表总体均值,n代表样本量。
但是,现实生活中,我们往往不清楚一个总体的总体均数,而是通过抽取样本,计算样本均数,然后用样本均数来代替总体均数,所以样本方差的计算就变为:
仔细比较这两个公式,就会发现,以前老师讲的确实没错,当把总体均数变为样本均数时,除以n就变成除以(n-1)了。所以,看到这里,你至少明白,变化的原因实际上就在于总体和样本的区别。关于总体和样本,不太明白的同学可以去看看我们第三讲“统计学核心思维与统计描述”的讲解。
我们都知道,统计学重要的研究内容之一是“用样本推测总体”。具体而言,就是用样本均数和样本标准差来估计总体均数和总体标准差,而这里的估计有一个很重要的原则就是“无偏”。所谓“无偏”,就是说,样本值应该是围绕总体值上下波动的,它不能总在总体值的上面,或者总在总体值下面。这里我们需要明确,对于一个特定的总体,其总体均数和总体标准差是恒定不变的。但是,从总体中我们可以进行无数次抽样,每次抽样便获得一个特定的样本,然后计算出特定的样本均数和样本标准差。所以,只要抽样一次,样本值就可能变化一次。因此,样本值是变化的。用一个变化的量去估计一个恒定的量,首要原则就是“无偏”。换言之,如果我们知道某一个变化的量如果总是小于这个恒定的量,那么这个变化量就不是一个无偏估计。
比如,数学上可以证明:
上面不等式恒成立。注意,左边是样本均数,右边是总体均数。所以,我们知道,当用样本均数代替总体均数后,上面左边的式子总是小于右边的式子。因此,如果我们采取左式计算样本方差,那它就不是总体方差的“无偏”估计了,而是总小于总体方差。可现实中我们无法计算右式(总体均数μ未知),那该怎么办呢?于是,人们就想,既然左式总会低估,那有没有什么办法把它调整一下呢?唯一的办法就是从分母下手,将它的分母调小,这个值不就变大了吗?因而把除数n变小是可取的。问题是变多少呢?你说变成(n-1),那为啥(n-2)就不行?看到这里,我们不得不佩服统计学家们的智慧:通过数学公式推到,他们找到如下定量关系:
把上式稍作调整,我们便可以得到:
仔细看看,上面左右等式就是我们开篇提出的样本方差的计算方法。右边是是减去的总体均数,即理想情况下,知道总体均数的计算方法;它等于左边运用样本均数的求法,就是这么神奇!由此,样本均数之所以要除以(n-1)实际上是通过数学公式推导出来的,而不是拍脑袋决定的。而引入自由度的概念,某种程度是为数学推导的结论增添了实际含义。
以上便是样本方差(n-1)的大致缘由,简单起见,文章略去了具体的数学推导过程,而是重点通过“总体”与“样本”的区别以及“无偏估计”的原则给大家梳理了其中的逻辑,希望能增进你的理解。
对文中数据推导感兴趣的同学可阅览(本文有参考):
-
几何分布的期望和方差公式推导_总体方差与样本方差,关于估计
2020-11-09 18:38:29关于样本方差的推导,如果我们认为方差样本形如总体样本: 因为 所以(1)式中第二项和第三项减去后原式 然后第一项在中心极限中就是总体方差的无偏估计,而第二项当等于0时,全式就是总体方差了。但是很可惜,因为...总体方差与样本方差:
样本方差与总体方差计算差别在于分母是样本数n-1。很多的解释关于自由度:自由度,这里暂集中理清楚总体方差和总体样本的关系,先不扯自由度。
关于样本方差的推导,如果我们认为方差样本形如总体样本:
因为
所以(1)式中第二项和第三项减去后
原式
然后第一项在中心极限中就是总体方差的无偏估计,而第二项当等于0时,全式就是总体方差了。但是很可惜,因为这个平方导致这个数的期望大于0。这意味着,如果能够事先预知总体样本,然后代入公式后,就不用再除以1/(n+1)而是1/n了。
所以我们知道现在为什么是有偏估计了,如果还不理解,我们可以通过图来理解理解。
现在有总体包含X1,X2,X3,第一条坐标系是指总体样本以及总体均值。后三条分别为样本及样本均值。
正常来说,抽样取出来的样本均值的期望就是总体期望,但是每一次得到的样本均值其实是最优点。当我们在X1和X3中选一个点P使(X1-P)^2+(X3-P)^2最小,毫无疑问就是平均值。因此每一次抽样的时候得到的都是最优点,以至于得到的样本方差的期望小于总体方差。
那1/(n-1)是怎么来的,假设我们不知道样本方差和我们希望估算出的总体方差之间的关系,我们希望样本方差的期望等于总体方差,也就是:
因为x的平均数是由x求出的,所以x平均数的期望必然等于x的期望,所以式中和的平方项消去。所以原式变为:
因为
所以
至此通过一步一步的推导我们可以看出一个问题:无偏估计还是会存在误差,只是通过在中心极限定理下会趋于最终值。所以在取样时保证最小样本量对整体估计的准确性才是最有帮助的。
-
统计|两个总体方差比的区间估计(如何用公式计算)
2020-08-26 18:57:04通过两个总体方差比的区间估计的学习会发现,我们的区间估计是不断站在前人经验的成果之上的,我们先知道单总体方差的区间估计的卡方分布,然后捣鼓出F分布,根据F分布的一些性质,算出总体方差比的区间估计。而公式...本博文源于《商务统计》,主要研究两个总体方差比的区间估计的计算,如何更好的套用公式。
实验起源及引例
现有两套A、B卷子,由一群20名同学去做测试,观察A、B卷的难易程度。每个同学测得两份成绩,即A成绩、B成绩。然后两个成绩之差,作为一个记录,根据两者之差描述总体方差比的区间估计。
实验须知
- 如果两个样本的方差之比接近于1,说明两个总体方差很接近。
- 反之说明两个方差偏差过大,总体值有差异
如何理解方差之比跟卡方分布与F分布挂上钩的
卡方分布是在单总体方差估计的时候引出来的,目标就是对单总体方差进行更好的描述统计。
统计|如何建立单总体方差的置信区间
由卡方分布就会定义出F分布的由来
两个总体方差比的区间估计公式
- σ1,2就是我们要求取的总体方差比
- S1,S2就是样本方差
- n1,n2就是样本的容量
其中F分布的下分位数,需要借助这个公式进行计算:
例子:工厂加工零件
粉色的字体第一个i=1,2,第二个字体是0.90。梳理能获得的常量,转化公式的参数:- S1,S2的值
- 置信水平0.90
- n1,n2也告诉你了,代入公式
学习总结
通过两个总体方差比的区间估计的学习会发现,我们的区间估计是不断站在前人经验的成果之上的,我们先知道单总体方差的区间估计的卡方分布,然后捣鼓出F分布,根据F分布的一些性质,算出总体方差比的区间估计。而公式的掌握是非常有必要的。
-
为什么方差公式要用平方而不用绝对值_总体方差与样本方差,关于估计
2021-01-04 14:15:35关于样本方差的推导,如果我们认为方差样本形如总体样本: 因为 所以(1)式中第二项和第三项减去后原式 然后第一项在中心极限中就是总体方差的无偏估计,而第二项当等于0时,全式就是总体方差了。但是很可惜,因为...总体方差与样本方差:
样本方差与总体方差计算差别在于分母是样本数n-1。很多的解释关于自由度:自由度,这里暂集中理清楚总体方差和总体样本的关系,先不扯自由度。
关于样本方差的推导,如果我们认为方差样本形如总体样本:
因为
所以(1)式中第二项和第三项减去后
原式
然后第一项在中心极限中就是总体方差的无偏估计,而第二项当等于0时,全式就是总体方差了。但是很可惜,因为这个平方导致这个数的期望大于0。这意味着,如果能够事先预知总体样本,然后代入公式后,就不用再除以1/(n+1)而是1/n了。
所以我们知道现在为什么是有偏估计了,如果还不理解,我们可以通过图来理解理解。
现在有总体包含X1,X2,X3,第一条坐标系是指总体样本以及总体均值。后三条分别为样本及样本均值。
正常来说,抽样取出来的样本均值的期望就是总体期望,但是每一次得到的样本均值其实是最优点。当我们在X1和X3中选一个点P使(X1-P)^2+(X3-P)^2最小,毫无疑问就是平均值。因此每一次抽样的时候得到的都是最优点,以至于得到的样本方差的期望小于总体方差。
那1/(n-1)是怎么来的,假设我们不知道样本方差和我们希望估算出的总体方差之间的关系,我们希望样本方差的期望等于总体方差,也就是:
因为x的平均数是由x求出的,所以x平均数的期望必然等于x的期望,所以式中和的平方项消去。所以原式变为:
因为
所以
至此通过一步一步的推导我们可以看出一个问题:无偏估计还是会存在误差,只是通过在中心极限定理下会趋于最终值。所以在取样时保证最小样本量对整体估计的准确性才是最有帮助的。
-
总体方差和样本方差大小值的比较
2018-05-13 15:33:33总体方差和样本方差的区别用样本方差去估计总体方差。...而对于样本方差,除以的是n-1,作为对总体方差的无偏估计。如果分母用n,对于样本估计的方差则会小于真实的方差。关于用n-1的推导公式:点击打开链接... -
总体方差和样本方差
2020-01-03 08:57:01在统计描述中,方差用来计算每一个变量*...总体方差计算公式:σ2=∑(X−μ)2N\sigma^2=\frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2公式中σ2\sigma^2σ2为总体方差,XXX为变量,μ\muμ为总体均值,NNN为总体例数。 ... -
统计学---之样本方差与总体方差的区别
2018-01-24 11:53:53前段日子重新整理了一下这个问题的解答,跟大家分享一下,...首先,我们来看一下样本方差的计算公式: 刚开始接触这个公式的话可能会有一个疑问就是:为什么样本方差要除以(n-1)而不是除以n?为了解决 -
统计|如何建立单总体方差的置信区间
2020-08-25 17:15:18因为我们想知道总体方差,所以我们先要计算样本的方差,样本的方差知道后,根据卡方分布表查询,最后带入公式进行计算,测得最后的单总体方差的置信区间。 -
总体方差与样本方差分母的小小区别,n还是n-1?
2020-01-31 16:05:22引入方差概念方差计算无偏估计样本方差公式相关参考链接样本方差的自由度是n-1 引入 方差概念 方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,用来度量随机变量和其数学期望(即均值)之间的偏离... -
为什么方差的分母有时是n,有时是n-1 源于总体方差和样本方差的不同
2018-01-01 00:39:08样本方差计算公式里分母为n-1的目的是为了让方差的估计是无偏的。无偏的估计(unbiased estimator)比有偏估计(biased estimator)更好是符合直觉的。 因为样本用的平均值不是总体的平均值,一定会导致低估,所以... -
协方差的计算公式例子_方差、标准差和协方差三者之间的定义与计算
2020-12-19 07:45:13理解三者之间的区别与联系,要从定义入手,一步步来计算,同时也要互相比较理解,这样才够深刻。方差方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学... -
总体方差与样本方差
2017-06-08 19:18:09这本是一件很容易的事,但我手算后用Matlab的cov函数验算了一下,发现结果竟然不一样,于是按照协方差公式,一步步验算,终于在求方差这一步发现了问题:用var函数求的方差与手动算的不一样。于是doc var一看: ... -
Python统计学-006:描述统计-方差
2019-03-20 09:10:43方差:方差是衡量一组数据离散程度的统计量。...总体方差的计算公式如下: 样本方差的计算公式如下: 实现代码 定义测试数组 data_test=[1,2,3] 计算总体方差 import numpy as num... -
投资组合的方差公式推导
2017-12-04 23:32:00投资组合的方差公式推导 背景 ...今天在看财务管理学课本,风险与收益章节的投资组合的风险计算这一节时, 发现课本所给的投资组合的总体期望收益方差的公式中有 \\(i \neq j\\) 的标注,但是看... -
统计学的Python实现-006:方差
2020-05-20 12:06:28总体方差的计算公式如下: σ2=∑(X−μ)2N \sigma^2 = \frac{\sum(X-\mu)^2}{N} σ2=N∑(X−μ)2 其中σ2\sigma^2σ2为总体方差,XXX为变量值,μ\muμ为总体均值,NNN为总量 样本方差的计算公式如下: S2=∑(. -
Sweet Snippet 之 方差计算
2020-02-16 16:43:18在概率统计中,方差用于衡量一组数据的离散程度,相关的计算公式如下(总体方差): μ=1N∑i=1Nxiσ2=1N∑i=1N(xi−μ)2 \begin{aligned} &\mu = \frac{1}{N}\sum_{i = 1}^{N}x_i \\ &\sigma^2 = \frac{1}{N}... -
协方差的计算公式例子_协方差公式_协方差的计算公式例子
2020-12-19 07:45:17协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 ... -
为什么样本方差计算是除以n-1?
2018-08-05 18:41:01在数据量巨大或者较难获得总体样本时,按照方差标准公式计算出来的实际方差,通常并非样本的真实方差。 因此,为了保证无偏计算,大数据量下用采样数据计算方差时,是除以n-1而不是n。那么,为什么除以n-1就能保证... -
matlab已知随机样本求总体均值与方差的矩估计值(例子应用)
2020-07-18 18:04:08本博文源于matlab在概率论的应用。学过概率论的小伙伴知道要计算矩...其中一阶原点矩就是数学期望,而用二阶样本中心距是来计算总体的方差的。了解到这些,在matlab编写代码时,对照概率论的书籍,就编写的非常愉快了。 -
数理统计中样本方差公式N-1的原因与奥妙
2011-10-20 21:29:29今天看为了准备排队论考试复习了下概率论,看到样本的方差公式除数是n-1,对此很不解。因此查了一些资料并请教了一个学数学出身的朋友。 S=[(X1-X)^2+(X2-X)^2....+(Xn-X)^2]/(n-1) X表示样本均值=(X1+X2+...+Xn... -
协方差的计算公式例子_协方差矩阵
2020-12-30 05:38:40概念协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 这个解释摘自维基百科,看起来很是抽象,不好理解。其实简单来讲,协方差就是... -
统计|如何理解两个总体均值之差的区间估计的计算
2020-08-26 18:19:47在学习计算题目的时候,会发现两类,一种是总体方差已经知道的情况下进行计算,另一种总体方差未知的情况下进行计算,实验中往往总体方差未知,在未知的情况下,都是有相应的公式的,但是不等的时候,自由度的计算就... -
离散系数的计算公式_数据的离散程度分析1
2021-01-28 15:52:59在统计学中,把反映现象总体中各个体的变量值之间差异程度的指标称为离散程度,也称为离中趋势。描述一组数据离散程度常用极差、四分位差、方差和标准差、变异系数等。极差极差(Range)也叫全距,是一组数据中最大值... -
python计算期望值_机器学习:计算方差时为何除以n-1
2020-12-18 20:32:11小弟准备了数据结构、Java、大数据、AI、面试题、python等各种资料 需要领取等朋友麻烦 转发此文,然后私信【学习】即可获取设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式:... -
机器学习必备知识点 之 样本方差与实际方差
2020-08-14 14:11:29机器学习必备知识点见机器学习必备知识...除以n的样本方差计算公式是总体方差的渐近无偏估计值计算式,n足够大的时候,就可以不用区别n和n-1的差距了。 证明过程:(因为是以前保存的图片,内容来源已经丢失) ... -
机器学习系列 三 - 延伸 方差和样本方差
2018-04-17 16:01:48课堂上的出来的结论:样本方差的和总体方差是不等的,而是存在一个无偏估计的系数(N-1)/N先给出概念定义和公式:设...如果已知随机变量 的期望为 ,那么可以如下计算总体方差 :这是方差的定义,使用随机一个样本... -
关于样本方差以及样本协方差的一点思考
2017-02-10 12:23:00本篇文章主要讨论样本方差和样本协方差除以n-1问题,其他暂且不做过多赘述。 方差的维基百科定义:一个随机...等等,为什么样本方差的计算公式不是n而是n-1呢,不应该是求平均值吗,你看,假设一对数据的总体样本...
-
小型在线聊天室php版
-
计算两个 420YUV 的 Y-PSNR、U-PSNR、V-PSNR 和 YUV-PSNR
-
C/C++:敢死队问题求解.rar(含完整注释)
-
投标方法论
-
autojs之图片控制台
-
《python数据分析与数据化运营》5.rar
-
C/C++:算术表达式求值问题.rar(含完整注释)
-
Springboot 利用 mybatis.generator 自动生成 model、mapper 和 dao
-
基于电商业务的全链路数据中台落地方案(全渠道、全环节、全流程)
-
ValueError: Expected more than 1 value per channel when training, got input size torch.Size([1, 256,
-
安卓底层和应用开发!Android社招最全面试题,震撼来袭免费下载!
-
5.掌握函数的有关使用
-
3.5: 批量装机环境 、 配置PXE引导 、 kickstart自动应答 、 Cobbler装(1).docx
-
HTTP 基础知识盘点
-
PowerBI重要外部工具详解
-
H3C S5560-SI系列交换机彩页_v2.pdf
-
MHA 高可用 MySQL 架构与 Altas 读写分离
-
Python函数库深度详解(1)
-
安卓开发技术!拿下我人生中第7个Offer,持续更新中
-
2.3: 逻辑卷管理 、 VDO 、 RAID磁盘阵列、进程管理.docx