精华内容
下载资源
问答
  • 平均值标准差,方差,协方差,期望,均方误差

    万次阅读 多人点赞 2018-10-12 17:04:55
    平均值标准差,方差,协方差都属于统计数学;期望属于概率数学。 统计数学 1)平均值标准差,方差 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些...

    1、写在前面

    平均值,标准差,方差,协方差都属于统计数学;期望属于概率数学。

    统计数学

    1)平均值,标准差,方差

    统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:

    均值:

    方差:

    标准差:

    均值描述的是样本集合的中间点,它告诉我们的信息是有限的。

    方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

    而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

    以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

    方差和标准差的区别:

    方差与我们要处理的数据的量纲是不一致的,多了个平方,虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。 而标准差的根号就抵消了这个平方,就能相对直观了描述数据与均值之间的偏离程度。

    2)协方差

    标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:

    来度量各个维度偏离其均值的程度,协方差可以这样来定义:

    协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐越受女孩欢迎。如果结果为负值, 就说明两者是负相关,越猥琐女孩子越讨厌。如果为0,则两者之间没有关系,猥琐不猥琐和女孩子喜不喜欢之间没有关联,就是统计上说的“相互独立”。

    从协方差的定义上我们也可以看出一些显而易见的性质,如:

    3)协方差矩阵

    前面提到的猥琐和受欢迎的问题是典型的二维问题,而协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算个协方差,那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:

    这个定义还是很容易理解的,我们可以举一个三维的例子,假设数据集有三个维度,则协方差矩阵为:

    可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。

    概率论

    1)期望(相当于统计数学中的均值)

    离散型

    离散型随机变量X的取值为为X对应取值的概率,可理解为数据出现的频率,则:

    连续型

    2)方差

    E(X)表示期望,X表示原始数据,其结果就为方差。当方差很小时,X的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差(standard deviation)。D(X)还可以简化为:

     这里我是这么理解的:E的作用就是求平均,既然求完平均了,那么E(X)不就是一个常数了嘛,既然是常数了,拿平均自己那还是自己呀,也就是E(E(X))那不就是E(X)嘛。既然是这样那就好理解了,E(2XE(X))=2E(X)E(X),E(X)的平方那也是常数,求平均还是自己。

    另外再看一个例子:

    3)标准差

    方差的平方根被称为标准差(standard deviation)。简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

    这里标准差和方差的区别与统计学中一样。

    均方误差

    均方误差一般被用在机器学习的预测值与真实值之间的距离。

    标准差(Standard Deviation),中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方和的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。 
    从上面定义我们可以得到以下几点: 
    1、均方差就是标准差,标准差就是均方差 
    2、均方误差不同于均方差 
    3、均方误差是各数据偏离真实值的距离平方和的平均数 
    举个例子:我们要测量房间里的温度,很遗憾我们的温度计精度不高,所以就需要测量5次,得到一组数据[x1,x2,x3,x4,x5],假设温度的真实值是x,数据与真实值的误差e=x-xi 
    那么均方误差MSE= 
    总的来说,均方差是数据序列与均值的关系,而均方误差是数据序列与真实值之间的关系,所以我们只需要搞清楚真实值和均值之间的关系就行了。

    展开全文
  • 平均值 平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为 方差、标准差 方差这一概念的目的是为了表示数据集中数据点的离散...标准差定义是总体各单位标准值( xi)与其...

    原文地址:https://www.cnblogs.com/quietwalk/p/8243536.html

    平均值

    平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为
    这里写图片描述

    方差、标准差

    方差这一概念的目的是为了表示数据集中数据点的离散程度;其数学定义为:
    这里写图片描述
    标准差与方差一样,表示的也是数据点的离散程度;其在数学上定义为方差的平方根:
    在这里插入图片描述



    为什么使用标准差?

    在这里插入图片描述

    一个标准差 68%, 两个标准差 95%, 三个标准差 99%。

    标准差定义是总体各单位标准值( xi)与其平均数(μ)离差平方和的算术平均数的平方根。它反映组内个体间的离散程度。

    所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。

    标准计算公式:
    假设有一组数值X₁,X₂,X₃,…Xn(皆为实数),其平均值(算术平均值)为μ,公式如图1。
    标准差也被称为标准偏差,或者实验标准差,公式为
    在这里插入图片描述

    一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

    例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差约为17.08分,B组的标准差约为2.16分,说明A组学生之间的差距要比B组学生之间的差距大得多。

    一个标准差 68%, 两个标准差 95%, 三个标准差 99%。

    与方差相比,使用标准差来表示数据点的离散程度有3个好处:

    1. 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
    2. 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
    3. 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

    贝赛尔修正

    在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:
    经过贝塞尔修正后的方差公式:
    这里写图片描述

    经过贝塞尔修正后的标准差公式:
    这里写图片描述

    公式的选择

    是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本 (比如一分钟内采集了十万次的IO数据) — 在这种情况下,该样本数据集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。


    平均值与标准差的适用范围及误用

    大多数统计学指标都有其适用范围,平均值、方差和标准差也不例外,其适用的数据集必须满足以下条件:

    中部单峰:
    1. 数据集只存在一个峰值。很简单,以假想的CPU使用率数据为例,如果50%的数据点位于20附近,另外50%的数据点位于80附近(两个峰),那么计算得到的平均值约为50,而标准差约为31;这两个计算结果完全无法描述数据点的特征,反而具有误导性。

    2. 这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例,如果80%的数据点位于20附近,剩下的20%数据随机分布于30~90之间,那么计算得到的平均值约为35,而标准差约为25;与之前一样,这两个计算结果不仅无法描述数据特征,反而会造成误导。

    遗憾的是,在现实生活中,很多数据分布并不满足上述两个条件;因此,在使用平均值、方差和标准差的时候,必须谨慎小心。


    如果数据集仅仅满足一个条件:单峰。那么,峰值在哪里?峰的宽带是多少?峰两边的数据对称性如何?有没有异常值(outlier)?为了回答这些问题,除了平均值、方差和标准差,需要更合适的工具和分析指标,而这,就是中位数、均方根、百分位数和四分差的意义所在。

    展开全文
  • 相关性 线性相关 数据在一条直线附近波动,则变量间是线性相关 ...标准差表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准差小,表示数据集中在平均值附近,如果标准差大则表示数据离标准...

    相关性

    线性相关

    数据在一条直线附近波动,则变量间是线性相关

    非线性相关

    数据在一条曲线附近波动,则变量间是非线性相关

    不相关

    数据在图中没有显示任何关系,则不相关

     

     

     

    平均值

    N个数据 的平均值计算公式:

       

     

    标准差

    标准差表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准差小,表示数据集中在平均值附近,如果标准差大则表示数据离标准差比较远,比较分散。标准差计算公式:

    x、y两个变量组成了笛卡尔坐标系中的一个坐标(x,y),这个坐标标识了一个的位置。

    各包含n个常量的X,Y两组数据在笛卡尔坐标系中以n个点来进行表示。

    相关系数

    相关系数用字母r来表示,表示两组数据线性相关的程度(同时增大或减小的程度),从另一方面度量了点相对于标准差的散布情况,它没有单位。包含n个数值的X、Y两组数据的相关系数r的计算方法:

      

    简单的说,就是 r=[(以标准单位表示的 x )X(以标准单位表示的 y )]的平均数

    根据上面点的定义,将X、Y两组数据的关系以点的形式在笛卡尔坐标系中画出,SD线表示了经过中心点(以数据组X、Y平均值为坐标的点),当r>0时,斜率=X的标准差/Y的标准差;当r<0时,斜率=-X的标准差/Y的标准差;的直线。通常用SD线来直观的表示数据的走向:

    1、当r<0时,SD线的斜率小于0时,则说明数据负相关,即当x增大时y减少。

    2、当r>0时,SD线的斜率大于0时,则说明数据正相关,此时当x增大时y增大。

    3、相关系数r的范围在[-1,1]之间,当r=0时表示数据相关系数为0(不相关)。当r=正负1时,表示数据负相关,此(x,y)点数据都在SD线上。

    4、r的值越接近正负1说明(x,y)越靠拢SD线,说明数据相关性越强,r的值越接近0说明(x,y)点到SD线的散度越大(越分散),数据相关性越小。

     

     

    回归方法主要描述一个变量如何依赖于另一个变量。y对应于x的回归线描述了在不同的x值下y的平均值情况,它是这些平均值的光滑形式,如果这些平均值刚好在一条直线上,则这些平均值刚好和回归线重合。通过回归线,我们可以通过x值来预测y值(已知x值下y值的平均值)。下面是y对应于x的回归线方程:

     

    简单的说,就是当x每增加1个SD,平均而言,相应的y增加r个SD。

    从方程可以看出:

    1、回归线是一条经过点 ,斜率为 的直线。

    2、回归线的斜率比SD线小,当r=1或-1时,回归线和SD线重合。

     

     

    当用回归线从x预测y时,实际值与预测值之间的差异叫预测误差。而均方根误差就是预测误差的均方根。它度量回归预测的精确程度。y关于x的回归线的均方根误差用下面的公式进行计算:

     

    由公式可以看出,当r越接近1或-1时,点越聚集在回归线附近,均方根误差越小;反之r越接近0时,点越分散,均方根误差越大。

     

     

    最小二乘法寻找一条直线来拟合所有的点,使得这条直线到所有的点之间的均方根误差最小。可以看到,当求两个变量之间的关系时,最小二乘法求出的直线实际上就是回归线。只不过表述的侧重点不同:

    1、最小二乘法强调求出所有点的最佳拟合直线。

    2、回归线则是在SD线的基础上求出的线,表示了样本中已知变量x的情况下变量y的平均值。

     

    由以上可知,一个散点图可以用五个统计量来描述:

    1、所有点x值的平均数,描述了所有点在x轴上的中心点。

    2、所有点x值的SD,描述了所有点距离x中心点的散度。

    3、所有点y值的平均数,描述了所有点在y轴上的中心点。

    4、所有点y值的SD,描述了所有点距离y中心点的散度。

    5、相关系数r,基于标准单位,描述了所有点x值和y值之间的关系。


    相关系数r将平均值、标准差、回归线这几个概念联系起来:

    1、r描述了相对于标准差,点沿SD线的群集程度。

    2、r说明了y的平均数如何的依赖于x --- x每增加1个x标准差,平均来说,y将只增加r个y标准差。

    3、r通过均方根误差公式,确定了回归预测的精确度。

     

     

    注意:以上相关系数、回归线、最小二乘法的计算要在以下两个条件下才能成立:

    1、x、y两组样本数据是线性的,如果不是线性的先要做转换。

    2、被研究的两组样本数据之间的关系必须有意义。

    展开全文
  • 均方根误差(RMSE),平均绝对误差(MAE),标准差(Standard Deviation) RMSE Root Mean Square Error,均方根误差 是观测值与真值偏差的平方... 是绝对误差的平均值 能更好地反映预测值误差的实际情况. 标准差 St...

    均方根误差(RMSE),平均绝对误差(MAE),标准差(Standard Deviation)

    RMSE

    • Root Mean Square Error,均方根误差
    • 观测值与真值偏差的平方和与观测次数m比值的平方根。
    • 是用来衡量观测值同真值之间的偏差

    MAE

    • Mean Absolute Error ,平均绝对误差
    • 是绝对误差的平均值
    • 能更好地反映预测值误差的实际情况.

    标准差

    • Standard Deviation ,标准差
    • 是方差的算数平方根
    • 是用来衡量一组数自身的离散程度
    • 其中N应为n-1

    这里写图片描述


    RMSE与标准差对比:标准差是用来衡量一组数自身的离散程度,而均方根误差是用来衡量观测值同真值之间的偏差,它们的研究对象和研究目的不同,但是计算过程类似。

    RMSE与MAE对比:RMSE相当于L2范数,MAE相当于L1范数。次数越高,计算结果就越与较大的值有关,而忽略较小的值,所以这就是为什么RMSE针对异常值更敏感的原因(即有一个预测值与真实值相差很大,那么RMSE就会很大)。

     

    平均值、标准差、相关系数、回归线及最小二乘法

     

     

    • N个数据平均值计算公式:

       [1]

     

     

     

    • 标准差表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准差小,表示数据集中在平均值附近,如果标准差大则表示数据离标准差比较远,比较分散。标准差计算公式:

     [1]

     

    x、y两个变量组成了笛卡尔坐标系中的一个坐标(x,y),这个坐标标识了一个的位置。

    各包含n个常量的X,Y两组数据在笛卡尔坐标系中以n个点来进行表示。

     

    • 相关系数用字母r来表示,表示两组数据线性相关的程度(同时增大或减小的程度),从另一方面度量了相对于标准差的散布情况,它没有单位。包含n个数值的X、Y两组数据的相关系数r的计算方法:

    简单的说,就是 r=[(以标准单位表示的 x )X(以标准单位表示的 y )]的平均数

    根据上面点的定义,将X、Y两组数据的关系以点的形式在笛卡尔坐标系中画出,SD线表示了经过中心点(以数据组X、Y平均值为坐标的点),当r>0时,斜率=X的标准差/Y的标准差;当r<0时,斜率=-X的标准差/Y的标准差;的直线。通常用SD线来直观的表示数据的走向:

    1、当r<0时,SD线的斜率小于0时,则说明数据负相关,即当x增大时y减少。

    2、当r>0时,SD线的斜率大于0时,则说明数据正相关,此时当x增大时y增大。

    3、相关系数r的范围在[-1,1]之间,当r=0时表示数据相关系数为0(不相关)。当r=正负1时,表示数据负相关,此(x,y)点数据都在SD线上。

    4、r的值越接近正负1说明(x,y)越靠拢SD线,说明数据相关性越强,r的值越接近0说明(x,y)点到SD线的散度越大(越分散),数据相关性越小。

     

     

     

    • 回归方法主要描述一个变量如何依赖于另一个变量。y对应于x的回归线描述了在不同的x值下y的平均值情况,它是这些平均值的光滑形式,如果这些平均值刚好在一条直线上,则这些平均值刚好和回归线重合。通过回归线,我们可以通过x值来预测y值(已知x值下y值的平均值)。下面是y对应于x的回归线方程:

    简单的说,就是当x每增加1个SD,平均而言,相应的y增加r个SD。

    从方程可以看出:

    1、回归线是一条经过点,斜率为的直线。

    2、回归线的斜率比SD线小,当r=1或-1时,回归线和SD线重合。

     

    当用回归线从x预测y时,实际值与预测值之间的差异叫预测误差。而均方根误差就是预测误差的均方根。它度量回归预测的精确程度。y关于x的回归线的均方根误差用下面的公式进行计算:

    由公式可以看出,当r越接近1或-1时,点越聚集在回归线附近,均方根误差越小;反之r越接近0时,点越分散,均方根误差越大。

     

     

     

    • 最小二乘法寻找一条直线来拟合所有的点,使得这条直线到所有的点之间的均方根误差最小。可以看到,当求两个变量之间的关系时,最小二乘法求出的直线实际上就是回归线。只不过表述的侧重点不同:

     

    1、最小二乘法强调求出所有点的最佳拟合直线。

    2、回归线则是在SD线的基础上求出的线,表示了样本中已知变量x的情况下变量y的平均值。

     

    由以上可知,一个散点图可以用五个统计量来描述:

    1、所有点x值的平均数,描述了所有点在x轴上的中心点。

    2、所有点x值的SD,描述了所有点距离x中心点的散度。

    3、所有点y值的平均数,描述了所有点在y轴上的中心点。

    4、所有点y值的SD,描述了所有点距离y中心点的散度。

    5、相关系数r,基于标准单位,描述了所有点x值和y值之间的关系。

     

    相关系数r将平均值、标准差、回归线这几个概念联系起来:

    1、r描述了相对于标准差,沿SD线的群集程度。

    2、r说明了y的平均数如何的依赖于x --- x每增加1个x标准差,平均来说,y将只增加r个y标准差。

    3、r通过均方根误差公式,确定了回归预测的精确度。

     

    注意:以上相关系数、回归线、最小二乘法的计算要在以下两个条件下才能成立:

    1、x、y两组样本数据是线性的,如果不是线性的先要做转换。

    2、被研究的两组样本数据之间的关系必须有意义。

     

    参考:

    https://blog.csdn.net/capecape/article/details/78623897

    https://blog.csdn.net/Raymond_Lu_RL/article/details/6701064

    展开全文
  • 之前已经推送了关于标准差(SD)、平均值的标准误差(SEM)的介绍文章,今天将重点介绍一下标准差(SD)和平均值的标准误差(SEM)之间的区别、什么场景下需要绘制SD或SEM图形? 开始之前,我们先复习一下之前的...
  • 相关性 线性相关 数据在一条直线附近波动,则变量间是线性相关 ...标准差表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准差小,表示数据集中在平均值附近,如果标准差大则表示数据离标准差
  • sql函数平均值 总数 最小值 最大值 总和 标准差
  • ###################################################### python计算excel平均值标准差 #####################################################''':数据源格式编号时间仪器1仪器2仪器3仪器4仪器5仪器6仪器7仪器8...
  • ###################################################### python计算excel平均值标准差 #####################################################‘‘‘:数据源格式编号时间仪器1仪器2仪器3仪器4仪器5仪器6仪器7...
  • ClassWork02.java 1 package lesson05;...4 * 编程计算一维数组的最大值、最小值、总和、平均值标准差 5 */ 6 7 8 public class ClassWork02 { 9 public static void main(String[] args) { 10 int[]...
  • 单纯介绍概念不易理解,所以应从实际应用出发介绍其区别。 四者的研究对象和研究目的不同。...定义标准差是观测与其平均偏差的平方和的平方根,即方差的算术平方根。 公式: 公式意义:所有数减去其...
  • 平均值标准误差(SEM)

    千次阅读 2021-04-13 17:03:52
    σ\sigmaσ:样本标准差 nnn:样本数量 σ′=σn\sigma'=\frac{\sigma}{\sqrt{n}}σ′=n​σ​ python公式定义: # 样本的(无偏估计)标准差/sqrt(样本数量) sem = np.std(arr,ddof=1) / np.sqrt(len(arr)) 区别 ...
  • 平均值 平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为 以下面10个点的CPU使用率数据为例,其平均值为17.2。 14 31 16 19 26 14 14 ...方差、标准差 方差这一概...
  • 平均值mean,众数mode,中值median 和 标准差stddev 均值,众数,中位数,标称差: 均值是就全部数据计算的,它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值.其主要缺点是易受数据极端值的影响,对于偏...
  • 均方根误差和标准差定义:matlab

    千次阅读 2021-01-24 22:58:34
    1.matlab标准差STD的定义 S = std(A,w) 为上述任意语法指定一个权重方案。当 w = 0 时(默认值),S 按 N-1 进行标准化。当 w = 1 时,S 按观测数量 N 进行标准化。w 也可以是包含非负元素的权重矢量。在这种情况...
  • 如何使用sql函数平均值、总数、最小值、最大值、总和、标准差 sql函数  使用sql函数,您可以在一个select语句的查询当中,直接计算数据库资料的平均值、总数、最小值、最大值、总和、标准差、变异数等统计。...
  • 最大、最小值获得整个矩阵、行或列的最大最小值。 获得元素最大的函数:max 获得元素最小值的函数:min 示例代码:import numpy as npa = np.array([[1,2,3],[4,5,6]]) print(a.max()) #获取整个矩阵的最大 ...
  • printf("标准差=%lf",t); } double FANG_01(float ave,float a[100],int j) //函数定义 { float b=0; double s; int i; for(i=0;i;i++) { if(a[i]!='\0') b+=pow((a[i]-ave),2); //求平方的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 75,309
精华内容 30,123
关键字:

平均值的标准偏差定义