精华内容
下载资源
问答
  • 一、离差(Deviation) 离差即标志变动度,又称“偏差”,是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小...平均差也称为均值,是数据分布中所

    一、离差(Deviation)

    离差即标志变动度,又称“偏差”,是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标,常写作:
    在这里插入图片描述

    即参与计算平均数的变量值与平均数之差。离差的性质有二: (1)离差的代数和等于0;(2)参与计算平均数的各变量值与平均数之差的平均和,小于这些变量值与平均数之外的任何数之差的平均和。

    二、平均差(Mean Deviation、Average Deviation)

    平均差也称为均值,是数据分布中所有原始数据与平均数距离的绝对值的平均。平均差计算公式:
    在这里插入图片描述
    上述公式可以简记为:
    在这里插入图片描述

    其中,被减数代表每个数据的值,减数表示平均数,N=数据个数。

    三、方差(Variance Deviation)

    方差是各个数据与平均数之差的平方的和的平均数,即 :在这里插入图片描述
    s²就表示方差。如果用作样本统计时,作为样本X的方差的估计时,发现其数学期望并不是X的方差,而是X方差的(n-1)/n倍,因此用样本进行统计时,方差的计算公式调整为如下:
    在这里插入图片描述
    这就是统计上所谓的“无偏估计”。为了区分以上两种情况,第一个公式的结果称为总体方差,第二个公式的结果称为样本方差。

    样本方差可以简记为:
    在这里插入图片描述

    如果用D表示方差,则如下公式成立:

    1. 设C是常数,则D(C)=0
    2. 设X是随机变量,C是常数,则有:
      D(CX) = C²D(X)
      D(X+C) = D(X)
    3. 设 X 与 Y 是两个随机变量,则有:
      D(X+Y) = D(X)+D(Y)+2cov(X,Y)
      D(X-Y) = D(X)+D(Y)-2cov(X,Y)
      D(aX+bY) = a²D(X)+b²D(Y)+2ab*cov(X,Y)
      其中cov表示协方差。

    四、标准差(Standard Deviation)

    对方差取算术平方根,得到的结果称为标准差,总体方差的算术平方根称为总体标准差,样本方差的算术平方根称为样本标准差。

    样本标准差可以简记为:
    在这里插入图片描述

    五、协方差(Covariance)

    离差、平均差、方差、标准差一般是用来描述一维数据的,但实际中常常遇到含有多维数据的数据集,如果需要评估两个数据之间的联系,可以使用协方差。协方差是一种用来度量两个随机变量关系的统计量,其计算公式如下:

    在这里插入图片描述
    也可以记为:
    在这里插入图片描述
    可以看出,方差是协方差在X=Y时的一种特例。

    协方差的结果如果为正值,则说明两者是正相关的,如果结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。

    从协方差的定义上我们也可以看出一些显而易见的性质,如:
    在这里插入图片描述

    六、协方差矩阵(covariance matrix)

    协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算 n! / ((n-2)!*2) 个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。

    在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。

    协方差矩阵定义:
    设X=(x1,x2,…,xn)为n维变量,则称矩阵:
    在这里插入图片描述
    为n维随机变量 的协方差矩阵(covariance matrix),也记为 D(X),其中:
    在这里插入图片描述
    为X的分量Xi 和 Xj的协方差。

    协方差矩阵为对称非负定矩阵,协方差矩阵具有如下性质:
    在这里插入图片描述
    公式中右上角的T表示矩阵的转置矩阵,转置是一个数学名词,即矩阵的行和列对应互换。直观来看,将矩阵A的所有元素绕着一条从第1行第1列元素出发的右下方45度的射线作镜面反转,即得到A的转置。一个矩阵M, 把它的第一行变成第一列,第二行变成第二列,…,最末一行变为最末一列, 从而得到一个新的矩阵N。

    七、皮尔森相关系数(Pearson correlation coefficient)

    7.1、概述

    皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数。皮尔森相关系数记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。

    7.2、定义

    皮尔森相关系数为两个变量X、Y之间的协方差和两者标准差乘积的比值。定义公式如下:
    r=ρ(X,Y)=cov(X,Y)/(σ(X)*σ(Y))
    σ表示标准差。

    由于方差是协方差的特例,标准差又是方差的算术平方根,因此上述公式也可以这样表示:
    在这里插入图片描述

    7.3、值含义

    相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

    当r大于0小于1时表示x和y正相关关系。当r大于-1小于0时表示x和y负相关关系。当r=1时表示x和y完全正相关,r=-1表示x和y完全负相关。当r=0时表示x和y不相关

    通常情况下通过以下取值范围判断变量的相关强度:

    • 0.8-1.0 极强相关
    • 0.6-0.8 强相关
    • 0.4-0.6 中等程度相关
    • 0.2-0.4 弱相关
    • 0.0-0.2 极弱相关或无相关

    参考资料:

    1. 百度百科;
    2. 皮尔森相关系数(Pearson correlation coefficient)
    展开全文
  • 很精巧的平均数、方差、标准计算器。免去自己计算的麻烦,手工输入数据,然后一键计算!
  • yantubbs-平均值、标准、变异系数的计算
  • 描述分析平均数标准相关系数.pptx
  • 平均数、标准与变异系数.pptx
  • 六西平均数管理标准与变异系数.pptx
  • 统计得到,区域太阳高度角平均偏差与区域直径为实质性相关,为正相关近线性关系,线性系数随着区域直径的增大而略微减小,当区域直径小于3000 km时,线性系数为(1.8969~1.9084)×10 -3 (°)·km -1,同宽区域的太阳高度角...
  • 本文大纲: 数据挖掘分析&算法前奏之data exploration做什么 基本统计有哪些,怎么定义的 优缺点和应用场景,集中趋势和发散趋势 ...变异系数 发散程度指标的重要实际意义 可汗学院-统计学简单介...

    转载自:http://blog.sina.com.cn/s/blog_62ded7bf0101aqba.html

    本文大纲:

    1. 数据挖掘分析&算法前奏之data exploration做什么
    2. 基本统计有哪些,怎么定义的
    3. 优缺点和应用场景,集中趋势和发散趋势
    4. 发散趋势的引申:极差 ->方差->标准差->变异系数
    5. 发散程度指标的重要实际意义
    6. 可汗学院-统计学简单介绍和课程列表

    一、数据挖掘&算法前奏之data exploration做什么

    一个数字序列,如何通过简单的统计指标,直接&直观地描述这个数字序列的一些基本属性,是数据处理与理解的刚需。做数据挖掘和机器学习以及任何与数字序列相关的算法工作之前,一般,我们都做一做data exploration的工作,意思大概就是说,要首先看看这个数字序列的:

    1. 基本统计指标是什么,
    2. 有什么明显的数字趋势可见,或者符合什么明显的概率分布,
    3. 多维特征的话,维度彼此之间,有什么简单明了的关系。

    在 可汗学院公开课:统计学> 均值 中位数 众数   和  可汗学院公开课:统计学> 极差 中程数

    第1节和第2节中,就是讲data exploration中的第一步:数字序列的基本统计指标是什么。

    二、基本统计有哪些,怎么定义的

    简单来说(以数字序列X为例):

    1. mean(均值) = 算术平均值 = (x1 + x2 + ... + xn) / n
    2. median(中位数) = 对X按值排序(从大到小或从小到大),取数列排序后处于中间位置的数xi;当序列X的元素个数为偶数时,则有2个数字同时处于中间位置,此时中位数取这中间2个数的平均值
    3. mode(众数) = 序列X中,出现频率最多的那个数
    4. range(极差或全距) = 数列X中最大值与最小值之间的差值,用于描述X的数字分散程度,越小则数字之间越紧密
    5. midrange(中程数) = 数列X中(最大值 + 最小值)/2

    三、优缺点和应用场景,集中趋势和发散趋势

    上述5个基本统计指标,其实,都是用来描述数字序列X的某种意义上的数字集中趋势的,只是角度不同而已(1、2、3是从收敛的角度、4、5是从发散的角度)。各自的特点,或者说优缺点以及应用场景如下:

     优点缺点应用场景
    均值最具有良好的数学性质,对于生活中常见的较为对称的以正态分布为基础的各种现象,有广泛的应用。而且考虑了数列中每个元素的情况,信息量全容易受到数列X中极端值(极大或极小)的影响,比如中国城市家庭平均资产247万人民币? 西南财大报告引热议 中的笑话数字序列X表现出较为明显的对称分布(正态)的情况下,如身高、智力等分布。当数据呈对称分布或接近对称分布时,均值、中位数、众数相等或接近相等,这时应选择均值作为集中趋势的代表值,因为均值包含了全部数据的信息
    中位数中间位置上的代表值。其特点是不受数据极端值的影响有可能中位数不在数字序列中(数列元素个数为偶数时),造成理解上的困惑当一组数据中的个别数据变动较大时,可用中位数描述其趋势。对于偏态分布,具有较好的应用,比如互联网与生物领域常见power-law分布,与之对应的,还有xx分位点的说法,常见的有1Q,3Q分位点,即25%、75%分位点。
    众数简单易理解,不受数据极端值的影响可能不唯一性,一个数字序列,可能有多个众数(频次相同且最大);或者没有众数(数字序列中每个数都只出现1次)当一组数据中某些数据重复出现较多的场景。特别适用于偏态分布,对于对称分布也可以应用
    极差简单易理解,计算简单明了受数据极端值影响,反应数列离散程度也较粗糙,不能反应数列内容的发散情况,即使样本不大,极差带来的发散误差也较大只能用于粗略地说明数据的变动范围

    中程差,与极差具有类似的性质,只是计算方式有所改变而已。


    四、发散趋势的引申:极差 ->方差->标准差->变异系数

    极差 -> 方差:

    为了应对极差的明显缺点,如果要很仔细很全面地考察数列的发散程度,就必须考虑数列中每个元素的彼此发散情况。这时,需要引进方差的概念。

    方差:数列中每个元素与均值之差的平方和,为什么要用平方和,下面讲的很清楚:

    均值-中位数-众数-极差-中程数-方差-标准差-变异系数

    方差 -> 标准差:

    此外,为了消除方差因为平方而带来的,与原数列的量纲不一致的情形,进一步有了标准差的概念,

    标准差,即方差的开平方根。

    标准差可以用来完美地表示数据的离散程度,标准差与均数相结合,可以描述正态分布特征,即估计正态分布下数据的频数分布情况。

    一个例子如下:

    均值-中位数-众数-极差-中程数-方差-标准差-变异系数

    上面二个正态分布,具有相同的均值,但是红色的分布,标准差为10,蓝色分布的标准差为50,可见二个分布的数据发散程度的明显差异。

    标准差 -> 变异系数:

    如果要更进一步,如何来对比二个完全不同项目(单位不一样,比如一个是身高、一个是智力)的数列的离散程度,或者虽然都是比较重量但一个数字序列是书籍的重量另一个数字序列是每粒瓜子的重量(单位相同但平均值不同)的二个序列的离散程度,如何比较呢,这个时候,需要更进一步引入变异系数的概念:

    变异系数 = (正态分布)标准差 / 平均值。

    变异系数既可以消除二个数字序列值平均水平不同对对比离散程度的影响,还可消除二个序列因为量纲单位不同而造成的评价对比影响,从而更完美地反映数列变异程度的大小。


    五、发散程度指标的重要实际意义

    从某种意义上讲,数字序列的发散程度(或变异程度,指方差、标准差、变异系数等)的作用,比集中趋势(指平均值、中位数、众数)还要重要。这是因为:

    日常生产和观察中,由于各种误差(包括系统性的),测量和观察到的数值,基本上不可能完完全全就是测量对象的实际值,不同的测量方法和仪器,所观察到的结果,是有差别的。那么,怎么判定一种测量方法或仪器,就比另外一种方法或仪器好呢?如何能让我们相信并使用测量所观察到的值呢?(场景,仍然是针对近似正态分布)

    对比4种情况,简单的想法就是第2、3中情况符合逻辑(背后有强大严密的数据证明。。。)

    1. 如果一种测量方法好,但是每次测量的结果形成的数字序列,变异程度都较大,
    2. 如果一种测量方法好,但是每次测量的结果形成的数字序列,变异程度都较小,
    3. 如果一种测量方法不好,但是每次测量的结果形成的数字序列,变异程度都较大,
    4. 如果一种测量方法不好,但是每次测量的结果形成的数字序列,变异程度都较小,

    因此,各种体现数字序列发散程度的指标( 方差、标准差、变异系数等 等),就会被常用来检测测量结果的可靠性和可信性,这点意义上的作用,非常之大。


    最后,提一下美丽的正态分布,一切尽在图中:

    均值-中位数-众数-极差-中程数-方差-标准差-变异系数
     

    六、可汗学院-统计学简单介绍和课程列表

    (虽然85集,但每节时间都较短,只是前几节是这样的:)

    深入浅出是课程的主要特点,整个课程都是通过简单的算术数字分布例子来讲述统计学概念,视频课程从均值、中位数、众数等简单的概论说起,灵活的运用抛硬币的事例深入浅出的讲述了一个个统计概念,开篇的讲述的如何教你读统计图更是引人入胜,相关视频列表如下:

    [第1集] 均值 中位数 众数  
    [第2集] 极差 中程数  
    [第3集] 象形统计图  
    [第4集] 条形图  
    [第5集] 线形图  
    [第6集] 饼图  
    [第7集] 误导人的线形图  
    [第8集] 茎叶图  
    [第9集] 盒须图  
    [第10集] 盒须图2  
    [第11集] 统计:集中趋势  
    [第12集] 统计:样本和总体  
    [第13集] 统计:总体方差  
    [第14集] 统计:样本方差  
    [第15集] 统计:标准差  
    [第16集] 统计:诸方差公式  
    [第17集] 随机变量介绍  
    [第18集] 概率密度函数  
    [第19集] 二项分布1  
    [第20集] 二项分布2  
    [第21集] 二项分布3  
    [第22集] 二项分布4  
    [第23集] 期望值E(X)  
    [第24集] 二项分布的期望值  
    [第25集] 泊松过程1  
    [第26集] 泊松过程2  
    [第27集] 大数定律  
    [第28集] 正态分布Excel练习  
    [第29集] 正态分布介绍  
    [第30集] 正态分布问题:哪些是正态分布  
    [第31集] 正态分布问题:z分数  
    [第32集] 正态分布问题:经验法则  
    [第33集] 练习:标准正态分布和经验法则  
    [第34集] 经验法则和z分数进一步练习  
    [第35集] 中心极限定理  
    [第36集] 样本均值的抽样分布  
    [第37集] 样本均值的抽样分布2  
    [第38集] 均值标准误差  
    [第39集] 抽样分布例题  
    [第40集] 置信区间  
    [第41集] 伯努利分布均值和方差的例子  
    [第42集] 伯努利分布均值和方差公式  
    [第43集] 误差范围1  
    [第44集] 误差范围2  
    [第45集] 置信区间例题  
    [第46集] 小样本容量置信区间  
    [第47集] 假设检验和p值  
    [第48集] 单侧检验和双侧检验  
    [第49集] z统计量 vs t统计量  
    [第50集] 第一型错误  
    [第51集] 小样本假设检验  
    [第52集] t统计量置信区间  
    [第53集] 大样本占比假设检验  
    [第54集] 随机变量之差的方差  
    [第55集] 样本均值之差的分布  
    [第56集] 均值之差的置信区间  
    [第57集] 均值之差置信区间的澄清  
    [第58集] 均值之差的假设检验  
    [第59集] 总体占比的比较1  
    [第60集] 总体占比的比较2  
    [第61集] 总体占比比较的假设检验  
    [第62集] 线性回归中的平方误差  
    [第63集] 线性回归公式的推导1  
    [第64集] 线性回归公式的推导2  
    [第65集] 线性回归公式的推导3  
    [第66集] 线性回归公式的推导4  
    [第67集] 线性回归例题  
    [第68集] 决定系数R2  
    [第69集] 线性回归例题2  
    [第70集] 计算R2  
    [第71集] 协方差和回归线  
    [第72集] χ2分布介绍  
    [第73集] 皮尔逊χ2检验  
    [第74集] 列联表χ2检验  
    [第75集] 方差分析1:计算总平方和  
    [第76集] 方差分析2:组内和组间平方和  
    [第77集] 方差分析3:F统计量假设检验  
    [第78集] 相关性和因果性  
    [第79集] 演绎推理1  
    [第80集] 演绎推理2  
    [第81集] 演绎推理3  
    [第82集] 归纳推理1  
    [第83集] 归纳推理2  
    [第84集] 归纳推理3  
    [第85集] 归纳规律 
     
    展开全文
  • 相关性 线性相关 数据在一条直线附近波动,则变量间是线性相关 ...标准表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准小,表示数据集中在平均值附近,如果标准大则表示数据离标准...

    相关性

    线性相关

    数据在一条直线附近波动,则变量间是线性相关

    非线性相关

    数据在一条曲线附近波动,则变量间是非线性相关

    不相关

    数据在图中没有显示任何关系,则不相关

     

     

     

    平均值

    N个数据 的平均值计算公式:

       

     

    标准差

    标准差表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准差小,表示数据集中在平均值附近,如果标准差大则表示数据离标准差比较远,比较分散。标准差计算公式:

    x、y两个变量组成了笛卡尔坐标系中的一个坐标(x,y),这个坐标标识了一个的位置。

    各包含n个常量的X,Y两组数据在笛卡尔坐标系中以n个点来进行表示。

    相关系数

    相关系数用字母r来表示,表示两组数据线性相关的程度(同时增大或减小的程度),从另一方面度量了点相对于标准差的散布情况,它没有单位。包含n个数值的X、Y两组数据的相关系数r的计算方法:

      

    简单的说,就是 r=[(以标准单位表示的 x )X(以标准单位表示的 y )]的平均数

    根据上面点的定义,将X、Y两组数据的关系以点的形式在笛卡尔坐标系中画出,SD线表示了经过中心点(以数据组X、Y平均值为坐标的点),当r>0时,斜率=X的标准差/Y的标准差;当r<0时,斜率=-X的标准差/Y的标准差;的直线。通常用SD线来直观的表示数据的走向:

    1、当r<0时,SD线的斜率小于0时,则说明数据负相关,即当x增大时y减少。

    2、当r>0时,SD线的斜率大于0时,则说明数据正相关,此时当x增大时y增大。

    3、相关系数r的范围在[-1,1]之间,当r=0时表示数据相关系数为0(不相关)。当r=正负1时,表示数据负相关,此(x,y)点数据都在SD线上。

    4、r的值越接近正负1说明(x,y)越靠拢SD线,说明数据相关性越强,r的值越接近0说明(x,y)点到SD线的散度越大(越分散),数据相关性越小。

     

     

    回归方法主要描述一个变量如何依赖于另一个变量。y对应于x的回归线描述了在不同的x值下y的平均值情况,它是这些平均值的光滑形式,如果这些平均值刚好在一条直线上,则这些平均值刚好和回归线重合。通过回归线,我们可以通过x值来预测y值(已知x值下y值的平均值)。下面是y对应于x的回归线方程:

     

    简单的说,就是当x每增加1个SD,平均而言,相应的y增加r个SD。

    从方程可以看出:

    1、回归线是一条经过点 ,斜率为 的直线。

    2、回归线的斜率比SD线小,当r=1或-1时,回归线和SD线重合。

     

     

    当用回归线从x预测y时,实际值与预测值之间的差异叫预测误差。而均方根误差就是预测误差的均方根。它度量回归预测的精确程度。y关于x的回归线的均方根误差用下面的公式进行计算:

     

    由公式可以看出,当r越接近1或-1时,点越聚集在回归线附近,均方根误差越小;反之r越接近0时,点越分散,均方根误差越大。

     

     

    最小二乘法寻找一条直线来拟合所有的点,使得这条直线到所有的点之间的均方根误差最小。可以看到,当求两个变量之间的关系时,最小二乘法求出的直线实际上就是回归线。只不过表述的侧重点不同:

    1、最小二乘法强调求出所有点的最佳拟合直线。

    2、回归线则是在SD线的基础上求出的线,表示了样本中已知变量x的情况下变量y的平均值。

     

    由以上可知,一个散点图可以用五个统计量来描述:

    1、所有点x值的平均数,描述了所有点在x轴上的中心点。

    2、所有点x值的SD,描述了所有点距离x中心点的散度。

    3、所有点y值的平均数,描述了所有点在y轴上的中心点。

    4、所有点y值的SD,描述了所有点距离y中心点的散度。

    5、相关系数r,基于标准单位,描述了所有点x值和y值之间的关系。


    相关系数r将平均值、标准差、回归线这几个概念联系起来:

    1、r描述了相对于标准差,点沿SD线的群集程度。

    2、r说明了y的平均数如何的依赖于x --- x每增加1个x标准差,平均来说,y将只增加r个y标准差。

    3、r通过均方根误差公式,确定了回归预测的精确度。

     

     

    注意:以上相关系数、回归线、最小二乘法的计算要在以下两个条件下才能成立:

    1、x、y两组样本数据是线性的,如果不是线性的先要做转换。

    2、被研究的两组样本数据之间的关系必须有意义。

    展开全文
  • 平均平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为 以下面10个点的CPU使用率数据为例,其平均值为17.2。 14 31 16 19 26 14 14 ...方差、标准 方差这一概...

    http://blog.csdn.net/xidiancoder/article/details/71341345

    平均值

    平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为
    这里写图片描述

    以下面10个点的CPU使用率数据为例,其平均值为17.2。

    14 31 16 19 26 14 14 14 11 13
    • 1

    方差、标准差

    方差这一概念的目的是为了表示数据集中数据点的离散程度;其数学定义为:
    这里写图片描述
    标准差与方差一样,表示的也是数据点的离散程度;其在数学上定义为方差的平方根:
    这里写图片描述


    为什么使用标准差?

    一个标准差 68%, 两个标准差 95%, 三个标准差 99%。

    标准差定义是总体各单位标准值( xi)与其平均数(μ)离差平方和的算术平均数的平方根。它反映组内个体间的离散程度。

    所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。

    标准计算公式:
    假设有一组数值X₁,X₂,X₃,......Xn(皆为实数),其平均值算术平均值)为μ,公式如图1。
    标准差也被称为标准偏差,或者实验标准差,公式为

    一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

    例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差约为17.08分,B组的标准差约为2.16分,说明A组学生之间的差距要比B组学生之间的差距大得多。

    一个标准差 68%, 两个标准差 95%, 三个标准差 99%。

    与方差相比,使用标准差来表示数据点的离散程度有3个好处:

    1. 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
    2. 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
    3. 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

    贝赛尔修正

    在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:
    经过贝塞尔修正后的方差公式:
    这里写图片描述

    经过贝塞尔修正后的标准差公式:
    这里写图片描述

    公式的选择

    是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本 (比如一分钟内采集了十万次的IO数据) — 在这种情况下,该样本数据集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。


    平均值与标准差的适用范围及误用

    大多数统计学指标都有其适用范围,平均值、方差和标准差也不例外,其适用的数据集必须满足以下条件:

    中部单峰:

    1. 数据集只存在一个峰值。很简单,以假想的CPU使用率数据为例,如果50%的数据点位于20附近,另外50%的数据点位于80附近(两个峰),那么计算得到的平均值约为50,而标准差约为31;这两个计算结果完全无法描述数据点的特征,反而具有误导性。

    2. 这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例,如果80%的数据点位于20附近,剩下的20%数据随机分布于30~90之间,那么计算得到的平均值约为35,而标准差约为25;与之前一样,这两个计算结果不仅无法描述数据特征,反而会造成误导。

    遗憾的是,在现实生活中,很多数据分布并不满足上述两个条件;因此,在使用平均值、方差和标准差的时候,必须谨慎小心。


    如果数据集仅仅满足一个条件:单峰。那么,峰值在哪里?峰的宽带是多少?峰两边的数据对称性如何?有没有异常值(outlier)?为了回答这些问题,除了平均值、方差和标准差,需要更合适的工具和分析指标,而这,就是中位数、均方根、百分位数和四分差的意义所在。

    转载于:https://www.cnblogs.com/quietwalk/p/8243536.html

    展开全文
  • 简单相关系数计算器

    2015-04-14 22:50:44
    相关系数是按积方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。 在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment ...
  • :极为数据样本中的最大值与最小值的差值,是所有方式中最为简单的一种,它反应了数据样本的数值范围,是最基本的衡量数据离散程度的方式,受极值影响较大。如在数学考试中,一个班学生得分的极为60,放映了...
  • 用C#计算均值、标准、相关系数、预警区间,可作为类放入程序中,可直接在主程序中进行引用,结果准确,方便快捷。
  • 相关性 线性相关 数据在一条直线附近波动,则变量间是线性相关 ...标准表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准小,表示数据集中在平均值附近,如果标准大则表示数据离标准
  • printf("请输入第一组标准,第二组标准,第一组均值,第二组均值,样本量,以空格间隔\n"); for (int i = 0; i ; i++) { scanf("%lf", &inp[i]); } r = compute_d(inp[0], inp[1], inp[2], inp[3], (int)inp[4])...
  • 标准 方差 协方差 相关系数

    千次阅读 2020-08-16 09:45:57
    均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两...
  • ncl 对数据平均值、标准的处理,以及对数据进行EOF分析的程序
  • //获取两组数据的相关系数,无前后关系 template static BOOL GetCorrCoef(IN T* x,IN T* y,IN int nLen,OUT double& r) { double xAve = GetAve(x,nLen); double yAve = GetAve(y,nLen); double Sum = ...
  • 相关系数

    千次阅读 2020-07-06 23:31:51
    总体的均值——平均水平 总体的标准——偏离程度 相关系数 协方差: 协方差理解: 如果X、Y变化方向相同,乘积为正;如果X、Y变化方向一直保持相同,则协方差为正 如果X、Y变化方向一直相反,则协方差为负; ...
  • 均方根误差(RMSE),平均绝对误差(MAE),标准(Standard Deviation) RMSE Root Mean Square Error,均方根误差 是观测值与真值偏差的平方和与观测次数m比值的平方根。 是用来衡量观测值同真值之间的偏差 MAE ...
  • 计算相关系数用pandas,比如我想知道风速大小与风向紊乱(标准来衡量)之间的相关系数,下面是代码: import pandas as pd import pylab as plt #每小时的阵风风速平均值 all_gust_spd_mean_list = [8....
  • 统计中的方差(样本方差)是每个样本值与全体样本值的平均数之的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。 在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。...
  • matlab一键计算平均值与标准偏差

    千次阅读 2019-09-18 16:36:07
    最近在做实验时,要计算好几列数据的平均值和...这个程序计算的是矩阵中每一列的平均值和标准,如果读者要计算每一行的平均值和标准偏差,可以先对矩阵进行转置。 function [ms,mDCB]=Get_ms(DCB) [m,n]=...
  • 包括极 四分位 方差 标准 协方差 变异系数。 其中,协方差需要指定两个字段: 部分运行结果: df_apple_stock.Open 极: 691.29 df_apple_stock.High 四分位: 55.0 df_apple_stock.Low 标准: 140....
  • 骰子系数 matlab代码MRI分割 用于大脑异常分割的 U-Net 模型的实现. 有关原始源代码的更多信息,请查看作者编写的代码和代码。 数据集 用于训练该模型的数据集是 ,可在 Kaggle 上获得。 它包含来自 110 名患者的...
  • 标准,协方差与相关系数

    千次阅读 2019-04-04 11:16:07
    很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集...
  • 噪声系数

    千次阅读 2021-04-13 14:47:51
    噪声系数噪声分类噪声系数的定义电阻(无源器件)的输出噪声功率半导体器件放大器噪声因子噪声系数NF无源器件的噪声系数噪声系数的级联噪声系数对系统的影响 噪声分类 热噪声(Thermal Noise):最基本的一种噪声,就...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 48,257
精华内容 19,302
热门标签
关键字:

平均差系数