精华内容
下载资源
问答
  • 数据离散程度的衡量指标

    万次阅读 2020-12-12 14:32:17
    有些时候数据的离散程度能够让我们数据分析得出一些其他信息,理想情况下数据越集中那么效果越好。那么有没有指标来衡量?答案是有得,今天主要学习一下数据离散程度的衡量指标。1....

        有些时候数据的离散程度能够让我们数据分析得出一些其他信息,理想情况下数据越集中那么效果越好。那么有没有指标来衡量?答案是有得,今天主要学习一下数据离散程度的衡量指标。

        1.极差

         极差就是对一组数据的最大值减去最小值。但是因为极差是采用两头的数据,没有考虑中间的数据,所以代表性差。

        2.四分位差

          即数据样本的上四分之一位和下四分之一位的差值,放映了数据中间50%部分的离散程度,其数值越小表明数据越集中,数值越大表明数据越离散,同时由于中位数位于四分位数之间,故四分位差也放映出中位数对于数据样本的代表程度,越小代表程度越高,越大代表程度越低。但是取四分位数据的时候会因为数据的偏向问题影响,有可能上四分位和下四分位数据值相差太大,所以做为离散程度指标也欠妥。

        3.方差

    使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消。方差是最常用的衡量数据离散情况的统计量。

          4.标准差

         方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量

    5.平方差

    方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值。

    平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

            6.变异系数

     有时候因为标准差相同,我们无法判断具体那组数据更加离散,比如标准差都为4,一组数据量是1000,而另外一组数据为10,那么显然第一组数据更加平稳。所以为了避免标志差的没有具体的衡量联系,所以使用标准差与均值的比作为变异系数。当然对于均值为0的数据,变异系数也是无能为了。

    参考:https://blog.csdn.net/qsir/article/details/94619194?utm_medium=distribute.pc_relevant.none-task-blog-baidulandingword-6&spm=1001.2101.3001.4242

    展开全文
  • 衡量数据离散程度

    千次阅读 2019-02-27 20:43:55
    衡量数据的离散程度 我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全...常用的可以反映数据离散程度的统计量如下: 极差(Range)  极差也叫全距,指数据集中的最大值与...

    转载自https://www.cnblogs.com/kira2will/p/4357434.html

    衡量数据的离散程度

    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

    极差(Range)

      极差也叫全距,指数据集中的最大值与最小值之差:

    Range

      极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

    四分位距(interquartile range,IQR)

      我们通常使用箱形图来表现一个数据集的分布特征:

    box-plot

      一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:

     interquartile-range

      如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

    方差(Variance)

      方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:

    Variance

      方差是最常用的衡量数据离散情况的统计量。

    标准差(Standard Deviation)

      方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    Standard-Deviation

      基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

    平均差(Mean Deviation)

      方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

    Mean-Deviation

      平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

    变异系数(Coefficient of Variation,CV)

      上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

      变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:

    Coefficient-of-Variation

      变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

      

    展开全文
  • 数据离散程度的衡量

    千次阅读 2019-03-01 23:26:42
    常用的可以反映数据离散程度的统计量如下:极差(Range)  极差也叫全距,指数据集中的最大值与最小值之差:  极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,...

     我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

    极差(Range)
      极差也叫全距,指数据集中的最大值与最小值之差:
     

    1.png

     


      极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

    四分位距(interquartile range,IQR)
      我们通常使用箱形图来表现一个数据集的分布特征:

    四分位距.png

     

      一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:
     

    3.png

     

      如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

    方差(Variance)
      方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:
     

    Variance.png

     


      方差是最常用的衡量数据离散情况的统计量。

    标准差(Standard Deviation)
      方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    Standard-Deviation.png

     



      基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

    平均差(Mean Deviation)
      方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

    Mean-Deviation.png

     

      平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

    变异系数(Coefficient of Variation,CV)
      上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

      变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:
     

    Coefficient-of-Variation.png

     


      变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

      其实这篇文章只是对基础的统计知识的整理,可以从很多资料里面找到,很多统计学的书里面都是在“统计描述”章节中介绍这些基础的统计量,跟均值、中位数、众数等一起罗列,很少通过统计量的具体应用进行分类,而国外的一些书对知识点的介绍更多的是从实际应用的角度出发的,这里推荐《深入浅出统计学》这本书,虽然介绍的都是基础的统计知识,但可读性比较强,通俗易通,相比国内的一些统计学教程,更容易在大脑中建立起有效的知识索引,在具体应用中能够更加得心应手。
     

    展开全文
  • 数据离散程度的指标——标准差

    千次阅读 2020-06-29 07:54:08
    标准差(Standard Deviation) ...反应组内个体间的离散程度。 标准差的计算(Calculation of standard deviation) 标准差的计算公式为: σ=1N∑i=1N(xi−μ)2 \sigma=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\le...
    标准差(Standard Deviation)

    标准差,在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。反应组内个体间的离散程度。

    标准差的计算(Calculation of standard deviation)

    标准差的计算公式为:
    σ = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}} σ=N1i=1N(xiμ)2

    举个例子:农场种植的某种水稻,连续6年的年平均产量如下(单位:500g):

    品种第一年第二年第三年第四年第五年第六年
    产量900920900850910920

    第一步:计算均值
    用希腊字母μ表示水稻产量的均值
    μ = x 1 + x 2 + x 3 + x 4 + x 5 + x 6 6 \mu=\frac{x_{1}+x_{2}+x_{3}+x_{4}+x_{5}+x_{6}}{6} μ=6x1+x2+x3+x4+x5+x6
    第二步:计算每年产量与均值的差,并将结果平方
    ( x 1 − μ 1 ) 2 \left(x_{1}-\mu_{1}\right)^{2} (x1μ1)2
    ( x 2 − μ ) 2 \left(x_{2}-\mu\right)^{2} (x2μ)2
    ( x 3 − μ 1 ) 2 \left(x_{3}-\mu_{1}\right)^{2} (x3μ1)2
    ( x 4 − μ 1 ) 2 \left(x_{4}-\mu_{1}\right)^{2} (x4μ1)2
    ( x 5 − μ 1 ) 2 \left(x_{5}-\mu_{1}\right)^{2} (x5μ1)2
    ( x 6 − μ 1 ) 2 \left(x_{6}-\mu_{1}\right)^{2} (x6μ1)2
    第三步:计算将差值平方后的均值
    1 N [ ( x 1 − μ ) 2 + ( x 2 − μ ) 2 + ( x 3 − μ ) 2 + ( x 4 − μ ) 2 + ( x 5 − μ ) 2 + ( x 6 − μ ) 2 ] \frac{1}{N}\left[\left(x_{1}-\mu\right)^{2}+\left(x_{2}-\mu\right)^{2}+\left(x_{3}-\mu\right)^{2}+\left(x_{4}-\mu\right)^{2}+\left(x_{5}-\mu\right)^{2}+\left(x_{6}-\mu\right)^{2}\right] N1[(x1μ)2+(x2μ)2+(x3μ)2+(x4μ)2+(x5μ)2+(x6μ)2]
    第四步:将结果开平方
    1 N [ ( x 1 − μ ) 2 + ( x 2 − μ ) 2 + ( x 3 − μ ) 2 + ( x 4 − μ ) 2 + ( x 5 − μ ) 2 + ( x 6 − μ ) 2 ] \sqrt{\frac{1}{N}\left[\left(x_{1}-\mu\right)^{2}+\left(x_{2}-\mu\right)^{2}+\left(x_{3}-\mu\right)^{2}+\left(x_{4}-\mu\right)^{2}+\left(x_{5}-\mu\right)^{2}+\left(x_{6}-\mu\right)^{2}\right]} N1[(x1μ)2+(x2μ)2+(x3μ)2+(x4μ)2+(x5μ)2+(x6μ)2]

    DONE!

    且慢…还有

    样本标准差

    有时候我们的数据只是庞大的数据中心的一个样本
    这种情况下仍可以计算标准差。
    但我们用样本数据来对整个数据的情况进行估算,对样本数据的标准差计算公式做一些调整
    s = 1 N − 1 ∑ i = 1 N ( x i − x ˉ ) 2 s=\sqrt{\frac{1}{N-1} \sum_{i=1}^{N}\left(x_{i}-\bar{x}\right)^{2}} s=N11i=1N(xixˉ)2
    最重要的变化是将最上面的公式中的N换成了N-1,N-1的使用被称为“贝塞尔校正”。

    Why Take a Sample?
    为什么要抽样计算?
    Mostly because it is easier and cheaper.
    主要是因为抽样计算的方式比较简单,成本更低一些。

    但是当我们做采样统计的时候,我们就会损失一些数据的精确性。
    展开全文
  • 统计学基础知识之数据离散程度描述集中趋势指标是数据的一个特征,数据的另一个特征是离散程度指标。在统计分析中,离散程度指标可以说明集中趋势指标的代表性如何,还可在统计推断时用来计算误差的大小。另外,离散...
  • 本文介绍 Python数据分析师 统计学中需要掌握离散程度度量 部分的内容。 离散程度度量 1.离中趋势 数据分布的另一个重要特征。 反映各变量值远离其中心值的程度(离散程度)。 从另一个侧面说明了集中趋势测度值的...
  • 极差:极差为数据样本中的最大值与最小值的差值,是所有方式中最为简单的一种,它反应了数据样本的数值范围,是最基本的衡量数据离散程度的方式,受极值影响较大。如在数学考试中,一个班学生得分的极差...
  • 变异系数/差异系数(coefficient of variation): 是一种相对差异量数(不带测量单位),因而适用...σ反映了一个数据集的离散程度,但其运算结果与测量单位有关联,如需要比较两组不同测量单位的σ,需要使用CV ...
  • 极差:极差为数据样本中的最大值与最小值的差值,是所有方式中最为简单的一种,它反应了数据样本的数值范围,是最基本的衡量数据离散程度的方式,受极值影响较大。如在数学考试中,一个班学生得分的极差为60,放映了...
  • 1.2描述性统计-离散程度

    千次阅读 2019-07-16 23:26:00
    方差:样本各数据与均值(数学期望)之差的平方的平均数,反映的是样本与其...标准差能体现一个数据集的离散程度,平均数相同的两组数,标准差未必相同。公式: 标准差 方差与标准差用途:方差与我们要处理的...
  • 简析方差、标准差与数值离散程度

    千次阅读 2019-09-25 19:04:42
     如有一组数据: [1,2,3,4,5], 其均值就是 (1+2+3+4+5) / 5 = 3  所以其方差为: ((1-3)^2 + (2-3)^2 +(3-3)^2 + (4-3)^2 + (5-3)^2) /( 5+1) = 1.6666....   标准差(standard devi...
  • 1.2 指标特点优点缺点均值充分利用所有数据,包含最多信息量,适用性强,应用最为广泛极易受到异常值的影响,产生数据倾斜中位数避免异常值的影响不敏感众数能够很好反应数组的集中趋势当数组没有明显的集中趋势时,...
  • 如何衡量离散程度

    2016-05-20 15:14:00
     离散系数,离散系数又称变异系数,是统计学当中的常用统计指标,主要用于比较不同水平的变量数列的离散程。  离散系数指标有:全距(极差)系数、平均差系数、方差系数和标准差系数等。常用的是标准差系数,用CV...
  • 评价数据离散度方法(转)

    千次阅读 2018-01-08 17:11:00
    一组数据怎样去评价和量化它的离散度,有很多种方法: 标准差极差 最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分...
  • 常用的可以反映数据离散程度的统计量如下: 极差(Range)  极差也叫全距,指数据集中的最大值与最小值之差:  极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是...
  • 对一组一维数据(实验结果)的稳定程度进行评价,以图示方式显示其分布情况。
  • 数据学习第二周笔记

    2019-11-10 18:29:04
    集中趋势是指一组数据项某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。 1、 众数 ① 众数是一组数据中出现次数最多的变量值(不具备唯一性),众数主要用于测度分类数据的集中趋势 ② 一般情况下,只有...
  • 连续数据离散

    千次阅读 2019-11-10 22:32:46
    离散化的优势 在特征工程中,我们常常需要对连续型特征进行离散化处理,下面对离散化的优势做简单总结: 映射到高维度空间,用linear的LR更快,且兼具更好的分割性 稀疏化,0,1向量内积乘法运算速度快,计算结果方便存储...
  • 01 数据的描述性统计欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...
  • 此时我们主要用到两个统计学工具:集中趋势和离散趋势。 1. 集中趋势 集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,...
  • 数据统计入门之一

    千次阅读 2016-08-17 10:57:03
    当我们拿到一组数据之后,我们如何来了解数据的基本信息呢,在统计学上,除了使用图表的方式外,还可以通过找到能反应数据分布的特征值来做这件事请。数据的分布特征,大致可以从一下三个方面进行度量:集中趋势;...
  • 统计学——数据分布特征与适用的描述统计量数据分布特征1、集中趋势(1)分类数据:众数(2)顺序数据:中位数(3)数值型数据:平均数2、离散程度(1)分类数据:异众比率(2)顺序数据:四分位差(3)数值型数据:...
  • 对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度、离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很...
  • 知识点:数据分布特征的描述 1、变量集中趋势的测定 变量在不同个体或不同时间条件下具体表现出来的数据是不同的,不过众多个体的数据常常会呈现出在一定范围内围绕某个中心而波动的分布特征。 衡量数据集中趋势...
  • 二、数据分布特征的测度

    千次阅读 2021-01-29 20:52:56
    2、离散程度:各数据远离其中心值的趋势;【极差、四分位差、方差、标准差、离散系数】 2、分布形状:数据分布偏斜程度和峰度【偏态系数、峰态系数】 集中趋势的度量 一、平均数(mean) 一组数据相加后除以数据的...
  • 反应一组数据离散程度,在Excel中用什么图来表示比较好,比较直观。雷达图Excel 离散度怎么表示(i=1,2,3,4,5) 坐标大致形关系。可利小二乘法求出斜率、截距 以及非线性度。约定 用小写的x和y表示各点坐标...
  • 数据分析方法论(一)

    万次阅读 2018-01-11 22:59:11
    数据分析方法论主要有两大块: 1)统计分析方法论: 描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等; 2)营销管理分析方法论: SWOT、4P、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,538
精华内容 3,415
关键字:

反映数据的离散程度