精华内容
下载资源
问答
  • 衡量数据的离散程度

    千次阅读 2019-02-27 20:43:55
    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计...

    转载自https://www.cnblogs.com/kira2will/p/4357434.html

    衡量数据的离散程度

    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

    极差(Range)

      极差也叫全距,指数据集中的最大值与最小值之差:

    Range

      极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

    四分位距(interquartile range,IQR)

      我们通常使用箱形图来表现一个数据集的分布特征:

    box-plot

      一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:

     interquartile-range

      如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

    方差(Variance)

      方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:

    Variance

      方差是最常用的衡量数据离散情况的统计量。

    标准差(Standard Deviation)

      方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    Standard-Deviation

      基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

    平均差(Mean Deviation)

      方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

    Mean-Deviation

      平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

    变异系数(Coefficient of Variation,CV)

      上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

      变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:

    Coefficient-of-Variation

      变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

      

    展开全文
  • 我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计...

    衡量数据的离散程度

    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

    极差(Range)

      极差也叫全距,指数据集中的最大值与最小值之差:

    Range

      极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

    四分位距(interquartile range,IQR)

      我们通常使用箱形图来表现一个数据集的分布特征:

    box-plot

      一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:

     interquartile-range

      如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

    方差(Variance)

      方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:

    Variance

      方差是最常用的衡量数据离散情况的统计量。

    标准差(Standard Deviation)

      方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    Standard-Deviation

      基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

    平均差(Mean Deviation)

      方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

    Mean-Deviation

      平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

    变异系数(Coefficient of Variation,CV)

      上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

      变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:

    Coefficient-of-Variation

      变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

      其实这篇文章只是对基础的统计知识的整理,可以从很多资料里面找到,很多统计学的书里面都是在“统计描述”章节中介绍这些基础的统计量,跟均值、中位数、众数等一起罗列,很少通过统计量的具体应用进行分类,而国外的一些书对知识点的介绍更多的是从实际应用的角度出发的,这里推荐《深入浅出统计学》这本书,虽然介绍的都是基础的统计知识,但可读性比较强,通俗易通,相比国内的一些统计学教程,更容易在大脑中建立起有效的知识索引,在具体应用中能够更加得心应手。


     » 本文采用 BY-NC-SA 协议,转载请注明来源:网站数据分析 » 《衡量数据的离散程度》

    转载于:https://www.cnblogs.com/kira2will/p/4357434.html

    展开全文
  • 我们知道了方差是用来评价一组数据的离散程度,然而他与原数据 不处在同一个级数下,往往很难理解数据的离散程度,这个时候就需要引入 标准偏差 和变异系数,让这个指标 归一化,能更简单的去评价数据的离散程度。...

    我们知道了方差是用来评价一组数据的离散程度,然而他与原数据 不处在同一个级数下,往往很难理解数据的离散程度,这个时候就需要引入 标准偏差 和变异系数,让这个指标 归一化,能更简单的去评价数据的离散程度。

    标准偏差(Standard Deviation)

    定义

    标准差(又称标准偏差、均方差,英语:Standard Deviation,缩写SD),为方差开算术平方根,反映组内个体间的离散程度。1

    2标准偏差^2 = 方差


    σ2=1ni=1n(xixˉ)2.方差: \sigma^2= \frac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\bar x)^2\,.
    SDσ=1ni=1n(xixˉ)2.标准偏差:SD(\sigma)= \sqrt{\frac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\bar x)^2\,}.


    根号里的式子其实就是方差的计算式,xˉ\bar x 是数据的平均值

    如何理解

    统计学在68-95-99法则里经常会用到标准偏差。
    可以理解为分别有68%,95%,99.7%的几率在平均值±1标准偏差μ ± 1σ,μ ± 2σ,μ ± 3σ的范围内发生概率事件。

    • 如果一组数据服从正态分布,标准偏差能简单的表示这组数据出现某个范围的发生概率。

    在这里插入图片描述

    名字的由来

    标准偏差的名字首先是,

    • 数据和平均值的差表示为 偏差,由于偏差的和有可能 \le 0 ,为了让偏差来代表整组数据的离散程度,且不会出现小于0的值。
    • 用偏差平方并取平均值,也就是 方差
    • 把平方去掉,让这个指标归一化(标准),也就的来了标准偏差。

    小结

    • 方差和标准偏差都代表了数据的离散程度
    • 方差:(各数据和平均的差)的平方的均值
    • 标准偏差:方差的平方根
    • 标准偏差和原始数据在 同一级数下,所以更方便使用和评价。


    知识共享许可协议
    本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。


    1. WIKIPEDIA ↩︎

    展开全文
  • 在统计学中,把反映现象总体中各个体变量值之间差异程度指标称为离散程度,也称为离中趋势。描述一组数据离散程度常用极差、四分位差、方差和标准差、变异系数等。极差极差(Range)也叫全距,是一组数据中最大...

    在统计学中,把反映现象总体中各个体的变量值之间差异程度的指标称为离散程度,也称为离中趋势。

    描述一组数据离散程度常用极差、四分位差、方差和标准差、变异系数等。

    极差

    极差(Range)也叫全距,是一组数据中最大值与最小值之差,即:R=max(Xi)-min(Xi)

    某班级40名同学统计学的考试成绩原始资料如表求考试成绩极差。

    5c59e8e4e81ead0270d27f758c3358cd.png

    在A11单元格输入表格名称“极差”。

    c2254a60bd6c105681591e7a07690cbe.png

    单击B11单元格,在编辑栏中输入“=MAX(A2:E9)-MIN(A2:E9)”,结束后按回车键。

    188b556fd8078ecbc844ed1681307e9f.png

    四分位差

    四分位差(Interquartile Range)是指第3个四分位数与第1个四分位数之差,也称为内距或四分间距,用Qr表示。四分位差的计算公式为:Qr= Q3- Q1。

    四分位差反映了中间50%数据的离散程度。其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值影响,因此,在某种程度上弥补了极差的一个缺陷。

    对应组数据,Q1和Q3的计算公式为

    b629d699ebe0cdc9beb573192fb0a816.png

    其中,L为四分位数所在组的下界,F为至四分位数所在组的累积频数,f为四分位数所在组的频数,i为四分位数所在组的宽度。

    对应非组数据,在Excel中,可以利用QUARTILE函数求非组数据的四分位数。

    函数语法:QUARTILE(array, quart)

    ● array为需要求得四分位数值的数组或数字型单元格区域。如果数组为空,函数QUARTILE返回错误值“#NUM! ”。

    ● quart决定返回哪一个四分位值。如果quart不为整数,则被截尾取整;如果quart<0,或quart>4,函数QUARTILE将返回错误值“#NUM! ”。

    使用QUARTILE函数求非组数据四分位数。

    486635d92f3134e73026a104b5137bf6.png

    求第1个四分位数。单击E6单元格,在编辑栏中输入“=QUARTILE(B2:B13,1)”,按回车键结束。

    9f369d1d44fa348941f07d5258a9ce2e.png

    求第3个四分位数。单击E7单元格,在编辑栏中输入“=QUARTILE(B2:B13,3)”,按回车键。

    2ff01e116c4b1cfda8a2dbe618ce0f79.png

    求四分位差。单击E8单元格,在编辑栏中输入“=E7-E6”,完成后按回车键。

    9efe597734182cdfcdc1032b5e17dcc8.png
    展开全文
  • 数据离散程度的衡量

    2019-03-01 23:26:42
    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计...
  • 在统计学中,把反映现象总体中各个体变量值之间差异程度指标称为离散程度,也称为离中趋势。描述一组数据离散程度常用极差、四分位差、方差和标准差、变异系数等。极差极差(Range)也叫全距,是一组数据中最大值...
  • 6.3从统计图分析数据的集中趋势 学习准备1条形统计图的特征能清楚地表示出每个项目的 2折线统计图的特征能清楚地反映事物的 3扇形统计图的特征能清楚地表示出各部分在总体中所占的 . 学习过程阅读教材P145-146页 ...
  • 统计学原理 离散程度的度量

    千次阅读 2020-05-10 16:22:42
    不同类型的数据有不同的离散程度测度值 离散程度的度量分类数据:异众比率顺序数据:四分位差数值型数据:方差和标准差1. 极差 (range)2. 平均差 (mean deviation)3. 方差和标准差 (variance and standard ...
  • 变异系数/差异系数(coefficient of variation): 是一种相对差异量数(不带测量单位),因而适用...σ反映了一个数据的离散程度,但其运算结果与测量单位有关联,如需要比较两组不同测量单位的σ,需要使用CV ...
  • 变异系数前面介绍的极差、方差和标准差都是反映一组...变异系数(coefficient of variation)也称离散系数、标准差系数或差异系数,是测度数据离散程度的相对指标。它是一组数据的标准差与其相应的平均值之比,用CV...
  • 变异系数前面介绍的极差、方差和标准差都是反映一组...变异系数(coefficient of variation)也称离散系数、标准差系数或差异系数,是测度数据离散程度的相对指标。它是一组数据的标准差与其相应的平均值之比,用CV...
  • 均方差也叫标准差能反映一个数据的离散程度。在Excel表格中,某些情况下是需要计算出方差的,然后以此绘制出图表,客观的表示出偏移程度,至于方差怎么计算在本文将会为大家详细介绍下。Excel2013中通过公式计算...
  • 1.2描述性统计-离散程度

    千次阅读 2019-07-16 23:26:00
    方差:样本各数据与均值(数学期望)之差的平方的平均数,反映的是样本与其...标准差能体现一个数据的离散程度,平均数相同的两组数,标准差未必相同。公式: 标准差 方差与标准差用途:方差与我们要处理的...
  • 内容导入: 大家好,这里是每天分析一点点。...离散趋势在统计学中是指一组数据在某一中心值分散的程度,它反映了各个数据远离其中心点的程度,并且从另一个方面说明了集中趋势测度值代表程度。描述数据离散...
  • 人教版八下数学第二十章《数据的分析》辅导(5)数据的波动程度前面我们已经知道,平均数,中位数和众数都可以反映一组数据的集中趋势它们各有自己的特点,能够从不同的角度提供信息.今天我们要研究如何利用方差来刻画...
  • 标准差:反映数据的离散程度,数据离散度越大,标准差越大。 通过标准差,将协方差的值约束到一定范围内,去除协方差运动幅度的影响,只保留运动的相似度(相关度),这就是相关系数。 >0 and <=1 正相关; ...
  • 1. 反映客观现象的数据 2. 处理并使用图标显示 3. 分析概括规律性数量特征 二、推断统计学 1. 根据样本数据推断总体特征 2. 推断统计学在描述统计学基础之上 3. 分析概括规律性数量特征   泛化误差公.....
  • Python数据科学:正态分布与t检验

    千次阅读 2019-05-11 08:23:52
    昨天介绍了两连续变量的相关分析,今天来说说连续变量与分类变量(二分)之间的检验。 通俗的来讲,就是去发现变量间的关系。 连续变量数量为一个,分类变量...方差,标准差反映数据的离散程度,其值越大,数...
  • 昨天介绍了两连续变量的相关分析,今天来说说连续变量与分类变量(二分)之间的检验。...方差,标准差反映数据的离散程度,其值越大,数据波动越大。/ 01 / 正态分布在实际情况里,总体的信息往往难以获取...
  • 轻松学统计--中国mooc5

    2019-11-29 14:59:32
    1.离散系数的定义:从相对数角度来反映数据的离散程度。 2.离散系数的特点: A.可用于两个总体平均水平不同时; B.可用于两个总体性质不同或计量单位不同时。 3.分类 标准差系数(很多时候直接称其为离散系数):一...
  • 临海中学 初二数学备课组 抽样 总体个体 样本和样本容量 用样本估计总体 平均数 众数 中位数 方差 标准差 反映数据集中 程度的统计量 反映数据离散 程度的统计量 分析判断 预测决策 数据分析 数据的代表 数据的波动 ...
  • 临海中学 初二数学备课组 抽样 总体个体 样本和样本...数 数据的代表 中位数 用 据 样 分 众数 本 析 来 估 计 总 数据的波动 极差 体 方差 反映数据离散 程度的统计量 用样本 平均数 估计总 体平均 数 用样本方 差估计
  • 2)分布的离散程度,反映各数据远离其中心值的趋势; 3)分布的形状,反映数据分布的偏态和峰态。 集中趋势的度量 分类数据:众数 一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势,当然也适用于...
  • 分布的离散程度:反映各数据远离其中心值的趋势; 分布的形状:反映数据分布的偏态和峰态 集中趋势的度量 集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。 1. 分类数据:众数 ...
  • 2.分布的离散程度 3.分布的形状,反映数据分布的偏态和峰态。 集中趋势的度量 集中趋势central tendency指一组数据向某一中心值靠拢或聚集的程度,反映了一组数据中心点的位置所在。 分类数据:众数 众数mode一组...

空空如也

空空如也

1 2 3 4 5 ... 11
收藏数 201
精华内容 80
关键字:

反映数据的离散程度