精华内容
下载资源
问答
  • 衡量数据的离散程度

    千次阅读 2019-02-27 20:43:55
    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计...

    转载自https://www.cnblogs.com/kira2will/p/4357434.html

    衡量数据的离散程度

    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

    极差(Range)

      极差也叫全距,指数据集中的最大值与最小值之差:

    Range

      极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

    四分位距(interquartile range,IQR)

      我们通常使用箱形图来表现一个数据集的分布特征:

    box-plot

      一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:

     interquartile-range

      如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

    方差(Variance)

      方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:

    Variance

      方差是最常用的衡量数据离散情况的统计量。

    标准差(Standard Deviation)

      方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    Standard-Deviation

      基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

    平均差(Mean Deviation)

      方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

    Mean-Deviation

      平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

    变异系数(Coefficient of Variation,CV)

      上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

      变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:

    Coefficient-of-Variation

      变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

      

    展开全文
  • 数据离散程度的衡量

    千次阅读 2019-03-01 23:26:42
    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计...

     我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

    极差(Range)
      极差也叫全距,指数据集中的最大值与最小值之差:
     

    1.png

     


      极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

    四分位距(interquartile range,IQR)
      我们通常使用箱形图来表现一个数据集的分布特征:

    四分位距.png

     

      一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:
     

    3.png

     

      如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

    方差(Variance)
      方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:
     

    Variance.png

     


      方差是最常用的衡量数据离散情况的统计量。

    标准差(Standard Deviation)
      方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    Standard-Deviation.png

     



      基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

    平均差(Mean Deviation)
      方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

    Mean-Deviation.png

     

      平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

    变异系数(Coefficient of Variation,CV)
      上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

      变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:
     

    Coefficient-of-Variation.png

     


      变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

      其实这篇文章只是对基础的统计知识的整理,可以从很多资料里面找到,很多统计学的书里面都是在“统计描述”章节中介绍这些基础的统计量,跟均值、中位数、众数等一起罗列,很少通过统计量的具体应用进行分类,而国外的一些书对知识点的介绍更多的是从实际应用的角度出发的,这里推荐《深入浅出统计学》这本书,虽然介绍的都是基础的统计知识,但可读性比较强,通俗易通,相比国内的一些统计学教程,更容易在大脑中建立起有效的知识索引,在具体应用中能够更加得心应手。
     

    展开全文
  • 数据分析方法论(一)

    万次阅读 2018-01-11 22:59:11
    数据分析方法论主要有两大块: 1)统计分析方法论: 描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等; 2)营销管理分析方法论: SWOT、4P、...
    数据分析方法论主要有两大块:
    
    1)统计分析方法论:

    描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等;

    2)营销管理分析方法论:

    SWOT、4P、PEST、SMART、5W2H、User behavior等。

    一、统计分析方法论:
    1.描述统计(Descriptive statistics):
    描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。
    目的是描述数据特征,找出数据的基本规律。
    描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 ?
    1.1、数据的频数分析:利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。
    1.2、数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
    1)平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。
    2)中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。
    3)众数:是指在数据中发生频率最高的数据值。
    如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。
    1.3、数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。
    1.4、数据的分布:常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。
    1.5、绘制统计图:用图形的形式来表达数据。

    2.假设检验:是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。

    3.相关分析:相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析

    4.方差分析(Analysis of Variance,简称ANOVA):又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

    5.回归分析:线性回归,曲线回归,二元logistic回归,多元logistic回归。
    5.1、线性回归:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
    5.2、曲线回归:两个变数间呈现曲线关系的回归。
    5.3、二元logistic回归、多元logistic回归:Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。
    因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。

    6.聚类分析:主要解决的是在“物以类聚、人以群分”,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。
    6.1、k-means:从N个文档随机选取K个文档作为质心,对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类,重新计算已经得到的各个类的质心,迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。
    6.2、分层:层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。
    6.3、FCM:是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。
    展开全文
  • 本文介绍 Python数据分析师 统计学中需要掌握离散程度度量 部分的内容。 离散程度度量 1.离中趋势 数据分布的另一个重要特征。 反映各变量值远离其中心值的程度(离散程度)。 从另一个侧面说明了集中趋势测度值的...

    内容介绍

    数据分析师的 全部文章目录

    看懂Python数据分析师,清华大学技术顾问带你一起从零做起

    本文介绍 Python数据分析师 统计学中需要掌握离散程度度量部分的内容。

    不懂统计学的数据分析师都不是好的数据分析师,多数的数据分析师课程都讲Python的应用,又不是开发代码敲的那么好有什么用?不学统计的知识是没有办法做数据分析师的,本专栏的文章主要以概念和应用举例为主,跳过能让人劝退的学术推导的内容,让大家在愉快中学习统计。

    可以学习到以下知识:

    1. 数据特征 中的离中趋势、异众比率。
    2. <
    展开全文
  • 变异系数/差异系数(coefficient of variation): 是一种相对差异量数(不带测量单位),因而适用...σ反映了一个数据集的离散程度,但其运算结果与测量单位有关联,如需要比较两组不同测量单位的σ,需要使用CV ...
  • 在实际业务中,我们经常会遇到频率类事件的假设检验,这类数据包括:留存率、点击率、转化率。我们甚至可以把大多数AB测试类的场景都理解为「频率的假设检验」。本文试图创建一个一般性的频率假设检验工具的EXCEL...
  • 点击上方 "云祁QI"关注,星标或置顶一起成长如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来。据统计,每天大约有超过2.5亿亿字节的各种各样数据...
  • ↑↑↑关注后"星标"Datawhale每日干货&每月组队学习,不错过Datawhale干货来源:数据派THU,编辑:数据Seminar 本文约10500...
  • Python3对股票数据进行分析

    万次阅读 多人点赞 2019-04-19 10:40:17
    二、股票数据 三、股票数据分析 1、导入股票时间序列数据 2、绘制股票成交量的时间序列图 3、绘制股票收盘价和成交量的时间序列图 3、绘制K线图(蜡烛图) (1)K线图理论 (2)K线图绘制 4、股票指标相关性...
  • 一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。...
  • 重点关注用户如何快速的完成数据分析,可以直观的反应业务模型中的业务问题,需要大量的数据预处理、数据冗余,有较好的大规模复杂查询的响应性能。 1、为什么要进行数据仓库建模 性能:良好的模型能帮我们快速查询...
  • 数据分析统计学基础之数据的趋势

    千次阅读 2019-05-15 18:01:25
    数据的集中趋势就是一组数据数据的中心值靠拢的程度。   集中趋势是统计学中的重要统计分析指标,常用的有平均数,中位数和众数等。 1.1平均数   平均数为集中趋势的最常用测度值,目的是确定一组数据的均衡点...
  • 数据分析之数据预处理、分析建模、可视化

    万次阅读 多人点赞 2020-08-08 15:03:21
    数据预处理:数据清洗、数据集成、数据规约、数据变换; 数据分析模型:对比分析、漏斗分析、留存分析、A/B测试、用户行为路径分析、用户分群、用户画像分析等; 数据分析方法:描述统计、假设检验、信度分析、相关...
  • 用推论统计方法进行数据处理,最后会得出类似这样儿的结论:“研究发现,大学毕业生组的成绩显著高于初中毕业生组的成绩,二者在0.01水平上具有显著性差异,说明大学毕业生的一些智力测验成绩优于中学毕业生组。...
  • 数据分析面试知识点总结(更新中...)

    万次阅读 多人点赞 2019-05-03 18:12:58
    https://blog.csdn.net/wypersist/article/details/80114709 (海量数据处理问题) 怎么做恶意刷单检测 分类问题用机器学习方法建模解决,我想到的特征有: 1)商家特征:商家历史销量、信用、产品类别、发货快递...
  • FMRI数据分析与处理

    万次阅读 多人点赞 2016-12-21 13:22:23
    近年来,血氧水平依赖性磁共振脑功能成像(Blood oxygenation level-dependent functional magnetic resonance imaging, BOLD-...图像数据的后处理技术成为fMRI中的关键环节一、功能图像数据的性质功能磁共振数据包括
  • 二、数据分布特征的测度

    千次阅读 2021-01-29 20:52:56
    1、集中趋势:各数据向中心值靠拢或聚集的程度;【平均数、中位数、四分位数、众数】 2、离散程度:各数据远离其中心值的趋势;【极差、四分位差、方差、标准差、离散系数】 2、分布形状:数据分布偏斜程度和峰度...
  • 在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大。而我们的分析目的也...
  • 实时数据仓库首先是个数据仓库,只是它优先考虑数据的时效性问题。因此本篇开头将介绍业界公认的数据仓库定义,它和操作型数据库应用的区别,以及为什么我们需要数据仓库。 在对数据仓库的概念有了基本的认识后,有...
  • 大数据、小数据与数字社会

    千次阅读 2019-01-06 11:14:42
    大数据技术的出现带给人们的思维方式、...”与大数据相比,小数据就是个体化的数据,相对于大数据分析,小数据更注重的是精确和实用。本期小锐带大家一起走进大数据的世界,在大数据中看小数据。 很多初学者,对...
  • 随机效应与固定效应&面板数据回归

    万次阅读 多人点赞 2014-11-13 21:07:45
    当然,二次惩罚还有一个特性,如:计算简便,能选择相关的predictors,对前面的几个主成分压缩程度较小等。 根据面板数据的特性,在回归模型的设定的有效性问题上,我们需要检验混合估计模型、固定效应模型(Fixed-...
  • fMRI数据分析处理原理及方法

    万次阅读 2016-12-05 16:01:19
    近年来,血氧水平依赖性磁共振脑功能成像(Blood oxygenation level-dependent functional magnetic resonance imaging, BOLD-fMRI)技术得到极快的发展,除了与扫描硬件、...图像数据的后处理技术成为fMRI中的关键环节
  • 详细说来,聚类本质上利用的是多组值间两两的差异程度或者相似程度(比如欧式距离、相关系数等)作为依据,对多组值进行层级聚类,以最终得到样本间聚类的远近关系。 两组人12个基因表达的聚类图 那么什么聚类有什么...
  • 作者丨修鹏李建议阅读需50分钟如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且...
  • Hadoop之数据仓库概述

    千次阅读 多人点赞 2021-07-10 08:28:08
    大家好久不见了,最近实习比较忙,但也在实习过程中发现了自己的不足,今天我们就来讲一讲数据仓库的建设(大厂数据开发实习)有很完整的数仓体系,所以这方面的知识是需要进行系统学习的。有必要说明,本文是在流行...
  • 供应链管理,阿米巴管理,能源化工行业四大业务特点,六大管理现状,管理经营数据化五大问题,能源化工行业数据四大特点,基于能源行业业务、管理、数据特点的数据决策管理支持方案(PC端集成、移动办公、微信集成、...
  • 读透《华为数据之道》

    千次阅读 2020-12-28 07:30:00
    这是傅一平的第361篇原创【提醒:公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看,或者把本号置顶】正文开始很多年前阿里出了《大数据之路》一书,在数据技术层面给出了有价值的指...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,940
精华内容 9,976
关键字:

反映数据的差异程度