精华内容
下载资源
问答
  • 本文介绍 Python数据分析师 统计学中需要掌握离散程度度量 部分的内容。 离散程度度量 1.离中趋势 数据分布的另一个重要特征。 反映各变量值远离其中心值的程度(离散程度)。 从另一个侧面说明了集中趋势测度值的...

    内容介绍

    本文介绍 Python数据分析师 统计学中需要掌握离散程度度量部分的内容。

    不懂统计学的数据分析师都不是好的数据分析师,多数的数据分析师课程都讲Python的应用,又不是开发代码敲的那么好有什么用?不学统计的知识是没有办法做数据分析师的,本专栏的文章主要以概念和应用举例为主,跳过能让人劝退的学术推导的内容,让大家在愉快中学习统计。

    可以学习到以下知识:

    1. 数据特征 中的离中趋势、异众比率。
    2. 离散程度的测度 中四分位差、极差、平均差、方差和标准差。
    3. 数据观测 中自由度。
    4. 数据相对位置的度量 中标准分数、离散系数。
    5. 数据分布的测度 中偏态和峰态。

    离中趋势

    是数据分布的另一个重要特征,反映各变量值远离其中心值的程度(离散程度),并且从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值。
    在这里插入图片描述

    异众比率

    是对分类数据离散程度的测度,对非众数组的频数占总频数的比例(即非众数和/总数),用于衡量众数的代表性(比例越小越有代表性)。
    在这里插入图片描述

    四分位差

    是对顺序数据离散程度的测度,也称为内距或四分间距。上四分位数与下四分位数之差公式反映了中间50%数据的离散程度。并且不受极端值的影响,用于衡量中位数的代表性。
    在这里插入图片描述

    极差

    是一组数据的最大值与最小值之差。是离散程度的最简单测度值,易受极端值影响,未考虑数据的分布状态。
    在这里插入图片描述

    平均差

    是各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少(最小离差回归)。
    在这里插入图片描述

    方差和标准差

    是数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。

    方差和标准差 :分为总体和样本的区别,是根据不同的数据计算所得。
    在这里插入图片描述

    自由度

    是指数据个数与附加给独立的观测值的约束或限制的个数之差。是指一组数据中可以自由取值的个数。当样本数据的个数为n时,若样本平均数确定后,则附加给 n 个观测值的约束个数就是 1 个,因此只有 n-1 个数据可以自由取值,其中必有一个数据不能自由取值。按这一逻辑,如果对 n 个观测值附加的约束个数为 k 个,自由度则为n-k。

    标准分数

    是对数据一种相对位置的度量,也称标准化值。对某一个值在一组数据中相对位置的度量。可用于判断一组数据是否有离群点(outlier),用于对变量的标准化处理。
    在这里插入图片描述

    离散系数

    是标准差与其相应的均值之比。是对数据相对离散程度的测度消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较。
    在这里插入图片描述
    一般来说离散系数越小,说明平均指标的代表性越好,离散系数越大,平均指标的代表性越差。

    偏态和偏态系数

    是数据分布偏斜程度的测度。

    • 偏态系数= 0为对称分布
    • 偏态系数> 0为右偏分布
    • 偏态系数< 0为左偏分布
      在这里插入图片描述
    • 偏态系数大于1或小于-1,被称为高度偏态分布。
    • 偏态系数在0.5~1或-1~-0.5之间,被称为中等偏态分布。
    • 偏态系数越接近0,偏斜程度就越低。

    一般来说,偏态反应了数据的集中趋势,根据具体情况确定。
    在这里插入图片描述

    峰态和峰态系数

    数据分布扁平程度的测度。
    在这里插入图片描述

    • 峰态系数=0扁平峰度适中
    • 峰态系数<0为扁平分布
    • 峰态系数>0为尖峰分布

    一般来说,峰态反应了数据分布趋势。
    在这里插入图片描述

    数据分布特征和描述统计量

    在这里插入图片描述

    展开全文
  • 极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据。 它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极...

    极差

    极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据。

    它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极差是其中一种。极差不能用做比较,单位不同,方差能用做比较,因为都是个比率。

    计算公式:

    最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。极差=最大标志值—最小标志值 [1] 

    R=xmax-xmin(其中,xmax最大值,xmin为最小值)

     

    平均偏差

    平均偏差是数列中各项数值与其算术平均数的离差绝对值的算术平均数。平均偏差是用来测定数列中各项数值对其平均数离散程度的一种尺度。平均偏差可以分为简单平均偏差加权平均偏差

    在统计中,如果要反映出所有原数据间的差异,就要在各原数据之间进行差异比较,当原数据较多时,进行两两比较就很麻烦,因此需要找到一个共同的比较标准,取每个原数据值与标准值进行比较。这个标准值就是算术平均数。

    平均偏差就是每个原数据值与算术平均数之差的绝对值的均值,用符号A.D.(average deviation)表示。平均偏差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须将离差取绝对数来消除正负号。

    平均偏差是反映各标志值与算术平均数之间的平均差异。平均偏差越大,表明各标志值与算术平均数的差异程度越大。该算术平均数的代表性就越小;平均偏差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。

    平均偏差又有简单平均偏差和加权平均偏差之分。

     

    计算公式:

    • 简单平均偏差

    如果原数据未分组,则计算平均偏差的公式为:

    该式称为简单平均偏差。

    • 加权平均偏差

    在分组情况下,平均偏差的计算公式为:

    该式称为加权平均偏差。 [1] 

     

    方差和标准差

    方差

    方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。

     

    统计学意义:

          当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 [6] 

    样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。

    方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为:

    标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

     

    标准差

          标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

     

     

     

    变异系数

          变异系数(Coefficient of Variation):当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的对比。CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差,标准差和方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。

     

    定义:

    概率论统计学中,变异系数,又称“离散系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差平均值之比:

    变异系数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率单位风险

     

    计算公式:

    (标准偏差SD、平均值MN)

     

    优缺点:

    • 优点

    比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。

    • 缺陷

    当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。

    变异系数无法发展出类似于均值的置信区间的工具。

     

    四分位差

    四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1, 即位于25%)的差。

    计算公式为:Q = Q3-Q1

    四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。

     

    四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。

     

     

    展开全文
  • 集中趋势: 3种常见统计量:均值、中位数、众数 均值: mean() 中位数:median() 众数:没有默认,要先下载R包:FinAna。之后用 get.mode() 离散程度 常见统计量: 极差: 也称全距,一组数据最大值与最小值之差 R...

    集中趋势:

    3种常见统计量:均值、中位数、众数
    均值: mean()
    中位数:median()
    众数:没有默认,要先下载R包:FinAna。之后用 get.mode()

    离散程度

    常见统计量:极差、四分位数、百分位数、四分位距、标准差、方差、变异系数
    极差:

    也称全距,一组数据最大值与最小值之差
    R语言:第一种方法:先用range(),求范围;再用diff(range());
    第二种方法(简单粗暴用最大最小直接求解):print(c(min(),max()))

    四分位数:

    将一组数据分为四部分的三个数字:下四分位数、中位数、上四分位

    R语言:quantile(… ,0.25) quantile(… ,0.75)

    百分位数:

    将一组数据分成一百组,描述如,第35百分位数,是将下部35%的数值和上部65%的数值分开的数

    四分位距(IQR):

    上四分位数与下四分位数的差;反映中间50%数据的离散程度,数值越小说明中间的数据越集中,数值越大,说明中间的数据越分散。与极差相比,四分位差不受极值影响

    标准差(SD):

    又称标准偏差、均方差 。R语言:sd()

    方差(VAR):

    标准差的平方 。R语言:var()

    变异系数

    又称离散系数,用 标准差 除以 x的平均值(消除量纲的影响)。比较两组差异很大的数据的变异程度
    R语言:先下载安装R包:sjstats, 再运行cv()

    五数概括法

    用以下5个数描述一组数据的分布:最小值、下四分位数、中位数、上四分位数、最大值
    可以通过箱线图展示五数概括法

    切比雪夫定理

    对于任一分布的数据,至少有75%的数值在均值+-2个标准差以内,至少89%的数据在均值+-3个标准差以内

    展开全文
  • 数据离散程度的衡量指标

    千次阅读 2020-12-12 14:32:17
    有些时候数据的离散程度能够让我们数据分析得出一些其他信息,理想情况下数据集中那么效果越好。那么有没有指标来衡量?答案是有得,今天主要学习一下数据离散程度的衡量指标。1....

        有些时候数据的离散程度能够让我们数据分析得出一些其他信息,理想情况下数据越集中那么效果越好。那么有没有指标来衡量?答案是有得,今天主要学习一下数据离散程度的衡量指标。

        1.极差

         极差就是对一组数据的最大值减去最小值。但是因为极差是采用两头的数据,没有考虑中间的数据,所以代表性差。

        2.四分位差

          即数据样本的上四分之一位和下四分之一位的差值,放映了数据中间50%部分的离散程度,其数值越小表明数据越集中,数值越大表明数据越离散,同时由于中位数位于四分位数之间,故四分位差也放映出中位数对于数据样本的代表程度,越小代表程度越高,越大代表程度越低。但是取四分位数据的时候会因为数据的偏向问题影响,有可能上四分位和下四分位数据值相差太大,所以做为离散程度指标也欠妥。

        3.方差

    使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消。方差是最常用的衡量数据离散情况的统计量。

          4.标准差

         方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量

    5.平方差

    方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值。

    平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

            6.变异系数

     有时候因为标准差相同,我们无法判断具体那组数据更加离散,比如标准差都为4,一组数据量是1000,而另外一组数据为10,那么显然第一组数据更加平稳。所以为了避免标志差的没有具体的衡量联系,所以使用标准差与均值的比作为变异系数。当然对于均值为0的数据,变异系数也是无能为了。

    参考:https://blog.csdn.net/qsir/article/details/94619194?utm_medium=distribute.pc_relevant.none-task-blog-baidulandingword-6&spm=1001.2101.3001.4242

    展开全文
  • 数据挖掘与数据分析

    万次阅读 多人点赞 2018-05-28 13:58:14
    一、数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过...
  • 集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也使用中位数。...
  • 描述性数据分析

    万次阅读 2018-07-22 16:33:38
    描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析数据集中趋势分析数据离散程度分析数据的分布、以及一些基本的统计图形。 Excel里的分析工具库里的数据分...
  • 简单数据分布分析及python实现

    千次阅读 多人点赞 2020-04-07 17:29:54
    数据集中趋势分析是为了衡量数据的集中程度,常用的集中趋势衡量指标包括数据的平均值、中位数、众数和分位数。平均值和中位数多作为连续数据的衡量指标,众数多作为离散数据的衡量指标。 平均值 python实现。 ...
  • 数据分析数据预处理、分析建模、可视化

    万次阅读 多人点赞 2020-08-08 15:03:21
    概述:简介、思路、发展...数据分析方法:描述统计、假设检验、信度分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等; 数据可视化:Excel、PowerBI、Tableau、Python;
  • 数据分析:Python分析学生数据

    千次阅读 2017-11-11 18:39:42
    本文为优达学城数据分析入门课程的mini项目,所用数据集为优达学城某段时间内的学生数据数据简介全部数据包含三个文件,其内容分别为: enrollments.csv: daily-engagement.csv project-submissions.csv 各字段的...
  • 数据分析案例--红酒数据分析

    千次阅读 多人点赞 2020-03-13 12:04:05
    介绍: 这篇文章主分析了红酒的通用数据集,这个数据集一共有1600个样本,11...注意:我们在分析数据之前,一定要先了解数据。 1.导入python中相关的库 import numpy as np import pandas as pd import matplotlib....
  • 数据分析-PART2--10大数据分析模型

    万次阅读 多人点赞 2018-07-31 10:00:39
    数据分析-PART0--数据分析综合 数据分析-PART1--数据获取和步骤 数据分析-PART2--10大数据分析模型 数据分析-PART3--数据分析常用指标 数据分析-PART4--数据分析方法 数据分析-PART5--数据分析可视化 数据分析...
  • 数据分析统计学基础之数据的趋势

    千次阅读 2019-05-15 18:01:25
    数据集中趋势就是一组数据数据的中心值靠拢的程度。   集中趋势是统计学中的重要统计分析指标,常用的有平均数,中位数和众数等。 1.1平均数   平均数为集中趋势的最常用测度值,目的是确定一组数据的均衡点...
  • 浅谈数据分析数据建模

    千次阅读 2018-03-20 07:33:42
    过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的个人数据数据分析应用的领域集中在企业内部经营和财务分析。数字时代到来之后,企业经营的各个阶段都可以被...
  • 数据分析

    千次阅读 2019-05-30 23:30:30
    一、数据分析 1.数据分析应用场景 2.数据分析可以分成三个重要的组成部分: 3.如何学习 4.数据分析基本概念 5.数据预处理 二、数据采集 1.数据采集框架: 2.Requests访问页面 三、数据变换 1.数据变换在...
  • 数据建模及数据分析浅析

    万次阅读 多人点赞 2018-08-31 10:53:20
    数据分析是一项实践性很强的工作,涉及到很多交叉学科,需要不同的岗位和角色,来实现不同的性质的工作。 一 、数据分析师中的角色和职责 数据分析团队师应该在科技部门内部还在业务部门内部一直存在争议。在业务...
  • 程序员看数据分析

    千次阅读 2014-04-06 20:38:46
    “世上有三种谎言:谎言、该死的谎言和统计” ------这是一句著名的西方谚语,其中让统计有如此名声的非平均值莫属了,可见数据分析并不能只是简单地求和、求平均。 作为程序员现在也开始接触到大量数据,也需要有...
  • 数据特征分析技能—— 统计分析

    千次阅读 2018-05-03 10:53:57
    统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析 import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline 集中趋势度量 指一组数据向某...
  • 探索性数据分析

    万次阅读 多人点赞 2019-01-05 21:15:22
    探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J....
  • 创业公司做数据分析(六)数据仓库的建设

    万次阅读 多人点赞 2017-02-02 19:36:58
    本文重点探讨了数据处理层中数据仓库的建设,旨在构建一个适于分析数据存储系统。文章探讨了数据仓库建设中的两个重要环节:数据建模与ETL过程,根据实践谈了谈维度建模的方法,以及ETL中的增量更新机制与基于...
  • 1.需求: 1.1 数据采集 一、 数据源 1 1(交通运输) 航空出行由于它的快捷便利,...此,该航空公司聘请“H3CU”大数据分析公司完成此项目。 由于会员信息属于公司机密数据,该航空公司将数据脱敏后以 csv 文件...
  • 数据分析|数据分布特征的描述

    千次阅读 2019-11-11 16:06:20
    分析数据之后,对数据有初步了解,对后面数据开发及算法起到至关重要的作用。目录集中趋势离散度分布形状一、集中趋势集中趋势是一组数据向其中心靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值和中心...
  • 衡量数据的离散程度

    千次阅读 2019-02-27 20:43:55
    衡量数据的离散程度 我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,... 极差也叫全距,指数据集中的最大值与...
  • 对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据集中程度、离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很...
  • 数据分析师一定要掌握的基础——描述性统计分析

    千次阅读 多人点赞 2020-03-31 23:20:54
    以下博客内容讲解了描述性统计分析的所有知识点,以及利用鸢尾花数据集的分析加强对各个统计量的理解。 数理统计基础-描述性统计分析1、数理统计基础2、描述性统计分析概述(1)概念(2)变量的类型3、统计量(1)...
  • 在本文中,您可以阅读为什么多重共线性是一个问题,以及如何使用主成分分析(PCA)消除数据集中的多重共线性。 为什么多重共线性是一个潜在的问题? 多重共线性高度影响与问题相关的方差,也会影响模型的解释,因为它...
  • 作为一个在找工作的人,最主要的必然是海投简历,但是作为一名数据人,能否用数据分析的思路帮助自己去更好、更快地找工作呢?
  • 常用数据分析方法总结

    千次阅读 2019-11-02 14:06:23
    最近优化一个画像产品,用到一些数据分析方法,这里总结一下。 主要参考:https://www.jianshu.com/p/809fb2261b23,补充一些细节 一、描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 136,834
精华内容 54,733
关键字:

如何分析数据的集中程度