精华内容
下载资源
问答
  • 即一组数据距离数据中心的靠近程度

    即一组数据距离数据中心的靠近程度,反应了一组数据中心的位置所在

    数据集中趋势度量的指标有:众数、平均数、中位数、几何平均数等。

    众数:即出现次数最多的,常用在不同类别的数量统计中,不受峰值的影响,一组数据中可能会存在多个众数,不具备唯一性,数据量较少时意义不大。

    平均数:可分为简单平均数和加权平均数,简单平均数即一组数据的平均值,加权平均数即根据分组数据计算的平均数。平均数是一组数据的重心,是经多次测量正负误差互相抵消后事物特征的真实反映。

    中位数:一组数据排序后,处于中间位置的那个数据,主要用于顺序数据的集中趋势度量,不适用于分类数据。

    几何平均数:即对n个数据相乘后,开n次方,G=\sqrt[n]{x_{0}*x_{1}*...**x_{n}},几何平均数主要用于计算平均比率。比如一直股票的年收益率数据,计算平均每年的收益率,用几何平均数才是合理的,要注意几何平均数的变量不能是负数和0。

    下面针对几何平均数与简单平均数的差异进行说明:

    from functools import reduce
    import math
    
    #假设一只股票持有了5年,每年的年收益率数据如下,原始投入成本10000元
    rate = [0.045,0.021,0.255,0.019]
    
    #简单平均收益率
    sig_G = sum(rate)/len(rate)
    print ('简单平均收益率',sig_G)
    简单平均收益率 0.085
    
    #几何平均收益率
    j_G = math.pow(reduce(lambda x,y:x*y,[1+i for i in rate]),1/len(rate))-1
    print ('几何平均收益率',j_G)
    几何平均收益率 0.08078668483359586
    
    #实际收入
    rel_cont = 10000*(1+0.045)*(1+0.021)*(1+0.255)*(1+0.019)
    
    print ('实际收入',rel_cont)
    实际收入 13644.572785249995
    
    #按照简单平均收益率计算
    
    sig_cont=10000*(1+sig_G)**4
    
    print('简单平均收益',sig_cont)
    简单平均收益 13858.587006249998
    
    #按照几何平均收益率计算
    j_cont=10000*(1+j_G)**4
    
    print('几何平均收益',j_cont)
    几何平均收益 13644.572785249995

    可以看到简单平均收益与实际收益不符

    展开全文
  • 数据集中趋势

    2019-07-21 22:52:42
    数据集中趋势 众数 一组数据中出现频次最高的数 中位数 一组数中间的数 分位数 极差 算数平均数 加权平均数 几何平均数 数据的离散趋势 方差 标准差 极差 平均差 四分位数 第一四分位数 (Q1),又称“较小四分位数...

    数据的集中趋势

    众数

    一组数据中出现频次最高的数

    中位数

    一组数中间的数

    分位数

    极差

    算数平均数

    加权平均数

    几何平均数

    数据的离散趋势

    方差

    标准差

    极差

    平均差

    四分位数

    第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
    第二四分位数 (Q2),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
    第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
    第三四分位数与第一四分位数的差距又称四分位距。

    众异比率

    异众比率指的是总体中非众数次数与总体全部次数之比。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

    相对离散程度

    离散系数

    离散系数又称变异系数。离散系数是测度数据离散程度的相对统计 量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
    当进行两个或多个资料离散程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

    分布的形状

    偏态系数

    偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
    偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画。一般认为,没有百年以上的资料,偏态系数的计算结果很难得到一个合理的数值。

    峰态系数

    峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标,用于衡量离群数据离群度,峰度系数越大,说明该数据集中的极端值越多。在正态分布情况下,峰度系数值是3。>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。

    展开全文
  • 数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值,这个代表值...算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算...

            数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好反映事物目前所处的位置和发展水平,通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。数据的集中趋势描述的形式主要有如下几种:

    1.算数平均值

    算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算术平均值主要用于定距数据,表示数据集合的集中趋势。也能用于定类数据和定序数据,决定算术平均值是否使用的前提条件是,求得的算术平均值是否具有现实意义。

    1.1 简单算术平均值

    简单算术平均值是最典型,最常用,最具有代表性的集中趋势指标。将数据集合的所有数据值相加的和除以数值个数就得到简单算术平均值。

    1.2 加权算术平均值

    因为简单算术平均值认为所有的数据都具有同等的重要性,所以每个数据值都具有相同的权重。但有些时候,每个数据值的权重是不一样的,需要用加权算术平均值来表示数据集合的集中趋势。

    数学概念:

    (1)若n个数  的权分别是  ,那么 叫做这n个数的加权平均值。

    (2)此外,加权平均值也可用下图表示,其中  表示权数。理解方法:将原式看作  即可。

     

    1.3 使用算术平均值的注意事项

    算术平均值虽然是应用最广泛的集中趋势指标,受样本数据波动的影响最小,具有一定的稳定性,但是也有明显的缺陷。当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果会掩盖数据集合的真实特征,这时算术平均值就失去了代表性。

    2.几何平均值

    有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。

    定义:

    几何平均数是n个变量值连乘积的n次方根。

    分为简单几何平均数与加权几何平均数。

    1、简单几何平均数:

    几何平均数示意图

    2、加权几何平均数:

    特点:

    1、几何平均数受极端值的影响较算术平均数小;

    2、如果变量值有负值,计算出的几何平均数就会成为负数或虚数;

    3、它仅适用于具有等比或近似等比关系的数据;

    4、几何平均数的对数是各变量值对数的算术平均数

    3.众数

        数据集合中出现次数最多的数值被称为众数。如果在一个数据集合中,只有一个数值出现的次数最多,那么这个数值就是该数据集合的众数;如果有两个或多个数值出现的次数并列最多,那么这两个或多个数值都是该数据集合的众数;如果数据集合中所有数据值出现的次数相同,那么该数据集合没有众数。众数对定类数据,定序数据,定距数据和定比数据都是用,都能表示由它门组成的数据集合的数据集中趋势。

    4.中位数

    对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

    定义:

    中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小,这里用  来表示中位数。(注意:中位数和众数不同,众数指最多的数,众数有时不止一个,而中位数只能有一个。)

    有一组数据:

    将它按从小到大的顺序排序为:

    则当N为奇数时,  ;当N为偶数时,  。

    一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。

    特点:

    1)中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。

    2)有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。

    3)趋于一组有序数据的中间位置

    总结来说,中位数与算术平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点,这个特点使其在数据集合的数据分布有较大偏斜时;能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势

     

    展开全文
  • 当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也使用中位数。 平均数和中位数一般是不同的,除非样本呈正态分布。如果衡量...

    给定一组数据,我们怎么来判断业务的基本情况呢?此时我们主要用到两个统计学工具:集中趋势和离散趋势。

    1. 集中趋势

    集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也使用中位数。

    平均数和中位数一般是不同的,除非样本呈正态分布。如果衡量集中趋势的指标选择不合理,那么对业务整体情况的判断往往会出现争议,最常见的例子就是“工资水平”统计数据的梗——大多数人总是感到“拖了大家的后腿”。为什么会这样呢?因为工资收入是偏态分布的,而且是正偏态分布——大多数人工资处于较低的水平。

    那么表示集中趋势时,什么时候选择平均数,什么时候选择中位数呢?我们可以通过考察数据分布的正态、偏态情况进行选择。

    如果样本呈正态分布,那么集中趋势使用平均数或中位数表示均可,因为两者是相等的。
    如果样本呈偏态分布,那么选择中位数更能反映数据的集中趋势。通常情况下,正偏态的中位数小于平均数,负偏态的中位数大于平均数。因此,如果工资水平的计量采用中位数,大家心里接受的程度可能会更高一些。
    比如以下工资水平的抽样数据,用中位数表示是3000,用平均数表示是9200。显然选择中位数的表示集中趋势更符合实际。
    salary=[2500,3500,2000,4000,2200,3000,1800,20000,50000,3000]

    2. 离散趋势

    离散趋势反映了样本数据之间的差异水平。反映离散趋势的统计指标一般包括标准差/方差、极差、四分位间距IQR和变异系数。

    • 极差是样本最大值与最小值的差;
    • 四分位间距IQR是75%分位数与25%分位数的差,显然四分位间距IQR一般要比极差小;
    • 变异系数是标准差与均值的比值,通常认为如果变异系数超过15%,则说明业务状况是很不稳定的。上例中,工资样本的变异系数是1.58,说明工资水平是极不稳定的。

    除了变异系数是相对量化指标外,其它三个指标都是绝对量化指标。因此,变异系数可以进行不同数据集离散程度的比较,而其它三个指标不可以,因为不同数据集的数据尺度有所差异。

    集中趋势和离散趋势相结合才能更准确的反映业务状况,当离散趋势不明显时,集中趋势反映总体水平的能力就越强。

    推荐自编课程《零基础学python数据分析》
    推荐自编简明预测分析教程(Python版)

    展开全文
  • 它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。中文名平均数...
  • 算数平均值:最常用的数据集中趋势指标 (1)算数平均值:数据集合中所有数值的加和除以数值个。 不足:当数据集合中出现异常值(极大值或极小值)时,算数平均值不适用。 例如:国家公布的人均年收入数据,...
  •  1、反映变量分布的集中趋势和一般水平  2、 可用来比较同一现象在不同空间或不同阶段的发展水平  3、 可用来分析现象之间的依存关系 算术平均数 简单算术平均数 ...
  • 数据分析统计学基础之数据趋势

    千次阅读 2019-05-15 18:01:25
    数据的趋势 一.数据集中趋势 ...  平均数集中趋势的最常用测度值,目的是确定一组数据的均衡点。用平均数表示一组数据的情况,有直观、简明的特点,所以在日常生活中经常用到,如平均的速度...
  • 20.1 数据集中趋势 ---- 平均数第一课时教学设计 化雨中学 刘明利 一教材分析 教科书设计了以学生身高和招聘英文翻译为背景的实际问题 根据不同的招聘要求 各项成绩的 重 要程度不同从而平均成绩不同由此引入加权...
  • 集中趋势: 3种常见统计量:均值、中位、众数 均值: mean() 中位:median() 众数:没有默认,要先下载R包:FinAna。之后用 get.mode() 离散程度 常见统计量: 极差: 也称全距,一组数据最大值与最小值之差 R...
  • 集中趋势

    千次阅读 2016-07-02 16:20:21
    统计学分类统计学可以分成两类: 描述性统计学 有一堆数据, 希望在不告诉别人所有数据的情况下介绍这些数据的情况,可以通过找到...数据集中趋势集中趋势(central tendency): 一组数字的集中趋势,也叫“平均数(a
  • 摘要:在社会和经济领域中有许多实际发生的数据,因为各种偶然因素的影响,...但是,如果对这些无序的数据进行整理和归纳,就可以发现有一种必然的因素在起作用,这种因素就是社会和经济领域中内在的变化趋势。通...
  • 平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数(均值)和标准差是描述... 【方法一】: 这种方法...
  • 数据的描述性统计欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右...
  • 本期给大家介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,包括中位数、众数、平均数、方差、标准差、离散系数、偏度峰度、离群值等的原理、概念以及应用。再结合运动员案例分析,讨论不同场景下的...
  • 掌握数据的整体状态 如果只是看到一堆数据,...从数值的角度,可以从两个方面进行描述:数据集中趋势(central tendency),数据的变异性(variability)。从图示的角度,可以通过数据组的频数分布(frequency dist
  • 集中趋势指标包括平均值、中位、众数 平均值:是最常用的集中趋势指标,但有弊端,单纯的计算平均值具有一定的误导性,对异常数据不敏感。 中位:按顺序排列后,位于中间的。总数为偶数的数据的中位为最...
  • 平均指标的种类有:算术平均数、调和平均数、几何平均数、众数和中位数。前三种平均数是根据总体所有标志值计算的所以称为数值平均数,后两种平均数是根据标志值所处的位置确定的,因此称为位置平均数。   1、...
  • 算术平均数: 一组数据的总和与这组数据的个数之比 叫做这组数据的算术平均数 算术平均数反映一组数据数据总体的平均大小 情况的量 计算公式: X1+X2+X2+ X= Xo+n sagna 例在一次校园网页设计比赛中,8位评委对甲乙...
  • 统计学 一 集中趋势

    2019-05-24 15:47:00
    预览 参考书籍:浙大概率论与数理统计, 俄罗斯的概率教材, 概率-施利亚耶夫著作, 统计学及应用-sarah boslaugh著作 统计学分类: ...集中趋势, 离散趋势 统计学应用: 有数据, 就有统计分析的需求 ...
  • 集中趋势分析与离中趋势分析

    千次阅读 2016-09-29 09:26:22
    集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据集中趋势。例如测试班级的平均成绩是多少?是正偏分布还是负偏分布? 离中趋势分析主要靠全距、四分差、平均差、方差、标准差等统计指标来研究数据的...
  • 文章目录1、平均数1.1 算术平均数1.2 几何平均数 geometric mean2、方差 (Variation )3 、标准差 (Standard...它是反映数据集中趋势的一项指标。 公式为: xˉ=x1+x2+⋯+xnn=∑i=1nx÷n\bar x = \frac{x_1 + x_2 + \
  • 平均数用来反映一组数据集中趋势,表示平均的指标有算术平均数、几何平均数、中位数和众数。 算术平均数 最常用的一个平均数,也就是常说的均值、平均值,就是我们熟悉的那个求平均值的公式,所有的数值相加再...
  • 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供...
  • 自由度 集中趋势

    2013-12-30 23:14:40
    自由度,英文称degree of freedom,简称DF,是指...集中趋势,英文称central tendency,是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。其在中心附近的观察值数目较多,远离中心的较少,常
  • 统计学学习笔记——(3)集中趋势

    千次阅读 2017-11-14 10:10:29
    集中趋势(Central Tendency)是指一组数据项某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。均值,中位数,众数均值(Mean):也称平均数,它是全部数据的算术平均。均值在统计学中具有重要的地位,是...
  • 平均数 中位数 众数的实际意义

    千次阅读 2019-04-08 10:45:04
    平均数反映了一组数据的平均大小,常用来一代表数据的总体 “平均水平”。 中位数:像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的“一般水平”。 众数:反映了出现次数最多的数据,用来...
  • 平均数、中位数、众数平均数、中位数、众数样本和总体 平均数、中位数、众数 举个例子: 23、29、20、32、23、21、33、25 均值:25.75-衡量集中趋势的方法,异常值出现的时候容易产生偏差 中位数:24-集中测试的另一...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,082
精华内容 3,232
关键字:

平均数反映数据的集中趋势