精华内容
下载资源
问答
  • 集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也使用中位数。...

    给定一组数据,我们怎么来判断业务的基本情况呢?此时我们主要用到两个统计学工具:集中趋势和离散趋势。

    1. 集中趋势

    集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也使用中位数。

    平均数和中位数一般是不同的,除非样本呈正态分布。如果衡量集中趋势的指标选择不合理,那么对业务整体情况的判断往往会出现争议,最常见的例子就是“工资水平”统计数据的梗——大多数人总是感到“拖了大家的后腿”。为什么会这样呢?因为工资收入是偏态分布的,而且是正偏态分布——大多数人工资处于较低的水平。

    那么表示集中趋势时,什么时候选择平均数,什么时候选择中位数呢?我们可以通过考察数据分布的正态、偏态情况进行选择。

    如果样本呈正态分布,那么集中趋势使用平均数或中位数表示均可,因为两者是相等的。
    如果样本呈偏态分布,那么选择中位数更能反映数据的集中趋势。通常情况下,正偏态的中位数小于平均数,负偏态的中位数大于平均数。因此,如果工资水平的计量采用中位数,大家心里接受的程度可能会更高一些。
    比如以下工资水平的抽样数据,用中位数表示是3000,用平均数表示是9200。显然选择中位数的表示集中趋势更符合实际。
    salary=[2500,3500,2000,4000,2200,3000,1800,20000,50000,3000]

    2. 离散趋势

    离散趋势反映了样本数据之间的差异水平。反映离散趋势的统计指标一般包括标准差/方差、极差、四分位间距IQR和变异系数。

    • 极差是样本最大值与最小值的差;
    • 四分位间距IQR是75%分位数与25%分位数的差,显然四分位间距IQR一般要比极差小;
    • 变异系数是标准差与均值的比值,通常认为如果变异系数超过15%,则说明业务状况是很不稳定的。上例中,工资样本的变异系数是1.58,说明工资水平是极不稳定的。

    除了变异系数是相对量化指标外,其它三个指标都是绝对量化指标。因此,变异系数可以进行不同数据集离散程度的比较,而其它三个指标不可以,因为不同数据集的数据尺度有所差异。

    集中趋势和离散趋势相结合才能更准确的反映业务状况,当离散趋势不明显时,集中趋势反映总体水平的能力就越强。

    推荐自编课程《零基础学python数据分析》
    推荐自编简明预测分析教程(Python版)

    展开全文
  • 内容导入: 大家好,这里是每天分析一点点。本期给大家介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,包括...数据的集中趋势指数据向某一中心靠拢的程度,反映了一组数据中心点的位置所在。用来反映

    内容导入:

    大家好,这里是每天分析一点点。本期给大家介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,包括中位数、众数、平均数、方差、标准差、离散系数、偏度峰度、离群值等的原理、概念以及应用。再结合运动员案例分析,讨论不同场景下的运动员挑选方案,根据集中趋势指标计算结果解释原因。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。下期给大家介绍离散趋势的应用,欢迎大家关注。

    概念介绍:

    集中趋势的概念:

    数据的集中趋势指数据向某一中心靠拢的程度,反映了一组数据中心点的位置所在。用来反映数据的一般水平,常用的指标有平均值、中位数、分位数和众数等。通常来讲,就是咱们口中经常提及的“大多数人”,“大部分情况”等字眼,反映的就是数据的集中情况。

    平均值的原理:

    平均值是指一组数据相加后除以数据的个数得到的结果,是集中趋势的最主要测度值,主要适用于数值型数据,不适用于分类数据和顺序数据,是进行统计分析和统计推断的基础,从统计学上看,平均数是一组数据的重心所在,是数据误差相互抵消后的必然结果。平均值又分为简单平均数,加权平均数与调和平均数。

    中位数的原理:

    中位数是一组数据排序后处于中间位置上的变量值,将全部数据等分成两个部分。每部分包含 50% 的数据,不适用于分类数据,中位数是一个位置代表值,不受数据中极端值的影响。

    众数的原理:

    众数是一组数据中出现次数最多的变量值,一般在数据量较大的情况下,众数才有意义,众数是一个位置代表值,不受数据中极端值的影响,众数可能不存在;也可能存在多个众数。

    特别提示:

    平均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。中位数不受极值影响,因此对极值缺乏敏感性。众数可能不止一个,众数不仅能用于数值型数据,还可用于非数值型数据,不受极值影响。

    计算与应用方式:

    平均数的计算与应用:

    1、简单平均数:数据和值除以数据个数。

    计算公式:

     

    计算实例:假设一个班的年龄为10,11,12,13,14,15,16,17,现在计算这个班的年龄平均mean=(10+11+12+13+14+15+16+17)/8=13.5

    2、加权平均数:数据乘以权值除以数据个数。

    计算公式:

     

    计算实例:经过统计,我学校学生年龄为10,11,12,13,14,15,16,17,相对应对的学生个数为5,6,7,8,9,10,11,12,求全年级的年龄平均。weight_mean=(10*5+11*6+12*7+13*8+14*9+15*10+16*11+17*12)/(5+6+7+8+9+10+11+12)= 14.12

    3、几何平均数:n个数据相乘,再开n次方。

    计算公式:

     

    计算实例:股票收益分布为10,11,12,13,14,15,16,17,计算其几何平均数。add_mean=(10*11*12*13*14*15*16*17)开8次方=13.3

    4、平均值的具体应用。

    平均值通常用于衡量事物对的整体水平,比如通过国家平均收入判断整体小康情况,通过地区平均收入看地区发展情况,通过班级平均分数衡量班级整体水平。具体应用,咱们通过生动的小视频给大家进行介绍。

    众数的计算与应用:

    1、众数的计算

    众数,直接统计数据出现的频次,频次最高的那几个数就称为众数。

    计算实例:一个班的年龄如下:17, 11, 15, 13, 13, 13, 13, 14, 12, 12,12,12, 10, 16,计数发现,13这个数出现了4次;12这个数出现了4次因此,数据的众数为12与13。

    2、众数的具体应用

    众数通常用来衡量某个事物的一般水平,具有指导意义。比如在12点左右吃饭的人数最多,餐厅需要把握好时间段多准备食材;地铁7-8点最挤,旅游出行避开早高峰;日本50岁以上人口占比最大,人口老年化严重。学霸数学分数通常在135-145之间,这次考试成绩在140左右。具体的应用拓展来看看我们能的小视频,希望能给各位看官新的领悟。

    中位数的计算与应用:

    1、中位数的计算

    中位数的计算分为两种情况。首先将数据进行排序,排序后取‘中间’的那一个数。

     

     

    计算实例:一个班的年龄如下:17,11,15,13,14,12,10,16,先进行排序,变成10,11,12,13,14,15,16,17 ,数据位数为8,偶数位数据中位数为第四位与第五位的平均值median=(13+14)/2,中位数为13.5。

    2、中位数的具体应用

    中位数及其衍生的应用十分广泛,首先,中位数将数据分为等数量的两份,可以延伸为多分位分类来进行等级的划分和数据的取舍,实际应用类似奖项的设置,等级的分类。另外,中位数也是一个排名的信息,可以查看个体在总体中的位置。最后,某些分布比如正态分布的中位数,代表了数据的集中趋势。更多的实例,我们在视频中给大家进行解答。

    综合应用场景:

    甲乙两个运动员都是中等水平,各连续打靶8次,请问哪个运动员的整体水平高?

    如果进行一场省级比赛,对手较弱,在甲乙中选择你会派谁去?

    如果进行一场国家级比赛,对手较强,在甲乙中选择你会派谁去?

    甲乙连续打8次靶,按先后顺序记录如下:

    甲运动员:[8,7,8,9,9,8,7,8] 。

    乙运动员: [5,6,6,7,7,10,10,10]。

    通过计算,得出的集中趋势结果入下表所示:

    1、 请问哪个运动员的整体水平高?

    由于不知道数据的分布情况,中位数与众数不一定代表整体水平,从平均值来看,甲的平均值为8,乙的平均值为7.625,所以甲的整体水平较高。

    2、 如果进行一场省级比赛,对手较弱,在甲乙中选择你会派谁去?

    一场省级的比赛,对手较弱,甲乙的水平机会都在其他运动员之上,因此比赛应该求稳,选择水平较高的甲去。

    3、如果进行一场国家级比赛,对手较强,在甲乙中选择你会派谁去?

    如果进行一场国家级比赛,对手实力强劲,都在甲乙之上,因此选择水平高的甲去没有什么意义。反而看乙的数据,中位数与甲相同,平均数比甲低,但是他的众数10远大于甲,如果他超常发挥,有概率能得到名次。并别看乙的成绩序列,从一开始逐渐发挥,乙有很大的上升空间,通过训练,可能会取得更好的成绩。

    当然,你选甲去,也是可以有道理的,从乙的发挥来看,乙的心理素质差,在打比赛中可能会更加紧张,导致发挥失常。因此,选甲去即使去了可能也不会输的太难看。

     

    各位看官,今天看得过瘾吗?还没有结束,我们为大家准备了集中趋势的相关python代码案例,作为小礼物送给大家,更多内容,请关注海数据公众号。

    有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

    关注码

    http://weixin.qq.com/r/40Q9Jd-EHoJhrZtG9xHx (二维码自动识别)

     

    本期分享到这里,我们会在每周持续更新,咱们下期再见,期待您的光临。

    展开全文
  • 统计学原理 集中趋势的度量

    千次阅读 2020-05-10 16:05:47
    集中趋势 (central tendency) 一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的测度值适用于高层次的测量数据,但高层次数据...

    集中趋势 (central tendency)

    • 一组数据向其中心值靠拢的倾向和程度
    • 测度集中趋势就是寻找数据水平的代表值或中心值
    • 不同类型的数据用不同的集中趋势测度值
    • 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据


    分类数据:众数(mode)

    1. 众数

    • 一组数据中出现次数最多的变量值
    • 适合于数据量较多时使用
    • 不受极端值的影响
    • 一组数据可能没有众数或有几个众数
    • 主要用于分类数据,也可用于顺序数据和数值型数据

    2. 众数 (不惟一性)

    • 无众数
      原始数据: 10 5 9 12 6 8
    • 一个众数
      原始数据: 6 5 9 8 5 5
    • 多于一个众数
      原始数据: 25 28 28 36 42 42

    顺序数据:中位数和分位数

    1. 中位数 (median)

    • 排序后处于中间位置上的值
    • 不受极端值的影响
    • 主要用于顺序数据,也可用数值型数据,但不能用于分类数据
    • 各变量值与中位数的离差绝对值之和最小

    2. 四分位数 (quartile)

    • 排序后处于25%和75%位置上的值
    • 不受极端值的影响

    数值型数据:平均数

    平均数(mean)

    • 也称为均值
    • 集中趋势的最常用测度值
    • 一组数据的均衡点所在
    • 体现了数据的必然性特征
    • 易受极端值的影响
    • 有简单平均数和加权平均数之分
    • 根据总体数据计算的,称为平均数;根据样本数据计算的,称为样本平均数。

    1. 简单平均数 (Simple mean)

    2. 加权平均数 (Weighted mean)

    3. 几何平均数 (geometric mean)

    • n 个变量值乘积的 n 次方根
    • 适用于对比率数据的平均
    • 主要用于计算平均增长率

    众数、中位数和平均数的比较

    1. 众数、中位数和平均数的关系

    2. 众数、中位数、平均数的特点和应用

    (1)众数

    • 不受极端值影响
    • 具有不惟一性
    • 数据分布偏斜程度较大且有明显峰值时应用

    (2)中位数

    • 不受极端值影响
    • 数据分布偏斜程度较大时应用

    (3)平均数

    • 易受极端值影响
    • 数学性质优良
    • 数据对称分布或接近对称分布时应用
    展开全文
  • 均值:25.75-衡量集中趋势的方法,异常值出现的时候容易产生偏差 中位数:24-集中测试的另一个方法,不受异常值影响 众数:23-数据集中出现频率最多的数 举个例子:3,3,3,3,3,100 import numpy as np x = np....

    平均数、中位数、众数

    平均数、中位数、众数

    举个例子:
    23、29、20、32、23、21、33、25
    均值:25.75-衡量集中趋势的方法,异常值出现的时候容易产生偏差
    中位数:24-集中测试的另一个方法,不受异常值影响
    众数:23-数据集中出现频率最多的数
    举个例子:3,3,3,3,3,100
    import numpy as np
    x = np.array([1,1,1,2,3,4,5])
    def _mean(x):
    return np.mean(x)

    def _median(x):
    return np.median(x)

    def _mode(x):
    counts = np.bincount(x)
    #返回众数,但是,由于索引值是从0开始的,所以这种求众数的方法只能用在非负数据集。
    return np.argmax(counts)

    #众数推荐的实现方式
    from scipy import stats
    def _mode2(x):
    return stats.mode(x)[0][0]

    print(_mean(x))
    print(_median(x))
    print(_mode2(x))

    样本和总体

    国家领导换届,施行选举制度,但是你、我又曾投过票么?显然回答是否定的,因为我们都被代表了。我们来看一下选举这个事情,客观情况下应该是这样的:全国具有投票权限的人,抽出自己的一票,然后再计算各候选人的所占的支持比率,最高者获选。设想一下要收集全国这么多人的投票,要做多少事情宣讲、投票、计票、防作弊…,得耗费多少资金、时间。如果真这么干是不现实的,那么就得有一种相对有效的方法来解决这个问题——从全国抽出人民代表,以代表某个市、县的人民去实行投票,这样一来,事情就简单了。(这里不去理会被代表的任何个人主观情绪)

       就以上例子来说明2个概念:总体、样本。
    
       总体:拥有投票权的全部人。
    
       样本:抽出来的人民代表。
    

    总体和样本是相对数据而主的,往往由于总体的数据比较庞大,而无法全部获得,导致无法完全地反映总体的状态,那么可以通过研究样本,以小范围的数据来反映总体的状态,样本的研究不是必然的准备,但是有一定的实际意义。

    μ :(发音为miu)Population mean(总体均值)
    X ̅:sample mean(样本均值)
    一、总体(population)和样本(sample)
    总体:研究对象的整个群体。
    样本:从总体中选取的一部分。
    样本数量:有多少个样本。
    样本大小(样本容量):每个样本里包含多少个数据。
    抽样分布:将样本平均值的分布可视化。

    展开全文
  • 统计学 一 集中趋势

    2019-05-24 15:47:00
    预览 参考书籍:浙大概率论与数理统计, 俄罗斯的概率教材, 概率-施利亚耶夫著作, 统计学及应用-sarah boslaugh著作 统计学分类: ...集中趋势, 离散趋势 统计学应用: 有数据, 就有统计分析的需求 ...
  • 数据的集中趋势

    2019-07-21 22:52:42
    数据的集中趋势 众数 一组数据中出现频次最高的数 中位数 一组数中间的数 分位数 极差 算数平均数 加权平均数 几何平均数 数据的离散趋势 方差 标准差 极差 平均差 四分位数 第一四分位数 (Q1),又称“较小四分位数...
  • 摘要:在社会和经济领域中有许多实际发生的数据,因为各种偶然因素的影响,...但是,如果对这些无序的数据进行整理和归纳,就可以发现有一种必然的因素在起作用,这种因素就是社会和经济领域中内在的变化趋势。通...
  • 集中趋势

    千次阅读 2016-07-02 16:20:21
    统计学分类统计学可以分成两类: 描述性统计学 有一堆数据, 希望在不告诉别人所有数据的情况下介绍这些数据的情况,可以通过找到...数据集中趋势集中趋势(central tendency): 一组数字的集中趋势,也叫“平均数(a
  • 软件测试面试题汇总

    万次阅读 多人点赞 2018-09-27 12:31:09
    转载自: ... 软件测试面试题汇总 测试技术面试题 ...........................................................................................................
  • 掌握数据的整体状态 如果只是看到一堆数据,...从数值的角度,可以从两个方面进行描述:数据的集中趋势(central tendency),数据的变异性(variability)。从图示的角度,可以通过数据组的频数分布(frequency dist
  • 基于MATLAB的语音信号处理

    万次阅读 多人点赞 2018-07-15 01:21:20
    的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。  在频域内,语音信号的频谱分量主要集中在300 ~3400Hz的范围内。利用这个特点,可以按8kHz的采样率对语音...
  •  1、反映变量分布的集中趋势和一般水平  2、 可用来比较同一现象在不同空间或不同阶段的发展水平  3、 可用来分析现象之间的依存关系 算术平均数 简单算术平均数 ...
  • Matlab时间序列分析

    万次阅读 多人点赞 2018-11-13 18:53:46
    3.1去趋势 由于数据变化有一定的集中性,且有滑动平均看来近似可以用一次函数拟合。所以采用一次差分的方法去除数据的趋势项。这里采用diff函数实现一次差分。去趋势后,我们进行了如下的观察: 图三.周期为一个月...
  • 集中趋势 1.众数 2.中位数 3.均值 4.众数 & 中位数 & 均值的关系
  • 数据的集中趋势 1.算术平均数: 一组数据的总和与这组数据的个数之比 叫做这组数据的算术平均数 算术平均数是反映一组数据中数据总体的平均大小 情况的量 计算公式: X1+X2+X2+ X= Xo+n sagna 例在一次校园网页设计...
  • 自由度 集中趋势

    2013-12-30 23:14:40
    自由度,英文称degree of freedom,简称DF,是指...集中趋势,英文称central tendency,是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。其在中心附近的观察值数目较多,远离中心的较少,常
  • 联邦学习最新研究趋势

    千次阅读 2020-03-14 10:03:37
    Cross-Silo 联邦学习:与跨设备联合学习的特征相反,Cross-Silo 联邦学习在总体设计的某些方面非常灵活。许多组织如果只是想共享训练模型,而不想分享数据时,cross-silo设置是非常好的选择。Cross-Silo 联邦学习的...
  • 科学技术研究院的Ivanov Sergey等人在研究中发现,在MUTAG和IMDB等常用数据集中,即使考虑节点属性,很多图也都会具有同构副本。而且,在这些同构图中,很多都有不同的target标签,这自然会给分类器引入标签噪声。这...
  • 数据分析统计学基础之数据的趋势

    千次阅读 2019-05-15 18:01:25
      集中趋势是统计学中的重要统计分析指标,常用的有平均数,中位数和众数等。 1.1平均数   平均数为集中趋势的最常用测度值,目的是确定一组数据的均衡点。用平均数表示一组数据的情况,有直观、简明的特点,...
  • 结果表明:小黄瓜园站和楚雄站径流年内分配不均匀系数、完全调节系数都存在减小趋势,2个测站总体变化趋势相近;对比楚雄站和小黄瓜园站不均匀系数和集中度的拟合曲线,可以发现楚雄站年内分配不均匀系数、集中度降低...
  • 数据科学研究的现状与趋势全解

    千次阅读 2019-11-27 17:29:10
    总体上看,数据科学的人才培养目的并不是数据工程师,而是数据科学家,尤其培养具有3C精神的数据科学家——原创性(Creative)设计、批判性(Critical)思考和好奇性(Curious)提问。 2. 专业数据科学研究中相对...
  • 正文开始本文有1.5万字,预计阅读30分钟,可以先收藏数据湖近几年迅速蹿红,今天笔者做一个综述,包括数据湖的缘起、数据湖的定义、数据湖的特征、数据湖的技术、数据湖的趋势和数据湖的案例六大部...
  • 软件测试面试题整理

    千次阅读 多人点赞 2013-11-28 15:53:22
    软件测试面试题整理   01. 为什么要在一个团队中开展软件测试工作? ... 因为没有经过测试的软件很难在发布之前知道该软件的质量,就好比ISO质量认证一样,测试同样也需要质量的保证,这个时候就需要在团队中...
  • 二是能准确、清晰反映总体单位的分布特征。 3.统计出各组的频数得出频数分布表,若相邻两组的上下限重叠,采取 上限不在内 的原则,即将该频数计算在与下限相同的组内。 题型 :1.在反映学生身高分布时,将其...
  • 物业管理软件进入了集中式管理过渡阶段(本世纪初期至2005年) 这个阶段典型的应用模式是将各管理处的数据库直接部署到公司总部,各管理处通过VPN连接到公司总部的服务器处理各项业务,由公司总部另外部署的统计分析...
  • 机载激光雷达的应用现状及发展趋势 摘要:机载激光雷达是一种应用越来越广泛的对地观测系统,本文简要介绍了机载LIDAR系统及其测量原理,并重点综述了机载LIDAR的应用现状最后对其发展趋势进行了展望。 关键字 :...
  • 数据集中趋势 ...这个集中趋势是现象共性的特征,也是现象规律性的数量表现。 根据统计学知识,集中趋势指平均数,是一组数据中有代表性的值,这些数值趋向于落在数值大小排列的数据中心,被称为...
  • 分布式还是集中式?自从有了计算机那天开始几乎一直是IT圈里割袍断义话题排行榜前五名。特别是随着近些年云计算技术的飞速发展。分布式架构这场大火更是借着云计算这场东风,乘风而起,大有千秋万代一统江湖的感觉。...
  • 总体来说,与过去相比,最近十年中跟踪趋势的机会更加有限,但是当市场出现大幅波动时,趋势跟踪策略的收益能力与历史相比并没有下降。这些发现让我们相信,最近十年中并没有应用趋势跟踪策略的最佳环境,但是这不能...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,813
精华内容 3,125
关键字:

反映总体集中趋势的是