-
数据集中趋势度量:众数、平均数、中位数、几何平均数
2021-02-04 14:08:40即一组数据距离数据中心的靠近程度,反应了一组数据中心的位置所在 数据集中趋势度量的指标有:众数、平均数、中位数、几何平均数等。 众数:即出现次数最多的,常用在不同类别的数量统计中,不受峰值的影响,一组...即一组数据距离数据中心的靠近程度,反应了一组数据中心的位置所在
数据集中趋势度量的指标有:众数、平均数、中位数、几何平均数等。
众数:即出现次数最多的,常用在不同类别的数量统计中,不受峰值的影响,一组数据中可能会存在多个众数,不具备唯一性,数据量较少时意义不大。
平均数:可分为简单平均数和加权平均数,简单平均数即一组数据的平均值,加权平均数即根据分组数据计算的平均数。平均数是一组数据的重心,是经多次测量正负误差互相抵消后事物特征的真实反映。
中位数:一组数据排序后,处于中间位置的那个数据,主要用于顺序数据的集中趋势度量,不适用于分类数据。
几何平均数:即对n个数据相乘后,开n次方,
,几何平均数主要用于计算平均比率。比如一直股票的年收益率数据,计算平均每年的收益率,用几何平均数才是合理的,要注意几何平均数的变量不能是负数和0。
下面针对几何平均数与简单平均数的差异进行说明:
from functools import reduce import math #假设一只股票持有了5年,每年的年收益率数据如下,原始投入成本10000元 rate = [0.045,0.021,0.255,0.019] #简单平均收益率 sig_G = sum(rate)/len(rate) print ('简单平均收益率',sig_G) 简单平均收益率 0.085 #几何平均收益率 j_G = math.pow(reduce(lambda x,y:x*y,[1+i for i in rate]),1/len(rate))-1 print ('几何平均收益率',j_G) 几何平均收益率 0.08078668483359586 #实际收入 rel_cont = 10000*(1+0.045)*(1+0.021)*(1+0.255)*(1+0.019) print ('实际收入',rel_cont) 实际收入 13644.572785249995 #按照简单平均收益率计算 sig_cont=10000*(1+sig_G)**4 print('简单平均收益',sig_cont) 简单平均收益 13858.587006249998 #按照几何平均收益率计算 j_cont=10000*(1+j_G)**4 print('几何平均收益',j_cont) 几何平均收益 13644.572785249995
可以看到简单平均收益与实际收益不符
-
三种常用集中趋势度量的统计量——均值、中位数、众数
2020-05-20 00:15:50统计学中,常用均值、中位数、众数来对数据进行集中趋势度量。我们平时说的平均值在统计学中往往指的就是这三种统计量,而不仅仅指均值。下面,详细介绍这三个统计量。 一、均值 计算方法 μ=∑xn\mu =\frac{\sum x}...统计学中,常用均值、中位数、众数来对数据进行
集中趋势度量
。我们平时说的平均值在统计学中往往指的就是这三种统计量,而不仅仅指均值。下面,详细介绍这三个统计量。一、均值
计算方法
或
备注:x表示数据种每个数字;n表示数据个数;f表示每个数字对应的频数。适用情况
在数据非常对称,且只显示一种趋势时。
二、中位数
计算方法
将数据从小到大先进行排序,
当数据个数为奇数个时,第个数就是中位数;
当数据个数为偶数个时,第个数和第个数的均值就是中位数;适用情况
在数据有异常值,使得数据有右偏斜或左偏斜,没有办法通过均值来表示数据的典型值时。
备注:均值>中位数,表示数据右偏斜;均值<中位数,表示数据左偏斜。
三、众数
计算方法
数据中频数最多的数(可以是1个,也可以是多个)。
适用情况
①数据中有多组,使得数据有多个趋势或多个典型值。
②要衡量的是类别型数据而非数值型数据。对于类别型数据,只有众数才能衡量集中趋势。 -
python笔记:4.1.1.2统计量_集中趋势_中位数
2019-05-26 14:55:43print("\n 开盘价中位数 np.median(jd_stock['open_p']):") print(np.median(jd_stock['open_p'])) print("\n 开盘价中位数 jddf['open_p'].median():") print(jddf['open_p'].median()) print("\n 返回给定百分...# -*- coding: utf-8 -*- """ Created on Sun May 26 14:47:48 2019 @author: User """ import pandas as pd import numpy as np from scipy import stats stock=np.dtype([('id',np.str,5), ('time',np.str,10), ('code',np.str,10), ('open_p',np.float64), ('close_p',np.float64), ('low_p',np.float64), ('vol',np.int32), ('high_p',np.float64), ('col',np.int32)]) print('\n jd_stock:') jd_stock=np.loadtxt('data\stock.csv',delimiter=',',dtype=stock) print(jd_stock) print('\n jddf:') jddf=pd.read_csv('data\stock.csv',sep=',',header=None, names=['id','time','code','open_p','colse_p','low_p','vol','high_p','col']) print(jddf.head()) print("\n 开盘价中位数 np.median(jd_stock['open_p']):") print(np.median(jd_stock['open_p'])) print("\n 开盘价中位数 jddf['open_p'].median():") print(jddf['open_p'].median()) print("\n 返回给定百分位点(0-100)对应的数值:") print(stats.scoreatpercentile(jddf['open_p'].median(),50))
运行:
jd_stock:
[('1', '20130902', '600028', 4.41, 4.43, 4.37, 17275, 4.41, 392662)
('2', '20130903', '600028', 4.41, 4.46, 4.4 , 19241, 4.45, 434177)
('3', '20130904', '600028', 4.44, 4.49, 4.42, 20106, 4.47, 451470) ...
('1356', '20190327', '600028', 5.71, 5.75, 5.69, 63601, 5.72, 1112544)
('1357', '20190328', '600028', 5.69, 5.7 , 5.62, 65692, 5.64, 1162484)
('1358', '20190329', '600028', 5.65, 5.75, 5.61, 112785, 5.74, 1981482)]jddf:
id time code open_p colse_p low_p vol high_p col
0 1 20130902 600028 4.41 4.43 4.37 17275.39 4.41 392662
1 2 20130903 600028 4.41 4.46 4.40 19241.84 4.45 434177
2 3 20130904 600028 4.44 4.49 4.42 20106.30 4.47 451470
3 4 20130905 600028 4.47 4.48 4.42 15582.48 4.47 349997
4 5 20130906 600028 4.46 4.52 4.45 19101.41 4.50 425777开盘价中位数 np.median(jd_stock['open_p']):
5.665开盘价中位数 jddf['open_p'].median():
5.665返回给定百分位点(0-100)对应的数值:
5.665
-
python在数据集中加上_【python数据分析】:描述性统计分析之集中趋势(平均值、众数、中位数、百分位数)....
2021-01-31 02:02:22•本文字数:约1300字•阅读时长:约5分钟•难度:2颗星集中趋势:平均数(算数平均数、几何平均数、调和平均数)、众数、中位数等。平均值:指在一组数据中所有数据之和再除以数据的个数。中位数:按顺序排列的一组...•本文字数:约1300字•阅读时长:约5分钟•难度:2颗星
集中趋势:
平均数(算数平均数、几何平均数、调和平均数)、众数、中位数等。
平均值: 指在一组数据中所有数据之和再除以数据的个数。
中位数:按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。
众数:在一组数据中,出现次数最多的数据;是样本观测值在频数表中频数最多的那一组的组中值。
四分位数:是指根据中位数分为2个部分后,再取每个部分的中位数。
模块导入
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snssns.set_style("darkgrid")plt.rcParams['font.sans-serif'] = ['SimHei'] # 中文字体设置-黑体plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题sns.set(font='SimHei',font_scale=1.5) # 解决Seaborn中文显示问题并调整字体大小
算数平均数
# 创建数据data = pd.DataFrame({'value':np.random.randint(100,120,100), 'f':np.random.rand(100)})data['f'] = data['f'] / data['f'].sum() # f为权重,这里将f列设置成总和为1的权重占比print(data.head())print('------')# 简单算数平均值 = 总和 / 样本数量 (不涉及权重)mean = data['value'].mean()print('简单算数平均值为:%.2f' % mean)# 加权算数平均值 = (x1f1 + x2f2 + ... + xnfn) / (f1 + f2 + ... + fn)mean_w = (data['value'] * data['f']).sum() / data['f'].sum()print('加权算数平均值为:%.2f' % mean_w)
value f
0 105 0.013713
1 102 0.014311
2 107 0.005183
3 100 0.017619
4 116 0.019326
------
简单算数平均值为:108.82
加权算数平均值为:109.11位置平均数
# 众数是一组数据中出现次数最多的数,这里可能返回多个值m = data['value'].mode()print('众数为',m.tolist())# 中位数指将总体各单位标志按照大小顺序排列后,中间位置的数字med = data['value'].median()print('中位数为%i' % med)# 密度曲线data['value'].plot(kind = 'kde',style = '--k',grid = True)# 简单算数平均值plt.axvline(mean,color='r',linestyle="--",alpha=0.8) plt.text(mean + 5,0.005,'简单算数平均值为:%.2f' % mean, color = 'r')# 加权算数平均值plt.axvline(mean_w,color='b',linestyle="--",alpha=0.8) plt.text(mean + 5,0.01,'加权算数平均值:%.2f' % mean_w, color = 'b')# 中位数# **这里三个数text显示的横坐标一致,目的是图示效果不拥挤plt.axvline(med,color='g',linestyle="--",alpha=0.8) plt.text(mean + 5,0.015,'中位数:%i' % med, color = 'g')
众数为 [100, 108]
中位数为108百分位数
#分位数 法一 (np.percentile)q1=np.percentile(data['value'],25) #四分位q2=np.percentile(data['value'],95) #95%位数print('上四分位数:%s'%q1)print('95分位数:%s'%q2)#分位数 法二 (df.quantile)df=pd.Series(data['value'])print('下四分位数:%s'%(df.quantile(.75)))data['value'].plot.box(grid = True,color = color,figsize = (10,3))
上四分位数:104.0
95分位数:118.0
下四分位数:113.25今天就先到这啦,早点休息哦~
加油,坚持就是胜利,学完你就是个宝藏女(男)孩啦~
一起学习的小伙伴如果有什么想法或者意见,欢迎沟通~
投稿|沟通邮箱:yzhmry1314@163.com
-
集中趋势分析与离中趋势分析
2016-09-29 09:26:22集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如测试班级的平均成绩是多少?是正偏分布还是负偏分布? 离中趋势分析主要靠全距、四分差、平均差、方差、标准差等统计指标来研究数据的... -
统计学中描述集中趋势的方法
2019-03-09 19:45:552.中位数:将一列数从小到大排列,位于中间位置的数的值 3.众数(mode):数值集中出现频率最多的数字 4.极差(range):最大值减去最小值max-min 5.中程数(midrange):最大数和最小数的平均值 ... -
集中趋势的应用——基于集中趋势识别“种子选手”
2020-09-25 20:26:55本期给大家介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,包括中位数、众数、平均数、方差、标准差、离散系数、偏度峰度、离群值等的原理、概念以及应用。再结合运动员案例分析,讨论不同场景下的... -
数据的集中趋势
2019-07-21 22:52:42数据的集中趋势 众数 一组数据中出现频次最高的数 中位数 一组数中间的数 分位数 极差 算数平均数 加权平均数 几何平均数 数据的离散趋势 方差 标准差 极差 平均差 四分位数 第一四分位数 (Q1),又称“较小四分位数... -
众数和中位数的应用题_什么是众数和中位数
2020-12-24 16:57:49什么是众数和中位数2019-09-25 15:30:00文/颜雨众数是在一组数据中,出现次数最多的数据,是一组数据中的原数据。中位数是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可... -
统计学原理 集中趋势的度量
2020-05-10 16:05:47集中趋势 (central tendency) 一组数据向其中心值靠拢的倾向和... 众数 (不惟一性)顺序数据:中位数和分位数1. 中位数 (median)2. 四分位数 (quartile)数值型数据:平均数1. 简单平均数 (Simple mean)2. 加权平均数 (W -
统计指标 --- 集中趋势
2021-02-22 22:17:42集中趋势指标包括平均值、中位数、众数 平均值:是最常用的集中趋势指标,但有弊端,单纯的计算平均值具有一定的误导性,对异常数据不敏感。 中位数:按顺序排列后,位于中间的数。总数为偶数的数据的中位数为最... -
不能反应一组数据集中趋势的是_数据集中趋势的几个度量指标
2020-12-15 18:43:28众数众数,就是在一堆数据中出现次数最多的那个数,非常好理解。它主要是用来衡量分类数据的集中趋势的。举例:随机调查了10个人的月收入状况,具体数据如下:2000 3000 2000 ...中位数和分位数首先要说明的是,中位... -
做数据分析为何要学统计学(2)——集中趋势和离散趋势
2019-07-12 23:16:22当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也使用中位数。 平均数和中位数一般是不同的,除非样本呈正态分布。如果衡量... -
中位数和平均值
2018-09-27 23:09:44部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。 3)众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最... -
均值、中位数、众数
2018-12-08 12:21:00中位数:按大小排序,取中间数,中间数如果为2个则求平均值 众数:数据中出现次数最多的数 或 占的比例最大的数,12345||112233,都是一样,没有众数 有点 缺点 均值 充分利用所有数据,适用性强... -
商务统计_8 数值描述度量 - 集中趋势
2019-11-26 23:23:35集中趋势 1.众数 2.中位数 3.均值 4.众数 & 中位数 & 均值的关系 -
学习笔记 | 描述集中趋势
2019-10-13 12:21:31均值(描述集中趋势),中位数,众数 标准差,方差(描述分散趋势) 标准差是离均差平方和平均后的方根,用σ表示。 标准差是方差的算术平方根。 方差是标准差的平方; 分布 数据的分布,它描述了各个值出现的... -
统计学基础_第二章_集中趋势
2020-08-30 15:13:43对数据按升序排序,如果数据数量为奇数,中位数就是中间的数据,如果数据数量为偶数,中位数是中间两个数相加除2 众数 一批数据中频数最大,即出现次数最多的一个数值,有时候一组数据会有多个众数 众数因为不需要... -
(三)集中趋势
2017-09-18 14:01:00学习集中趋势的三种量度:均值、中位数和众数。 下图是护理专业薪资和地理专业薪资的频率分布,假设这些直方图是使用护理或地理专业的所有人的数据而创建的,x 轴代表其年收入,单位是千美元,从这些分布中,... -
最小距离之和-中位数
2013-10-28 22:23:50中位数:将数组大小为n的数据,从大到小,或者是从小到大排列,那么当n为奇数的时候,中位数就是(n+1)/2的这个数,当n为偶数的时候,中位数就是n/2和(n+1)/2这二个数据的平均数。 中位数:也就是选取中间的数。... -
均值与中位数随想
2011-08-09 15:11:03....., 特定的社会和经济指标(大多数与收入相关)的分析使用中位数作为集中趋势量数,例如“美国家庭平均收入的中位数是......”,而不是使用均值来概括收入。总是存在太多的极值改变或者明显地流去一个数据组或者... -
平均数、中位数、众数的特点及应用场合
2013-08-25 09:47:36平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供... -
51nod 最小距离之和-中位数
2015-11-07 14:17:29中位数:将数组大小为n的数据,从大到小,或者是从小到大排列,那么当n为奇数的时候,中位数就是(n+1)/2的这个数,当n为偶数的时候,中位数就是n/2和(n+1)/2这二个数据的平均数。 中位数:也就是选取中间的数... -
不能反应一组数据集中趋势的是_2020初三数学复习:反映数据集中趋势的三大法宝,考试时有人常错...
2021-01-03 22:23:20#数学# #头条教育# #我要上头条#平均数、中位数与众数是反映数据集中趋势的概念。尤其要注意中位数,将一组数据按照从小到大(或从大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数... -
求中位数_“有温度的数学”——关于“中位数、众数、平均数”的理解
2021-01-03 22:23:18②众数反映了一组数据的集中趋势,当众数出现的次数越多,它就越能代表这组数据的整体状况,并且它能比较直观地了解到一组数据的大致情况。但是,当一组数据大小不同,差异又很大时,就很难判断众数的准确值了。此外... -
统计学基础之一:集中趋势、样本和方差
2019-01-27 15:15:20平均数、中位数、众数平均数、中位数、众数样本和总体 平均数、中位数、众数 举个例子: 23、29、20、32、23、21、33、25 均值:25.75-衡量集中趋势的方法,异常值出现的时候容易产生偏差 中位数:24-集中测试的另一... -
统计学第一篇,均值、中位数、众数
2018-02-05 16:35:47均值、中位数、众数是表示一组数据集中趋势的量数,下面以“1,2,3,3,5,7,7,8,9,10”数据集为例 均值,中位数,众数 Type 示例 值 说明 均值(Mean) (1+2+3+3+5+7+7+8+9+10)/10 5.5 算术平均数。求和,... -
中位数、众数和均值的关系
2016-01-23 16:35:44中位数、众数和均值都是描述数据集中趋势的统计量,他们各有特点。例如,对于某种商品的各种售价,中位数处在中间的价格,大于和小于中位数的价格各为一半;众数为众多价格中出现频数最多的那个价格;而均值在大部分... -
统计学学习笔记——(3)集中趋势
2017-11-14 10:10:29均值,中位数,众数均值(Mean):也称平均数,它是全部数据的算术平均。均值在统计学中具有重要的地位,是集中趋势的最主要测度值。可以通过数据值的总和除以数据的个数来计算:x¯=∑ni=0xin\bar{x}=\frac{\sum_{i...