精华内容
下载资源
问答
  • 众数中位数和均值的关系
    万次阅读
    2016-01-23 16:35:44

    中位数、众数和均值都是描述数据集中趋势的统计量,他们各有特点。例如,对于某种商品的各种售价,中位数处在中间的价格,大于和小于中位数的价格各为一半;众数为众多价格中出现频数最多的那个价格;而均值在大部分情况下,数值上不会等于其中的任何一个价格,但是将所有的价格都放在数轴上,均值刚好位于平衡点,即在所有价格的重心上,该点两侧的力矩是相等的,恰好使数轴保持平衡。

    当数据为单峰的对称分布时,其中位数、众数与均值是相同的。但如果是单峰的偏态分布,则在均值的两侧,数据的个数不同。显然,中位数在数据个数较多的一侧;由于均值位于平衡点,两侧的力矩相等,则数据个数较多的一侧,每个点相对于均值的力矩(即距离)要小一些。也就是说,数据较多的一侧分布在较小的区间里,更容易出现频数较大的数据(众数)。所以中位数和众数会出现在均值的同侧。

    下面利用皮尔森(K.Pearson)经验公式给出更加准确的关系描述。

    中位数(median)一般介于均值(mean)和众数(mode)之间,且众数近似地等于3倍的中位数减去2倍的均值,即

    mode = 3 median - 2 mean

    还可以进一步得到如下两个公式。

    *将等式两端同时减去mean,得到

    mode - mean = 3(median - mean)

    这说明众数与均值的距离约等于中位数与均值距离的3倍。

    *将等式两端同时减去median,得到

    mode - median = 2(median - mean)

    这说明众数与中位数的距离约等于中位数与均值距离的2倍.

    更多相关内容
  • #分级练习 说明:分叉并克隆此存储库。 创建一个名为grader.js的文件,并在其中写入以下函数。 您必须具有完整的测试范围(为每个功能编写一堆茉莉花或摩卡咖啡/ chai测试...###中位数 编写一个函数medianScore ,该函
  • 均值,就是我们日常生活经常用到的平均,只需要将所有数字加起来除以数字个即可。 如果用字母(抽象化)来表示均值: μ=∑xn \mu = \frac{\sum x}{n} μ=n∑x​ 其中μ\muμ是均值的专用符号,读作“缪”。Σ...

    各种“平均数”

    在这之前,请大家先要知道这里的“平均数”可不指代平常的概念,在统计学中,平均数可以帮我们把握一批数据的总体情况。

    均值

    均值,就是我们日常生活中经常用到的平均数,只需要将所有数字加起来除以数字个数即可。

    如果用字母(抽象化)来表示均值:

    μ = ∑ x n \mu = \frac{\sum x}{n} μ=nx

    其中 μ \mu μ是均值的专用符号,读作“缪”。 Σ \Sigma Σ为求和符号,读作“西格玛”。x为每个数字,n为数字的个数。

    对于有频数的情况,比如计算平均年龄,19岁的1个,20岁的3个,21岁的1个。

    μ = ∑ f x ∑ f = 1 ∗ 19 + 3 ∗ 20 + 1 ∗ 21 5 = 20 \mu = \frac{\sum fx}{\sum f} = \frac{1*19+3*20+1*21}{5} = 20 μ=ffx=5119+320+121=20

    f f f表示某个数字的频数。首先每个数字乘以其频数,然后将全部乘积相加,之后除以频数之和。

    异常值

    给出一个情境:如果有一个中年人想要进入一个由中年人组成的健身班,按照均值的计算,有3个班,平均年龄分别是17、25和38。如果选择第3个班级,看起来是合理的,但遗憾的是,它其实是这样的一个班级。

    在这里插入图片描述

    有两个祖师爷,分别是145岁和147岁,这会导致计算出来的均值在38岁,但实际上大部分人在20岁左右。

    我们称最右边的值为异常值,因为大部分的学员年龄都在20岁左右,因为异常值的存在,导致平均值整体右偏到38岁,实际上根本没有人38岁。祖师爷的存在使得均值被抬高了。这种情况也叫数据偏斜了。

    异常值:与其他数据格格不入的极高或极低的数值

    偏斜数据:当异常值将数据向左或者向右“拉”时即产生偏斜数据

    在这里插入图片描述

    我们再看看这三张数据分布图,当异常值存在于右侧,平均值会被拉高;当异常值存在于左侧,平均值会被拉低;当数据呈对称心态,均值会位于中央。

    中位数

    当偏斜数据和异常值使均值产生误导时,我们可以采用其他方式表示典型值,比如中位数。中位数,通俗来说就是数字中位于最中间的数。

    比如19 19 20 20 20 21 21 100 102的中位数是20。

    下面给出求中位数的通俗办法:

    • 把数字从小到大排列
    • 如果有奇数个数字,n个数,中间数的位置为(n+1)/2
    • 如果有偶数个数字,n个数,中间数的位置为(n+1)/2的两侧,将两个数字相加除以2,就是中位数了

    在上面的案例中,中位数比均值更合适。均值有一个缺点就是:它可能会给出一个不存在于数据集中区的数值。不过不能完全否定均值,均值的优势通常远胜于中位数,均值对于抽样数据来说更稳定。

    众数

    再给出一个情境:有一位青年人想要参加游泳班,恰好有一个均值和中位数都为17岁的班级。但是事与愿违,这个班级的年龄分布情况是这样的:(这里的频数图1-2表示1岁是因为在现实生活中,1岁多 统称 为1岁)

    在这里插入图片描述

    1 1 1 2 2 2 2 3 3 | 31 31 32 32 32 32 33 33 33

    可以算出来,这个班级的年龄均值和中位数都是17。又或者我们多加一个孩子(例如3岁)/家长(例如31岁),中位数的年龄就会偏向为孩子(例如3岁)/家长(例如31岁)。

    这个时候均值和中位数都失灵了。这时候需要众数出场。

    众数,是一批数字中最常见的数值,即频数最大的值。众数可以不止一个。并且如果数据看上去体现了多种趋势或多批数据,那么我们可以为每一批数据给出一个众数。如果一批数据有两个众数,则我们说这种数据是双峰数据

    在上面的情景中,有孩子和家长两批数据,不存在某一个能完全代表整个班级的年龄,相反,我们可以看出每一批年龄的众数。在孩子组,2岁频率最高,在家长组,32岁频率最高,它们就是众数。

    而且,众数还有另外一个功能。那就是它能用于类别数据。事实上,众数是唯一能用于类别数据的平均数。

    当众数很多时,比如2个1、3个2、3个3、3个4,这时候众数就比较没用了。

    求众数三步法:

    1. 把数据中的不同类别或数值全部找出来
    2. 写出每个数值或类别的频数
    3. 挑出具有最高频数的一个或几个数值,得出众数

    总结

    以下是书上的总结:

    在这里插入图片描述

    书上还有一个脑筋急转弯的题目,大家可以先不看答案思考一下再看看自己想的对不对:

    在这里插入图片描述

    开头的小故事

    本地一家公司的员工由于感到自己拿到的薪水不公道,出现了不满情绪。大部分员工周薪为500美元,少数经理高一些,而首席执行官每周搞回家49000美元。

    • 工人说平均薪水是每周2500美元,自己只有500美元,要求加薪
    • 经理说平均薪水是每周1万美元,自己只有4000美元,也要求加薪
    • 首席执行官说平均薪水就是每周500美元,我没有亏待谁,快回去干活吧

    看看其中的“平均数”:

    • 工人用的是中位数,这使得首席执行官的薪水造成的影响达到最低程度(可能是自己和经理比较工资觉得不满,或者是首席执行官只有仅仅几个人,工人使用中位数使得自己更有可能加薪【比均值低】)。
    • 经理们用了均值,首席执行官的高薪令数据向右偏斜,均值因此显得虚高。
    • 而首席执行官用了众数,大部分工人薪水就这么高。

    实际上,每个人群都在使用最有利于自己意愿的平均数。统计量能够提供信息,但也能造成误导。在这个例子中,最适合的平均数是中位数,因为数据中存在异常值。

    展开全文
  • 本文重点介绍了在数据统计中最常使用的三个统计量,算术平均数,中位数以及众数,给出了其相关概念的定义具体的Python实现。您学废了嘛?

    1. 引言

    在做数据分析时,我们经常需要使用统计量来更加方便的了解数据的分布。但是统计量有多种计算方式,本文重点介绍常用的三种数据统计中常用的统计量,即均值,中位数和众数;并尝试使用一行Python代码来实现其具体计算。

    闲话少说,我们直接开始吧!

    2. 算术平均数

    算术平均数又叫均值,定义相对简单,其计算公式为: 算术平均数=所有数之和/总个数
    用代码实现如下:

    def mean(lis):
        return sum(lis)/len(lis)
    

    算术平均数是我们在日常中使用最为广泛的一个统计量,实际举例如下:

    lis = [1,2,3,4,5]
    print(mean(lis))   # 3 as (1+2+3+4+5)/5
    

    3. 中位数

    中位数是指数字列表中最中心的值。尽管很容易解释,但中位数比平均值更难计算。这是因为为了找到中位数,必须对列表中的数字进行排序。此外,我们必须区分两种情况。如果列表中元素的数量为奇数,则中位数是列表中最中心的成员。但是,如果列表中有偶数个元素,则需要确定两个最中心的数字的算术平均值。

    使用数学公式描述如下:
    在这里插入图片描述
    用代码实现如下:
    在这里插入图片描述
    与算术平均值相比,中位数受极值(非常大或非常小)的影响较小,举例如下:

    lis = [4,1,3,2,10000]
    print(median(lis)) # 3
    # if we sort lis, we get [1,2,3,4,10000]
    #     the number in the middle is 3,
    #     so 3 is the median
    # The arithmetic mean is 2502.5 (inflated by extreme values)
    

    请注意,如果我们的列表长度位偶数,则将有2个中间数字。因此,中位数是 2 个中间数字的平均值。

    lis = [1,2,3,4,5,6]
    print(median(lis))   # 3.5 as (3+4)/2
    

    4. 众数

    众数是一组数据中出现次数最多的数字,代码实现如下:

    def mode(lis):
        return max(lis, key=lambda x:lis.count(x))
    

    众数的概念不仅适用于数值型数据,也适用于字符串等数据类型。我们举例如下:

    lis = [1,1,1,2,2,3]
    print(mode(lis))   # 1 as it appears the most
    lis = ["a", "a", "b", "b", "b", "c"]
    print(mode(lis))   # "b" as it appears the most
    

    5. 总结

    本文重点介绍了在数据统计中最常使用的三个统计量,算术平均数,中位数以及众数,给出了其相关概念的定义和具体的Python实现。

    您学废了嘛?

    在这里插入图片描述

    展开全文
  • 均值中位数中位数的概念以及优缺点对比。偏态分布难点分析,以及偏度、峰度计算公式。文末附相关学习链接。

    在这里插入图片描述

    1 案例:计算出下面数据中的均值、众数、中位数

    超市一天收款账单的金额分别为:

    ​ 21,100,30,25,26,27,26,10

    均值:33.125

    众数:26

    中位数:26

    计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。 如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。

    2 均值、众数、中位数对比

    2.1 均值

    • 优点:充分利用所有数据,适用性强

    • 缺点:容易受到极端值的影响【上面例子中的100就可以理解为极端值,在数据处理中这类值需要注意,可能是异常值】

    2.2 中位数

    • 优点:不受极端值影响

    • 缺点:缺乏敏感性【只关注中间的数字】

    2.3 众数

    • 优点:代表性好
    • 缺点:缺乏唯一性【有时可能存在多个众数】

    3 偏态

    3.1 概率密度函数

    这里加入概率密度函数相关概念有利于理解下面的偏态分布。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xybpgW33-1628410834044)(集中趋势中均值、中位数、众数的分析与对比.assets/image-20210808155551812.png)]

    3.2 偏态分布

    在这里插入图片描述

    偏态分布为统计学概念,即统计数据峰值与平均值不相等的频率分布。根据峰值小于或大于平均值可分为正偏函数和负偏函数,其偏离的程度可用偏态系数刻画.

    左偏分布也被称为负偏态,右偏分布也会称为正偏态。

    用均值、中位数、众数三者的位置关系判定和查看

    • 中位数查看

      • 将数据一分为二(中位数的位置),哪边数据少,就是往哪边偏。
    • 众数描述

      • 众数位置哪边尾巴长,就是往哪边偏。
    • 数据分布往哪边偏,均值被拉往哪边

    偏度本身是相对于均值左右数据的多少。这里拿右偏分布举例,也就是说数据在均值左侧的数量较多,**所以为了达到所有数据于均值之差和为0,应该存在较大的数与之平衡,所有分布图里有一个很长的右端的拖尾(就是右端必须存在很大的值)。既然均值左侧的数比较多,对比中位数左右两侧数一样多,则均值必在中位数的右侧(即这样围成面积才大于0.5)。**另外,右偏的图像围成面积为0.5的分界点应该在峰值点的右侧,所以中位数大于众数。所以就有众小于中小于均。

    作者:雪绒花与蚊子
    链接:https://www.jianshu.com/p/a558a3f4b84a
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    3.3 偏度计算

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JxhSNr5S-1628410834048)(集中趋势中均值、中位数、众数的分析与对比.assets/image-20210808161836183.png)]

    3.3 峰度

    peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CVMRiGOL-1628410834050)(集中趋势中均值、中位数、众数的分析与对比.assets/image-20210808161711066.png)]

    计算:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0xEMWrhW-1628410834053)(集中趋势中均值、中位数、众数的分析与对比.assets/890640-20180501222450299-1166771113.png)]

    峰度定义为四阶标准矩,可以看出来和上面偏度的定义非常的像,只不过前者是三阶的。

    相关链接:

    1左偏和右偏 - 简书

    2偏态 - 搜索结果 - 知乎 (zhihu.com)

    3 概率统计-方差与正态分布(高斯分布)_Hello_Ray的博客-CSDN博客_正态分布方差

    4 一文搞懂“正态分布”所有需要的知识点 - 知乎 (zhihu.com)

    5 偏度和峰度的计算 - 小舔哥 - 博客园 (cnblogs.com)

    展开全文
  • python求解中位数均值众数

    万次阅读 2019-02-16 11:19:19
     中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个...
  • 包含了在matlab中计算数据中位数众数均值等方法及实例
  • 统计学第一篇,均值中位数众数 均值中位数众数是表示一组数据集中趋势的量数,下面以“1,2,3,3,5,7,7,8,9,10”数据集为例 均值,中位数,众数 Type 示例 值 说明 均值(Mean) (1+2+3+3+5+7+7+8...
  • 如何用SQL求众数和中位数

    多人点赞 热门讨论 2022-03-21 11:39:17
    平均数、众数和中位数都叫统计量,并且都是用来刻画数据集中趋势的统计量,它们在统计 中,有着广泛的应用,并且有着各自的特点适应的使用条件。 平均数是通过“一组数据的总合除以这组数据的个数”计算而得到的...
  • 一组数据中如果有特别大的数或特别小的数时,一般用中位数 一组数据比较多(20个以上),范围比较集中,一般用众数 其余情况一般还是平均数比较精确 一、联系与区别:  1、平均数是通过计算得到的,因此它会因...
  • 计算:将所有数字按照从小到大或从大到小的方式排序,找出最中间的值,如果数字的个数为奇数,中间的值即为中位数,如果数字的个数为偶数,将处于中间的两个数值相加再取平均得到中位数。 三、众数(mode) 计算:...
  • 查找数字列表的均值众数和中位数。 a) 编写一个函数来生成随机数值数据的 Python 列表。这 函数应该将列表的所需大小作为参数。 b) 使用 Python 列表实现您自己的均值众数和中值函数 作为输入。如果您愿意,您的...
  • python求均值中位数众数的方法

    千次阅读 2020-11-24 18:37:02
    均值和中位数均可以使用numpy库的方法: import numpy as np #均值 np.mean(nums) #中位数 np.median(nums) 求众数方法一: 在numpy中没有直接的方法,但是也可以这样实现: ...
  • 首先需要数据源,这里随便写了一个: [python]view plaincopy ...求均值和中位数均可以使用numpy库的方法: [python]view plaincopy importnumpyasnp #均值 np.mean(nums) #中位数 np.median(nums) 求众...
  • 1 众数中位数和均值的特点应用场合1 .1 概念均值(mean): 样本中所有数的平均值。 众数(mode): 样本中出现次数最多的数。 中位数(median): 样本排序后,处于中间位置的那个数。 极差或全距(range) ...
  • 平均值,中位数和众数是数据分析中非常常用的统计功能。虽然有一些python库。寻找均值数字列表的平均值也称为数字平均值。通过将所有数字的总和除以数字计数来找到它。在下面的示例中,我们应用该sum()函数获取数字...
  • 文章目录算数平均数、中位数众数和几何平均数 算数平均数、中位数众数和几何平均数 统计数据时经常用到的几种数的比较: 算数平均数 中位数 众数 几何平均数 英文名 Arithmetic mean Median Mode ...
  • PostgreSQL中用SQL求中位数众数和平均数。
  • 当次数分布呈对称的钟型分布时,算术平均数位于次数分布曲线的对称点上,而该点又是曲线的最高点中心点,因此,众数中位数和算术平均数三者相等。 当次数分布呈非对称的钟型分布,由于这三种平均数受极端数值...
  • 1. 求均值 2. 求中位数 3. 求众数
  • 中位数: 数字从小到大排列的数列中位于中间位置的那个数,如果数列个数为奇数位则中位数位于(n+1)/2, 如果为偶数位则为n/2与n/2+1的两个数的平均值,可以用numpy.median函数计算 众数:数列中出现频率最多的数, ...
  • 中位数(median) = 排序后中间的数字 = (23 + 25)/ 2 = 24 众数(mode) = 出现频率最多的数字 = 23 给出下列一组数据: 65,81,73,85,94,79,67,83,82 极差(range) = 最大值 - 最小值 = 29 中程数(mid-...
  • 众数中位数、分位数 2. 偏度、峰度 1. 众数中位数、分位数 使用 numpy 的 median 函数可以得到其中位数,quantile 函数可以得到其分位数,但 numpy 包目前还没有计算众数的函数。例如: >>> a = [8, 19, 34, 9,...
  • 度量数据中心趋势的各种方法。假设我们有某个属性X,如salary,已经对一个数据对象集记录...中心趋势度量包括均值中位数众数和中列数。数据集“中心”的最常用、最有效的数值度量是(算术)均值。令x1,x2,…,x...
  • python编程学习平均值,中位数和众数是数据分析中非常常用的统计功能.寻找平均值数字列表的平均值也称为数字平均值。 通过将所有数字的总和除以数字计数来找到它。 在下面的示例中,我们应用sum()函数获取数字的总和...
  • R的统计分析通过使用许多内置函数来执行的,这些函数大部分是R基础包的一部分,并且它们将R向量与参数一起作为输入,并在执行计算后给出结果。 先来看如何求平均值。 平均值是通过取数值的总和并除以数据序列...
  • 均值和中位数均可以使用numpy库的方法: import numpy as np #均值 np.mean(nums) #中位数 np.median(nums) 求众数方法一: 在numpy中没有直接的方法,但是也可以这样实现: import numpy as np #bincount...
  • 可用的统计数据有:众数、最大值、均值中位数、最小值、少数、范围、标准差、总和及变异度。 https://desktop.arcgis.com/zh-cn/arcmap/10.3/tools/spatial-analyst-toolbox/an-overview-of-the-local-tools.htm ...
  • 本文介绍平均值、几何均值、调和均值中位数、截尾法以及众值估计的求解方法,并用matlab对实例进行求解。 各值的特点 平均值 无系统误差粗大误差时,直接求平均的结果最接近真值,用它来表示测量结果是最为可靠...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,151
精华内容 2,860
热门标签
关键字:

众数中位数和均值的关系