精华内容
下载资源
问答
  • 不同平均数的比较;图片来源:维基百科 大概是最常见的数据分析任务 ...哇,你得到了“平均数”,没错吧? 也许。 和流行的观点不同,从数学上说,平均数通常不是一样东西。意思是:没有可以恰当地称...

    转载自:http://m.elecfans.com/article/712572.html

    不同平均数的比较;图片来源:维基百科

    大概是最常见的数据分析任务

    你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没错吧?

    也许。

    和流行的观点不同,从数学上说,平均数通常不是一样东西。意思是:没有可以恰当地称作“平均数”的数学运算。我们通常所说的平均数是“算术平均数”,具体计算过程如前所述。我们称其为“平均数”,是因为我们期望它符合“平均数”的口头定义:一个典型的、正态的中间值。我们常常是对的,但正确的频率比我们想象的要低。

    概述统计量

    算术平均数仅仅是得到“平均”值的许多方法的其中之一。技术一点地说,这些属于概述统计量、集中趋势测度、位置测度。

    中位数大概是第二出名的概述统计量。由于中位数是数据集中间的值,因此常常比均值更平均。我这里不讨论中位数,不过在许多情形下,算术平均数被滥用在中位数更合适的地方。更多关于中位数的内容,可以参考下面三篇文章:

    https://www.linkedin.com/pulse/20140715160509-29681087-median-vs-average-household-income/

    http://wkuappliedeconomics.org/indblogs/mean-vs-median-income-which-one-to-use-and-what-it-means-for-south-central-kentucky/

    https://medium.com/%40JLMC/understanding-three-simple-statistics-for-data-visualizations-2619dbb3677a

    本文将重点讨论知名度相对较低的几何平均数和调和平均数。

    毕达哥拉斯平均数

    平方平均数和毕达哥拉斯平均数;图片来源:维基百科

    算术平均数是3种毕达哥拉斯平均数之一(名称源自研究这些性质的毕达哥拉斯及其学派)。另外两种毕达哥拉斯平均数是几何平均数和调和平均数。

    为了了解它们的基本功能,让我们从熟悉的算术平均数开始。

    算术平均数

    算术平均数的名字取得很合适:我们累加数据集中的所有数字,接着除以数据集包含的数字数目。

    不过,加法没有什么特别的。它只不过是一种简单的数学运算。在数字之间存在可加性(additive)关系的数据集上,算术平均数效果很好。这样的关系经常被称为线性,因为如果我们将所有数字按升序或降序排列,数字倾向于落在一根直线上。一个简单而理想化的例子是公差为3的等差数列:

    然而,不是所有的数据集都适宜用这种关系描述的。有些数据集内部存在乘法或指数关系,例如,公比为3的等比数列:

    我们看到,算术平均数(156)并不特别接近我们的数据集中的大多数数字。实际上,它是中位数(27)的5倍。

    将数据绘制在一根数轴上,能够更明显地看到这一扭曲。

     

    所以,我们做什么?

    引入……

    几何平均数

    由于数据集中数字之间的关系是相乘,我们通过乘法和取方根(总共有几个数字就开几次方根)来得到几何平均数。

    我们可以看到,在等比数列上,几何平均数更能代表数据集的中间值。事实上,在这个等比数列数据集上,它等于中位数。

    从单根数轴上也可以看到这一点:

    几何平均数的真实世界应用

    实际上,有很多实际场景适合使用几何平均数,因为类似相乘的关系在真实世界中很常见。

    一个经典的例子是复利问题。

    假设我们有一笔5年期存款,本金为$100,000,每年的利率是变动的:

    年利率:1%、9%、6%、2%、15%

    我们想要找到平均年利率,并据此计算5年后本金和利息的总和。我们尝试“平均”这些利率:

    (.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%

    然后我们将平均利率代入复利计算公式:

    100000 * (1.066 ** 5 - 1) + 100000 = 137653.11

    比较以下不使用平均利率,直接计算的结果:

    100000 * 1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 136883.70

    可以看到,我们的简便计算方法误差接近$1,000。

    我们犯了一个常见的错误:我们将加法操作应用于相乘过程,得到了不精确的结果。

    现在,让我们试试几何平均数:

    1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042

    1.368837042开5次方根 = 1.064805657

    将几何平均数代入复利计算公式:

    100000 * (1.0648 ** 5 - 1) + 100000 = 136883.70

    这个数字正好等于我们逐年计算所得的结果。

    我们使用了合适的平均数,并得到了正确的结果。

    几何平均数还适合什么场景呢?

    几何平均数的一个很酷的特性是,你可以对尺度完全不同的数字取平均数。

    例如,假设我们想比较两间咖啡店来源不同的在线评价。问题在于,来源一的评价使用五星制,而来源二的评分评价使用百分制:

    咖啡店A

    来源一:4.5

    来源二:68

    咖啡店B

    来源一:3

    来源二:75

    如果我们直接根据原始分值计算算术平均数:

    咖啡店 A = (4.5 + 68) / 2  =  36.25

    咖啡店 B = (3 + 75) / 2 = 39

    根据上面的数据,我们得出结论咖啡店B是赢家。

    如果我们对数字有一点敏感性,我们会知道在应用算术平均数得到精确的结果之前,我们首先需要标准化(normalize)数据集中的值至同一尺度。

    所以,我们将来源一中的评价乘以20,将其从五星尺度拉伸到来源二的百分制尺度:

    # 咖啡店A

    4.6 * 20 = 90

    (90 + 68) / 2 = 79

    # 咖啡店B

    3 * 20 = 60

    (60 + 75) / 2 = 67.5

    我们发现,其实咖啡店A才是赢家。

    然而,几何平均数,允许我们在不考虑尺度问题的前提下得到一样的结论:

    咖啡店A = (4.5 * 68) 的平方根 =  17.5

    咖啡店B = (3 * 75) 的平方根 = 15

    算术平均数被尺度较大的数字支配了,以至于得出了错误的结果。这是因为算术平均数期望数字间的加法关系,而没有考虑尺度和比例问题。所以需要在应用算术平均数之前将数字转换为同一尺度。

    另一方面,几何平均数,很容易就能处理比例问题,因为它本质上是乘法关系。这是一个极为有用的性质,但注意我们损失了什么:我们不再具有可解释的尺度了。在这样的情况下,几何平均数其实是无单位的(unitless)。

    例如,以上的几何平均数既不意味着百分制中的17.5分,也不意味着五星制中的15星。它们不过是无单位的数字,互相之间比例一致(技术上说,它们的尺度是原尺度5 & 100的几何平均数,也就是22.361)。不过,如果我们只需比较两间咖啡店评价的高低,那么这不会成为一个问题。

    几何平均数回顾

    几何平均数对值相乘,而不是相加,接着取n次方根,而不是除以n。

    它基本上是在说:如果我们的数据集中的数字都是一样的,那么这个数字应该是什么,才能得到和实际数据集一样的乘积?

    这使它非常适合描述相乘关系,例如比率,即使这些比率的尺度不同。(因此,它经常用来计算财经指数和其他指数。)

    缺点: 应用几何平均数时,可能会丢失有意义的尺度和单位。另外,它对离散值的不敏感性可能会遮蔽可能具有较大影响的大数值。

    和生活中的大多数事情一样,极少有牢不可破的规则说必须使用几何平均数(复利等少数情形除外)。有一些启发式的规则和经验规则,但无疑需要判断力和科学的怀疑,才能应用合理的经验。

    在最后的总结中我们将继续讨论这些,不过现在让我们引入最后一种毕达哥拉斯平均数……

    调和平均数

    算术平均数需要加法,几何平均数则利用乘法,调和平均数使用倒数。

    我们可以用语言描述调和平均数:数据集的倒数的算术平均数的倒数。

    听起来当中包含很多倒数,但实际上不过是一些简单的步骤:

    对数据集中的所有数字取倒数

    找到这些倒数的算术平均数

    对上一步所得取倒数

    源自维基百科的一个简单例子:1、4、4的调和平均数是2:

    注意,由于0没有倒数,因此调和平均数和几何平均数一样,无法处理包含0的数据集。

    好,我们已经明白数学部分如何工作了。不过调和平均数适用于哪些场景呢?

    调和平均数的现实世界应用

    为了回答上面的问题,我们需要回答:倒数适用于哪些场景?

    由于倒数和除法类似,不过是伪装的乘法(乘法不过是伪装的加法),我们意识到:倒数帮助我们更方便地除以分数。

    例如,5 ÷ 3/7等于多少?如果你还记得初等数学,你大概会将5乘以7/3(3/7的倒数)。

    不过有一个等价的方法,将5和3/7缩放至共同的分母:

    5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 112/3 = 11.66667

    类似之前使用几何平均数作为快捷路径,在未标准化的情况下找到不同尺度评分的相加算术平均数的关系,调和平均数帮助我们在不操心共同分母的情况下找到乘/除关系。

    因此,调和平均数很自然地成为几何平均数之上的另一层乘/除。因此,它有助于处理包含长度或周期不同的比率的数据集。

    (你可能在想:“等一下,我原以为几何平均数用在平均利率和不同尺度的比率上!”你想的没错。你也不是第一个为此感到困惑的人。我自己写下下面的内容正是为了厘清我自己的思考和理解。我希望下面的例子让这个主题更清楚了,在文章后面的总结部分也会回顾所有的区别。)

    平均速度

    现实世界中,使用调和平均数的经典例子是以不同的速度通过物理空间。

    考虑一次去便利店并返回的行程:

    去程速度为30 mph

    返程时交通有一些拥堵,所以速度为10 mph

    去程和返程走的是同一路线,也就是说距离一样(5 miles)

    整个行程的平均速度是多少?

    同样,我们可以不假思索地直接应用30 mph和10 mph的算术平均数,然后自豪地宣布结果是20 mph。

    但是再想一想:由于你在一个方向上的速度较高,因此你更快地完成了去程的5 miles,在那个速度上花了整个行程中更少的时间,所以整个行程期间你的平均速度不会是30 mph和10 mph的中点,它应该更接近10 mph,因为你更多的时间是以10 mph的速度行驶。

    为了正确地应用算术平均数,我们需要判定以每种速率行驶所花的时间,然后以适当的权重加权算术平均数的计算:

    去程:5 / (30/60) = 10 minutes

    返程:5 / (10/60) = 30 minutes

    总行程:10 + 30 = 40 minutes

    加权算术平均数:(30 * 10/40) + (10 * 30/40) = 15 mph

    所以,我们看到,真正的平均速度是15 mph,比使用未加权的算术平均数计算所得低了5 mph(或者25%)。

    你大概猜到了我们下面要做什么……

    让我们试着使用调和平均数:

    2 / (1/30 + 1/10) = 15

    真正的行程平均速度,自动根据在每个方向上使用的时间进行调整,是15 mph!

    有一些地方需要注意:

    可以直接应用调和平均数的前提是不同速度行驶的总距离是相等的。如果距离不同,我们需要使用加权调和平均数,或加权算术平均数。

    当距离不等时,算术平均数仍然以不同速度行驶的时间作为加权,而调和平均数则以不同速度行驶的距离作为加权(因为通过取倒数,已经隐式地考虑了不同速度的时间比例)。

    毕达哥拉斯平均数大部分的复杂性和麻烦源于比率的本质以及我们对比率的哪方面更感兴趣。例如,算术平均数总是用分母的单位表示。在行程问题中,比率是每小时的英里数,因此,算术平均数给出的结果是以分母(某种意义上隐藏的)单位表示,小时:(30m / 1hr + 10m / 1hr) ÷ 2 = 20m/1hr = 20 mph。如果我们在每个方向上所花的时间是一样的,那么这个结果会是精确的。然而,我们知道,在每个方向上所花的时间并不一样。相反,调和平均数通过取倒数翻转这些比率,将我们实际感兴趣的数字放入分母,接着取算术平均数,并再次翻转,给出我们要求的平均速度。(可以使用财经的P/E率更深入地探讨这一问题,请参阅论文Using the Price-to-Earnings Harmonic Mean to Improve Firm Valuation Estimates。)

    几何平均数适用于复利问题的原因是,利率的周期是相等的:每种利率一年。如果周期是可变的,也就是说每种利率的持续时间不同,那么我们同样需要使用某种权重。

    几何平均数可以处理相乘关系,例如复利问题和不同评分尺度上的比率,而调和平均数则通过神奇的倒数容纳了另一层次的乘/除关系,例如可变周期或长度。

    类似复利问题和几何平均数,这是一个准确、客观正确的调和平均数的应用案例。不过,事情并不总是如此清晰。有其他准确的、可以在数学上论证的调和平均数的应用,包括物理、财经、水文学,甚至(源自传统)棒球统计。和数据科学关系更密切的:调和平均数经常用在评估机器学习模型的准确率和召回中。但是,在更多的情况下,调和平均数的应用需要判断力,需要你对数据和手头问题的灵活理解。

    总结

    1. 3种毕达哥拉斯平均数密切相关

    例如,我们已经看到:

    不同尺度评分的几何平均数有时保留了这些值标准化至同一尺度后的算术平均数的次序。

    调和平均数等价于行程速度的加权算术平均数(权重为相对行程时间)

    在下篇中,我们将看到,数据集的几何平均数等价于数据集中每个数字的对数的算术平均数。所以,正如调和平均数不过是算术平均数加上一些倒数变换,几何平均数不过是算术平均数加上对数变换。

    2. 毕达哥拉斯平均数遵循严格的次序

    根据相应的公式,调和平均数总是小于几何平均数,几何平均数总是小于算术平均数。

    这三种平均数是彼此接近还是互相远离,取决于数据的分布。以上规则唯一的例外是,在数据集中所有数字相等的极端情形下,3种平均数同样相等。也就是说,以下不等关系成立:

    调和平均数 ≤ 几何平均数 ≤ 算术平均数

    从本节开头的毕达哥拉斯平均数的几何描述中也能看到这一点。

    认识到这一次序关系有助于理解何时应用哪种平均数,以及不同平均数对结果的影响。

    让我们回顾之前的相加和相乘数据集,这次我们将画出所有三种平均数:

    很明显,几何平均数和调和平均数看起来要比这一线性、相加数据集的中间低不少。这是因为这两种平均数对较小的数字而不是较大的数字更敏感(让它们相对而言对较大的离散值不敏感)。

    这里,几何平均数准确地位于数据集的中点,而调和平均数则向低端扭曲,算术平均数则受较大的离散值的影响,向高端扭曲。

    描绘一个集中趋势用调和平均数表达最佳的数据集并不容易,因此我将直接转入下一部分……

    3. 强硬的规则,一些启发式的方法,和许多判断的空间

    不同尺度的比率:使用几何平均数(或在标准化的数据上应用算术平均数)。

    周期一致的复合比率:使用几何平均数。

    不同周期或长度上的比率:使用调和平均数(或加权平均数)。

    了解比率的哪一边你更感兴趣,以决定应用哪种平均数。算术平均数是以分母的单位表达的(显式或隐式)。调和平均数让你可以倒置比率,让结果以原本分子的单位表达。

    如果数据体现出相加结构:算术平均数通常是安全的选择。

    如果数据体现出相乘结构和/或包含较大的离散值:几何平均数或调和平均数可能更合适(中位数可能也比较合适)。

    任何决定都有缺陷和折衷:

    使用几何平均数可能损失有意义的尺度或单位。

    包含0的数据集无法应用几何平均数或调和平均数,包含负数的数据集意味着无法应用几何平均数。

    使用几何平均数或调和平均数时,受众可能不熟悉这两个概念。

    经常,更实用、更易解释的方法是:

    存在较大的离散值时直接使用中位数

    移除离散值

    使用加权算术平均数或统计学变换,而不是难懂的毕达哥拉斯平均数

    统计计算语言R内置矩阵求逆和三次样条插值的方法,却没有内置计算简单的几何平均数或调和平均数的函数,这可能多少暗示了这两种平均数狭窄的使用场景。(不过Google sheets和Excel倒是包含这两种平均数。)

    如果要用一句话概括整篇文章,那么:

    理解数据的本质,仔细思考你用来描述数据的概述统计量,才能避免用错平均数的风险。

    请留言分享你使用这两种不那么常见的毕达哥拉斯平均数的案例和经历(以及你发现的本文的错误)。

     

    展开全文
  • 文章目录算数平均数、中位数、众数和几何平均数 算数平均数、中位数、众数和几何平均数 统计数据时经常用到的几种数的比较: 算数平均数 中位数 众数 几何平均数 英文名 Arithmetic mean Median Mode ...

    算数平均数、中位数、众数和几何平均数

    统计数据时经常用到的几种数的比较:

    算数平均数 中位数 众数 几何平均数
    英文名 Arithmetic mean Median Mode Geometric Mean
    别称 均值 中值
    定义 n个变量的和除以n。 中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。 一组数据中,出现次数最多的数就叫这组数据的众数。 几何平均数是n个变量值连乘积的n次方根。
    优点 只需要知道变量组的总额,不需要知道每个变量值,就可以计算。 不容易受极大值和极小值影响。 数据项没有数值时也可以计算。 不容易受极大值和极小值影响。
    缺点 容易受极大值或极小值影响。 需要知道每个变量的值,并且先排序,再找出中位数。 需要知道每个变量出现的次数,仅适用于计算Top N的情况。 变量值不能为0或负数,仅适用于具有等比或近似等比关系的数据。

    考虑上算数平均数和几何平均数的数据项采用不同的权重,就是加权算数平均数和加权几何平均数。

    在统计一般的“平均数”时,比如统计平均工资、平均房价时,用中位数比算数平均数更合理,可以避免受极大值或极小值影响。但是在实际中,考虑到统计成本,统计的样本比较小,统计数据缺失,统计对象的有意漏报错报,而算数平均数因为计算简单对数据要求不高,仍然被广泛使用。

    参考文档:

    展开全文
  • 哇,你得到了“平均数”,没错吧? 也许。 和流行的观点不同,从数学上说,平均数通常不是一样东西。意思是:没有可以恰当地称作“平均数”的数学运算。我们通常所说的平均数是“算术平均数”,具体计算过程如前所...

    不同平均数的比较;图片来源:维基百科

    大概是最常见的数据分析任务

    你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没错吧?

    也许。

    和流行的观点不同,从数学上说,平均数通常不是一样东西。意思是:没有可以恰当地称作“平均数”的数学运算。我们通常所说的平均数是“算术平均数”,具体计算过程如前所述。我们称其为“平均数”,是因为我们期望它符合“平均数”的口头定义:一个典型的、正态的中间值。我们常常是对的,但正确的频率比我们想象的要低。

    概述统计量

    算术平均数仅仅是得到“平均”值的许多方法的其中之一。技术一点地说,这些属于概述统计量、集中趋势测度、位置测度。

    中位数大概是第二出名的概述统计量。由于中位数是数据集中间的值,因此常常比均值更平均。我这里不讨论中位数,不过在许多情形下,算术平均数被滥用在中位数更合适的地方。更多关于中位数的内容,可以参考下面三篇文章:

    https://www.linkedin.com/pulse/20140715160509-29681087-median-vs-average-household-income/

    http://wkuappliedeconomics.org/indblogs/mean-vs-median-income-which-one-to-use-and-what-it-means-for-south-central-kentucky/

    https://medium.com/%40JLMC/understanding-three-simple-statistics-for-data-visualizations-2619dbb3677a

    本文将重点讨论知名度相对较低的几何平均数和调和平均数。

    毕达哥拉斯平均数

    平方平均数和毕达哥拉斯平均数;图片来源:维基百科

    算术平均数是3种毕达哥拉斯平均数之一(名称源自研究这些性质的毕达哥拉斯及其学派)。另外两种毕达哥拉斯平均数是几何平均数和调和平均数。

    为了了解它们的基本功能,让我们从熟悉的算术平均数开始。

    算术平均数

    算术平均数的名字取得很合适:我们累加数据集中的所有数字,接着除以数据集包含的数字数目。

    不过,加法没有什么特别的。它只不过是一种简单的数学运算。在数字之间存在可加性(additive)关系的数据集上,算术平均数效果很好。这样的关系经常被称为线性,因为如果我们将所有数字按升序或降序排列,数字倾向于落在一根直线上。一个简单而理想化的例子是公差为3的等差数列:

    然而,不是所有的数据集都适宜用这种关系描述的。有些数据集内部存在乘法或指数关系,例如,公比为3的等比数列:

    我们看到,算术平均数(156)并不特别接近我们的数据集中的大多数数字。实际上,它是中位数(27)的5倍。

    将数据绘制在一根数轴上,能够更明显地看到这一扭曲。

    所以,我们做什么?

    引入……

    几何平均数

    由于数据集中数字之间的关系是相乘,我们通过乘法和取方根(总共有几个数字就开几次方根)来得到几何平均数。

    我们可以看到,在等比数列上,几何平均数更能代表数据集的中间值。事实上,在这个等比数列数据集上,它等于中位数。

    从单根数轴上也可以看到这一点:

    几何平均数的真实世界应用

    实际上,有很多实际场景适合使用几何平均数,因为类似相乘的关系在真实世界中很常见。

    一个经典的例子是复利问题。

    假设我们有一笔5年期存款,本金为$100,000,每年的利率是变动的:

    年利率:1%、9%、6%、2%、15%

    我们想要找到平均年利率,并据此计算5年后本金和利息的总和。我们尝试“平均”这些利率:

    (.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%

    然后我们将平均利率代入复利计算公式:

    100000 * (1.066 ** 5 - 1) + 100000 = 137653.11

    比较以下不使用平均利率,直接计算的结果:

    100000 * 1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 136883.70

    可以看到,我们的简便计算方法误差接近$1,000。

    我们犯了一个常见的错误:我们将加法操作应用于相乘过程,得到了不精确的结果。

    现在,让我们试试几何平均数:

    1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042

    1.368837042开5次方根 = 1.064805657

    将几何平均数代入复利计算公式:

    100000 * (1.0648 ** 5 - 1) + 100000 = 136883.70

    这个数字正好等于我们逐年计算所得的结果。

    我们使用了合适的平均数,并得到了正确的结果。

    几何平均数还适合什么场景呢?

    几何平均数的一个很酷的特性是,你可以对尺度完全不同的数字取平均数。

    例如,假设我们想比较两间咖啡店来源不同的在线评价。问题在于,来源一的评价使用五星制,而来源二的评分评价使用百分制:

    咖啡店A

    来源一:4.5

    来源二:68

    咖啡店B

    来源一:3

    来源二:75

    如果我们直接根据原始分值计算算术平均数:

    咖啡店 A = (4.5 + 68) / 2  =  36.25

    咖啡店 B = (3 + 75) / 2 = 39

    根据上面的数据,我们得出结论咖啡店B是赢家。

    如果我们对数字有一点敏感性,我们会知道在应用算术平均数得到精确的结果之前,我们首先需要标准化(normalize)数据集中的值至同一尺度。

    所以,我们将来源一中的评价乘以20,将其从五星尺度拉伸到来源二的百分制尺度:

    # 咖啡店A

    4.6 * 20 = 90

    (90 + 68) / 2 = 79

    # 咖啡店B

    3 * 20 = 60

    (60 + 75) / 2 = 67.5

    我们发现,其实咖啡店A才是赢家。

    然而,几何平均数,允许我们在不考虑尺度问题的前提下得到一样的结论:

    咖啡店A = (4.5 * 68) 的平方根 =  17.5

    咖啡店B = (3 * 75) 的平方根 = 15

    算术平均数被尺度较大的数字支配了,以至于得出了错误的结果。这是因为算术平均数期望数字间的加法关系,而没有考虑尺度和比例问题。所以需要在应用算术平均数之前将数字转换为同一尺度。

    另一方面,几何平均数,很容易就能处理比例问题,因为它本质上是乘法关系。这是一个极为有用的性质,但注意我们损失了什么:我们不再具有可解释的尺度了。在这样的情况下,几何平均数其实是无单位的(unitless)。

    例如,以上的几何平均数既不意味着百分制中的17.5分,也不意味着五星制中的15星。它们不过是无单位的数字,互相之间比例一致(技术上说,它们的尺度是原尺度5 & 100的几何平均数,也就是22.361)。不过,如果我们只需比较两间咖啡店评价的高低,那么这不会成为一个问题。

    几何平均数回顾

    几何平均数对值相乘,而不是相加,接着取n次方根,而不是除以n。

    它基本上是在说:如果我们的数据集中的数字都是一样的,那么这个数字应该是什么,才能得到和实际数据集一样的乘积?

    这使它非常适合描述相乘关系,例如比率,即使这些比率的尺度不同。(因此,它经常用来计算财经指数和其他指数。)

    缺点: 应用几何平均数时,可能会丢失有意义的尺度和单位。另外,它对离散值的不敏感性可能会遮蔽可能具有较大影响的大数值。

    和生活中的大多数事情一样,极少有牢不可破的规则说必须使用几何平均数(复利等少数情形除外)。有一些启发式的规则和经验规则,但无疑需要判断力和科学的怀疑,才能应用合理的经验。

    在最后的总结中我们将继续讨论这些,不过现在让我们引入最后一种毕达哥拉斯平均数……

    调和平均数

    算术平均数需要加法,几何平均数则利用乘法,调和平均数使用倒数。

    我们可以用语言描述调和平均数:数据集的倒数的算术平均数的倒数。

    听起来当中包含很多倒数,但实际上不过是一些简单的步骤:

    对数据集中的所有数字取倒数

    找到这些倒数的算术平均数

    对上一步所得取倒数

    源自维基百科的一个简单例子:1、4、4的调和平均数是2:

    注意,由于0没有倒数,因此调和平均数和几何平均数一样,无法处理包含0的数据集。

    好,我们已经明白数学部分如何工作了。不过调和平均数适用于哪些场景呢?

    调和平均数的现实世界应用

    为了回答上面的问题,我们需要回答:倒数适用于哪些场景?

    由于倒数和除法类似,不过是伪装的乘法(乘法不过是伪装的加法),我们意识到:倒数帮助我们更方便地除以分数。

    例如,5 ÷ 3/7等于多少?如果你还记得初等数学,你大概会将5乘以7/3(3/7的倒数)。

    不过有一个等价的方法,将5和3/7缩放至共同的分母:

    5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 112/3 = 11.66667

    类似之前使用几何平均数作为快捷路径,在未标准化的情况下找到不同尺度评分的相加算术平均数的关系,调和平均数帮助我们在不操心共同分母的情况下找到乘/除关系。

    因此,调和平均数很自然地成为几何平均数之上的另一层乘/除。因此,它有助于处理包含长度或周期不同的比率的数据集。

    (你可能在想:“等一下,我原以为几何平均数用在平均利率和不同尺度的比率上!”你想的没错。你也不是第一个为此感到困惑的人。我自己写下下面的内容正是为了厘清我自己的思考和理解。我希望下面的例子让这个主题更清楚了,在文章后面的总结部分也会回顾所有的区别。)

    平均速度

    现实世界中,使用调和平均数的经典例子是以不同的速度通过物理空间。

    考虑一次去便利店并返回的行程:

    去程速度为30 mph

    返程时交通有一些拥堵,所以速度为10 mph

    去程和返程走的是同一路线,也就是说距离一样(5 miles)

    整个行程的平均速度是多少?

    同样,我们可以不假思索地直接应用30 mph和10 mph的算术平均数,然后自豪地宣布结果是20 mph。

    但是再想一想:由于你在一个方向上的速度较高,因此你更快地完成了去程的5 miles,在那个速度上花了整个行程中更少的时间,所以整个行程期间你的平均速度不会是30 mph和10 mph的中点,它应该更接近10 mph,因为你更多的时间是以10 mph的速度行驶。

    为了正确地应用算术平均数,我们需要判定以每种速率行驶所花的时间,然后以适当的权重加权算术平均数的计算:

    去程:5 / (30/60) = 10 minutes

    返程:5 / (10/60) = 30 minutes

    总行程:10 + 30 = 40 minutes

    加权算术平均数:(30 * 10/40) + (10 * 30/40) = 15 mph

    所以,我们看到,真正的平均速度是15 mph,比使用未加权的算术平均数计算所得低了5 mph(或者25%)。

    你大概猜到了我们下面要做什么……

    让我们试着使用调和平均数:

    2 / (1/30 + 1/10) = 15

    真正的行程平均速度,自动根据在每个方向上使用的时间进行调整,是15 mph!

    有一些地方需要注意:

    可以直接应用调和平均数的前提是不同速度行驶的总距离是相等的。如果距离不同,我们需要使用加权调和平均数,或加权算术平均数。

    当距离不等时,算术平均数仍然以不同速度行驶的时间作为加权,而调和平均数则以不同速度行驶的距离作为加权(因为通过取倒数,已经隐式地考虑了不同速度的时间比例)。

    毕达哥拉斯平均数大部分的复杂性和麻烦源于比率的本质以及我们对比率的哪方面更感兴趣。例如,算术平均数总是用分母的单位表示。在行程问题中,比率是每小时的英里数,因此,算术平均数给出的结果是以分母(某种意义上隐藏的)单位表示,小时:(30m / 1hr + 10m / 1hr) ÷ 2 = 20m/1hr = 20 mph。如果我们在每个方向上所花的时间是一样的,那么这个结果会是精确的。然而,我们知道,在每个方向上所花的时间并不一样。相反,调和平均数通过取倒数翻转这些比率,将我们实际感兴趣的数字放入分母,接着取算术平均数,并再次翻转,给出我们要求的平均速度。(可以使用财经的P/E率更深入地探讨这一问题,请参阅论文Using the Price-to-Earnings Harmonic Mean to Improve Firm Valuation Estimates。)

    几何平均数适用于复利问题的原因是,利率的周期是相等的:每种利率一年。如果周期是可变的,也就是说每种利率的持续时间不同,那么我们同样需要使用某种权重。

    几何平均数可以处理相乘关系,例如复利问题和不同评分尺度上的比率,而调和平均数则通过神奇的倒数容纳了另一层次的乘/除关系,例如可变周期或长度。

    类似复利问题和几何平均数,这是一个准确、客观正确的调和平均数的应用案例。不过,事情并不总是如此清晰。有其他准确的、可以在数学上论证的调和平均数的应用,包括物理、财经、水文学,甚至(源自传统)棒球统计。和数据科学关系更密切的:调和平均数经常用在评估机器学习模型的准确率和召回中。但是,在更多的情况下,调和平均数的应用需要判断力,需要你对数据和手头问题的灵活理解。

    总结

    1. 3种毕达哥拉斯平均数密切相关

    例如,我们已经看到:

    不同尺度评分的几何平均数有时保留了这些值标准化至同一尺度后的算术平均数的次序。

    调和平均数等价于行程速度的加权算术平均数(权重为相对行程时间)

    在下篇中,我们将看到,数据集的几何平均数等价于数据集中每个数字的对数的算术平均数。所以,正如调和平均数不过是算术平均数加上一些倒数变换,几何平均数不过是算术平均数加上对数变换。

    2. 毕达哥拉斯平均数遵循严格的次序

    根据相应的公式,调和平均数总是小于几何平均数,几何平均数总是小于算术平均数。

    这三种平均数是彼此接近还是互相远离,取决于数据的分布。以上规则唯一的例外是,在数据集中所有数字相等的极端情形下,3种平均数同样相等。也就是说,以下不等关系成立:

    调和平均数 ≤ 几何平均数 ≤ 算术平均数

    从本节开头的毕达哥拉斯平均数的几何描述中也能看到这一点。

    认识到这一次序关系有助于理解何时应用哪种平均数,以及不同平均数对结果的影响。

    让我们回顾之前的相加和相乘数据集,这次我们将画出所有三种平均数:

    很明显,几何平均数和调和平均数看起来要比这一线性、相加数据集的中间低不少。这是因为这两种平均数对较小的数字而不是较大的数字更敏感(让它们相对而言对较大的离散值不敏感)。

    这里,几何平均数准确地位于数据集的中点,而调和平均数则向低端扭曲,算术平均数则受较大的离散值的影响,向高端扭曲。

    描绘一个集中趋势用调和平均数表达最佳的数据集并不容易,因此我将直接转入下一部分……

    3. 强硬的规则,一些启发式的方法,和许多判断的空间

    不同尺度的比率:使用几何平均数(或在标准化的数据上应用算术平均数)。

    周期一致的复合比率:使用几何平均数。

    不同周期或长度上的比率:使用调和平均数(或加权平均数)。

    了解比率的哪一边你更感兴趣,以决定应用哪种平均数。算术平均数是以分母的单位表达的(显式或隐式)。调和平均数让你可以倒置比率,让结果以原本分子的单位表达。

    如果数据体现出相加结构:算术平均数通常是安全的选择。

    如果数据体现出相乘结构和/或包含较大的离散值:几何平均数或调和平均数可能更合适(中位数可能也比较合适)。

    任何决定都有缺陷和折衷:

    使用几何平均数可能损失有意义的尺度或单位。

    包含0的数据集无法应用几何平均数或调和平均数,包含负数的数据集意味着无法应用几何平均数。

    使用几何平均数或调和平均数时,受众可能不熟悉这两个概念。

    经常,更实用、更易解释的方法是:

    存在较大的离散值时直接使用中位数

    移除离散值

    使用加权算术平均数或统计学变换,而不是难懂的毕达哥拉斯平均数

    统计计算语言R内置矩阵求逆和三次样条插值的方法,却没有内置计算简单的几何平均数或调和平均数的函数,这可能多少暗示了这两种平均数狭窄的使用场景。(不过Google sheets和Excel倒是包含这两种平均数。)

    如果要用一句话概括整篇文章,那么:

    理解数据的本质,仔细思考你用来描述数据的概述统计量,才能避免用错平均数的风险。

    请留言分享你使用这两种不那么常见的毕达哥拉斯平均数的案例和经历(以及你发现的本文的错误)。

     

     

     

     

    展开全文
  • 算术平均数、几何平均数

    千次阅读 2017-03-16 23:00:43
    之所以称之为几何平均数,主要是从数学参数的物理意思上划分的,我们知道算术平均数,(a+b)/2,体现纯粹数字上的关系,而根号ab,称为几何平均数,这个体现了一个几何关系,即过一个圆的直径上任意一点做垂线,直径被分开的两...

    之所以称之为几何平均数,主要是从数学参数的物理意思上划分的,我们知道算术平均数,(a+b)/2,体现纯粹数字上的关系,而根号ab,称为几何平均数,这个体现了一个几何关系,即过一个圆的直径上任意一点做垂线,直径被分开的两部分为a,b,那么那个垂线在圆内的一半长度就是跟号ab,并且 (a+b)2>=根号ab!这就是它的几何意思,也是称之为几何平均数的原因.

    调和平均数

    一天,毕达哥拉斯走过一个铁匠铺,除了一片混杂的声响,他听到了锤子敲打着铁块,发出多彩的和声,共同回响。于是,他立即跑进铁匠铺去研究锤子的和声。他发现,大多数锤子可以同时敲打从而产生和谐的声响,而当加入某一把锤子一起敲打时,又总是产生令人不快的噪声。他对锤子进行分析,认识到那些彼此音调和谐的锤子之间有一种简单的数学关系——它们的质量彼此之间成简单比。具体点说,那些重量等于某一把锤子重量的1/2,1/3或1/4的锤子都能产生和谐的声响。另一方面,那把和任何别的锤子一起敲打时总发出噪声的锤子,它的重量和其它锤子的重量之间不存在这种简单整数比关系。

    毕达哥拉斯在琴弦上重复了这一实验,并发现:一根拉紧的弦如果弹出一个音调,比如说是do,那么当取原弦长的一半时,会弹出高八度的do;如果取2/3,会弹出高五度的音so;取3/4时,弹出音fa。他还发现,对于有同样张力的两个弦,当它们的长度为简单的整数比时,奏出的了声就和谐悦耳。或者说,在每一个和谐组合中,所拨动琴弦的相对长度都可以表示为整数比。于是,从各种不同弦长产生的和声中,毕达哥拉斯得出结论,谐音完全是某些确定的数之间的比造成的。后来,毕氏学派根据“简单整数比”的原理创造出一套音乐理论,开创了音乐理论研究的先河。


    说到这里,我们可以解释一下“调和”比例名称的来由了。6:4=3:2给出第五度音阶,4:3给出第四度音阶,4:3=(4:3)*(3:2)=2:1给出第八度音阶。具有如上比例的弦发出的声音非常悦耳,而人们把由此得到的愉快感觉称为谐和(或调和),于是来自最基本和声的6、4、3之比就被称为调和比例了。简而言之,调和比例(调和平均值)之名是在寻求音乐理论的过程中产生的。需要指出的是,调和平均值又与调和数列的概念相联系。因为按照调和平均值H的定义(即1/p和1/q的算数平均数取倒数),容易得出:p、H、q都取倒数,会构成一个等差数列。比如,1、2/3、1/2各自取倒数得到1、3/2、2,这是一个等差数列。在这种情况下,我们就称p、H、q构成一个调和数列。具体而言,如果一个数列各项取倒数后得到一个等差数列,那么原数列称为一个调和数列。


    展开全文
  • 数据减去平均数除以标准差是什么意思
  • 几种平均数

    千次阅读 2020-02-15 10:15:13
    算数平均数、调和平均数、几何平均数的计算方法与应用场合 总的来说:几种平均数的应用的取决于场景 一、定义 1、算数平均数:又称均值,是统计学中最基本,最常用的一种平均指标,分为简单算术平均数、加权算术...
  • Python实现移动平均数

    千次阅读 2019-09-06 17:14:10
    首先,什么是移动平均数呢?(来自百度百科) 若依次得到测定值 时,按顺序取一定个数所做的全部算术平均值。 例如 等是移动平均值 详细可以点击此处链接 Python中是如何实现呢? Python中有个一个现有的类...
  • 统计学中常用的平均数有算数平均数、几何平均数与调和平均数 其中算数平均数是统计学中最基本、最常用的一种平均指标,用于计算数值的平均水平,但是算数平均数易受到极端值的...几何平均数受极端值的影响较算术平...
  • 算术平均数

    千次阅读 2009-12-07 10:11:00
    算术平均数指数是将个体指数按算术平均数形式加权计算的总指数。 算术平均数简称为平均数或均值,符号为M(Mean),有总体均数和样本平均数之分,分别用希腊字母μ(音miu)和英文字母X(音x bar)表示。算术平均数是由...
  • 截尾平均数及利用SPSS求截尾平均数

    千次阅读 2013-01-30 13:17:53
    由于平均数受到极端值的影响较大,因此可以考虑将数据排序后,按照一定的比例截去两端的值,使用余下的数据求取平均值,这样得到的平均数称为截尾均数。   如果截尾均数和平均数的差异不大,表明原数据存在极端...
  • 几种平均数的物理意义应用场景

    千次阅读 2019-07-23 10:39:34
    算术平均数,就是均数(mean),一般用来反映一组呈对称正态分布的变量值在数量上的平均水平,易受到极端值影响。 几何平均数(geometric mean)用于反映一组经过对数转换后呈对称分布的变量值在数量上的平均水平,...
  • 加权平均数以及方差

    万次阅读 2016-01-23 15:35:06
    平均数的大小不仅取决于总体中各单位的标志值(变量值)的大小,而且取决于各标志值出现的次数(频数),由于各标志值出现的次数对其在平均数中的影响起着权衡轻重的作用,因此叫做权数。 加权平均值 即将各数值...
  • 平均数 平均数是指在一组数据中所有数据之和再除以数据的个数。平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计...
  • 如何正确的计算两个数的平均数

    千次阅读 2018-01-11 17:14:32
    平均数
  • 个人理解,说简单点: 一组数据中如果有特别大的数或特别小的数时,一般用中位数 一组数据比较多(20个以上),范围比较集中,一般用众数 ... 1、平均数是通过计算得到的,因此它因每一个数据的变化而变...
  • 平均数的三种方法

    千次阅读 2019-04-22 12:12:14
    第一种:常规法 先求两个之和,再除以二(或者右移一位)。...那么我们又想到,将两个分别右移一位再相加,这对于偶数是可行的,但是如果两个都是奇数导致错误,需要在 奇数的结果后面再加一...
  • 一个数列的平均数的定义为,所有数值求和再除以数列长度 中位数定义为,将一个数列排序后位于中间的数值(数列长度为奇数时,取正中间的数,长度为偶数时,去中间的两个数的平均) 众数定义为,在一个数列中,出现...
  • 用C语言求平均数的四种方法

    万次阅读 2019-05-20 15:40:20
    两个数的平均数等于两数之和除以二 int main() { int a = 10; int b = 5; int c = a + b; printf("%d\n", c); system("pause"); return 0; } 这种方法有一定的缺陷,当a或b的值够大时,以至于超过了int...
  • 汇编原理实验 --计算平均数

    千次阅读 2018-02-05 17:55:25
    先不考虑用户输入以及输出,我们可以根据一些总结来的经验得出:在处理数组累加,以及求平均值的程序中需要用到循环,把用户输入的数字加起来,然后除以一个总数得到平均值。 了解了核心算法后,开始需要处理一些汇编...
  • 使用多种方法求两个数的平均数

    千次阅读 2016-10-22 10:59:07
    本文使用多种方法求两个数的平均数,并对每种方法进行分析,找出最适合的求平均数方法。
  • 求两个数的平均数

    千次阅读 2014-03-03 14:49:24
    前些天看见一个求两个数的平均数的题目,由于以前一直做嵌入式小系统,对这种奇技淫巧还是比较喜欢的,尤其是当在一些硬件受限的系统上写代码时,有意想不到的效果。 是这样 :  int temp_a , temp_b , mid ; ...
  • 0006 -求三个数的平均数

    千次阅读 2018-12-16 18:03:32
    0006 - 求三个数的平均数 难度级别:A; 运行时间限制:1000ms; 运行空间限制:51200KB; 代码长度限制:2000000B 试题描述 小雅刚刚考完语文、数学、英语的三门期中考试,她想请你编个程序来帮她算算她的...
  • 溢出避免:求平均数

    千次阅读 2017-04-10 16:07:55
    这次来说说求平均数的问题。 问题很简单,就是求 (a+b)/2。 当然,我不是让你直接printf(“%d”,(a+b)/2); 这样随便一个人学一小时C语言就可以做到。 问题是 a+b 如果溢出了怎么办?溢出的话就得不正确结果了,...
  • 平均值的方法举例及详细分析,一般方法以及借助位运算来求两个平均值。
  • 子数组最大平均数 I 给定 n 个整数,找出平均数最大且长度为 k 的连续子数组,并输出该最大平均数。 示例: 输入:[1,12,-5,-6,50,3], k = 4 输出:12.75 解释:最大平均数 (12-5-6+50)/4 = 51/4 = 12.75 解题思路...
  • 这里做一个求分数平均数的MapReduce例子,这里引导一位前辈说的方法,我觉得非常道理。就是: map阶段输入什么、map过程执行什么、map阶段输出什么、reduce阶段输入什么、执行什么、输出什么。能够将以上几个点弄...
  • 计算两个数平均数的三种方法

    千次阅读 2018-07-01 08:36:25
    思路:两相加然后除以2 参考代码: #include<stdio.h> int main() { int a = 10; int b = 20; int aver = (a + b) / 2; //int aver = (a + b) >> 1; ...
  • 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供...
  • 平均指标的种类有:算术平均数、调和平均数、几何平均数、众数和中位数。前三种平均数是根据总体所有标志值计算的所以称为数值平均数,后两种平均数是根据标志值所处的位置确定的,因此称为位置平均数。   1、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 391,812
精华内容 156,724
关键字:

平均数会受到什么影响