精华内容
下载资源
问答
  • 算术平均数 作用: 消除个体标志值之间的差异,体现出总体的一般水平。 计算方法: 加权算术平均数计算公式: 分组数据中,x表示各组水平值,f代表各组变量值出现的频数。 例子: 性质: 优缺点: 优点 推算总体...

    ——笔记总结自中国大学MOOC
    算术平均数
    作用:消除个体标志值之间的差异,体现出总体的一般水平。
    计算方法:

    在这里插入图片描述

    加权算术平均数计算公式:
    在这里插入图片描述
    分组数据中,x表示各组水平值,f代表各组变量值出现的频数。

    例子:
    在这里插入图片描述
    性质:

    在这里插入图片描述
    优缺点:
    优点
    推算总体标志总量 进行代数运算 抽样中具有良好的稳定性和可靠性
    缺点
    受极值影响较大

    调和平均数

    在这里插入图片描述
    例子:

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述
    加权调和平均数在这里插入图片描述
    调和平均数特点:
    受极小值影响相对更大
    不能有0
    运用相对较窄

    几何平均数
    1.简单几何平均数
    计算公式:在这里插入图片描述
    适用对象:计算平均比率或平均发展速度

    2.加权几何平均数
    在这里插入图片描述
    fi代表各个变量值出现的次数

    例子:
    在这里插入图片描述

    在这里插入图片描述
    几何平均数特点:
    受极值影响较算术平均数小
    不能有零和负值

    在这里插入图片描述

    在这里插入图片描述
    位置平均数
    定义:
    特殊位置上的数据作为代表值。
    常用的位置平均数有中位数、众数。

    组距数列计算中位数例子:
    某企业50名工人加工零件如下表,计算50名工人日加工零件数的中位数 。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    中位数特点:
    不受极值影响
    缺乏敏感性

    分位数:
    处于等分点位置的数值
    常用的有四分位数、十分位数和百分位数

    在这里插入图片描述
    众数:
    离散型数据的众数
    在这里插入图片描述
    数值型分组数据的众数

    在这里插入图片描述

    在这里插入图片描述
    众数的特点:
    不受极值影响
    均匀分布无众数
    众数偏向次数较多的组
    缺乏敏感性

    适度偏态时,有
    在这里插入图片描述
    皮尔逊经验:众数与算术平均数的距离约为中位数与算术平均数距离的3倍。

    例子:
    一组技术人员月薪的众数为7000元,算术平均 数为10000元,适度偏斜时中位数近似值是多少?
    在这里插入图片描述

    展开全文
  • 不同平均数的比较;图片来源:维基百科 大概是最常见的数据分析任务 你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没...

    转载自:http://m.elecfans.com/article/712572.html

    不同平均数的比较;图片来源:维基百科

    大概是最常见的数据分析任务

    你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没错吧?

    也许。

    和流行的观点不同,从数学上说,平均数通常不是一样东西。意思是:没有可以恰当地称作“平均数”的数学运算。我们通常所说的平均数是“算术平均数”,具体计算过程如前所述。我们称其为“平均数”,是因为我们期望它符合“平均数”的口头定义:一个典型的、正态的中间值。我们常常是对的,但正确的频率比我们想象的要低。

    概述统计量

    算术平均数仅仅是得到“平均”值的许多方法的其中之一。技术一点地说,这些属于概述统计量、集中趋势测度、位置测度。

    中位数大概是第二出名的概述统计量。由于中位数是数据集中间的值,因此常常比均值更平均。我这里不讨论中位数,不过在许多情形下,算术平均数被滥用在中位数更合适的地方。更多关于中位数的内容,可以参考下面三篇文章:

    https://www.linkedin.com/pulse/20140715160509-29681087-median-vs-average-household-income/

    http://wkuappliedeconomics.org/indblogs/mean-vs-median-income-which-one-to-use-and-what-it-means-for-south-central-kentucky/

    https://medium.com/%40JLMC/understanding-three-simple-statistics-for-data-visualizations-2619dbb3677a

    本文将重点讨论知名度相对较低的几何平均数和调和平均数。

    毕达哥拉斯平均数

    平方平均数和毕达哥拉斯平均数;图片来源:维基百科

    算术平均数是3种毕达哥拉斯平均数之一(名称源自研究这些性质的毕达哥拉斯及其学派)。另外两种毕达哥拉斯平均数是几何平均数和调和平均数。

    为了了解它们的基本功能,让我们从熟悉的算术平均数开始。

    算术平均数

    算术平均数的名字取得很合适:我们累加数据集中的所有数字,接着除以数据集包含的数字数目。

    不过,加法没有什么特别的。它只不过是一种简单的数学运算。在数字之间存在可加性(additive)关系的数据集上,算术平均数效果很好。这样的关系经常被称为线性,因为如果我们将所有数字按升序或降序排列,数字倾向于落在一根直线上。一个简单而理想化的例子是公差为3的等差数列:

    然而,不是所有的数据集都适宜用这种关系描述的。有些数据集内部存在乘法或指数关系,例如,公比为3的等比数列:

    我们看到,算术平均数(156)并不特别接近我们的数据集中的大多数数字。实际上,它是中位数(27)的5倍。

    将数据绘制在一根数轴上,能够更明显地看到这一扭曲。

     

    所以,我们做什么?

    引入……

    几何平均数

    由于数据集中数字之间的关系是相乘,我们通过乘法和取方根(总共有几个数字就开几次方根)来得到几何平均数。

    我们可以看到,在等比数列上,几何平均数更能代表数据集的中间值。事实上,在这个等比数列数据集上,它等于中位数。

    从单根数轴上也可以看到这一点:

    几何平均数的真实世界应用

    实际上,有很多实际场景适合使用几何平均数,因为类似相乘的关系在真实世界中很常见。

    一个经典的例子是复利问题。

    假设我们有一笔5年期存款,本金为$100,000,每年的利率是变动的:

    年利率:1%、9%、6%、2%、15%

    我们想要找到平均年利率,并据此计算5年后本金和利息的总和。我们尝试“平均”这些利率:

    (.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%

    然后我们将平均利率代入复利计算公式:

    100000 * (1.066 ** 5 - 1) + 100000 = 137653.11

    比较以下不使用平均利率,直接计算的结果:

    100000 * 1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 136883.70

    可以看到,我们的简便计算方法误差接近$1,000。

    我们犯了一个常见的错误:我们将加法操作应用于相乘过程,得到了不精确的结果。

    现在,让我们试试几何平均数:

    1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042

    1.368837042开5次方根 = 1.064805657

    将几何平均数代入复利计算公式:

    100000 * (1.0648 ** 5 - 1) + 100000 = 136883.70

    这个数字正好等于我们逐年计算所得的结果。

    我们使用了合适的平均数,并得到了正确的结果。

    几何平均数还适合什么场景呢?

    几何平均数的一个很酷的特性是,你可以对尺度完全不同的数字取平均数。

    例如,假设我们想比较两间咖啡店来源不同的在线评价。问题在于,来源一的评价使用五星制,而来源二的评分评价使用百分制:

    咖啡店A

    来源一:4.5

    来源二:68

    咖啡店B

    来源一:3

    来源二:75

    如果我们直接根据原始分值计算算术平均数:

    咖啡店 A = (4.5 + 68) / 2  =  36.25

    咖啡店 B = (3 + 75) / 2 = 39

    根据上面的数据,我们得出结论咖啡店B是赢家。

    如果我们对数字有一点敏感性,我们会知道在应用算术平均数得到精确的结果之前,我们首先需要标准化(normalize)数据集中的值至同一尺度。

    所以,我们将来源一中的评价乘以20,将其从五星尺度拉伸到来源二的百分制尺度:

    # 咖啡店A

    4.6 * 20 = 90

    (90 + 68) / 2 = 79

    # 咖啡店B

    3 * 20 = 60

    (60 + 75) / 2 = 67.5

    我们发现,其实咖啡店A才是赢家。

    然而,几何平均数,允许我们在不考虑尺度问题的前提下得到一样的结论:

    咖啡店A = (4.5 * 68) 的平方根 =  17.5

    咖啡店B = (3 * 75) 的平方根 = 15

    算术平均数被尺度较大的数字支配了,以至于得出了错误的结果。这是因为算术平均数期望数字间的加法关系,而没有考虑尺度和比例问题。所以需要在应用算术平均数之前将数字转换为同一尺度。

    另一方面,几何平均数,很容易就能处理比例问题,因为它本质上是乘法关系。这是一个极为有用的性质,但注意我们损失了什么:我们不再具有可解释的尺度了。在这样的情况下,几何平均数其实是无单位的(unitless)。

    例如,以上的几何平均数既不意味着百分制中的17.5分,也不意味着五星制中的15星。它们不过是无单位的数字,互相之间比例一致(技术上说,它们的尺度是原尺度5 & 100的几何平均数,也就是22.361)。不过,如果我们只需比较两间咖啡店评价的高低,那么这不会成为一个问题。

    几何平均数回顾

    几何平均数对值相乘,而不是相加,接着取n次方根,而不是除以n。

    它基本上是在说:如果我们的数据集中的数字都是一样的,那么这个数字应该是什么,才能得到和实际数据集一样的乘积?

    这使它非常适合描述相乘关系,例如比率,即使这些比率的尺度不同。(因此,它经常用来计算财经指数和其他指数。)

    缺点: 应用几何平均数时,可能会丢失有意义的尺度和单位。另外,它对离散值的不敏感性可能会遮蔽可能具有较大影响的大数值。

    和生活中的大多数事情一样,极少有牢不可破的规则说必须使用几何平均数(复利等少数情形除外)。有一些启发式的规则和经验规则,但无疑需要判断力和科学的怀疑,才能应用合理的经验。

    在最后的总结中我们将继续讨论这些,不过现在让我们引入最后一种毕达哥拉斯平均数……

    调和平均数

    算术平均数需要加法,几何平均数则利用乘法,调和平均数使用倒数。

    我们可以用语言描述调和平均数:数据集的倒数的算术平均数的倒数。

    听起来当中包含很多倒数,但实际上不过是一些简单的步骤:

    对数据集中的所有数字取倒数

    找到这些倒数的算术平均数

    对上一步所得取倒数

    源自维基百科的一个简单例子:1、4、4的调和平均数是2:

    注意,由于0没有倒数,因此调和平均数和几何平均数一样,无法处理包含0的数据集。

    好,我们已经明白数学部分如何工作了。不过调和平均数适用于哪些场景呢?

    调和平均数的现实世界应用

    为了回答上面的问题,我们需要回答:倒数适用于哪些场景?

    由于倒数和除法类似,不过是伪装的乘法(乘法不过是伪装的加法),我们意识到:倒数帮助我们更方便地除以分数。

    例如,5 ÷ 3/7等于多少?如果你还记得初等数学,你大概会将5乘以7/3(3/7的倒数)。

    不过有一个等价的方法,将5和3/7缩放至共同的分母:

    5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 112/3 = 11.66667

    类似之前使用几何平均数作为快捷路径,在未标准化的情况下找到不同尺度评分的相加算术平均数的关系,调和平均数帮助我们在不操心共同分母的情况下找到乘/除关系。

    因此,调和平均数很自然地成为几何平均数之上的另一层乘/除。因此,它有助于处理包含长度或周期不同的比率的数据集。

    (你可能在想:“等一下,我原以为几何平均数用在平均利率和不同尺度的比率上!”你想的没错。你也不是第一个为此感到困惑的人。我自己写下下面的内容正是为了厘清我自己的思考和理解。我希望下面的例子让这个主题更清楚了,在文章后面的总结部分也会回顾所有的区别。)

    平均速度

    现实世界中,使用调和平均数的经典例子是以不同的速度通过物理空间。

    考虑一次去便利店并返回的行程:

    去程速度为30 mph

    返程时交通有一些拥堵,所以速度为10 mph

    去程和返程走的是同一路线,也就是说距离一样(5 miles)

    整个行程的平均速度是多少?

    同样,我们可以不假思索地直接应用30 mph和10 mph的算术平均数,然后自豪地宣布结果是20 mph。

    但是再想一想:由于你在一个方向上的速度较高,因此你更快地完成了去程的5 miles,在那个速度上花了整个行程中更少的时间,所以整个行程期间你的平均速度不会是30 mph和10 mph的中点,它应该更接近10 mph,因为你更多的时间是以10 mph的速度行驶。

    为了正确地应用算术平均数,我们需要判定以每种速率行驶所花的时间,然后以适当的权重加权算术平均数的计算:

    去程:5 / (30/60) = 10 minutes

    返程:5 / (10/60) = 30 minutes

    总行程:10 + 30 = 40 minutes

    加权算术平均数:(30 * 10/40) + (10 * 30/40) = 15 mph

    所以,我们看到,真正的平均速度是15 mph,比使用未加权的算术平均数计算所得低了5 mph(或者25%)。

    你大概猜到了我们下面要做什么……

    让我们试着使用调和平均数:

    2 / (1/30 + 1/10) = 15

    真正的行程平均速度,自动根据在每个方向上使用的时间进行调整,是15 mph!

    有一些地方需要注意:

    可以直接应用调和平均数的前提是不同速度行驶的总距离是相等的。如果距离不同,我们需要使用加权调和平均数,或加权算术平均数。

    当距离不等时,算术平均数仍然以不同速度行驶的时间作为加权,而调和平均数则以不同速度行驶的距离作为加权(因为通过取倒数,已经隐式地考虑了不同速度的时间比例)。

    毕达哥拉斯平均数大部分的复杂性和麻烦源于比率的本质以及我们对比率的哪方面更感兴趣。例如,算术平均数总是用分母的单位表示。在行程问题中,比率是每小时的英里数,因此,算术平均数给出的结果是以分母(某种意义上隐藏的)单位表示,小时:(30m / 1hr + 10m / 1hr) ÷ 2 = 20m/1hr = 20 mph。如果我们在每个方向上所花的时间是一样的,那么这个结果会是精确的。然而,我们知道,在每个方向上所花的时间并不一样。相反,调和平均数通过取倒数翻转这些比率,将我们实际感兴趣的数字放入分母,接着取算术平均数,并再次翻转,给出我们要求的平均速度。(可以使用财经的P/E率更深入地探讨这一问题,请参阅论文Using the Price-to-Earnings Harmonic Mean to Improve Firm Valuation Estimates。)

    几何平均数适用于复利问题的原因是,利率的周期是相等的:每种利率一年。如果周期是可变的,也就是说每种利率的持续时间不同,那么我们同样需要使用某种权重。

    几何平均数可以处理相乘关系,例如复利问题和不同评分尺度上的比率,而调和平均数则通过神奇的倒数容纳了另一层次的乘/除关系,例如可变周期或长度。

    类似复利问题和几何平均数,这是一个准确、客观正确的调和平均数的应用案例。不过,事情并不总是如此清晰。有其他准确的、可以在数学上论证的调和平均数的应用,包括物理、财经、水文学,甚至(源自传统)棒球统计。和数据科学关系更密切的:调和平均数经常用在评估机器学习模型的准确率和召回中。但是,在更多的情况下,调和平均数的应用需要判断力,需要你对数据和手头问题的灵活理解。

    总结

    1. 3种毕达哥拉斯平均数密切相关

    例如,我们已经看到:

    不同尺度评分的几何平均数有时保留了这些值标准化至同一尺度后的算术平均数的次序。

    调和平均数等价于行程速度的加权算术平均数(权重为相对行程时间)

    在下篇中,我们将看到,数据集的几何平均数等价于数据集中每个数字的对数的算术平均数。所以,正如调和平均数不过是算术平均数加上一些倒数变换,几何平均数不过是算术平均数加上对数变换。

    2. 毕达哥拉斯平均数遵循严格的次序

    根据相应的公式,调和平均数总是小于几何平均数,几何平均数总是小于算术平均数。

    这三种平均数是彼此接近还是互相远离,取决于数据的分布。以上规则唯一的例外是,在数据集中所有数字相等的极端情形下,3种平均数同样相等。也就是说,以下不等关系成立:

    调和平均数 ≤ 几何平均数 ≤ 算术平均数

    从本节开头的毕达哥拉斯平均数的几何描述中也能看到这一点。

    认识到这一次序关系有助于理解何时应用哪种平均数,以及不同平均数对结果的影响。

    让我们回顾之前的相加和相乘数据集,这次我们将画出所有三种平均数:

    很明显,几何平均数和调和平均数看起来要比这一线性、相加数据集的中间低不少。这是因为这两种平均数对较小的数字而不是较大的数字更敏感(让它们相对而言对较大的离散值不敏感)。

    这里,几何平均数准确地位于数据集的中点,而调和平均数则向低端扭曲,算术平均数则受较大的离散值的影响,向高端扭曲。

    描绘一个集中趋势用调和平均数表达最佳的数据集并不容易,因此我将直接转入下一部分……

    3. 强硬的规则,一些启发式的方法,和许多判断的空间

    不同尺度的比率:使用几何平均数(或在标准化的数据上应用算术平均数)。

    周期一致的复合比率:使用几何平均数。

    不同周期或长度上的比率:使用调和平均数(或加权平均数)。

    了解比率的哪一边你更感兴趣,以决定应用哪种平均数。算术平均数是以分母的单位表达的(显式或隐式)。调和平均数让你可以倒置比率,让结果以原本分子的单位表达。

    如果数据体现出相加结构:算术平均数通常是安全的选择。

    如果数据体现出相乘结构和/或包含较大的离散值:几何平均数或调和平均数可能更合适(中位数可能也比较合适)。

    任何决定都有缺陷和折衷:

    使用几何平均数可能损失有意义的尺度或单位。

    包含0的数据集无法应用几何平均数或调和平均数,包含负数的数据集意味着无法应用几何平均数。

    使用几何平均数或调和平均数时,受众可能不熟悉这两个概念。

    经常,更实用、更易解释的方法是:

    存在较大的离散值时直接使用中位数

    移除离散值

    使用加权算术平均数或统计学变换,而不是难懂的毕达哥拉斯平均数

    统计计算语言R内置矩阵求逆和三次样条插值的方法,却没有内置计算简单的几何平均数或调和平均数的函数,这可能多少暗示了这两种平均数狭窄的使用场景。(不过Google sheets和Excel倒是包含这两种平均数。)

    如果要用一句话概括整篇文章,那么:

    理解数据的本质,仔细思考你用来描述数据的概述统计量,才能避免用错平均数的风险。

    请留言分享你使用这两种不那么常见的毕达哥拉斯平均数的案例和经历(以及你发现的本文的错误)。

     

    展开全文
  • 不同平均数的比较;图片来源:维基百科 大概是最常见的数据分析任务 你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没...

    不同平均数的比较;图片来源:维基百科

    大概是最常见的数据分析任务

    你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没错吧?

    也许。

    和流行的观点不同,从数学上说,平均数通常不是一样东西。意思是:没有可以恰当地称作“平均数”的数学运算。我们通常所说的平均数是“算术平均数”,具体计算过程如前所述。我们称其为“平均数”,是因为我们期望它符合“平均数”的口头定义:一个典型的、正态的中间值。我们常常是对的,但正确的频率比我们想象的要低。

    概述统计量

    算术平均数仅仅是得到“平均”值的许多方法的其中之一。技术一点地说,这些属于概述统计量、集中趋势测度、位置测度。

    中位数大概是第二出名的概述统计量。由于中位数是数据集中间的值,因此常常比均值更平均。我这里不讨论中位数,不过在许多情形下,算术平均数被滥用在中位数更合适的地方。更多关于中位数的内容,可以参考下面三篇文章:

    https://www.linkedin.com/pulse/20140715160509-29681087-median-vs-average-household-income/

    http://wkuappliedeconomics.org/indblogs/mean-vs-median-income-which-one-to-use-and-what-it-means-for-south-central-kentucky/

    https://medium.com/%40JLMC/understanding-three-simple-statistics-for-data-visualizations-2619dbb3677a

    本文将重点讨论知名度相对较低的几何平均数和调和平均数。

    毕达哥拉斯平均数

    平方平均数和毕达哥拉斯平均数;图片来源:维基百科

    算术平均数是3种毕达哥拉斯平均数之一(名称源自研究这些性质的毕达哥拉斯及其学派)。另外两种毕达哥拉斯平均数是几何平均数和调和平均数。

    为了了解它们的基本功能,让我们从熟悉的算术平均数开始。

    算术平均数

    算术平均数的名字取得很合适:我们累加数据集中的所有数字,接着除以数据集包含的数字数目。

    不过,加法没有什么特别的。它只不过是一种简单的数学运算。在数字之间存在可加性(additive)关系的数据集上,算术平均数效果很好。这样的关系经常被称为线性,因为如果我们将所有数字按升序或降序排列,数字倾向于落在一根直线上。一个简单而理想化的例子是公差为3的等差数列:

    然而,不是所有的数据集都适宜用这种关系描述的。有些数据集内部存在乘法或指数关系,例如,公比为3的等比数列:

    我们看到,算术平均数(156)并不特别接近我们的数据集中的大多数数字。实际上,它是中位数(27)的5倍。

    将数据绘制在一根数轴上,能够更明显地看到这一扭曲。

    所以,我们做什么?

    引入……

    几何平均数

    由于数据集中数字之间的关系是相乘,我们通过乘法和取方根(总共有几个数字就开几次方根)来得到几何平均数。

    我们可以看到,在等比数列上,几何平均数更能代表数据集的中间值。事实上,在这个等比数列数据集上,它等于中位数。

    从单根数轴上也可以看到这一点:

    几何平均数的真实世界应用

    实际上,有很多实际场景适合使用几何平均数,因为类似相乘的关系在真实世界中很常见。

    一个经典的例子是复利问题。

    假设我们有一笔5年期存款,本金为$100,000,每年的利率是变动的:

    年利率:1%、9%、6%、2%、15%

    我们想要找到平均年利率,并据此计算5年后本金和利息的总和。我们尝试“平均”这些利率:

    (.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%

    然后我们将平均利率代入复利计算公式:

    100000 * (1.066 ** 5 - 1) + 100000 = 137653.11

    比较以下不使用平均利率,直接计算的结果:

    100000 * 1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 136883.70

    可以看到,我们的简便计算方法误差接近$1,000。

    我们犯了一个常见的错误:我们将加法操作应用于相乘过程,得到了不精确的结果。

    现在,让我们试试几何平均数:

    1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042

    1.368837042开5次方根 = 1.064805657

    将几何平均数代入复利计算公式:

    100000 * (1.0648 ** 5 - 1) + 100000 = 136883.70

    这个数字正好等于我们逐年计算所得的结果。

    我们使用了合适的平均数,并得到了正确的结果。

    几何平均数还适合什么场景呢?

    几何平均数的一个很酷的特性是,你可以对尺度完全不同的数字取平均数。

    例如,假设我们想比较两间咖啡店来源不同的在线评价。问题在于,来源一的评价使用五星制,而来源二的评分评价使用百分制:

    咖啡店A

    来源一:4.5

    来源二:68

    咖啡店B

    来源一:3

    来源二:75

    如果我们直接根据原始分值计算算术平均数:

    咖啡店 A = (4.5 + 68) / 2  =  36.25

    咖啡店 B = (3 + 75) / 2 = 39

    根据上面的数据,我们得出结论咖啡店B是赢家。

    如果我们对数字有一点敏感性,我们会知道在应用算术平均数得到精确的结果之前,我们首先需要标准化(normalize)数据集中的值至同一尺度。

    所以,我们将来源一中的评价乘以20,将其从五星尺度拉伸到来源二的百分制尺度:

    # 咖啡店A

    4.6 * 20 = 90

    (90 + 68) / 2 = 79

    # 咖啡店B

    3 * 20 = 60

    (60 + 75) / 2 = 67.5

    我们发现,其实咖啡店A才是赢家。

    然而,几何平均数,允许我们在不考虑尺度问题的前提下得到一样的结论:

    咖啡店A = (4.5 * 68) 的平方根 =  17.5

    咖啡店B = (3 * 75) 的平方根 = 15

    算术平均数被尺度较大的数字支配了,以至于得出了错误的结果。这是因为算术平均数期望数字间的加法关系,而没有考虑尺度和比例问题。所以需要在应用算术平均数之前将数字转换为同一尺度。

    另一方面,几何平均数,很容易就能处理比例问题,因为它本质上是乘法关系。这是一个极为有用的性质,但注意我们损失了什么:我们不再具有可解释的尺度了。在这样的情况下,几何平均数其实是无单位的(unitless)。

    例如,以上的几何平均数既不意味着百分制中的17.5分,也不意味着五星制中的15星。它们不过是无单位的数字,互相之间比例一致(技术上说,它们的尺度是原尺度5 & 100的几何平均数,也就是22.361)。不过,如果我们只需比较两间咖啡店评价的高低,那么这不会成为一个问题。

    几何平均数回顾

    几何平均数对值相乘,而不是相加,接着取n次方根,而不是除以n。

    它基本上是在说:如果我们的数据集中的数字都是一样的,那么这个数字应该是什么,才能得到和实际数据集一样的乘积?

    这使它非常适合描述相乘关系,例如比率,即使这些比率的尺度不同。(因此,它经常用来计算财经指数和其他指数。)

    缺点: 应用几何平均数时,可能会丢失有意义的尺度和单位。另外,它对离散值的不敏感性可能会遮蔽可能具有较大影响的大数值。

    和生活中的大多数事情一样,极少有牢不可破的规则说必须使用几何平均数(复利等少数情形除外)。有一些启发式的规则和经验规则,但无疑需要判断力和科学的怀疑,才能应用合理的经验。

    在最后的总结中我们将继续讨论这些,不过现在让我们引入最后一种毕达哥拉斯平均数……

    调和平均数

    算术平均数需要加法,几何平均数则利用乘法,调和平均数使用倒数。

    我们可以用语言描述调和平均数:数据集的倒数的算术平均数的倒数。

    听起来当中包含很多倒数,但实际上不过是一些简单的步骤:

    对数据集中的所有数字取倒数

    找到这些倒数的算术平均数

    对上一步所得取倒数

    源自维基百科的一个简单例子:1、4、4的调和平均数是2:

    注意,由于0没有倒数,因此调和平均数和几何平均数一样,无法处理包含0的数据集。

    好,我们已经明白数学部分如何工作了。不过调和平均数适用于哪些场景呢?

    调和平均数的现实世界应用

    为了回答上面的问题,我们需要回答:倒数适用于哪些场景?

    由于倒数和除法类似,不过是伪装的乘法(乘法不过是伪装的加法),我们意识到:倒数帮助我们更方便地除以分数。

    例如,5 ÷ 3/7等于多少?如果你还记得初等数学,你大概会将5乘以7/3(3/7的倒数)。

    不过有一个等价的方法,将5和3/7缩放至共同的分母:

    5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 112/3 = 11.66667

    类似之前使用几何平均数作为快捷路径,在未标准化的情况下找到不同尺度评分的相加算术平均数的关系,调和平均数帮助我们在不操心共同分母的情况下找到乘/除关系。

    因此,调和平均数很自然地成为几何平均数之上的另一层乘/除。因此,它有助于处理包含长度或周期不同的比率的数据集。

    (你可能在想:“等一下,我原以为几何平均数用在平均利率和不同尺度的比率上!”你想的没错。你也不是第一个为此感到困惑的人。我自己写下下面的内容正是为了厘清我自己的思考和理解。我希望下面的例子让这个主题更清楚了,在文章后面的总结部分也会回顾所有的区别。)

    平均速度

    现实世界中,使用调和平均数的经典例子是以不同的速度通过物理空间。

    考虑一次去便利店并返回的行程:

    去程速度为30 mph

    返程时交通有一些拥堵,所以速度为10 mph

    去程和返程走的是同一路线,也就是说距离一样(5 miles)

    整个行程的平均速度是多少?

    同样,我们可以不假思索地直接应用30 mph和10 mph的算术平均数,然后自豪地宣布结果是20 mph。

    但是再想一想:由于你在一个方向上的速度较高,因此你更快地完成了去程的5 miles,在那个速度上花了整个行程中更少的时间,所以整个行程期间你的平均速度不会是30 mph和10 mph的中点,它应该更接近10 mph,因为你更多的时间是以10 mph的速度行驶。

    为了正确地应用算术平均数,我们需要判定以每种速率行驶所花的时间,然后以适当的权重加权算术平均数的计算:

    去程:5 / (30/60) = 10 minutes

    返程:5 / (10/60) = 30 minutes

    总行程:10 + 30 = 40 minutes

    加权算术平均数:(30 * 10/40) + (10 * 30/40) = 15 mph

    所以,我们看到,真正的平均速度是15 mph,比使用未加权的算术平均数计算所得低了5 mph(或者25%)。

    你大概猜到了我们下面要做什么……

    让我们试着使用调和平均数:

    2 / (1/30 + 1/10) = 15

    真正的行程平均速度,自动根据在每个方向上使用的时间进行调整,是15 mph!

    有一些地方需要注意:

    可以直接应用调和平均数的前提是不同速度行驶的总距离是相等的。如果距离不同,我们需要使用加权调和平均数,或加权算术平均数。

    当距离不等时,算术平均数仍然以不同速度行驶的时间作为加权,而调和平均数则以不同速度行驶的距离作为加权(因为通过取倒数,已经隐式地考虑了不同速度的时间比例)。

    毕达哥拉斯平均数大部分的复杂性和麻烦源于比率的本质以及我们对比率的哪方面更感兴趣。例如,算术平均数总是用分母的单位表示。在行程问题中,比率是每小时的英里数,因此,算术平均数给出的结果是以分母(某种意义上隐藏的)单位表示,小时:(30m / 1hr + 10m / 1hr) ÷ 2 = 20m/1hr = 20 mph。如果我们在每个方向上所花的时间是一样的,那么这个结果会是精确的。然而,我们知道,在每个方向上所花的时间并不一样。相反,调和平均数通过取倒数翻转这些比率,将我们实际感兴趣的数字放入分母,接着取算术平均数,并再次翻转,给出我们要求的平均速度。(可以使用财经的P/E率更深入地探讨这一问题,请参阅论文Using the Price-to-Earnings Harmonic Mean to Improve Firm Valuation Estimates。)

    几何平均数适用于复利问题的原因是,利率的周期是相等的:每种利率一年。如果周期是可变的,也就是说每种利率的持续时间不同,那么我们同样需要使用某种权重。

    几何平均数可以处理相乘关系,例如复利问题和不同评分尺度上的比率,而调和平均数则通过神奇的倒数容纳了另一层次的乘/除关系,例如可变周期或长度。

    类似复利问题和几何平均数,这是一个准确、客观正确的调和平均数的应用案例。不过,事情并不总是如此清晰。有其他准确的、可以在数学上论证的调和平均数的应用,包括物理、财经、水文学,甚至(源自传统)棒球统计。和数据科学关系更密切的:调和平均数经常用在评估机器学习模型的准确率和召回中。但是,在更多的情况下,调和平均数的应用需要判断力,需要你对数据和手头问题的灵活理解。

    总结

    1. 3种毕达哥拉斯平均数密切相关

    例如,我们已经看到:

    不同尺度评分的几何平均数有时保留了这些值标准化至同一尺度后的算术平均数的次序。

    调和平均数等价于行程速度的加权算术平均数(权重为相对行程时间)

    在下篇中,我们将看到,数据集的几何平均数等价于数据集中每个数字的对数的算术平均数。所以,正如调和平均数不过是算术平均数加上一些倒数变换,几何平均数不过是算术平均数加上对数变换。

    2. 毕达哥拉斯平均数遵循严格的次序

    根据相应的公式,调和平均数总是小于几何平均数,几何平均数总是小于算术平均数。

    这三种平均数是彼此接近还是互相远离,取决于数据的分布。以上规则唯一的例外是,在数据集中所有数字相等的极端情形下,3种平均数同样相等。也就是说,以下不等关系成立:

    调和平均数 ≤ 几何平均数 ≤ 算术平均数

    从本节开头的毕达哥拉斯平均数的几何描述中也能看到这一点。

    认识到这一次序关系有助于理解何时应用哪种平均数,以及不同平均数对结果的影响。

    让我们回顾之前的相加和相乘数据集,这次我们将画出所有三种平均数:

    很明显,几何平均数和调和平均数看起来要比这一线性、相加数据集的中间低不少。这是因为这两种平均数对较小的数字而不是较大的数字更敏感(让它们相对而言对较大的离散值不敏感)。

    这里,几何平均数准确地位于数据集的中点,而调和平均数则向低端扭曲,算术平均数则受较大的离散值的影响,向高端扭曲。

    描绘一个集中趋势用调和平均数表达最佳的数据集并不容易,因此我将直接转入下一部分……

    3. 强硬的规则,一些启发式的方法,和许多判断的空间

    不同尺度的比率:使用几何平均数(或在标准化的数据上应用算术平均数)。

    周期一致的复合比率:使用几何平均数。

    不同周期或长度上的比率:使用调和平均数(或加权平均数)。

    了解比率的哪一边你更感兴趣,以决定应用哪种平均数。算术平均数是以分母的单位表达的(显式或隐式)。调和平均数让你可以倒置比率,让结果以原本分子的单位表达。

    如果数据体现出相加结构:算术平均数通常是安全的选择。

    如果数据体现出相乘结构和/或包含较大的离散值:几何平均数或调和平均数可能更合适(中位数可能也比较合适)。

    任何决定都有缺陷和折衷:

    使用几何平均数可能损失有意义的尺度或单位。

    包含0的数据集无法应用几何平均数或调和平均数,包含负数的数据集意味着无法应用几何平均数。

    使用几何平均数或调和平均数时,受众可能不熟悉这两个概念。

    经常,更实用、更易解释的方法是:

    存在较大的离散值时直接使用中位数

    移除离散值

    使用加权算术平均数或统计学变换,而不是难懂的毕达哥拉斯平均数

    统计计算语言R内置矩阵求逆和三次样条插值的方法,却没有内置计算简单的几何平均数或调和平均数的函数,这可能多少暗示了这两种平均数狭窄的使用场景。(不过Google sheets和Excel倒是包含这两种平均数。)

    如果要用一句话概括整篇文章,那么:

    理解数据的本质,仔细思考你用来描述数据的概述统计量,才能避免用错平均数的风险。

    请留言分享你使用这两种不那么常见的毕达哥拉斯平均数的案例和经历(以及你发现的本文的错误)。

     

     

     

     

    展开全文
  • 极差小,变异幅度小,平均数代表性较好。 极差虽可对资料的变异有所说明,但它只是两个极端数据决定的,没有充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。用它代表整个样本的变异度是有缺陷...

    通过科学试验的观察、测定和记载,可得到大量的数据资料,这些资料必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏在数据中的客观规律。资料整理和分析时试验工作的重要组成部分。

    一、总体及其样本

    具有共同性质的个体所组成的集团,称为总体(population)。总体根据事物的属性人为规定。

    总体所包含的个体数目可能是无穷多个,这种总体称为无限总体(infinite population);包含有限个个体,有限总体(finite population)。

    总体可以是根据属性人为定义,因此可能是抽象的。

    同一总体的各个体间在性状或特性表现上有差异,因而总体内个体间呈现不同或者呈现变异。

    每一个体的某一性状、特性的测定数值叫做观察值(observation)。观察值集合起来,称为变数(variable),变数中的每一成员称为变量(variate)。总体内个体间尽管属性相同但仍然受一些随机因素的影响造成观察值或表现上的变异,所以变数又称为随机变数(random variable)

    由总体的全部观察值而算得的总体特征数,如总体平均数等,称为参数。参数是反映某类事物的总体规律性的数值,科学研究的目的在于对求得的总体参数的了解。但总体所包含的个体太多,不能逐一测定或观察。一般只能从总体中抽取若干个个体来研究。这些个体的集合称为样本(sample)。

    测定样本中的各个体而得的样本特征数,如平均数等,称为统计数(statistic)。统计数是总体相应参数的估计值(estimate)。

    要从样本估计总体的特征参数,需要考虑样本的代表性,样本越能近似地代表总体就越好。这样的样本,一般是随机地从总体中抽取,这样就可以无偏地估计总体。

    从总体中随机抽取的样本称为随机样本(random sample)。样本中包含的个体数称为样本容量或样本含量(sample size)。随机样本的容量越大,越能代表总体。

    二、次数分布

    (1)试验资料的性质与分类

    因所研究的性状、特性不同而有不同的性质,可分为数量性状资料和质量性状资料。

    a、数量性状资料

    数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不同。

    i、不连续性或间断性变数(discontinuous or discrete variable)

    指用计数方法获得的数据,其各个观察值必须以整数表示,在两个相邻的整数间不容许有带有小数的数值存在。由于两个整数间是不连续的故称不连续性或间断性变数。

    ii、 连续性变数(continuous  variable)

    指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可有微量数值差异的第三个数值存在。其小数位数的多少,因称量的精度而异。这种变数称为连续性变数。

    b、质量性状资料

    质量性状(qualitative trait)指能观察而不能量测的形状,即属性性状。获取方法:

    i、统计次数法    于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状个体数目,按类别计其次数或相对次数。这类资料也称为次数(频数)资料。

    ii、给予每类性状以相对数量的方法(给方法)白色为0,红色为1。这类变异所得资料,处理方法同间断性变数资料。

    (2)次数分布表

    把观察值按数值大小或数据的类别进行分组,制成关于观察值不同组别或不同分类单位的次数分布表,可看出资料中不同表现的观察值与其频率间的规律性,看出资料频率分布的初步情况,从而对资料得到一个初步概念。次数分布表的制作方法因变数种类不同略有差异。

    a、间断性变数资料的整理

    分组计数

    b、连续性变数资料的整理

    i、数据排序(sort)对数据从小到大(升序)或从大到小排列(降序)。

    ii、求极差(range)所有数据中最大观察值和最小观察值的差数,整个样本的变异幅度。

    iii、确定组数和组距(class interval)根据极差分为若干组,每组距离相等,称为组距。组数和组距互相决定,组距小组数多,组距大组数少。决定组数时须考虑到资料整理的目的,组数过多或过少,都不能反映次数与观察值间的关系,不能反映资料的规律性。如果组数过多,则往往过于分散,看不到资料的集中情况,且不便于以后的继续分析。

    确定组数和组距的大小应考虑:观察值个数的多少,极差的大小,便于计算,能反映出资料的真实面貌等方面。

    组数确定后,须确定组距。组距=极差/组数。

    iv、选定组限(class limit)和组中点值(组值,class value) 每组应有明确的界限,才能使各个观察值划入一定的组内,为此必须选定适当的组中点值及组限。组值最好为整数或与观察值的位数相同,便于后续计算。组限要明确,最好比原始资料的数字多一位小数,可使观察值归组时不致含糊不清。组距确定后,首先要选定第一组的中点值,这一点选定后,则该组组限确定,其余各组的中点值和组限也确定。第一组的中点值以最接近最小观察值为好,可避免第一组内次数过多,能正确地反映资料的规律性。

    每组有两个组限,数值小的为下限(lower limit),数值大的为上限(upper limit)。

    v、把原始资料的各个观察值按分组数列的各组组限归组  

    可按原始资料中各观察值的次序,逐个把数值归于各组。由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了1/2组;最后一组的中点值接近于最大值,又增加了1/2组,故实际的组数比原来确定的要多一个组。

    c、属性变数资料的整理

    整理前,把资料按各种质量属性上的具体表现,分别归入相应的组中,可得到属性分布的规律性认识。

    (3)次数分布图

    方柱形图(histogram):连续性变数

    多边形图(polygon):连续性变数

    条形图(bar diagram):间断性变数和属性变数资料

    饼图(pie diagram):间断性变数和属性变数资料

    三、平均数(代表集中性)

    平均数是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确两者之间相差的情况。

    平均数种类:算术平均数、中数、众数、几何平均数

    几何平均数(geometric mean)      G=\sqrt[n]{y_{1}y_{2}y_3...y_n}

    调和平均数       \frac{1}{H}=\frac{1}{n}\sum_{i=1}^n \frac{1}{y_i}

    a、算术平均数特性

               \bar{y}=\frac{\sum f_iy_i }{\sum f_i}    ( y_i 为组中值 )

    i、样本各观察值与平均数的差数(离均差,deviation from mean)的总和等于0. \sum_{i=1}^n ( y_i-\bar{y})=0

    ii、样本各观察值与其平均数的差数平方的总和,较各个观察值与任意其他数值的差数平方的总和为小,离均差平方和总和最小。

                 Q=\sum_{i=1}^n ( y_i-a)^2     a=\bar{y} 时 ,Q最小。

       b、总体平均数   \mu = \frac{1}{N} \sum_{i=1}^n y_i

    研究的总体是无限总体,总体参数无法用观察或计算得到,可用样本参数估计。

    四、变异数

    每个样本有一批观察值,除了平均数作为样本的平均表现外,还可考虑样本内各个观察值的变异情况,才能通过样本的观察数据更好地描述样本,乃至描述样本所代表的总体,须有度量变异的统计数。变异程度的指标:极差、方差、标准差、变异系数。

    a、极差(range),全矩,R,资料中最大观察值与最小观察值的差数

    极差大,变异范围较大,平均数代表性差;极差小,变异幅度小,平均数代表性较好。

    极差虽可对资料的变异有所说明,但它只是两个极端数据决定的,没有充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。用它代表整个样本的变异度是有缺陷的。

    b、方差

    为了正确反映资料的变异度,较合理的方法是根据样本全部观察值来度量资料的变异度。

    平均数作为比较标准较为合理,但也应同时考虑观察值偏离平均数的情况。

    每个观察值均有一个偏离平均数的度量指标——离均差。

                 样本  SS=\sum_{i=1}^n ( y_i-\bar{y})^2

                总体SS=\sum_{i=1}^n ( y_i-\mu )^2

    由于各样本所包含的观察值数目不同,为方便比较,用观察值数目来除平方和,得到平均离均差平方,简称均方或方差(variance)。样本均方(mean square),s^2,是总体方差(\sigma ^2)的无偏估计值

                            s^2=\frac{ \sum _{1}^{n} ( y_i-\bar{y})^2}{n-1}     \sigma ^2=\frac{ \sum _{1}^{n} ( y_i-\mu )^2}{N}

    c、标准差:方差正平方根值,表示资料的变异度,单位与观察值度量单位相同,是总体标准差的估计值。

    i、自由度n-1意义:因为掌握的是样本资料,不知 \mu 的数值,不得不应样本平均数 \bar{y} 代替 \mu。 \bar{y} 与 \mu 有差异,根据算术平均数特性 ii 可知,\sum ( y_i-\bar{y})^2 < \sum ( y_i-\mu )^2。因此\sum ( y_i-\bar{y})^2/n 算出的标准差将偏小,用n-1代替,可免除偏小的弊病。数理统计上可证明用自由度作除数计算标准差的无偏性。

    ii、自由度统计意义:DF,\nu,样本内独立而能自由变动的离均差个数。样本自由度等于观察值个数(n)减去约束条件的个数(k),\nu=n-k

    在应用上,小样本一定要用自由度来估计标准差;大样本 n 和 n-1 相差微小,也可不用自由度,直接用 n 作除数。但样本大小的界限没有统一规定,所以一般样本资料在估计标准差时,皆用自由度。

    iii、标准差计算方法

    直接法:计算简单,易引起计算误差

    矫正数法

    加权法:

    d、变异系数

    标准差和观察值的单位相同,表示一个样本的变异。若两个样本的变异度,则因单位不同或均数不同,不能用标准差进行直接比较。可计算样本的标准差对均数的百分比,称为变异系数(coefficient of variation)。

    CV=\frac{s}{\bar{y}}   是一个不带单位的纯数,可比较二个事物的变异度大小。受标准差和平均数的影响。在使用变异系数时,同时列举平均数和标准差,否则可能会引起误解。

    五、理论总体的平均数和标准差

    某些总体可从理论上推测其构成成分的概率,则可从理论上推测无限总体的平均数和方差。设总体的第i个构成成分的概率为 p_i,平均数为 \mu _i ,则总体平均数和方差分别为:  \mu =\sum (p_i\mu _i)       \sigma ^2 =\sum [p_i(\mu _i-\mu )^2]

    展开全文
  • 平均数 中位数 众数的实际意义

    千次阅读 2019-04-08 10:45:04
    平均数:反映了一组数据的平均大小,常用来一代表数据的总体 “平均水平”。 中位数:像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的“一般水平”。 众数:反映了出现次数最多的数据,用来...
  • 个人理解,说简单点: 一组数据中如果有特别大的数或特别小的数时,一般用中位数 一组数据比较多(20个以上),范围比较集中,一般用众数 ... 1、平均数是通过计算得到的,因此它会因每一个数据的变化而变...
  • 描述分析流程的整理前言一、变量说明表二、统计量描述位置的度量变异程度的度量三、统计图描述如何改变文本的样式插入链接与图片设定内容居中、居左、居右KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLow...
  • 平均指标的种类有:算术平均数、调和平均数、几何平均数、众数和中位数。前三种平均数是根据总体所有标志值计算的所以称为数值平均数,后两种平均数是根据标志值所处的位置确定的,因此称为位置平均数。   1、...
  • 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供...
  • 在统计科学上把平均数分为两大类,即数值平均数和位置平均数,前者包括算术平均数,调和平均数和几何平均数,后者包括中位数和众数。  这几种平均数是针对不同的信息处理而采取不同的方法计算的,其本质是一样的。 ...
  • 在统计科学上把平均数分为两大类,即数值平均数和位置平均数,前者包括算术平均数,调和平均数和几何平均数,后者包括中位数和众数。 这几种平均数是针对不同的信息处理而采取不同的方法计算的,其本质是一样的。 ...
  • 从2012年开始接触复杂网络系统,本科毕业设计读了汪小帆老师的《复杂网络理论及其应用》,对整体有了一定...代表性网络的研究内容 复杂网络的兴起始于1998年发表于Nature的 1998年康奈尔大学的Watts和Strogatz发表
  • 个身无分文的乞丐,塞到一个房间里面,如果算平均数的话,可以说这个房间里面全部都是亿万富豪了。所以很多时候,我们经常饱受“平均”之苦,比如每次都是工资平均增长多,住房面积平均达到多少……每次遇上这种情况...
  • Linux系统平均负载3个数字的含义

    千次阅读 2017-02-24 17:46:45
    越来越多人开始接触Linux操作系统,从VPS到无线路由的刷机系统(如OpenWRT、Tomato),同时也必不可少地会在各式各样的探针和系统监测界面上看到”系统平均负载”或者”Load Average”这样的字眼,但是它并不像我们...
  • 从自来水涨价看中位数与平均

    千次阅读 2013-04-15 22:26:42
    只有当数据本身符合正态分布的统计特性,平均数才能代表绝大多数人的情形,否则当数据分布本身不符合这一规律时,平均值就不能反映绝大多数人的真实情况,对于这类情形,相比平均值,中位数更能说明问题。...
  • 当我深入研究时,我意识到我很难理解为给定的数据选择哪个集中趋势指标有三种:平均值,中位和众数。 所以我决定写这篇文章来帮助像我一样在这个领域里的新人来弄明白这一点,而不是害怕数据和统计。这里我们使用...
  • 无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。无偏估计常被应用于测验分数统计中。 无偏的实际意义是指没有系统的偏差。统计推断的误差有系统误差和随机误差两种。无论...
  • 加权平均和移动平均

    千次阅读 2015-10-22 09:58:00
    移动平均法是用一组最近的实际数据值来预测未来一期或几期内的预测一种常用方法。移动平均法适用于即期预测。当产品需求既不快速增长也不快速下降,且不存在季节因素时,移动平均法能有效地消除预测中的随机波动...
  • 1.基础知识(1)平均值(2)平均偏差平均偏差是数列中各项数值与其算术平均数的离差绝对值的算术平均数。平均偏差是用来测定数列中各项数值对其平均数离势程度的一种尺度。平均偏差可分为简单平均偏差和加权平均偏差...
  • 模型集成 | 14款常规机器学习 + 加权平均模型融合

    千次阅读 多人点赞 2018-07-03 22:59:24
    模型融合的方法很多,Voting、Averaging、Bagging 、Boosting、 ...本文是受快照集成的启发,把titu1994/Snapshot-Ensembles项目中,比较有意思的加权平均集成的内容抽取出来,单独应用。 1 快照集成 因为受...
  • 聚类有效——最佳聚类

    万次阅读 2015-09-09 21:39:27
    聚类有效的评价标准有两种:一是外部标准,通过测量聚类结果和参考标准的一致来评价聚类结果的优良;另一种是内部指标,用于评价同一聚类算法在不同聚类条件下聚类结果的优良程度,通常用来确定数据集的最佳...
  • 除了前3个数字表示平均进程数量外,后面的1个分数,分母表示系统进程总数,分子表示正在运行的进程;最后一个数字表示最近运行的进程ID. 系统平均负载-进阶解释 只是上面那一句话的解释,基本等于没...
  • 平均值mean,众数mode,中值median 和 标准差stddev 均值,众数,中位数,标称差: 均值是就全部数据计算的,...作为均值变形的调和平均数和几何平均数,是适用于特殊数据的代表值,调和平均数...
  • Excel中的三种平均值算法

    千次阅读 2019-07-30 10:42:17
    平均值是概括总体分布,表示全体趋势或类型的代表性数据,本文我们重点探讨一下如何计算各种平均值这个话题。一般而言,平均值是指一组数据中所有数据之和同数据个之比。平均值有三种类型,最常使用的平均值是简单...
  • 数据的描述统计

    千次阅读 2019-07-21 18:03:37
    描述数据集中趋势的指标有众数、中位数和平均数,其中平均数又分为算数平均数、加权平均数和几何平均数 众数 数据集合中出现次数最多的数值被称为众数。如果一个数据集合中,只有一个数值出现最多,那么这个...
  • 原理:在训练神经网络时,不断保持和更新每个参数的滑动平均值,在验证和测试时,参数的值使用其滑动平均值,能有效提高神经网络的准确率。 tf.train.ExponentialMovingAverage tensorflow官网地址:h
  • 平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。一组数据少则几十,多则上千,甚至于过百万,“由于我们的思维不能思考所有的数据”,需要选取一个合适的代表值表达一组数据的特征。平均数便...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 161,219
精华内容 64,487
关键字:

平均数的代表性