精华内容
下载资源
问答
  • 其中算数平均数是统计学中最基本、最常用的一种平均指标,用于计算数值的平均水平,但是算数平均数极端值影响。 几何平均数是各变量值的连乘积开项数次方根。当总水平、总成果等于所有阶段、所有环节水平、...

    统计学中常用的平均数有算数平均数、几何平均数与调和平均数

    其中算数平均数是统计学中最基本、最常用的一种平均指标,用于计算数值的平均水平,但是算数平均数易受到极端值的影响。

    几何平均数是各变量值的连乘积开项数次方根。当总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,需要计算几何平均数,而不是算数平均数。几何平均数受极端值的影响较算术平均数小,但是会受到负值与零值的影响。

    调和平均数又称倒数平均数,是总体各统计变量倒数的算术平均数的倒数。主要是用来解决在无法掌握总体单位数的情况下,只有每组的变量值和相应的标志总量,而需要求得平均数的情况下使用的一种数据方法。调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大,且调和平均数的计算不允许零值的存在。

    算数平均数、几何平均数与调和平均数是三种不同形式的平均数,分别有着自己的应用场景与条件。从数量关系上看算术平均数>几何平均数>调和平均数,但是统计并非纯粹的数值计算,需要根据实际的场景选择相应的统计方式。

    三种平均数计算的均值不等式链如下:

    转载于:https://www.cnblogs.com/yytxdy/p/11442234.html

    展开全文
  • 几种平均数的物理意义应用场景

    千次阅读 2019-07-23 10:39:34
    算术平均数,就是均数(mean),一般用来反映一组呈对称正态分布的变量值在数量上的平均水平,易极端值影响。 几何平均数(geometric mean)用于反映一组经过对数转换后呈对称分布的变量值在数量上的平均水平,...

    算术平均数,就是均数(mean),一般用来反映一组呈对称正态分布的变量值在数量上的平均水平,易受到极端值影响。
    几何平均数(geometric mean)用于反映一组经过对数转换后呈对称分布的变量值在数量上的平均水平,适用于数据呈倍数变化,分布明显正偏态的数据;它受极端值的影响较算术平均数小,但要求任何一个变量值都不能为0。
    调和平均数(harmonic mean)经常是对于完成的工作量相等而所需时间不同或者样本含量不同的数据。例如并联电阻、平均速率等问题。易受极小值的影响吧。
    平方平均数 (quadratic mean) 差不多就是用于需要处理平方数值的数据了,受极端值的影响很大,很大。
    加权平均数(weighted average)是用于不同比重数据的平均数,按照合理的比例进行加权计算,受极端值的影响不大(一般极端值比重很小)。

    展开全文
  • 文章目录算数平均数、中位数、众数和几何平均数 算数平均数、中位数、众数和几何平均数 统计数据时经常用到的几种数的比较: 算数平均数 中位数 众数 几何平均数 英文名 Arithmetic mean Median Mode ...

    算数平均数、中位数、众数和几何平均数

    统计数据时经常用到的几种数的比较:

    算数平均数 中位数 众数 几何平均数
    英文名 Arithmetic mean Median Mode Geometric Mean
    别称 均值 中值
    定义 n个变量的和除以n。 中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。 一组数据中,出现次数最多的数就叫这组数据的众数。 几何平均数是n个变量值连乘积的n次方根。
    优点 只需要知道变量组的总额,不需要知道每个变量值,就可以计算。 不容易受极大值和极小值影响。 数据项没有数值时也可以计算。 不容易受极大值和极小值影响。
    缺点 容易受极大值或极小值影响。 需要知道每个变量的值,并且先排序,再找出中位数。 需要知道每个变量出现的次数,仅适用于计算Top N的情况。 变量值不能为0或负数,仅适用于具有等比或近似等比关系的数据。

    考虑上算数平均数和几何平均数的数据项采用不同的权重,就是加权算数平均数和加权几何平均数。

    在统计一般的“平均数”时,比如统计平均工资、平均房价时,用中位数比算数平均数更合理,可以避免受极大值或极小值影响。但是在实际中,考虑到统计成本,统计的样本比较小,统计数据缺失,统计对象的有意漏报错报,而算数平均数因为计算简单对数据要求不高,仍然被广泛使用。

    参考文档:

    展开全文
  • 二分类问题的性能度量为何选用F? 已知混淆矩阵 prediction positive prediction negative actuality positive True Positive(TP) False Negative(FN) actuality negative False Positive(FP) ...

    二分类问题的性能度量为何选用 F1F_1 值?

    已知混淆矩阵

    prediction positive prediction negative
    actuality positive True Positive(TP) False Negative(FN)
    actuality negative False Positive(FP) True Negative(TN)

    其中:Precise(精确率/查准率)= TPTP+FP\frac {TP} {TP+FP},表示所有预测为positive的集合中实际为positive的频率;
    Recall(召回率/查全率)= TPTP+FN\frac {TP} {TP+FN},表示所有实际为positive的集合中预测为positive的频率。

    1、“P-R”曲线

    对我们来说,PPRR 都为1的模型是最完美的,但实际情况却并不像我们想的那样,通过“ PP-RR”曲线,对模型判断

    P-R曲线

    图片来源:http://shichaoxin.com/2018/12/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80-%E7%AC%AC%E4%B8%89%E8%AF%BE-%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%BA%A6%E9%87%8F/

    为了防止极端小的 PRP 和 R 值影响我们对模型的判断,一般通过曲线下面积或 P=RP=R 的平衡点作为判别标准。以平衡点判别被认为过于简单。

    2、F1F_1值(P和R的调和平均数)

    引如F1F_1值作为二分类问题的模型性能度量标准
    F1=2PRP+R F_1=\frac{2PR}{P+R}
    这里F1F_1是基于 PPRR 的调和平均数,即 F1F_1 的倒数为 PPRR 的倒数之和的二分之一1F1=(1P+1R)×12\frac{1}{F_1}=(\frac{1}{P}+\frac{1}{R})\times\frac{1}{2}
    在统计学中,调和平均数(FF)、几何平均数(GG)、算数平均数(X\overline X)
    它们之间的关系用公式表示为
    FGXF\le G\le \overline X
    其中,F=2aba+bF=\frac{2ab}{a+b}G=abG=\sqrt{ab}X=a+b2\overline X=\frac{a+b}{2},当且仅当 a=ba=b 时上面等式成立

    证明如下:

    假设存在 a,b>0a,b\gt 0,则

    (a+b)2(2ab)2(a+b)^{2}-(2\sqrt{ab})^{2}
    =a2+b2+2ab4ab=a^{2}+b^{2}+2ab-4ab
    =a2+b22ab=a^{2}+b^{2}-2ab
    =(ab)20=(a-b)^{2}\ge 0,当且仅当 a=ba=b 时等式成立
    (a+b)2(2ab)2 (a+b)^{2}\ge (2\sqrt{ab})^{2}
    已知 a,b>0a,b\gt 0,则a+b2aba+b\ge2\sqrt{ab}

    推出 2aba+babababa+b2 \frac{2ab}{a+b}\le\frac{ab}{\sqrt{ab}}\le\sqrt{ab} \le\frac{a+b}{2}
    当且仅当 a=ba=b 时等式成立

    即证。

    这三种平均数各有利弊,但调和平均数受极端值影响较大,更适合评价不平衡数据的分类问题。

    3、举例

    已知三种模型得到的 PPRR 值如下,分别计算三种平均数

    PP RR X\overline X GG F1F_1
    algorithm 1 0.5 0.4 0.45 0.45 0.44
    algorithm 2 0.7 0.1 0.4 0.27 0.18
    algorithm 3 0.02 1.0 0.51 0.14 0.04

    可以看出算法3的 PP 值非常小,我们认为此模型效果不好,但是利用算数平均数和几何平均数来衡量并不能表现出来,只有 F1F_1 对极端值比较重视,能够感受到这种变化。

    参考
    [1]统计学
    [2]机器学习基础-模型性能度量

    展开全文
  • 截尾平均数及利用SPSS求截尾平均数

    千次阅读 2013-01-30 13:17:53
    由于平均数受极端值影响较大,因此可以考虑将数据排序后,按照一定的比例截去两端的值,使用余下的数据求取平均值,这样得到的平均数称为截尾均数。   如果截尾均数和平均数的差异不大,表明原数据存在极端...
  • 中位平均值

    万次阅读 2018-09-27 23:09:44
    1)平均数是通过计算得到的,因此它会因每一个数据的变化而变化。 2)中位数是通过排序得到的,它不最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来...
  • 探索多维数据极端值处理方法

    千次阅读 2019-05-21 14:58:46
    我们知道,在各种数据分析方法中,除了部分方法本身对数据值不敏感外,离群值、极端值对于分析结果都是具有影响的。这种影响尤其体现在需要对数据具体的值进行运算的方法中,比如回归类型的问题。极端值出现频率过高...
  • 平均数 中位数 众数的实际意义

    千次阅读 2019-04-08 10:45:04
    平均数:反映了一组数据的平均大小,常用来一代表数据的总体 “平均水平”。 中位数:像一条分界线,将...主要缺点是易受极端值影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现...
  • 几种平均数

    千次阅读 2020-02-15 10:15:13
    算数平均数、调和平均数、几何平均数的计算方法与应用场合 总的来说:几种平均数的应用的取决于场景 一、定义 1、算数平均数:又称均值,是统计学中最基本,最常用的一种平均指标,分为简单算术平均数、加权算术...
  • 本文主要介绍如何使用excel 检测离群值(outlier)或极端值(extreme value) 通常对于检测离群值需要用到箱型图(盒须图)的概念,即第一四分位(Q1),中位(Q2),平均值(avg),第三四分位(Q3),四分位距 ...
  • 调和平均数:调和平均数(harmonic mean),又称倒数平均数,是衡量样本集中趋势的统计量,其为该组数据所有n个变量的倒数的算数平均数的倒数。其计算公式为: H=11n∑i=1n1Xi=n∑i=1n1Xi H=\frac{1}{\frac{1}{n...
  • 算术平均数

    千次阅读 2009-12-07 10:11:00
    算术平均数指数是将个体指数按算术平均数形式加权计算的总指数。 算术平均数简称为平均数或均值,符号为M(Mean),有总体均数和样本平均数之分,分别用希腊字母μ(音miu)和英文字母X(音x bar)表示。算术平均数是由...
  • 统计学的Python实现-014:几何平均数

    千次阅读 2020-05-20 12:20:12
    几何平均数:几何平均数(geometric mean)是衡量样本集中趋势的统计量,其为该组数据所有n个变量的乘积的n次方根。其计算公式如下: G=X1×X2×...×Xnn=∏i=1nXin G=\sqrt[n]{{X_1}\times{X_2}\times...\times...
  • 不同平均数的比较;图片来源:维基百科 大概是最常见的数据分析任务 你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没...
  • 不同平均数的比较;图片来源:维基百科 大概是最常见的数据分析任务 你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没...
  • 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据...但它受极端值影响较大。 应用场合:没有极端值的情况下数据集中趋势的刻画。
  • 平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。一组数据少则几十,多则上千,甚至于过百万,“由于我们的思维不能思考所有的数据”,需要选取一个合适的代表表达一组数据的特征。平均数便...
  • 个人理解,说简单点: 一组数据中如果有特别大的数或特别小的数时,一般用中位数 一组数据比较多(20个以上),范围比较集中,一般用众数 ... 1、平均数是通过计算得到的,因此它会因每一个数据的变化而变...
  • 平均数的简单方法

    千次阅读 2015-01-14 22:10:25
    生活中我们经常使用 平均成绩、平均身高、平均速度这样的平均数来比较不同组数据之间的差距,虽然平均数使用了所有数据信息,但是如果有 0,1,99这样的极端数据在成绩表中,那么平均成绩必定是偏向更大一方或更小...
  • 前三种平均数是根据总体所有标志计算的所以称为数值平均数,后两种平均数是根据标志所处的位置确定的,因此称为位置平均数。   1、算术平均数的计算  算术平均数是计算平均指标的最常用方法,它的基本...
  • 溢出避免:求平均数

    千次阅读 2017-04-10 16:07:55
    这次来说说求平均数的问题。 问题很简单,就是求 (a+b)/2。 当然,我不是让你直接printf(“%d”,(a+b)/2); 这样随便一个人学一小时C语言就可以做到。 问题是 a+b 如果溢出了怎么办?溢出的话就得不到正确结果了,...
  • 在统计科学上把平均数分为两大类,即数值平均数和位置平均数,前者包括算术平均数,调和平均数和几何平均数,后者包括中位数和众数。  这几种平均数是针对不同的信息处理而采取不同的方法计算的,其本质是一样的。 ...
  • 其主要缺点是易数据极端值影响,对于偏态分布的数据,均值的代表性较差.作为均值变形的调和平均数和几何平均数,是适用于特殊数据的代表值,调和平均数主要用于不能直接计算均值的数据,几何平均数则主要用...
  • 在统计科学上把平均数分为两大类,即数值平均数和位置平均数,前者包括算术平均数,调和平均数和几何平均数,后者包括中位数和众数。 这几种平均数是针对不同的信息处理而采取不同的方法计算的,其本质是一样的。 ...
  • 极差虽可对资料的变异有所说明,但它只是两个极端数据决定的,没有充分利用资料的全部信息,而且易于到资料中不正常的极端值影响。用它代表整个样本的变异度是有缺陷的。 b、方差 为了正确反映资料的变...
  • package DataStructureTestmain; import DataStructureTestSinglyLinkedList.Node; import DataStructureTestSinglyLinkedList.... System.out.print("去极端平均数"+averageExceptMaxMin(list)); } }
  • 中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。中位数用Me表示。... 在数列中出现了极端变量的情况下,用中位数作为代表要比用算术平均数更好,因为中位数不受极端

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 21,945
精华内容 8,778
关键字:

平均数受极端值影响