精华内容
下载资源
问答
  • 2020-05-20 12:21:56

    作者:长行

    时间:2019.03.14

    统计学解释

    调和平均数:调和平均数(harmonic mean),又称倒数平均数,是衡量样本集中趋势的统计量,其值为该组数据所有n个变量值的倒数的算数平均数的倒数。其计算公式为:
    H = 1 1 n ∑ i = 1 n 1 X i = n ∑ i = 1 n 1 X i H=\frac{1}{\frac{1}{n}\sum^{n}_{i=1}{\frac{1}{X_i}}}=\frac{n}{\sum^{n}_{i=1}{\frac{1}{X_i}}} H=n1i=1nXi11=i=1nXi1n
    下面我们通过几个例子来熟悉几何平均数的特点:

    例1:调和平均数受极端值影响显著,受极小值影响尤其显著

    数据 [1,95,96,97,98,99,100] 的调和平均数为6.594,算数平均数为83.174

    数据 [1,2,3,4,5,6,100] 的调和平均数为2.846,算数平均数为17.286

    例2:调和平均数中若包含0,则不能计算调和平均数

    代码实现

    data_test=[1,2,3,4,5,6,7]  # 定义测试数据
    def harmonic_mean(data):  # 计算调和平均数
        total=0
        for i in data:
            if i==0: #处理包含0的情况
                 return 0
            total+=1/i
        return len(data)/total
    print(harmonic_mean(data_test))
    

    结果

    2.6997245179063363
    

    实际应用

    调和平均数的应用场景并不是很多,通常用于在缺少样本总量的情况下使用。

    更多相关内容
  • 描述性分析流程的整理前言一、变量说明表二、统计量描述位置的度量变异程度的度量三、统计图描述如何改变文本的样式插入链接与图片设定内容居中、居左、居右KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLow...

    导读
    楼主本人统计学专业在读,这几年也完成了不少数据分析的报告,故而想整理一点写数据类报告的tips。本文先整理了对一份数据进行描述性分析的流程。包括变量说明和利用平均数、方差、偏度峰度等基本统计量进行解读的思路。

    一、数据报告

    一般来说一份数据报告要包含研究目的、描述性分析、特征工程、建模分析、模型检验、模型对比的过程,最后需要加上最重要的结论和建议。其中数据处理的第一步就是描述性分析。

    研究目的
    描述性分析
    特征工程
    建立模型与解读
    模型检验和效果对比
    结论和建议

    有人说不知道描述性分析该描述什么,好像没什么可写。我的理解是,对读者而言,描述性分析其实就是在最开始给读者呈现对数据的初步观察,让其产生对数据的初印象,而建立模型的过程等于深挖这份数据集的特点;对个人而言,我们可以通过描述性分析发现特征的特点,从而对特征进行一些变换和处理,接下来再根据发现的数据特点以及研究目标去选用合适的模型。描述性分析的过程不该太长,以免喧宾夺主,应该指出重点的发现,并且尽量简单直白。接下来将对描述性分析的流程进行梳理,代码部分利用R语言实现

    描述性分析
    变量说明
    单变量统计量描述
    单变量统计图表
    多变量描述

    二、变量说明表

    数据集包含哪些内容?拿到一份数据首先要解决的就是这个问题。通常我们见到的csv格式的数据,都是以数据框形式存在,每一列都是代表一项特征,所以不妨先拿出头几行数据进行观察。这次用的例子是来自狗熊会(公众号:CluBear)的数据集,是二手市场上在售的1289条的汽车的10项指标数据,数据是前几年的,自变量包括汽车描述,排量,性能,级别,车门,车座,马力,发动机和前制动类型等10个变量,那么我们关心的变量是什么呢?这就是数据报告的目的性,本次设定因变量为汽车的价格,探究汽车价格的关键影响指标。下面可以先展示一下数据集的前几行。

    描述价格排量性能级别车门车座马力发动机前制动类型
    奥迪Q3 2017款 30 TFSI 时尚型20.61.4自动紧凑型5588L4通风盘式
    川汽野马F10 2011款 1.5L 手动2.11.5手动小型5588L4盘式
    丰田汉兰达 2015款 2.0T 四驱豪华版 7座27.82自动中型57220L4通风盘式
    奥迪Q5 2013款 40 TFSI 进取型27.882自动中型55211L4通风盘式

    这样一份关于市场上汽车特征的数据集,对于不了解汽车的人来说,每个数值代表的含义就不够明确,比如价格20万元是高还是低呢?级别又代表什么含义?紧凑型比小型大还是小?前制动类型没听说过,什么意思等等。所以为了解释数据,我们需要对这些变量(或特征)进行一个说明。

    变量说明表一般包含变量名、变量说明和取值范围这几个关键因素,变量名称很多时候数据集会以英文命名,所以就需要一个简要说明,对于数值型变量,可以介绍单位;对于类别变量,列出类别数。那么取值范围里面就可以把类别大致写一下,比如级别为大型的汽车就没有出现在前面展示的数据里,所以有必要在取值范围中出现。整理好后就可以看出前制动类型不止有通风盘式还有盘式,级别不仅有紧凑型还有大型。

    下面视情况可以再添加一些备注,备注可以对比较难以理解的变量进行解释,比如级别指的含义其实就是空间大小,或者是展示简单统计信息,如各类型样本的占比等。

    变量类型变量名详细说明取值范围备注
    因变量在售价格单位:万元1.3~280.0
    自变量描述汽车品牌与年份及关键字文字信息
    排量单位:升1.3~6.2
    性能定性变量,2个水平手动,自动手动约占28%,自动72%
    级别定性变量,5个水平小型,紧凑型,中型,中大型,大型左边按照从小到大排序
    车门整数变量2,3,4,5存在部分数据偏差
    车座整数变量4,5,7,8
    马力连续变量85~575
    发动机定性变量,7个水平L3,L4,V5,L6,V8,H4,L5代表不同的气缸排列方式
    前制动类型定性变量,2个水平盘式,通风盘式制动方式,通风盘式造价较高

    三、统计量描述

    还是以汽车价格数据为例,目前我们的因变量是价格,所以首选价格分析。对单变量进行统计量描述的时候可以用常见的统计量来做初步观察,统计量的主要意义在于整合数据,并且呈现出数据告诉我们的关键信息。

    位置的度量

    1. 平均数

    平均数即为样本观测值的总和平均。xi为我们的观察值,n为样本量,则有
    x ˉ = ∑ i = 1 n x i n \bar x=\frac{\sum_{i=1}^n x_i}{n} xˉ=ni=1nxi
    如汽车价格的平均数为17.3万元

    2. 中位数和分位数

    中位数是对数据中心位置的度量。将所有数据按照升序排列,位于中间的数值。
    (a)观测数为奇数时,中位数是位于中间的那个数值;
    (b)观测数为偶数时,中位数是位于中间两个数的平均值。
    百分位数(percentile): 第p百分位数满足条件的一-个数值,至少有p%的观测值小于或等于该值,且至少有(100 - p)%的观测值大于或等于该值。常用到的四分位数即:第25,50,75百分位数。
    如汽车价格的中位数为11.4万元

    R中求平均值、中位数、分位数的函数为mean(x),median(x),和quantiel(x,p)

    3. 两者的对比

    在描述统计的过程中,没有任何一个数字是孤零零地呈现的。我们需要对数字进行一个对比和解释,比如说分组取平均值,这对于类别变量就较为有效

    tapply函数常用对于因子型进行分组计算,按照index分组,对x进行fun的计算, tapply(X, INDEX, FUN )

    #按照级别对价格求均值
    tapply(suv_data$价格,suv_data$级别,mean)
    
        -      大型    紧凑型      小型    中大型      中型 
           NA 102.50000  10.84507   6.47700  52.46496  20.53357 
    

    从上面的分组价格可以看出不同大小的汽车平均价格相差很大,这就给我们提供了一个信息,即这个特征是个区分度高的“好”特征,在建模过程应该持续关注。

    中位数和平均数其实都是耳熟能详的统计量,但是主要的区别在于平均数是一个受异常值影响大的统计量,而中位数则比较稳健。比如说一个公司有1个人是100万元,剩下99个人都是1000元,中位数是1000,但是平均工资就会超过1万元。显然这个平均值没有意义,因为它没有做到呈现关键信息的作用。这时候中位数和众数其实都是相对好的统计量。

    4. 最大值和最小值

    有时候视情况还可以补充一些最大值和最小值之类的数据,就像老师重点关注优生和差生一样,因为他们在集体里具有一定的代表性,某种意义上代表了老师教学成果的上下限。下面简单呈现一些对汽车数据的部分统计结果。

    summary用于一键计算所有特征的统计量,对数值型计刚才提到的所有统计量,类别变量统计频数,还有很多这类统计函数,下次再整理一下

    summary(suv_data)
         价格             排量         性能         级别     车门          车座            马力      
     Min.   :  1.30   Min.   :1.300   手动:359   -     :  4   -:   4   Min.   :4.000   Min.   : 85.0  
     1st Qu.:  7.60   1st Qu.:1.600   自动:930   大型  :  4   2:   8   1st Qu.:5.000   1st Qu.:144.0  
     Median : 11.50   Median :2.000              紧凑型:669   3:   1   Median :5.000   Median :163.0  
     Mean   : 17.52   Mean   :2.099              小型  :160   4:   5   Mean   :5.219   Mean   :180.2  
     3rd Qu.: 20.00   3rd Qu.:2.400              中大型:133   5:1271   3rd Qu.:5.000   3rd Qu.:201.0  
     Max.   :280.00   Max.   :6.200              中型  :319            Max.   :8.000   Max.   :575.0  
                                                                       NA's   :4       NA's   :4      
              
    

    结果给出最大值和最小值之后,可i以重新去数据集里定位它的具体信息。比如汽车数据的价格最高值来自奔驰G级AMG 2016款 AMG G63 Edition 463,为280万元,但是!同样我们需要思考数字的含义,280万是多高呢?很高?还是只是比一般的高一点呢?

    这时我们可以想到中位数和平均数,上面的问题就有了答案,中位数为11.5万元,均值则为17.5万元,说明280万确实是比一般的车贵太多了!这样正常吗?像这样的高价汽车有多少呢?如果我们假设一百万算高价,那么高于100万元的SUV汽车在数据集里总共也只12款,占总体的不到1%,所以说市场上的百万级汽车的数量还是较少,这些汽车价格并非异常,市面上是存在这样的需求的。

    变异程度的度量

    接下来有一些统计量可以描述数据的变化

    1. 方差和标准差

    方差:变异程度的度量,每条数据和平均值的差的平方和,公式如下
    s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n s^2=\frac{\sum_{i=1}^n (x_i-\bar x)^2}{n} s2=ni=1n(xixˉ)2
    而标准差 s s s即为上式开根号

    2. 极差和四分位数间距

    极差(range): 最大值减去最小值。优点,容易计算;缺点,比平均数还容易受异常值影响。
    r a n g e = x ( n ) − x ( 1 ) range=x_{(n)} -x_{(1)} range=x(n)x(1)

    四分位数间距(inter quartile range):
    I Q R = Q 3 − Q 1 IQR=Q3-Q1 IQR=Q3Q1

    即第3四分位数-第1四分位数。所以IQR就是中间的50%的数据的极差。这个统计量不常见到,但是提供了一种度量变异的新想法,可以尝试与极差进行比较

    3.变异系数

    融合了平均数和标准差,值越大说明变异程度越强。 σ \sigma σ为标准差, μ \mu μ为平均值,则样本的变异系数为
    c o e f   o f   v a r i a n c e = s x ˉ × 100 % coef\ of\ variance=\frac{s}{\bar x}\times100\% coef of variance=xˉs×100%

    分布形状的度量

    数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。所以大多时候需要结合统计图来观察。

    1. 偏度

    偏度(Skewness) :描述变量取值分布形态对称性的统计量。其计算公式为:

    β s = m 3 m 2 3 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 3 ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) 3 2 \beta_s=\frac{m_3}{m_2^{\frac{3}{2}}}=\frac{\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^3}{(\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^2)^\frac{3}{2}} βs=m223m3=(n1i=1n(xixˉ)2)23n1i=1n(xixˉ)3

    当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,偏度值大于0或小于0。偏度绝对值越大,表示数据分布形态的偏斜程度越大。

    • 偏度大于0表示正偏差值大,称为正偏或右偏,这时
      一般来说,中位数<平均数
    • 偏度值小于0表示负偏差值大,称为负偏或左偏,这时
      一般来说,平均数<中位数
      下面会结合图形解释一下原因

    2. 峰度

    峰度(Kurtosis) :描述变量 取值分布形态陡峭程度的统计量。样本峰度计算公式为:

    β k = m 4 m 2 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 4 ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) 2 \beta_k=\frac{m_4}{m_2^2}=\frac{\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^4}{(\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^2)^2} βk=m22m4=(n1i=1n(xixˉ)2)2n1i=1n(xixˉ)4

    • 峰度值等于3,表示数据分布与标准正态分布的陡峭程度相同时,正态分布的峰度即为3
    • 峰度大于3,表示数据的分布比标准正态分布平缓,为平峰分布
    • 峰度小于3,表示数据的分布比标准正态分布更陡峭,为尖峰分布

    timeDate包里有kurtosis和skewness,psych包里的describe也可以计算

    library(timeDate)
    kurtosis(suv_data$价格)
    [1] 43.57262
    attr(,"method")
    [1] "excess"
    
    skewness(suv_data$价格)
    [1] 4.727704
    attr(,"method")
    [1] "moment"
    

    从上面可以看到偏度值是47,远大于0,故而明显右偏,而峰度值则略大于3,即为比正态分布稍微平缓一点。

    3. 示例

    在这里我们结合价格的频数直方图可以更清晰一点。这张图上可以看出右偏指的其实就是峰值靠左边,尾巴在右边。大部分的价格整体集中在0-20万元分段,但是有一小部分汽车价格特别高,这时候这些高价车就会让所有车的平均价格被拉高了,和刚才提到的工资例子一样,这也很明显地服从二八分布的法则。
    在这里插入图片描述
    简单说下二八法则,价格类的数据常常服从一种经济定律,80/20法则,也叫帕累托法则,这是20世纪初意大利统计学家、经济学家维尔弗雷多·帕累托提出的,他指出:在任何特定群体中,重要的因子通常只占少数,而不重要的因子则占多数,因此只要能控制具有重要性的少数因子即能控制全局。这个原理经过多年的演化,已变成当今管理学界所熟知的二八法则——即80%的公司利润来自20%的重要客户,其余20%的利润则来自80%的普通客户。

    这类法则在解释价格分布时有很重要的作用,在研究价格数据这类经济金融相关的数据时,我们可以补充这些相关知识来充实解读,数字永远只是数字,背后的含义才是需要深挖的事情。总的来说,价格的中位数为11.4万元,而均值则为17.3万元,平均值高于中位数,呈现右偏分布。价格明显地服从二八分布,即80%的价格分布在23.5万内,在最大价格的20%以内,故而是少数高价的SUV汽车样本拉高了样本的平均价格。以上就是对于价格单变量的描述分析。关于统计图和多变量之间的描述分析下次继续整理。

    展开全文
  • 不同平均数的比较;图片来源:维基百科 大概是最常见的数据分析任务 你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没...

    转载自:http://m.elecfans.com/article/712572.html

    不同平均数的比较;图片来源:维基百科

    大概是最常见的数据分析任务

    你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没错吧?

    也许。

    和流行的观点不同,从数学上说,平均数通常不是一样东西。意思是:没有可以恰当地称作“平均数”的数学运算。我们通常所说的平均数是“算术平均数”,具体计算过程如前所述。我们称其为“平均数”,是因为我们期望它符合“平均数”的口头定义:一个典型的、正态的中间值。我们常常是对的,但正确的频率比我们想象的要低。

    概述统计量

    算术平均数仅仅是得到“平均”值的许多方法的其中之一。技术一点地说,这些属于概述统计量、集中趋势测度、位置测度。

    中位数大概是第二出名的概述统计量。由于中位数是数据集中间的值,因此常常比均值更平均。我这里不讨论中位数,不过在许多情形下,算术平均数被滥用在中位数更合适的地方。更多关于中位数的内容,可以参考下面三篇文章:

    https://www.linkedin.com/pulse/20140715160509-29681087-median-vs-average-household-income/

    http://wkuappliedeconomics.org/indblogs/mean-vs-median-income-which-one-to-use-and-what-it-means-for-south-central-kentucky/

    https://medium.com/%40JLMC/understanding-three-simple-statistics-for-data-visualizations-2619dbb3677a

    本文将重点讨论知名度相对较低的几何平均数和调和平均数。

    毕达哥拉斯平均数

    平方平均数和毕达哥拉斯平均数;图片来源:维基百科

    算术平均数是3种毕达哥拉斯平均数之一(名称源自研究这些性质的毕达哥拉斯及其学派)。另外两种毕达哥拉斯平均数是几何平均数和调和平均数。

    为了了解它们的基本功能,让我们从熟悉的算术平均数开始。

    算术平均数

    算术平均数的名字取得很合适:我们累加数据集中的所有数字,接着除以数据集包含的数字数目。

    不过,加法没有什么特别的。它只不过是一种简单的数学运算。在数字之间存在可加性(additive)关系的数据集上,算术平均数效果很好。这样的关系经常被称为线性,因为如果我们将所有数字按升序或降序排列,数字倾向于落在一根直线上。一个简单而理想化的例子是公差为3的等差数列:

    然而,不是所有的数据集都适宜用这种关系描述的。有些数据集内部存在乘法或指数关系,例如,公比为3的等比数列:

    我们看到,算术平均数(156)并不特别接近我们的数据集中的大多数数字。实际上,它是中位数(27)的5倍。

    将数据绘制在一根数轴上,能够更明显地看到这一扭曲。

     

    所以,我们做什么?

    引入……

    几何平均数

    由于数据集中数字之间的关系是相乘,我们通过乘法和取方根(总共有几个数字就开几次方根)来得到几何平均数。

    我们可以看到,在等比数列上,几何平均数更能代表数据集的中间值。事实上,在这个等比数列数据集上,它等于中位数。

    从单根数轴上也可以看到这一点:

    几何平均数的真实世界应用

    实际上,有很多实际场景适合使用几何平均数,因为类似相乘的关系在真实世界中很常见。

    一个经典的例子是复利问题。

    假设我们有一笔5年期存款,本金为$100,000,每年的利率是变动的:

    年利率:1%、9%、6%、2%、15%

    我们想要找到平均年利率,并据此计算5年后本金和利息的总和。我们尝试“平均”这些利率:

    (.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%

    然后我们将平均利率代入复利计算公式:

    100000 * (1.066 ** 5 - 1) + 100000 = 137653.11

    比较以下不使用平均利率,直接计算的结果:

    100000 * 1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 136883.70

    可以看到,我们的简便计算方法误差接近$1,000。

    我们犯了一个常见的错误:我们将加法操作应用于相乘过程,得到了不精确的结果。

    现在,让我们试试几何平均数:

    1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042

    1.368837042开5次方根 = 1.064805657

    将几何平均数代入复利计算公式:

    100000 * (1.0648 ** 5 - 1) + 100000 = 136883.70

    这个数字正好等于我们逐年计算所得的结果。

    我们使用了合适的平均数,并得到了正确的结果。

    几何平均数还适合什么场景呢?

    几何平均数的一个很酷的特性是,你可以对尺度完全不同的数字取平均数。

    例如,假设我们想比较两间咖啡店来源不同的在线评价。问题在于,来源一的评价使用五星制,而来源二的评分评价使用百分制:

    咖啡店A

    来源一:4.5

    来源二:68

    咖啡店B

    来源一:3

    来源二:75

    如果我们直接根据原始分值计算算术平均数:

    咖啡店 A = (4.5 + 68) / 2  =  36.25

    咖啡店 B = (3 + 75) / 2 = 39

    根据上面的数据,我们得出结论咖啡店B是赢家。

    如果我们对数字有一点敏感性,我们会知道在应用算术平均数得到精确的结果之前,我们首先需要标准化(normalize)数据集中的值至同一尺度。

    所以,我们将来源一中的评价乘以20,将其从五星尺度拉伸到来源二的百分制尺度:

    # 咖啡店A

    4.6 * 20 = 90

    (90 + 68) / 2 = 79

    # 咖啡店B

    3 * 20 = 60

    (60 + 75) / 2 = 67.5

    我们发现,其实咖啡店A才是赢家。

    然而,几何平均数,允许我们在不考虑尺度问题的前提下得到一样的结论:

    咖啡店A = (4.5 * 68) 的平方根 =  17.5

    咖啡店B = (3 * 75) 的平方根 = 15

    算术平均数被尺度较大的数字支配了,以至于得出了错误的结果。这是因为算术平均数期望数字间的加法关系,而没有考虑尺度和比例问题。所以需要在应用算术平均数之前将数字转换为同一尺度。

    另一方面,几何平均数,很容易就能处理比例问题,因为它本质上是乘法关系。这是一个极为有用的性质,但注意我们损失了什么:我们不再具有可解释的尺度了。在这样的情况下,几何平均数其实是无单位的(unitless)。

    例如,以上的几何平均数既不意味着百分制中的17.5分,也不意味着五星制中的15星。它们不过是无单位的数字,互相之间比例一致(技术上说,它们的尺度是原尺度5 & 100的几何平均数,也就是22.361)。不过,如果我们只需比较两间咖啡店评价的高低,那么这不会成为一个问题。

    几何平均数回顾

    几何平均数对值相乘,而不是相加,接着取n次方根,而不是除以n。

    它基本上是在说:如果我们的数据集中的数字都是一样的,那么这个数字应该是什么,才能得到和实际数据集一样的乘积?

    这使它非常适合描述相乘关系,例如比率,即使这些比率的尺度不同。(因此,它经常用来计算财经指数和其他指数。)

    缺点: 应用几何平均数时,可能会丢失有意义的尺度和单位。另外,它对离散值的不敏感性可能会遮蔽可能具有较大影响的大数值。

    和生活中的大多数事情一样,极少有牢不可破的规则说必须使用几何平均数(复利等少数情形除外)。有一些启发式的规则和经验规则,但无疑需要判断力和科学的怀疑,才能应用合理的经验。

    在最后的总结中我们将继续讨论这些,不过现在让我们引入最后一种毕达哥拉斯平均数……

    调和平均数

    算术平均数需要加法,几何平均数则利用乘法,调和平均数使用倒数。

    我们可以用语言描述调和平均数:数据集的倒数的算术平均数的倒数。

    听起来当中包含很多倒数,但实际上不过是一些简单的步骤:

    对数据集中的所有数字取倒数

    找到这些倒数的算术平均数

    对上一步所得取倒数

    源自维基百科的一个简单例子:1、4、4的调和平均数是2:

    注意,由于0没有倒数,因此调和平均数和几何平均数一样,无法处理包含0的数据集。

    好,我们已经明白数学部分如何工作了。不过调和平均数适用于哪些场景呢?

    调和平均数的现实世界应用

    为了回答上面的问题,我们需要回答:倒数适用于哪些场景?

    由于倒数和除法类似,不过是伪装的乘法(乘法不过是伪装的加法),我们意识到:倒数帮助我们更方便地除以分数。

    例如,5 ÷ 3/7等于多少?如果你还记得初等数学,你大概会将5乘以7/3(3/7的倒数)。

    不过有一个等价的方法,将5和3/7缩放至共同的分母:

    5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 112/3 = 11.66667

    类似之前使用几何平均数作为快捷路径,在未标准化的情况下找到不同尺度评分的相加算术平均数的关系,调和平均数帮助我们在不操心共同分母的情况下找到乘/除关系。

    因此,调和平均数很自然地成为几何平均数之上的另一层乘/除。因此,它有助于处理包含长度或周期不同的比率的数据集。

    (你可能在想:“等一下,我原以为几何平均数用在平均利率和不同尺度的比率上!”你想的没错。你也不是第一个为此感到困惑的人。我自己写下下面的内容正是为了厘清我自己的思考和理解。我希望下面的例子让这个主题更清楚了,在文章后面的总结部分也会回顾所有的区别。)

    平均速度

    现实世界中,使用调和平均数的经典例子是以不同的速度通过物理空间。

    考虑一次去便利店并返回的行程:

    去程速度为30 mph

    返程时交通有一些拥堵,所以速度为10 mph

    去程和返程走的是同一路线,也就是说距离一样(5 miles)

    整个行程的平均速度是多少?

    同样,我们可以不假思索地直接应用30 mph和10 mph的算术平均数,然后自豪地宣布结果是20 mph。

    但是再想一想:由于你在一个方向上的速度较高,因此你更快地完成了去程的5 miles,在那个速度上花了整个行程中更少的时间,所以整个行程期间你的平均速度不会是30 mph和10 mph的中点,它应该更接近10 mph,因为你更多的时间是以10 mph的速度行驶。

    为了正确地应用算术平均数,我们需要判定以每种速率行驶所花的时间,然后以适当的权重加权算术平均数的计算:

    去程:5 / (30/60) = 10 minutes

    返程:5 / (10/60) = 30 minutes

    总行程:10 + 30 = 40 minutes

    加权算术平均数:(30 * 10/40) + (10 * 30/40) = 15 mph

    所以,我们看到,真正的平均速度是15 mph,比使用未加权的算术平均数计算所得低了5 mph(或者25%)。

    你大概猜到了我们下面要做什么……

    让我们试着使用调和平均数:

    2 / (1/30 + 1/10) = 15

    真正的行程平均速度,自动根据在每个方向上使用的时间进行调整,是15 mph!

    有一些地方需要注意:

    可以直接应用调和平均数的前提是不同速度行驶的总距离是相等的。如果距离不同,我们需要使用加权调和平均数,或加权算术平均数。

    当距离不等时,算术平均数仍然以不同速度行驶的时间作为加权,而调和平均数则以不同速度行驶的距离作为加权(因为通过取倒数,已经隐式地考虑了不同速度的时间比例)。

    毕达哥拉斯平均数大部分的复杂性和麻烦源于比率的本质以及我们对比率的哪方面更感兴趣。例如,算术平均数总是用分母的单位表示。在行程问题中,比率是每小时的英里数,因此,算术平均数给出的结果是以分母(某种意义上隐藏的)单位表示,小时:(30m / 1hr + 10m / 1hr) ÷ 2 = 20m/1hr = 20 mph。如果我们在每个方向上所花的时间是一样的,那么这个结果会是精确的。然而,我们知道,在每个方向上所花的时间并不一样。相反,调和平均数通过取倒数翻转这些比率,将我们实际感兴趣的数字放入分母,接着取算术平均数,并再次翻转,给出我们要求的平均速度。(可以使用财经的P/E率更深入地探讨这一问题,请参阅论文Using the Price-to-Earnings Harmonic Mean to Improve Firm Valuation Estimates。)

    几何平均数适用于复利问题的原因是,利率的周期是相等的:每种利率一年。如果周期是可变的,也就是说每种利率的持续时间不同,那么我们同样需要使用某种权重。

    几何平均数可以处理相乘关系,例如复利问题和不同评分尺度上的比率,而调和平均数则通过神奇的倒数容纳了另一层次的乘/除关系,例如可变周期或长度。

    类似复利问题和几何平均数,这是一个准确、客观正确的调和平均数的应用案例。不过,事情并不总是如此清晰。有其他准确的、可以在数学上论证的调和平均数的应用,包括物理、财经、水文学,甚至(源自传统)棒球统计。和数据科学关系更密切的:调和平均数经常用在评估机器学习模型的准确率和召回中。但是,在更多的情况下,调和平均数的应用需要判断力,需要你对数据和手头问题的灵活理解。

    总结

    1. 3种毕达哥拉斯平均数密切相关

    例如,我们已经看到:

    不同尺度评分的几何平均数有时保留了这些值标准化至同一尺度后的算术平均数的次序。

    调和平均数等价于行程速度的加权算术平均数(权重为相对行程时间)

    在下篇中,我们将看到,数据集的几何平均数等价于数据集中每个数字的对数的算术平均数。所以,正如调和平均数不过是算术平均数加上一些倒数变换,几何平均数不过是算术平均数加上对数变换。

    2. 毕达哥拉斯平均数遵循严格的次序

    根据相应的公式,调和平均数总是小于几何平均数,几何平均数总是小于算术平均数。

    这三种平均数是彼此接近还是互相远离,取决于数据的分布。以上规则唯一的例外是,在数据集中所有数字相等的极端情形下,3种平均数同样相等。也就是说,以下不等关系成立:

    调和平均数 ≤ 几何平均数 ≤ 算术平均数

    从本节开头的毕达哥拉斯平均数的几何描述中也能看到这一点。

    认识到这一次序关系有助于理解何时应用哪种平均数,以及不同平均数对结果的影响。

    让我们回顾之前的相加和相乘数据集,这次我们将画出所有三种平均数:

    很明显,几何平均数和调和平均数看起来要比这一线性、相加数据集的中间低不少。这是因为这两种平均数对较小的数字而不是较大的数字更敏感(让它们相对而言对较大的离散值不敏感)。

    这里,几何平均数准确地位于数据集的中点,而调和平均数则向低端扭曲,算术平均数则受较大的离散值的影响,向高端扭曲。

    描绘一个集中趋势用调和平均数表达最佳的数据集并不容易,因此我将直接转入下一部分……

    3. 强硬的规则,一些启发式的方法,和许多判断的空间

    不同尺度的比率:使用几何平均数(或在标准化的数据上应用算术平均数)。

    周期一致的复合比率:使用几何平均数。

    不同周期或长度上的比率:使用调和平均数(或加权平均数)。

    了解比率的哪一边你更感兴趣,以决定应用哪种平均数。算术平均数是以分母的单位表达的(显式或隐式)。调和平均数让你可以倒置比率,让结果以原本分子的单位表达。

    如果数据体现出相加结构:算术平均数通常是安全的选择。

    如果数据体现出相乘结构和/或包含较大的离散值:几何平均数或调和平均数可能更合适(中位数可能也比较合适)。

    任何决定都有缺陷和折衷:

    使用几何平均数可能损失有意义的尺度或单位。

    包含0的数据集无法应用几何平均数或调和平均数,包含负数的数据集意味着无法应用几何平均数。

    使用几何平均数或调和平均数时,受众可能不熟悉这两个概念。

    经常,更实用、更易解释的方法是:

    存在较大的离散值时直接使用中位数

    移除离散值

    使用加权算术平均数或统计学变换,而不是难懂的毕达哥拉斯平均数

    统计计算语言R内置矩阵求逆和三次样条插值的方法,却没有内置计算简单的几何平均数或调和平均数的函数,这可能多少暗示了这两种平均数狭窄的使用场景。(不过Google sheets和Excel倒是包含这两种平均数。)

    如果要用一句话概括整篇文章,那么:

    理解数据的本质,仔细思考你用来描述数据的概述统计量,才能避免用错平均数的风险。

    请留言分享你使用这两种不那么常见的毕达哥拉斯平均数的案例和经历(以及你发现的本文的错误)。

     

    展开全文
  • 统计语言模型:自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递方式。因此让计算机处理自然语言,一个基本问题就是为自然语言这种上下文相关的特性建立数学模型,这个数学模型就是在自然语言处理...

     

    统计语言模型:自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递方式。因此让计算机处理自然语言,一个基本问题就是为自然语言这种上下文相关的特性建立数学模型,这个数学模型就是在自然语言处理中常说的统计语言模型(Statistical Language Model)。它是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。

    目录

    1.用数学的方法描述语言规律

    2. 高阶语言模型

    3.模型的训练、零概率问题和平滑方法


    1.用数学的方法描述语言规律

    统计语言模型产生的初衷是为了解决语音识别问题。在语音识别中,计算机需要知道一个文字序列是否能构成一个大家理解并且有意义的句子,然后显示或打印给使用者。

    比如:

    这句话就很通顺,意义也很明白。

    如果改变一些词的顺序,或者替换掉一些词,将这句话变成:

    意思就含混了,虽然多少还能猜到一点。

    但如果再换成:

    基本上读者就不知所云了。

    第一个句子合乎语法,词义清晰。第二个句子虽不合乎语法,但是词义还算清晰。而第三个句子则连词义都不清晰了。上世纪 70 年代以前,科学家们也是这样想的,他们试图判断这个文字序列是否合乎文法、含义是否正确等。但是语言的结构千变万化,要通过制定规则来覆盖所有的文法根本是不可能的。而弗里德里克·贾里尼克(Frederick Jelinek)换了一个角度,用一个简单的统计模型就很漂亮地搞定了这个问题。

    • 贾里尼克想法

    贾里尼克的出发点很简单:一个句子是否合理,就看它的可能性大小如何。上面的例子中,第一个句子出现的概率大致是10^{-20},第二个句子出现的概率是 10^{-25},第三个句子出现的概率是 10^{-70}。因此第一个句子出现的可能性最大,是第二个句子的 10万倍,是第三个句子的一百亿亿亿亿亿亿倍。

    用更普遍而严格的描述是:

    假定 S 是一个有意义的句子,由一连串特定顺序排列的词 ?1,?2,⋯,??组成,n为句子的长度。那么 S 在文本中出现的可能性就是 S 的概率 P(S)。于是可以把 P(S) 展开表示为:

    利用条件概率公式,S 这个序列出现的概率等于每一个词出现的条件概率相乘,于是:

    P(w_{1},w_{2},...,w_{n})=P(w_{1})P(w_{2}|w_{1})P(w_{3}|w_{1},w_{2})...P(w_{n}|w_{1},w_{2},...,w_{n-1})

    其中P(w_{1})表示句子第一个词为w_{1}的概率;P(w_{2}|w_{1})是在已知第一个词的前提下,第二个词出现的概率,以此类推。不难看出,词w_{n}的出现概率取决于他前面的所有词。

    从计算上来看,第一个词的条件概率 ?(?1) 很容易算,第二个词的条件概率 ?(?2∣?1)也还不太麻烦,但是从第三个词的条件概率 ?(?3∣?1,?2)开始就非常难算了,因为它涉及到三个变量 ?1,?2,?3而每个变量的可能性/可能取值都是语言字典的大小。到了最后一个词 ??,条件概率 ?(??∣?1,?2,⋯,??−1) 的可能性太多,根本无法估算。

     

    • 二元模型与N元模型

    从 19 世纪到 20 世纪初,俄国有个数学家叫马尔可夫(Andrey Markov),他提出了一种偷懒但还颇为有效的方法:假设任意一个词语 w_{i}出现的概率只同它前面的词 w_{i-1}有关。于是问题就变得很简单了,这种假设在数学上称为马尔可夫假设。

    现在,句子S出现的概率就变得简单了:

    上面的公式对应的统计语言模型是二元模型(Bigram Model)。当然,也可以假设一个词由前面的 N−1 个词决定,对应的模型稍微复杂些,被称为 N 元模型。

    接下来的问题就是如何估计条件概率 P(w_{i}|w_{i-1})。根据它的定义:

    P(w_{i}|w_{i-1}) = P(w_{i-1},w_{i})/P(w_{i-1})

    而估计联合概率P(w_{i-1},w_{i})和边缘概率P(w_{i-1})很简单。根据大数定理,只要统计量足够,相对频率就等于概率,因而只需在语料库(corpus)的文本中统计一下w_{i-1}w_{i}这两个词前后相邻出现的次数N(w_{i-1},w_{i}),以及w_{i-1}出现了多少次N(w_{i-1}),然后把这两个数分别处以语料库大小N,即可得到这些词或2元组的概率:

    于是:

    P(w_{i}|w_{i-1}) = P(w_{i-1},w_{i})/P(w_{i-1})=(N(w_{i-1},w_{i})/N)/(N(w_{i-1})/N) = N(w_{i-1},w_{i})/N(w_{i-1})

    更一般的,对于n-gram:

    P(w_{i}|w_{i-n+1},...,w_{i-1}) = N(w_{i-n+1},...,w_{i-1},w_{i})/N(w_{i-n+1},...,w_{i-1})

    这似乎有点难以置信,用这么简单的数学模型就能解决复杂的语音识别、机器翻译等问题,而用很复杂的文法规则和人工智能却做不到。其实很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法更有效。

     

    2. 高阶语言模型

    在基于一阶马尔可夫假设的二元模型(bi-gram/2-gram)中,句子中每个词只和前面一个词有关,这似乎过于简化了,或者说近似地过头了。比如说在句子“美丽的花朵”中,“花朵”其实是和“美丽”有关,也就是说是与前面的第二个词有关。因此,更普遍的假设是某个词和前面的若干个词有关。

    正如之前介绍的那样,N 元模型(n-gram)假设每个词w_{i} 和前面的 N−1 个词有关,与更前面的词无关(不是与前面所有的词相关),这样词 w_{i} 的概率只取决于前面的 N−1 个词 w_{i-N+1},...,w_{i-1}。因此:

    这种假设被称为 N−1 阶马尔可夫假设,对应的语言模型称为 N 元模型(N-Gram Model)。N=2时就是之前介绍的二元模型,而 N=1 的一元模型实际上是一个上下文无关模型,即假定当前词的出现概率与前面的词无关。在实际中应用最多的就是 N=3 的三元模型(trigram/3-gram),更高阶的模型就很少使用了。

    • 为什么N取值那么小?

    我们之前在上一篇博客中曾经探讨过这个问题:

    1.首先,N 元模型的大小(空间复杂度)几乎是 N 的指数函数,即 O(|V|^{N}),这里 |V|是一种语言词典的词汇量,一般在几万到几十万个。其次,使用 N 元模型的速度(时间复杂度)也几乎是一个指数函数,即 O(|V|^{N-1})。因此,N 不能很大。

    2.当 N 从 1 到 2,再从 2 到 3 时,模型的效果上升显著。而当模型从 3 到 4 时,效果的提升就不是很显著了,而资源的耗费却增加地非常快。所以,除非是为了做到极致不惜资源,很少有人会使用四元以上的模型。

    还有一个问题,三元、四元或更高阶的模型也并不能覆盖所有的语言现象。在自然语言处理中,上下文之间的相关性可能跨度非常大,甚至可以从一个段落跨到另一个段落。因此,即便再怎么提高模型的阶数,对这种情况也无可奈何,这就是马尔可夫模型的局限性,这时就需要采用其他一些长程的依赖性(Long Distance Dependency)来解决这个问题了,如之后学习的神经语言模型LSTM/GRU等可以很好的解决这个问题。

     

    3.模型的训练、零概率问题和平滑方法

    语言模型中所有的条件概率称为模型的参数,通过对语料的统计,得到这些参数的过程(计算这些条件概率)称为模型的训练。前面提到的二元模型训练方法似乎非常简单,只需计算一下w_{i-1},w_{i}前后相邻出现的次数 N(w_{i-1},w_{i})和 w_{i-1}单独出现的次数 N(w_{i-1})的比值即可。而w_{i-1},w_{i}的取值可能是词典中的任意一个单词,即考虑所有可能的组合,基于语料库计算频数、频率及条件概率,对于N元模型也是同理,这样做的话,w_{i-1},w_{i}的很多组合可能没有意义,在语料库中没有出现过,即N(w_{i-1},w_{i})=0。那么是否意味着条件概率P(w_{i}|w_{i-1})=0?反之,如果N(w_{i-1},w_{i})N(w_{i-1})都在语料库中只出现一次,那么能否得到P(w_{i}|w_{i-1})=1,这样非常绝对的结论?

    注意词典和语料库不是一个概念,词典基于语料库构建,对语料库分词,去重,调整顺序来构建词典。n-gram模型,可以理解为考虑词典中的所有可能组合,然后基于语料库进行统计,计算条件概率,存储起来,应用时直接查询计算即可。这样考虑所有可能组合,很多组合会没有意义,在语料库中也不会出现,就会存在0概率/数据稀疏的问题,此时需要使用平滑方法,对没有见过的gram赋于一个非0的概率值。

    还会面临统计可靠性或统计量不足的问题。在数理统计中,我们之所以敢用对采样数据进行观察的结果来预测概率,是因为有大数定理(Law of Large Number)在背后做支持,它的要求是有足够的观察值。但是在估计语言模型的概率时,很多人恰恰忘了这个道理,因此训练出来的语言模型“不管用”,然后回过头来怀疑这个方法是否有效。那么如何正确地训练一个语言模型呢?

    一个直接的办法就是增加数据量,但是即使如此,仍会遇到零概率或者统计量不足的问题。假定要训练一个汉语的语言模型,汉语的词汇量大致是 20 万这个数量级,训练一个三元模型就有 200,000^3 = 8*10^{15}个不同参数。假设抓取 100 亿个有意义的中文网页,每个网页平均 1000 词,全部用作训练也依然只有 10^{13}。因此,如果用直接的比值计算概率,大部分条件概率依然是零,这种模型我们称之为“不平滑”。

    训练统计语言模型的艺术就在于解决好统计样本不足时的概率估计问题。

    关于平滑技术的详细介绍,可以阅读这篇博客自然语言处理中N-Gram模型的Smoothing算法

    当然,如果对这些平滑算法不是很懂也不必太担心,平滑技术在统计自然语言处理时代,用得比较多;现代的神经网络对语言模型建模的方式,由于本身结构的原因,自动解决了这个问题,我们之后还会学习。

     

    展开全文
  • 不可不知的七大统计模型

    万次阅读 多人点赞 2018-12-03 16:18:07
    在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。...
  • 七大统计模型

    千次阅读 2018-12-05 16:50:48
    在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。...
  • 不同平均数的比较;图片来源:维基百科 大概是最常见的数据分析任务 你有一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均数”,没...
  • 在机器学习领域,对于大多数常见问题,通常会有多个模型可供选择。...这个性能由不同的统计量来度量,包括准确率( accuracy )、精确率( precision )、召回率( recall )等等。选择我们会根据某个特定的应用场景...
  • 自回归滑动平均(ARMA)模型

    千次阅读 2022-04-12 15:56:04
    ARMA模型及处理数据一般流程:预处理,平稳性检验,模型识别,模型定阶,参数估计,模型检验
  • 数理统计之数据预测:浅谈ARIMA模型

    千次阅读 2019-06-28 10:21:49
    ARIMA模型 ARIMA模型最重要的地方在于时序数据的平稳性。平稳性是要求经由样本...而弱平稳指的是数据的期望与向关系(即依赖性)不发生改变。在实际应用的过程中,严平稳过于理想化与理论化,绝大多数的情况应...
  • 建立统计回归模型的基本步骤Linear Regression and Regression Trees 线性回归和回归树 by Satoru Hayasaka and Rosaria Silipo, KNIME 由 悟早坂 和 罗萨丽娅Silipo, 尼米 When we talk about Machine Learning ...
  • 数学建模之微分方程模型详解

    千次阅读 2022-03-10 21:44:44
    微分方程知识简介 要掌握常微分方程的一些基础知识,对一些可以求解...常数变易法在上面的(1)(2)(3)三部分中都出现过,它是由线性齐次方程(一阶或高阶)或方程组的解经常变易后求相应的非齐次方程或方程组的
  • ASM是对图像中的shape进行建模的可变模型(deformable model),得到的形状模型既可以用来分析新的形状(拟合模型到新形状,见第4节),也可以用于生成形状(在给定图像中搜索形状,见第5节)。首先需要给出shape的...
  • 在这一部分中,我们将简要介绍NLP领域的基本模型——语言模型,我们还将对自然语言处理的基础——语料库的概念进行介绍。这些都是在学习自然语言处理之前所必备的知识。此外,我们默认大家有一定的信息论和概率论...
  • 本文简单介绍了ARMA模型,包括其模型公式,统计特征,预测与分析…… ARMA简单来讲就是AR模型和MA模型的混合。 ARMA模型的提出是为了客服在表达数据时,经常出现高阶AR模型或MA模型,高阶模型由于其参数过多,复杂度...
  • 1.求平均数。 > x(1,10,20,30,40,50,NA,60) > xm(x) > xm [1] NA #na.rm表示允许缺失数据NA > xm(x,na.rm=TRUE) > xm [1] 30.14286 >> x(1,10,20,30,40,50,60) > xm(x) > xm [1] 30.14286 #trim表示去两端数据的...
  • 统计学习方法——K近邻模型

    万次阅读 多人点赞 2017-03-09 22:28:13
    0. 写在前面在这一讲的讨论班中,我们将要讨论一下K近邻模型。可能有人会说,K近邻模型有什么好写的,那分明就是一个最简单的机器学习模型,哦,不,连机器学习也算不上的算法吧。但是这里,我想提醒的是,我们要...
  • 系统中某一因素变量的时间序列数据没有确定的变化形式,也不能用时间的确定函数描述,但可以用概率统计方法寻求比较合适的随机模型近似反映其变化规律。(自变量不直接含有时间变量,但隐含时间因素)1. 自回归AR(p)...
  • R中的几种统计分布及常用模型 (整理)

    万次阅读 多人点赞 2017-09-17 13:58:29
    搜集自Little_Rookie博客园,以下部分格式和内容有所修正和补充,欢迎转载~ 李阳 15应用统计学 内蒙古...统计分布每一种分布有四个函数:d――density(密度函数),p――分布函数,q――分位数函数,r――随机数函数
  • [统计模型] 基于R的潜在剖面分析(LPA)

    千次阅读 多人点赞 2021-02-08 22:44:17
    本文主要介绍基于R进行潜在剖面分析(Latent Profile ...但是此文对潜类别分析的阐释还比较生涩,而且没有具体的代码编写、模型优选等内容。本文旨在丰富LPA的内容,并希望和大家交流、共同进步。 1. 什么是潜类别分.
  • 7.1.3 单因素方差分析模型 7.2 双因素方差分析 7.2.2 双因素方差分析的数据结构 7.2.3 因素方差分析模型 1. 无交互作用的双因素方差分析模型 2. 有交互作用的双因素方差分析模型 7.3 一元线性回归分析 相关关系的...
  • 受控自回归滑动平均模型,亦称带外部输入的自回归滑动平均模型,是应用非常广泛的线性系统模型,本文介绍该模型的一种系统辨识方法:最大似然法。
  • 3DMM(人脸3D形变统计模型)

    千次阅读 2020-05-07 12:11:20
    3DMM(人脸3D形变统计模型) 1 3DMM方法介绍 3DMM是一种较为基础的三维人脸统计模型,最早被提出是用于解决从二维人脸图像恢复三维形状的问题。在3DMM方法发展的二十年来,各位学者对其进行了数据扩展和深入研究,又...
  • GIS技巧100例22-ArcGIS像元统计数据

    千次阅读 2021-09-29 13:26:17
    GIS技巧100例22-ArcGIS像元统计数据 我们来介绍一下,假如有12个月福建全省 降水量栅格数据 那么怎么求算福建全年的平均降水量 (当然气温也是同理的) 好怎么获取这12个月的降水量数据,我们之前有介绍 ...
  • 7-2 输出所有大于平均值的

    千次阅读 2020-11-26 16:12:57
    本题要求编写程序,将输入的n个整数存入数组a中,然后计算这些平均值,再输出所有大于平均值的。 输入格式: 输入在第1行中给出一个正整数n(1≤n≤10),第2行输入n个整数,其间以空格分隔。题目保证数据不...
  • 统计分析:模型评估和模型选择

    千次阅读 2016-01-22 10:22:01
    机器学习算法 原理、实现与实战——模型评估与模型选择原文地址:...假设学习到的模型是Y=f^(X)Y = \hat{f}(X),训练误差是模型Y=f^(X)Y = \hat{f}(X)关于训练数据集的平均损失:
  • 文章目录高斯分布样本与群体 Sample vs ...人们对高斯分布有很多了解,因此,统计的各个子领域和统计方法都可以用在高斯数据上。 高斯分布 数据分布指的是它在绘图时所具有的形状,例如使用直方图。 最常见的也是众所周
  • 时间序列ARIMA模型

    万次阅读 多人点赞 2018-07-16 23:22:24
    时间序列ARIMA模型(预测模型) 1.数据平稳性与差分法 A.平稳性  平稳性就是要求经样本时间序列所得到的拟合曲线在未来一段期间内仍能顺着现有的形态“惯性”地延续下去; 平稳性要求样本时间序列的均值和方差...
  • 概率统计分布模型

    千次阅读 2016-07-05 18:23:16
    概率统计分布模型1.离散概率分布 !)泊松分布 描述是单位时间(面积)内随机事件发生的次数。 【满足条件】 a.平稳性:任意时间区间内,事件发生k次的概率只依赖于区间长度 b.独立性:在不重叠的时间段内,事件...
  • 数理统计和概率论的区别

    万次阅读 多人点赞 2018-08-28 10:39:42
    数理统计是归纳,从观察值推出背后的数学模型(变量之间的关系),因为在真实世界里,我们只能通过观测值来预估数学模型,所以数理统计又是后验的。 概率论是演绎,从先验知识推出结论,在已知变量的概率分布下来...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 99,260
精华内容 39,704
关键字:

统计平均数模型