精华内容
下载资源
问答
  • 由于本科概率统计本着分不在高,及格就行原则,让自己在机器学习中遇到了很大障碍,得回头去把丢掉东西捡起来。 1.先提出各个知识点概念,有简单就只提一下名称,容易混淆就单独提出来。 2.因为机器...

    题记:

    由于本科概率统计本着分不在高,及格就行的原则,让自己在机器学习中遇到了很大的障碍,得回头去把丢掉的东西捡起来。


    1.先提出各个知识点的概念,有的简单就只提一下名称,容易混淆的就单独提出来。

    2.因为机器学习在数学系是不一样的学习方法,会有更多的数学原理运用到,所以本文会介绍很多数学原理。

    3.朋友推荐了一本书,Machine Learning on probabilistic perspective. 在这里会是主线学习内容。


    常用概念

    1.随机变量(实质是一个函数,这个函数描述 随机事件的数量表现)

    研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!

    设随机试验的样本空间是S={e}, X=X(e) 是定义在样本空间S上的实值单值函数,称X=X(e)为随机变量。

    例如:三次投硬币事件,正为H,负为T。事件e=XXX,   X可取值H和T, S={HHH, HHT, HTH,THH, HTT,THT,TTH,TTT}, 

    X=X(e)={3,2,1,0}分别表示3正,2正,1正,0正。这个式子完成了事件e到函数值的映射。

     

    2.随机事件

    随机事件是样本空间的子集(2^3个子集,即幂集)。在每次试验中,当且仅当该子集中的任意一个元素发生时,称该随机事件发生。如X=2,就包括了e=HHT,HTH,THH的三种情况。

     

    3.概率密度函数

    数学中,连续型随机变量概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以大写“PDF”(Probability Density Function)标记。

    概率密度函数有时也被称为概率分布函数,但这种称法可能会和累积分布函数或概率质量函数混淆。

    4.概率质量函数

    一个概率质量函数的图像。函数的所有值必须非负,且总和为1。

    概率论中,概率质量函数(probability mass function,简写为pmf)是离散随机变量在各特定取值上的概率。概率质量函数概率密度函数不同之处在于:概率质量函数是对离散随机变量定义的,本身代表该值的概率;概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。

     

    5.累积分布函数是概率密度函数(MDF,D是distribution)的积分。

     

    6.高斯分布(又称正态分布,正态分布在统计学上十分重要,经常用在自然社会科学来代表一个不明的随机变量)

    u决定水平位置,δ越小,f(x)越大,幅度越大,图形越尖。

     

    7.指数分布

    8.数学期望(反映随机变量平均取值的大小)

    平均数是根据实际结果统计得到的随机变量样本计算出来的算术平均值,和实验本身有关,而数学期望是完全由随机变量的概率分布所确定的,和实验本身无关。以摇骰子为例,假设我们摇4次骰子,摇出的结果依次为5,5,6,4。设摇出的结果为随机变量X,,则X在这次实验中的平均数(5+5+6+4)/4= 5.而X的期望呢?和这次的实验本身无关,只和X的概率分布有关。X的概率分布如下:

    Xi 1 2 3 4 5 6
    pi 1/6 1/6 1/6 1/6 1/6 1/6

    E(X) = 1*1/6+2*1/6+3*1/6+4*1/6+5*1/6+6*1/6 = (1+2+3+4+5+6)*1/6 = 3.5  

    实验的多少是可以改变平均数的,而在你的分布不变的情况下,期望是不变的。

    协方差矩阵(随机变量之间的线性相关关系(相关系数矩阵在此处更为贴切)

    方差:

    数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征。

    协方差矩阵作为实对称矩阵,其主要性质之一就是可以正交对角化,即存在正交矩阵U,使得
    U^T\Sigma U=\Lambda
    作为半正定矩阵,我们可以对协方差矩阵进行Cholesky分解:半正定矩阵\Sigma,可以分解为\Sigma=U^T \Lambda U,其中U是上三角阵,\Lambda是对角线元素都非负的对角矩阵。所以
    \Sigma=U^T \Lambda U=[U^T \Lambda^{1/2} ][\Lambda ^{1/2} U]=[\Lambda ^{1/2} U] T [\Lambda ^{1/2} U]
    这样一来,矩阵\Sigma=C^TC ,其中C=\Lambda^{1/2}U

    注意:相互独立协方差一定为0,但是协方差为0不一定相互独立。

     


     

     

     

    展开全文
  • 机器学习的视角来看,概率论是必须要了解的,但远不需要达到精通的程度。你只需要灵活运用它,去把机器学习世界的不确定性变量算清楚就足够了。因此,当你掌握概率论的窍门后,概率论就是纸老虎。概率计算的两个...

    3106ff3eee2b9f3de9552362e916e351.png

    简介

    概率论研究的是事物的不确定性。它是大学数学课程之一,是统计学、信息论的前置课程。相对其他数学课而言,概率论的难度系数属中等,毕竟你在高中就学习过如何计算一个随机变量的期望、方差。从机器学习的视角来看,概率论是必须要了解的,但远不需要达到精通的程度。你只需要灵活运用它,去把机器学习世界的不确定性变量算清楚就足够了。因此,当你掌握概率论的窍门后,概率论就是纸老虎。

    概率计算的两个原理

    加法原理

    我们先从计算某个事件的概率说起。概率是对事件发生可能性的刻画,概率越大事件发生的可能性越大。例如,中国国足与巴西国足将会在明天踢一场友谊赛。既有经验告诉我们,巴西国足实力较强,那么巴西队获胜的概率是比较高的。

    这是个很简单的问题,然而当事件相对复杂时,计算概率就没那么容易了。对于复杂事件概率的计算方法,本讲介绍加法原理和乘法原理。

    c6c8e70ffdfc0c053049170222f24758.png

    先看加法原理。一个事件的发生可能是多种分支路径的某一个,那么这个事件发生的概率就是全部可能分支的概率之和。

    a9b757cf1a57d84ee925bb016a9097ea.png

    举个例子,假设你在和小明玩掷骰子比大小的游戏。某一局游戏,小明掷了4点,求这一局你获胜的概率是多少。你获胜是个事件,这个事件有两个可能的分支路径:

    1. 你掷了 6 点,6 大于 4,获胜;
    2. 你掷了 5 点,5 大于 4,获胜。

    f105eaf5d7e4d222d200b2e2efcbc332.png

    其他的分支就无法获胜了。根据加法原理,你最终获胜的概率就是 1/6 + 1/6,等于 1/3。

    乘法原理

    接着,我们再来看乘法原理。除了多个分支以外,一个事件的发生,还有可能是多个子事件联合发生的结果。此时最终这个事件发生的概率,就是所有子事件发生概率的乘积,这就是乘法原理。

    b359999ad65cbbedfebc3ffa845b01fd.png

    假设你还在和小明玩掷骰子比大小的游戏。这次不同的是,求某一局游戏中,小明掷 4 点并且你最终获胜的概率是多少。此时要计算的事件,包含两个子事件:

    1. 小明掷 4 点;
    2. 小明掷 4 点后,你最终获胜。

    分析发现,第一个子事件,小明掷4点的概率是1/6。第二个子事件和前面例子一样,概率为1/3。这样根据乘法原理,小明掷4点并且你最终获胜的概率就是1/6×1/3,等于1/18。

    加法原理和乘法原理是概率计算的基础,它们可以解决绝大多数事件概率的计算。

    极大似然估计原理

    核心原理

    学会了计算概率的意义是什么呢?其实,概率可以帮助我们决策某个未知的变量。举个例子。假设有两场足球赛在某地同时进行。对阵的双方分别是,巴西队对阵中国队,英国队对阵法国队。我们知道足球赛是户外运动,天气对比赛结果有着重要影响。在此,我们只考虑降水量对比赛结果的影响。

    4a6a7756c5005644d884a521c40a3781.png

    8e0d05cdd71b718b141fdd7c6de684f5.png

    假设在降水量为x时,巴西队获胜的概率是1/(1+2x),反之巴西队不胜的概率就是2x/(1+2x);英国队获胜的概率为2x/(1+3x),英国队不胜的概率为(1+x)/(1+3x)。假设这两场比赛进行时,你在外地出差。比赛结束后,你通过新闻发现结果为巴西胜、英国胜。那么根据乘法原理,你会发现巴西胜、英国胜的概率为 2x/[(1+2x)(1+3x)]。

    接下来,你可能会思考,到底比赛那天降水量x这个变量是多少呢?如果我们加一个强约束,即让结果发生可能性最大的变量值,就是真实的值。那么问题就变为,x取值多少时,巴西胜且英国胜的概率2x/[(1+3x)(1+2x)] 能取得最大值。

    通过第一讲偏导法或者梯度下降法,我们都能找到当 x= 1/√6 时,这个概率的最大值为 0.2020。所以,在我们没有其他信息输入时,有理由估计出降水量 x=1/√6 是最可信的结果。

    用法

    上面对降水量的估计,就是极大似然估计的核心原理。不知不觉中,我们已经使用它对未知事件降水量做了一次决策。我们先向它打个招呼。极大似然估计是根据结果,反过来估计过程中某个变量值的过程。因此,从流程上来说,极大似然估计分为两个步骤:

    1. 假设未知变量x已知,计算某个事件或组合事件发生的概率,得到一个关于 x 的似然函数 P(x)。
    2. 计算似然函数的最大值maxP(x),并用取得最大值时的x*值,作为真实x的估计值。

    机器学习中,极大似然估计在逻辑回归中被用作损失函数,它的用法就是首先假定模型参数已知,并建立样本的似然函数;再对似然函数求解最大值,推导出模型的参数值。关于逻辑回归,我们会在后面深入讲解。

    熵的含义

    关于基础的概率论知识,我们掌握了极大似然估计就足够在机器学习的世界中呼风唤雨了。除此之外,我们再介绍一下概率论的延伸内容,这就是熵。从学科的边界来说,熵属于信息论的内容。然而,信息论又是以概率论为基础,所以在这门课我们把这两部分内容放在一讲中。刚刚接触熵时,你可能会很蒙,“熵“这个字就让人很困惑费解,生活中很少出现这个字眼。因此,先介绍一下熵的含义。

    c74eed59a4de944e32395498449dfa79.png

    关于熵,你可以直观地理解为事件结果的不确定性,或者信息量,其单位为bit。举个例子,如果有人告诉你,1+1=2,你可能会说这是“废话“。原因就在于,这个事件的信息量太少、不确定性太低,换个信息论中的说法,就是 1+1=2 的熵太小。有了这个认知后,我们给出熵的计算方法。

    熵的计算

    熵描述的是个事件的不确定性,如果某个事件有 n 个结果,每个结果的概率为 pn。那么这个事件的熵 H(p) 的定义式为

    adefbff37fcbc3ee669424ff1f0b751e.png

    我们看个例子。假设有这样的足球赛,对阵的双方是巴西队和中国队。假设巴西队获胜的概率为0.9,不胜的概率为0.1。那么这场比赛结果的熵就是,-0.9×log0.9-0.1×log0.1,等于 0.4690。

    dc3fcb4e89e56d8f9c5220cd85b83876.png

    假设另一场焦点之战,对阵的双方是英国队与法国队。其中英国队获胜或不胜的概率都是0.5。此时比赛结果的熵就是,-0.5×log0.5-0.5×log0.5,等于1。后者的熵比前者大,可见结果的不确定更大,比赛结果的信息量就更大。

    75038213c292f08a57eb6d69c2d0d478.png

    条件熵

    熵是对事件结果不确定性的度量,但在某些条件下,这个不确定性会变小。例如,烟民大多是男性,女性吸烟者较少。因此,一个人是否吸烟这个事件的不确定性,会随着知道此人的性别而降低。此时,衡量的就是在某个条件 X 下,事件 Y 的不确定性,也叫做条件熵,记作 H(Y|X) 。其定义式为

    214ca9a9f74314ca78197d4915c71e1e.png

    理解为,X 事件每个可能性的结果的熵乘以发生概率的求和。

    关于条件熵,再以足球赛的结果的胜负为例。假设中国队与巴西国足比赛。正常情况下,巴西队获胜的概率几乎为1。但最近巴西的气候不太好,球员有可能患病。假设患病的概率为0.5。而一旦球员患病,则巴西队获胜概率将降低为 0.5。计算比赛结果关于球员身体状况的条件熵。

    129bb6f19042039c8aff5658ebc41d68.png

    假设Y为比赛结果,X为球员是否健康。根据定义式,你需要计算巴西球员患病后比赛结果的熵,和巴西球员健康比赛时结果的熵。分别为:

    • H(患病)=-0.5×log0.5-0.5×log0.5=1
    • H(健康)=-1×log1-0×log0=0

    因此,比赛结果关于球员是否患病的条件熵为 0.5×H(患病) + 0.5×H(健康),结果为 0.5。

    信息增益

    b5045c8990f7402352fa9809ff473c1c.png

    思考一下熵和条件熵的关系。熵衡量的是事件的不确定性;条件熵衡量的是知道了某个条件后,事件的不确定性。不难发现,对于同一个事件,熵的值肯定是大于或等于条件熵的。原因在于,增加了某个条件后,肯定会辅助降低事件的不确定性,最不济也是让不确定性没有变化。因此,就有了信息增益的概念,写作 g(X,Y)。它的计算方式为熵减去条件熵,如下

    8c964b9486316c7bd99c6ad1f6255e48.png

    继续以足球赛的结果为例。所有条件和前面一样。即正常情况下,巴西队获胜的概率几乎为1。但最近巴西气候不好,导致球员患病的概率为0.5。且一旦球员患病,则巴西队获胜概率将降低为0.5。根据加法原理和乘法原理,巴西队获胜的概率就是0.5×1 + 0.5×0.5,等于 0.75;则巴西队不胜的概率为 0.25。因此,比赛结果的熵为H(Y)=-0.75×log0.75-0.25×log0.25=0.81。

    刚刚我们计算过条件熵,为 0.5。因此,球员是否患病对比赛结果的信息增益为 0.81-0.5,等于 0.31;信息增益比为 0.31/0.81,等于 38%。

    基尼系数

    最后,我们介绍基尼系数。与熵一样,基尼系数表征的也是事件的不确定性,它的计算方法,只需要把熵定义式中的“-logpi”替换为 1-pi 即可。也就是

    2dd4793974a999158140c94cd7c159b2.png

    基尼系数定义式可以做个小的变形,也就是

    726f959b78fc188ace99da275c7a293b.png

    关于基尼系数,你只需要记住定义式,以及它是表征事件不确定性的另一种方式就够了。

    总结

    f230c96077d94df59a48377e46e70ec4.png

    最后,我们对这一讲进行一个总结。按照顺序,这一讲先后学习了计算概率的两个原理,也就是加法原理和乘法原理。

    掌握了如何计算概率后,我们学习了极大似然估计的知识。极大似然估计利用使某个结果发生可能性最大的参数值对未知变量进行估计。随后,我们将概率论的知识向信息论方面进行了一定的延伸,学习了描述事件不确定的熵、基尼系数,在某个条件下事件不确定的条件熵,以及这个条件对不确定性降低程度的信息增益和信息增益比。

    这些知识只是概率论、信息论中的冰山一角。如果你以为这样就掌握了概率论、信息论,那就大错特错了。但是,有了这些知识,已经足够你在机器学习的世界中驰骋了。以经典模型为例,极大似然估计是逻辑回归计算模型参数的算法。熵、条件熵等内容,可被用作决策树建模时的损失函数。这些知识是掌握逻辑回归,ID3、C4.5、CART 等决策树模型的前置知识。

    展开全文
  • 无监督学习1 无监督学习基本原理无监督学习:从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚类、降维、概率估计,对应的输出是类别,转换,概率无监督学习的模型:函数(硬聚类),条件...

    8eec31bfcceb77ea09c77a5e0a51c7cb.png

    无监督学习

    1 无监督学习基本原理

    无监督学习:从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚类、降维、概率估计,对应的输出是类别,转换,概率

    无监督学习的模型:函数

    equation?tex=z%3Dg_%7B%5Ctheta%7D%28x%29(硬聚类),条件概率分布
    equation?tex=P_%7B%5Ctheta%7D%28z%7Cx%29(软聚类)或条件概率分布
    equation?tex=P_%7B%5Ctheta%7D%28x%7Cz%29(概率模型估计)

    定义训练数据集

    equation?tex=X

    equation?tex=X%3D%5Cleft%5B+%5Cbegin%7Bmatrix%7D++x_%7B11%7D+%26+%5Ccdots+%26+x_%7B1N%7D+++++++%5C%5C++%5Cvdots+%26++++++++%26+%5Cvdots+%09%09%5C%5C++x_%7BM1%7D+%26+%5Ccdots+%26+x_%7BMN%7D+++++++%5C%5C+%5Cend%7Bmatrix%7D+%5Cright%5D+%5C%5C

    其中,

    equation?tex=x_%7Bij%7D表示第
    equation?tex=j个向量的第
    equation?tex=i维;
    equation?tex=i%3D1%2C2%2C%5Cdots%2CM
    equation?tex=j%3D1%2C2%2C%5Cdots%2CN

    训练数据可以用

    equation?tex=M%5Ctimes+N矩阵表示,矩阵的每一行对应特征,每一列对应一个样本

    2 聚类

    发现数据集

    equation?tex=X中的
    纵向结构,输入空间为
    equation?tex=X,输出空间为类别集合
    equation?tex=Z%3D+%5C%7B1%2C2%2C%5Cdots%2Ck%5C%7D

    硬聚类:一个样本只能属于一个类,

    equation?tex=z%3Dg_%5Ctheta%28x%29

    软聚类:一个样本可以属于多个类,

    equation?tex=P_%5Ctheta%28z%7Cx%29

    3 降维

    发现数据中的横向结构,输入空间为欧式空间

    equation?tex=X%5Csubseteq+%5Cmathbb%7BR%7D%5Ed,输出空间同为欧式空间
    equation?tex=Z%5Csubseteq+%5Cmathbb%7BR%7D%5E%7Bd%5E%5Cprime%7D

    降维:

    equation?tex=z%3Dg_%5Ctheta%28x%29

    equation?tex=x%5Cin+X 是样本的高维向量

    equation?tex=z%5Cin+Z 是样本的低维向量

    equation?tex=%5Ctheta 是参数

    equation?tex=g 可以是线性函数,也可以是非线性函数

    4 概率模型估计

    训练数据由一个概率模型生成,由训练数据学习模型的结构和参数

    概率模型包括混合模型(高斯混合模型等)和概率图模型(有向图模型、无向图模型)等

    概率模型可以表示为

    equation?tex=P_%5Ctheta%28x%7Cz%29

    其中

    equation?tex=x表示观测数据,可以是连续变量也可以是离散变量;
    equation?tex=z表示隐式结构,是离散变量;当模型是混合模型时,
    equation?tex=z表示成分的个数,当模型是概率图模型时,
    equation?tex=z表示图的结构;随机变量
    equation?tex=%5Ctheta表示参数;

    软聚类也可以看作概率估计的问题,根据贝叶斯公式:

    equation?tex=P%28z%7Cx%29%3D%5Cfrac%7BP%28z%29P%28x%7Cz%29%7D%7BP%28x%29%7D%5Cpropto+P%28z%29P%28x%7Cz%29

    其中,先验

    equation?tex=P%28z%29服从均匀分布,故只需估计出条件概率
    equation?tex=P_%5Ctheta%28x%7Cz%29进行软聚类

    5 聚类算法三要素

    • 模型:
      函数
      equation?tex=z%3Dg_%7B%5Ctheta%7D%28x%29(硬聚类),条件概率分布
      equation?tex=P_%7B%5Ctheta%7D%28z%7Cx%29(软聚类)或条件概率分布
      equation?tex=P_%7B%5Ctheta%7D%28x%7Cz%29(概率模型估计)
    • 策略聚类样本与所属类别中心距离的最小化,降维过程信息损失的最小化,概率模型估计过程中生成数据概率的最大化
    • 算法
      通常是迭代算法,如梯度下降

    无监督分类:

    硬聚类:层次聚类法、k均值聚类

    软聚类:高斯混合模型EM算法

    降维:主成分分析、奇异值分解、潜在语义分析

    概率模型估计方法:概率潜在语义分析、潜在狄利克雷分配

    话题分析:

    话题分析是文本分析的一种技术。给定一个文本集合,话题分析旨在发现文本集合中每个文本的话题,而话题由单词的集合表示。前提是有足够数量的文本。

    话题分析可以形式化为:概率模型估计问题和降维问题。

    话题分析方法:潜在语义分析、概率潜在语义分析、潜在狄利克雷分配、马尔可夫链蒙特卡罗法。

    话题表示为单词的概率分布,文本表示为话题的概率分布。直观上,一个话题包含语义相似的单词,一个文本表示若干个话题。

    图分析:

    图数据表示实体之间的关系,图分析目的是发掘隐藏在图中的统计规律和潜在结构,链接分析是图分析的一种,如Pagerank算法。

    Pagerank算法是求解马尔可夫链(在图上的随机游走)的平稳分布。一个节点的平稳分布(节点的Pagerank值)表示该节点的重要性。

    参考

    1. 李航-统计学习方法
    2. 李航-统计学习方法笔记:https://github.com/SmirkCao/Lihang
    展开全文
  • 为了帮助读者加深理解并强化所,本书还从上述数学基础出发进一步介绍了回归、分类、聚类、流形学习、集成学习,以及概率图模型等机器学习领域中重要话题。其间,本书将引领读者循序渐进地拆解各路算法核心设计...

    数学是机器学习和数据科学的基础,任何期望涉足相关领域并切实领悟具体技术与方法的人都无法绕过数学这一关。在一篇题为《放弃幻想,搞AI必须过数学关》的网文中,作者一针见血地指出想从事AI相关工作的人必须先搞好数学,并给出了三点理由:

    • 首先,数学不过关的人在 AI 这个圈子里是无法参与交流的,或者说得直白一点,是被人瞧不起的,根本无法被接纳成为AI 圈子里的人。

    • 其次,数学不过关而只能调参数的人,实践当中并不好用。我接触过几个 AI 创业企业,他们都疯狂的缺人,但是对于不懂数学只会使用工具的“人才”,他们却大门紧闭。什么原因?沟通效率低,出活慢,遇到问题无法解决,一句话,“不好用”。
    • 第三,即便是调参这件事情本身,懂不懂数学也是有很大差别的。如果你数学不过关,对参数的意义和相关关系理解不深,方向感不强,只能半随机的去刷参数,那么工作的单调性和烦琐性还会大大上升,很难坚持到做出好的模型来。

    更进一步,我还想指出“矫枉过正”“只求易懂、不求甚解”两个极端或者误区:

    • “矫枉过正”:简单说来,就是尽管数学很重要,但是不要跑题了,应该围绕机器学习来搞数学,而不是直接用研究数学来取代机器学习(那就本末倒置了)。机器学习学者张志华教授曾经说过:“搞好机器学习,关键是数学,但你又不能把机器学习变成搞数学,那样就漫无边际了。”数学浩瀚如海,神灵通天,我们还是要敬畏数学之神,不要毫无目标、不计成本的扩大数学的钻研,而是要把握好度。对于绝大多数 AI 工程师来说,还是应该以机器学习为主导,对于其中涉及的数学知识形成理解,打牢基础,突出重点,适度拓宽,这就算过关了。以后根据主攻方向,随用随学,急用先学,这样就可以了。
    • “只求易懂、不求甚解”:这是另外一个极端。既然不能喧宾夺主,本末倒置,那我是不是就可以只蜻蜓点水地稍微了解一下,而不求甚解呢?事实上,很多文章或讲解中所谓的通俗易懂、戏说大话,少些公式,多些比喻等等,就是一味地迎合一些人想抄近路的惰性心理,本质上只不过是用小学程度的数学来麻醉你。儿歌三百首当然通俗易懂了,但问题是看了那个你的机器学习功力就能突飞猛进吗?如果把凸优化、拉格朗日乘数法、吉布斯采样、反向传播算法这些稍微上点难度的数学全部剔除,或只讲概念,不讲推导,这样的机器学习数学真的有用吗?有些东西你很难绕开,特别是跟机器学习息息相关的数学。你理解的程度,决定了你的眼界,决定了你在实践中解决问题的功力。

    基于上述思考和指导思想,我编写了《机器学习中的数学修炼》一书(清华大学出版社)。本书自出版以来,多次加印,JD.com上累计有超过1000条购买评论(好评度99%)。日前,本书的姊妹版《Python机器学习中的数学修炼》已正式出版发行(原版同步热销)。本书完全以机器学习为主导,系统地整理并介绍了机器学习中所涉及的必备数学基础,这些都是笔者从浩如烟海的数学知识中精心萃取的,在学习和研究机器学习技术时所必须的内容。具体包括微积分(主要是与最优化内容相关的部分)、概率论与数理统计、数值计算、信息论、凸优化、泛函分析基础与变分法,以及蒙特卡洛采样等话题。为了帮助读者加深理解并强化所学,本书还从上述数学基础出发进一步介绍了回归、分类、聚类、流形学习、集成学习,以及概率图模型等机器学习领域中的重要话题。其间,本书将引领读者循序渐进地拆解各路算法的核心设计思想及彼此间的关联关系,并结合具体例子演示基于Python进行实际问题求解的步骤与方法。真正做到理论与实践并重,让读者知其然更知其所以然。

    特别感谢,青岛科技大学大数据学院副院长宋廷强教授、清华大学计算机系李兆麟教授、美国硅谷LoopTek公司创始人柯博文先生等业内知名专家的联袂推荐。

    读者可以参考“清华大学出版社官网关于本书的介绍”来了解更多本书的具体细节,我们还给出了本书的详细目录,供读者参考,或者你也可以直接从清华大学出版社的官网上访问本书的“详细目录”。

    如何购买?抱歉本书还在铺货阶段,因此暂时网店仍然无货。作者手头也仅有少量样书,对于确有购书需求的读者,可以在QQ群(155911675)中联系店小二购买。需要入群购书的朋友,入群问题答案请直接填写“购书”


     

    第1章  最优化基础

    1.1 泰勒公式
    1.2 黑塞矩阵
    1.3 正定与半正定矩阵
    1.4 凸函数与詹森不等式

    • 1.4.1凸函数的概念
    • 1.4.2詹森不等式及其证明
    • 1.4.3詹森不等式的应用

    1.5 泛函与抽象空间

    • 1.5.1线性空间
    • 1.5.2距离空间
    • 1.5.3赋范空间
    • 1.5.4巴拿赫空间
    • 1.5.5内积空间
    • 1.5.6希尔伯特空间

    1.6 从泛函到变分法

    • 1.6.1理解泛函的概念
    • 1.6.2关于变分概念
    • 1.6.3变分法的基本方程
    • 1.6.4哈密顿原理
    • 1.6.5等式约束下的变分

     

    第2章  概率论基础

    2.1 概率论的基本概念
    2.2 随机变量数字特征

    • 2.2.1期望
    • 2.2.2方差
    • 2.2.3矩与矩母函数
    • 2.2.4协方差与协方差矩阵

    2.3 基本概率分布模型

    • 2.3.1离散概率分布
    • 2.3.2连续概率分布

    2.4 概率论中的重要定理

    • 2.4.1大数定理
    • 2.4.2中心极限定理

    2.5 经验分布函数

     

    第3章  统计推断

    3.1 随机采样
    3.2 参数估计

    • 3.2.1参数估计的基本原理
    • 3.2.2单总体参数区间估计
    • 3.2.3双总体均值差的估计
    • 3.2.4双总体比例差的估计

    3.3 假设检验

    • 3.3.1基本概念
    • 3.3.2两类错误
    • 3.3.3均值检验

    3.4 最大似然估计

    • 3.4.1最大似然法的基本原理
    • 3.4.2求最大似然估计的方法

     

    第4章  采样方法

    4.1 蒙特卡洛法求定积分

    • 4.1.1无意识统计学家法则
    • 4.1.2投点法
    • 4.1.3期望法

    4.2 蒙特卡洛采样

    • 4.2.1逆采样
    • 4.2.2博克斯-穆勒变换
    • 4.2.3拒绝采样与自适应拒绝采样

    4.3 矩阵的极限与马尔可夫链
    4.4 查普曼-柯尔莫哥洛夫等式
    4.5 马尔可夫链蒙特卡洛方法

    • 4.5.1重要性采样
    • 4.5.2马尔可夫链蒙特卡洛方法的基本概念
    • 4.5.3米特罗波利斯-黑斯廷斯算法
    • 4.5.4吉布斯采样

     

    第5章  信息论基础

    5.1 信息论中的熵
    5.2 微分熵与Kullback-Leibler散度

    • 5.2.1微分熵
    • 5.2.2微分熵与香农熵的关系
    • 5.2.3相对熵

    5.3 率失真函数
    5.4 香农下边界

     

    第6章  一元线性回归

    6.1 回归分析的性质
    6.2 回归的基本概念

    • 6.2.1总体的回归函数
    • 6.2.2随机干扰的意义
    • 6.2.3样本的回归函数

    6.3 回归模型的估计

    • 6.3.1普通最小二乘法原理
    • 6.3.2一元线性回归的应用
    • 6.3.3经典模型的基本假定
    • 6.3.4总体方差的无偏估计
    • 6.3.5估计参数的概率分布

    6.4 正态条件下的模型检验

    • 6.4.1拟合优度的检验
    • 6.4.2整体性假定检验
    • 6.4.3单个参数的检验

    6.5 一元线性回归模型预测

    • 6.5.1点预测
    • 6.5.2区间预测

     

    第7章  多元线性回归

    7.1 多元线性回归模型
    7.2 多元回归模型估计

    • 7.2.1最小二乘估计量
    • 7.2.2多元回归实例
    • 7.2.3总体参数估计量

    7.3 从线性代数角度理解最小二乘

    • 7.3.1最小二乘问题的通解
    • 7.3.2最小二乘问题的计算

    7.4 多元回归模型检验

    • 7.4.1线性回归的显著性
    • 7.4.2回归系数的显著性

    7.5 多元线性回归模型预测
    7.6 格兰杰因果关系检验

     

    第8章  线性回归进阶

    8.1 更多回归模型函数形式

    • 8.1.1双对数模型以及生产函数
    • 8.1.2倒数模型与菲利普斯曲线
    • 8.1.3多项式回归模型及其分析

    8.2 回归模型的评估与选择

    • 8.2.1嵌套模型选择
    • 8.2.2赤池信息准则

    8.3 现代回归方法的新进展

    • 8.3.1多重共线性
    • 8.3.2从岭回归到LASSO
    • 8.3.3正则化与没有免费午餐原理
    • 8.3.4弹性网络
    • 8.3.5RANSAC


    第9章  逻辑回归与最大熵模型

    9.1 逻辑回归
    9.2 牛顿法解Logistic回归
    9.3 应用实例: 二分类问题

    • 9.3.1数据初探
    • 9.3.2建模

    9.4 多元逻辑回归
    9.5 最大熵模型

    • 9.5.1最大熵原理
    • 9.5.2约束条件
    • 9.5.3模型推导
    • 9.5.4极大似然估计

    9.6 应用实例: 多分类问题

    • 9.6.1数据初探
    • 9.6.2建模


    第10章  感知机与神经网络

    10.1 从感知机开始

    • 10.1.1感知机模型
    • 10.1.2感知机学习
    • 10.1.3多层感知机
    • 10.1.4感知机应用示例

    10.2 基本神经网络

    • 10.2.1神经网络结构
    • 10.2.2符号标记说明
    • 10.2.3后向传播算法

    10.3 神经网络实践

    • 10.3.1建模
    • 10.3.2Softmax与神经网络

     

    第11章  支持向量机与核方法

    11.1 线性可分的支持向量机

    • 11.1.1函数距离与几何距离
    • 11.1.2最大间隔分类器
    • 11.1.3拉格朗日乘数法
    • 11.1.4对偶问题的求解

    11.2 松弛因子与软间隔模型
    11.3 非线性支持向量机方法

    • 11.3.1从更高维度上分类
    • 11.3.2非线性核函数方法
    • 11.3.3机器学习中的核方法
    • 11.3.4默瑟定理

    11.4 对数据进行分类的实践

    • 11.4.1数据分析
    • 11.4.2线性可分的例子
    • 11.4.3线性不可分的例子

     

    第12章  决策树

    12.1 决策树基础

    • 12.1.1Hunt算法
    • 12.1.2基尼测度与划分
    • 12.1.3信息熵与信息增益
    • 12.1.4分类误差

    12.2 决策树进阶

    • 12.2.1ID3算法
    • 12.2.2C4.5算法

    12.3 分类回归树
    12.4 决策树剪枝
    12.5 决策树应用实例

     

    第13章  集成学习

    13.1 集成学习的理论基础
    13.2 Bootstrap方法
    13.3 Bagging与随机森林

    • 13.3.1算法原理
    • 13.3.2应用实例

    13.4 Boosting与AdaBoost

    • 13.4.1算法原理
    • 13.4.2应用实例

    13.5 梯度提升

    • 13.5.1梯度提升树与回归
    • 13.5.2梯度提升树与分类
    • 13.5.3梯度提升树的原理推导

     

    第14章  聚类分析

    14.1 聚类的概念
    14.2 k均值算法

    • 14.2.1距离度量
    • 14.2.2算法描述
    • 14.2.3应用实例——图像的色彩量化

    14.3 最大期望算法

    • 14.3.1算法原理
    • 14.3.2收敛探讨

    14.4 高斯混合模型

    • 14.4.1模型推导
    • 14.4.2应用实例

    14.5 密度聚类

    • 14.5.1DBSCAN算法
    • 14.5.2应用实例

    14.6 层次聚类

    • 14.6.1AGNES算法
    • 14.6.2应用实例

    14.7 谱聚类

    • 14.7.1基本符号
    • 14.7.2拉普拉斯矩阵
    • 14.7.3相似图
    • 14.7.4谱聚类切图
    • 14.7.5算法描述
    • 14.7.6应用实例

     

    第15章  矩阵分解、降维与流形学习

    15.1 主成分分析
    15.2 奇异值分解

    • 15.2.1一个基本的认识
    • 15.2.2为什么可以做SVD
    • 15.2.3SVD与PCA的关系
    • 15.2.4应用示例与矩阵伪逆

    15.3 多维标度法

     

    第16章  贝叶斯定理及其应用

    16.1 贝叶斯推断中的基本概念

    • 16.1.1贝叶斯公式与边缘分布
    • 16.1.2先验概率与后验概率
    • 16.1.3共轭分布

    16.2 朴素贝叶斯分类器原理
    16.3 贝叶斯网络

    • 16.3.1基本结构单元
    • 16.3.2模型推理

    16.4 贝叶斯网络的应用示例
    16.5 隐马尔可夫模型

    • 16.5.1随机过程
    • 16.5.2从时间角度考虑不确定性
    • 16.5.3前向算法
    • 16.5.4维特比算法

     

    附录 数学传奇
    参考文献

     

     

    展开全文
  • 概率机器学习的系列博文已经写到第四篇了,依然关注者乏。虽说来只是自己的学习记录,不过这样下去显得自己贡献值比较低下。于是今天换一种模式来写博文——结合代码实现。 欢迎各位指点交流~ 预备知识: 1....
  • 机器学习 | 目录 本文大部分内容搬运自李航老师的《统计学习方法》[1],以给出 EM 算法较为完整的定义。 EM 算法 EM 算法是一种迭代算法,1977 年由 Dempster 等人总结提出,用于含有隐变量(hidden variable)...
  • 1.数学描述 2.不可知PAC学习 改进X*Y,概率分布空间 贝叶斯最优预测器: 3.广义损失函数下不可知PAC学习
  • Python学习之机器学习

    2020-06-21 16:32:01
    机器学习的学习路径和方法 机器学习需要哪些知识 概率统计与机器学习之间的关系 推荐参考书籍 1. 机器学习与规则编写程序的区别 1.5 传统规则程序与机器学习区别 解决方案需要规则列表超长问题,通过机器学习...
  • 这些系数也叫做回归系数,如果直接计算∑θixi那么就是线性回归,要转化为逻辑回归,则需要将上述值通过sigmoid函数,即sigmiod(∑θixi),将一个连续值转化为一个概率值,从而根据门限判定所属类别。...
  • 机器学习算法原理、实现与实践——机器学习的三要素  文字部分为转载自http://blog.csdn.net/Real_Myth/article/details/44217939   1 模型 在监督学习中,模型就是所要学习的条件概率分布或决策函数。...
  • 朴素贝叶斯(naive Bayes)法是是基于贝叶斯定理 和特征条件独立假设分类方法,对于给定训练数据集,首先基于特征条件独立假设学习输入/输出联合分布概率;然后基于此模型,对给定输入x,再利用贝叶斯定理求...
  • 最近的机器学习这一块一直卡在概率机器学习上,尤其是CRF上,有点浮,先将学习到好好总结一下。 一、EM算法基础和贝叶斯基础  1)EM算法基本原理和推导  2)EM算法基本应用,k-means和高斯混合模型 二...
  • 机器学习-监督学习之朴素贝叶斯算法 贝叶斯理论是概率论框架下实施决策基本方法,对分类任务来说,在所有相关概率都已知理想情况下,贝叶斯理论考虑如何基于这些概率和误判损失来选择最优类别标记。 基本...
  • 前面学习了朴素贝叶斯的原理,并且利用朴素贝叶斯原理对西瓜数据集3.0进行了分类:[朴素贝叶斯(Naive Bayes)原理+编程实现拉普拉斯修正朴素贝叶斯分类器],今天我们更进一步,来探讨一下贝叶斯网络的原理以及...
  • 机器学习学习指南

    2016-08-08 07:34:00
    模型分为概率模型(由条件概率表示模型)和非概率模型(决策函数) 策略包括1、损失函数和风险函数;2、经验风险最小化与结构风险最小化 算法:根据相应策略求解最优解,即求解最优化问题。 生成模型与判别...
  • 机器学习-统计学习4

    2020-03-14 11:10:15
    核密度估计的原理 非参数密度估计应用 h选择对密度估计影响 非参数分类与回归 非参数分类概述 分类问题简介 非参数分类概述 非参数分类应用 参数、非参数分类比较 非参数回归概述 滑动均值...
  • 先验概率(prior probability)是指根据以往经验和分析得到的概率(理解为自定义概率)。而后验概率是在考虑了一个事实之后的条件概率。 2、了解高斯混合模型GMM EM是K-means的推广 以下的两个问题都是属于无监督...
  • 参考周志华老师的《机器学习》一书,对决策树算法进行总结。  决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构建决策树来求取净现值期望值大于等于0的概率,评价项目风险,判断其可行性的决策分析...
  • 机器学习——最大熵原理

    千次阅读 2015-05-05 17:55:54
    熵是在1948年由克劳德·艾尔伍德·香农将热力学的熵引入到信息论,因此它又被称为香农熵。 不确定性函数f满足两个条件是: (1)概率P单调递降函数; (2)两个独立符号所产生不确定性应等于各自不确定性...
  • 线性回归概念1、线性回归的原理线性回归一般形式:极大似然估计(概率角度诠释)2、线性回归损失函数、代价函数、目标函数3、优化方法(梯度下降法、牛顿法、拟牛顿法等)1、梯度下降法2、最小二乘法矩阵求解3、...
  • 直观的讲是:在判定输入的x属于y中的哪一类时,先基于训练数据学习出数据的概率分布,并通过学习的概率分布,求得后验概率最大的x的分类,将其输出。在学习概率分布时,假设条件概率分布的条件独立性来简化计算,...
  • 在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法. 在机器学习中,决策树是一个预测模型,他...
  • 缘起:真正的概率分类器 在许多分类算法应用中,特征和标签之间的关系并非是决定性的。比如说,我们想预测一个人究竟是否会在泰坦尼克号海难中生存下来,那我们可以建一棵决策树来学习训练集。在训练中,其中一个 人...
  • 如果你还没有掌握决策树的这些技能点,根据贝叶斯原理你有90%的概率也掌握不了这篇???? 假设你已经掌握了上面决策树的内容,那么完这篇你会掌握以下技能: 一种新的分类算法(贝叶斯分类) 一个很有名气的概率...
  • 在学习机器学习的原理之前,要知道机器学习可以应用哪些场景,如数据分析与挖掘、模式识别、生物信息等等,看看计算机是如何建模的,以及他的这种类似神经网络的学习规则,目前主流的机器学习模型包括树模型、概率模型...
  • TensorFlow案例---概率学逆概率

    千次阅读 2018-04-07 10:55:35
    TensorFlow案例---概率学逆概率上一篇博客我们已经安装了TensorFlow,有很多人可能会对机器学习感到害怕,但其实有好多原理我们现在不需要懂,我们先搞清楚TensorFlow有什么作用就行,那么下面我通过一个小...
  • 这些硬币正面向上的概率分别是 π,p\pi,pπ,p 和 qqq 。进行如下抛硬币试验: 1、先抛硬币A, 根据其结果选出硬币B或者硬币C,正面选硬币B,反面选硬币C; 2、然后掷选出的硬币,抛硬币的结果,出现正面记作1,出现...
  • 笔者在学习机器学习的过程中,意识到其实机器学习中的很多假设背后都是有着数学原理支撑的,从而使得这些假设不再是“看似合理”。这里笔者便将一些学习过程中的理解整理成一个系列,希望能够在帮助自己整理知识结构...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 499
精华内容 199
关键字:

机器学习的概率学原理