2019-07-17 22:30:35 wangwei19871103 阅读数 61

目的

经过一段时间的深度学习,发现好多机器学习的基础不是很好,特别是统计方面的东西,所以买了李航老师的《统计学习方法》第二版来学习下,希望能补补基础,这样不管是理解理论知识,还是对实践指导,都有很大的意义,数学基础好,才能更好的理解,写下一点自己的浅见吧。既然是用李航老师的书讲,当然要给他宣传下啦,第二版,今年新上的,加了很多新内容,值得学习:
在这里插入图片描述

第一章 统计学习及监督学习概论

1.1 统计学习

统计学习是什么,做什么的

一门以数据驱动,多种领域的交叉的学科,目的是用统计学习方法构建模型,对未知数据进行预测和分析。

统计学习的对象

各种数据,文字,图像,音频,视频等

统计学习的目的

对数据进行预测分析,比如预测天气,房价,股市,分析某个事件背后的规律等。

统计学习的方法

基于概率模型进行预测和分析的,主要分为监督学习(简单理解就是有答案告诉你好坏,比如告诉你某些图片是猫,另外一些图片是狗,然后让你看其他的图片,能知道是猫还是狗么),无监督学习(没有告诉你答案,你自己找规律,比如让你把键盘上的按键给我分分类,可以想象最简单就是字母一类,数字一类,可以用到聚类的方法,把特征相同的归类),强化学习(边试错边学习,AlphaGo学下围棋)。

具体方法可以概括为:
有一堆训练数据,假设独立同分布(相互没影响,属于同一个分布),假设要学习的模型来自一个函数集合,可以把模型看成一个函数啦,这个集合成为假设空间,然后需要有某个评价准则,选取一个模型对数据进行最优的预测,也就是选出最好的模型,选取的方法就是一个算法。假设空间模型选择的准则以及模型学习的算法统称为统计方法三要素,简称为模型,策略,算法

我用李宏毅老师的课件图修改下来说明下,简单描述就是用训练数据通过算法,从模型集合里选取一个最好的模型来预测未知的数据,比如这个图像识别的例子,识别猴子,猫,狗:
在这里插入图片描述

1.2 统计学习的分类

基本分类

监督学习

通过给定输入输出的对应关系来找出输入到输出的映射的统计规律。

输入空间,输出空间,特征空间

通常的训练数据是成对出现,比如Train={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)}Train=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_n,y_n)\},每个输入变量值x对应一个输出变量值y。同样测试数据也是这样的,每一个数据对是一个样本点。

我们用XX表示输入变量,YY表示输出,是定义在输入空间(输入所有可能取值的一个集合)和输出空间输出所有可能取值的一个集合)上的随机变量。

每个输入都可以表示为一个特征向量,特征向量存在的空间叫特征空间,特征向量每一维表示一个特征,比如输入房子信息,可以包含房龄,面积,学区,是否有电梯等等特征,合起来就是一个特征向量。

输入输出变量可以是不同类型。对于预测来说,如果输入输出变量都是连续的预测问题叫做回归问题(比如,预测房价,输入可能是面积,面积是连续的,输出是价格,也是连续的)。

如果输出变量为有限个离散变量的叫做分类问题(比如图像识别,识别是狗y输出0,猫y输出1,猴子y输出2,只要三个值就行,0,1,2)。

如果输入输出均为变量序列的预测问题叫做标注问题(比如给一句英语的每个单词标注一个特性,单词组成的就是一个序列)。

联合概率分布

监督学习有个关于数据的基本假设:假设输入和输出的随机变量XYX,Y遵循联合概率分布P(X,Y)P(X,Y)。在训练中假设这个存在,但是是未知的,训练和测试数据是按P(X,Y)P(X,Y)独立同分布产生的,数据存在一定的统计规律。这个好理解,因为监督学习数据都是一对对的,所以可以假设一起出现符合某种统计规律,符合P(X,Y)P(X,Y)

假设空间

监督学习目的就是学习一个输入到输出的映射,就是一个模型,这个映射的集合就是假设空间,也就是我们要寻找最优模型的范围。模型可以是概率或非概率,由条件概率分布P(YX)P(Y|X)或者决策函数Y=f(X)Y=f(X)表示。我们要找的就是一个最优的模型f(xi)f(x_i)使得跟训练集中的yiy_i之间的差越小越好。

无监督学习

给定没有标记的数据,让模型学习数据中的规律,比如数据的类别(聚类),转换(图片风格转换),概率。目标是学习数据的统计规律或者潜在结构。学习的是一个隐式结构Z,XZ,X是输入空间,x,zx,z是输入和输出,学习的模型表示为函数z=g(x)z=g(x),条件概率分布P(zx)P(z|x),或者P(xz)P(x|z)。最优模型一般可以表示为
z=argmaxzP(zx)\displaystyle z=arg \max_{ z} P(z|x)。一般$z=g(x) 用于降维或者聚类,P(x|z)$用于概率估计。

强化学习

是一种不断试错,不断学习的过程,基于马尔科夫决策过程。假设只能如图:
在这里插入图片描述
在每一个时刻t,我们观察到一个状态statetstate_{t},然后得到一个奖励rewardtreward_{t},采取一个动作Action,然后环境在t+1个时刻将状态改成statet+1state_{t+1},奖励为rewardt+1reward_{t+1},要学习的策略就是在给定state下采取的Action。Agent的目是长期积累奖励reward最大化,也就是期望最大化,整个过程会不断的试错,达到学习到最优策略的目的。

强化学习的马尔科夫决策过程是s(状态),r(奖励),a(动作)序列上的随机过程,由五元组<s,a,p,r,<s,a,p,r,γ\gamma>>组成:

ss是有限状态state的集合。
aa是有限动作的action的集合。
pp是状态转换的概率函数,是条件概率,即在t时刻下状态ss,采取动作aa,转换到t+1时刻下的状态st+1s_{t+1}的概率,表示为p(st+1st,at)p(s_{t+1}|s_{t},a_t)
rr是奖励函数,即在t时刻下状态ss,采取动作aa后获得的奖励,表示为r(s,a)r(s,a)
γ\gamma是衰减系数0-1,即认为当前奖励的权重比较大,之后的会衰减。

马尔科夫决策过程有马尔科夫性,即下一个状态只依赖于前一个状态和动作,由p(st+1st,at)p(s_{t+1}|s_{t},a_t)表示,下一个奖励也依赖于前一个状态和动作,由r(s,a)r(s,a)表示。

策略π\pi定义为给定状态下的动作函数a=f(s)a=f(s)或者条件概率分布P(as)P(a|s)。给一个策略π\pi,智能体和环境互动的行为就已确定。

学习的时候会一般会有两个价值函数作为目标函数:
状态价值函数,策略π\pi从某个状态s开始到结束的奖励的数学期望:
vπ(s)=Eπ[rt+1+γrt+2+γ2rt+3+...st=s]v_\pi(s)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...|s_t=s]

动作价值函数,策略π\pi从某个状态s和动作a开始到结束的奖励的数学期望:
qπ(s,a)=Eπ[rt+1+γrt+2+γ2rt+3+...st=s,at=a]q_\pi(s,a)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...|s_t=s,a_t=a]

强化学习就是要选出价值函数最大的策略π\pi

按技巧分类

贝叶斯学习

计算条件概率,即后验概率,对模型进行评估,对数据进行预测。
假设变量D表示数据,θ\theta表示模型参数,根据贝叶斯定理,可以计算后验概率:
P(θD)=P(θ)P(Dθ)P(D)P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)}
P(θ)P(\theta)是先验概率,就是我们通常知道的概率,P(Dθ)P(D|\theta)是似然函数,即在参数θ\theta下,样本D来自P(Dθ)P(D|\theta)的可能性。

学习时,我们取后验概率最大的模型,测试时,计算数据对后验概率分布的期望值:
P(xD)=P(xθ,D)P(θD)dθP(x|D)=\int P(x|\theta,D)P(\theta|D)d\theta
x代表新的样本。

贝叶斯估计和极大似然估计可以联系起来,假设先验分布是均匀分布,取最大后验概率,就能从贝叶斯估计得到最大似然函数。

核方法

用核函数表示学习非线性模型的一种机器学习方法,可以理解为将输入空间映射到一个特征空间(高维空间),然后进行内机运算,可将线性模型扩展到非线性。电信的就是支持向量机,把线性不可分的问题转化到高维线性可分的问题。

总结
看上去很像没多少东西,不能全按书上来,我可写不完啊,还得稍微提炼点来写,还有打公式真的很类,本来不想打,想直接文字,但是怕看了一知半解,还是学习下公式怎么输入吧,选了一些我觉得比较常用和重点的东西做介绍,可能没有涵盖所有的,想学习的朋友可以去买书来看看,这样效果更好,还有习题呢,先介绍这些了,主要还是一个基本的概念介绍,知道统计学习在做什么,知道统计学习的基本分类,其他的下次再写啦。下次写就不介绍那么多概念了,写的挺累的,书上也都有,还是写一些自己的理解比较好。

好了,今天就到这里了,希望对学习理解有帮助,大神看见勿喷,仅为自己的学习理解,能力有限,请多包涵,部分图片来自李宏毅课件和网络,部分介绍来自李航《统计学习方法》第二版,侵删。

2017-07-07 13:21:31 l_xyy 阅读数 296

本系列主要涉及李航统计学习方法一书、各大牛博客和简单实例,前面主要理论讲解,大多是书本知识;由于数学基础知识忘得比较快,可能好多讲得不准确的地方,望各位指出;若文中有涉及各位版权的,请指出,本人会及时处理。

第一章将的是一些理论上的东西,没有算法,没有太多公式推导:
主要涉及:
1、什么是监督学习(例如:带有标签的分类问题)。对应着就是无监督学习,半监督学习等。
2、统计学习三要素:模型、策略和算法。
3、在实际应用中,有着精确度等要求,如何在学习过程中验证模型也是很重要的。
4、正则化和交叉验证(懂一点机器学习的人都听过),正则化是一个很有用的东西(深度学习中也是)。
5、泛化能力,就是适应未知数据的能力。
6、生成模型和判别模型(对我来说,判别模型好懂点,生成模型有点抽象,就暂时放放,等看完贝叶斯回头理解一下)。
7、实际问题通常会被转换成分类问题、回归问题等来解决。举例,年龄预测其实应该是一个回归问题,但是在实际应用中通常会转换成分类问题来做。在自然语言处理中,还有标注问题等。

理论性的东西较多,看书能看懂很多,但还是不及应用来的快。先读完李航这本书,后面会找一些具体的例子来用一用后面的算法。

2019-03-26 14:23:53 w_zhao 阅读数 285
10种统计学习方法特点的总结概括
方法 适用问题 模型特点 模型类型 学习策略 学习的损失函数 学习算法 备注

感知机

二类分类

分离超平面

 

判别模型

极小化误分类点到超平面的距离

 

误分类点到超平面距离(经验风险) 随机梯度下降  
{\color{Blue} w \cdot x + b = 0} {\color{Blue} f(x) = sign(w \cdot x + b)} {\color{Blue} \min_{w,b}L(w,b) = -\sum_{x_{i} \in M}y_{i}(w \cdot x+b)}
k近邻 多类分类,回归 特征空间,样本点 判别模型

k近邻算法的三要素:距离度量、k值选择、和分类决策规则。

距离度量:欧氏距离和一般的 \small L_{p} 距离

常用的分类决策规则是多数表决,对应于经验风险最小化

                       

k近邻算法的实现需要考虑如何快速搜索k个最近邻点,kd树是一种便于对k维空间中的数据进行快速检索的数据结构。
                       \small {\color{Blue} \sum _{x_{i} \in N_{k}(x)}I(y_{i}=c_{i}){\color{Red} }}                       kd树是二叉树,对应对k维空间的一个划分,其每个节点对应于k维空间划分中的一个超矩形区域。
朴素贝叶斯 多类分类 特征与类别的联合概率分布,条件独立性假设

生成模型(通过训练数据得到联合分布)

{\color{Blue} P(X,Y)=P(Y)P(X|Y)}

 

 

极大似然估计,极大后验概率估计(期望风险最小化) 对数似然损失 概率计算公式,EM算法  
{\color{Blue} P(X= x| Y=c_{k})}\\ {\color{Blue}=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_{k})}\\ {\color{Blue}=\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_{k})}

{\color{Blue} P(Y|X)=\tfrac{P(X,Y)}{P(X)} \\=\tfrac {P(Y)P(X|Y)}{\sum_{Y}P(Y)P(X|Y)}}

{\color{Blue} y=\arg \max _{c_{k}}P(Y=c_{k})\prod_{j=1}^{n}P(X_{j}=x^{j}|Y=c_{k})}

后验概率最大等价于0-1损失函数时的期望风险最小化
决策树 多类分类,回归 分类树,回归树 判别模型 正则化的极大似然估计(以损失函数为目标函数的最小化) 对数似然函数 特征选择,生成,剪枝 自上而下生成,自下而上剪枝
   

逻辑斯蒂回归

与最大熵

多类分类 特征条件下类别的条件概率分布,对数线性模型 判别模型 极大似然估计,正则化的极大似然估计 逻辑斯蒂损失 改进的迭代尺度法IIS,梯度下降,拟牛顿法

 

 

 

{\color{Blue} P(Y=k|x) = \tfrac{exp(w_{k} \cdot x)}{1+\sum_{k=1}^{K-1}exp(w_{k} \cdot x)}, \, \; k=1,2,...,K-1}

{\color{Blue} P(Y=K|x) = \tfrac{1}{1+\sum_{k=1}^{K-1}exp(w_{k} \cdot x)}}

 

   

{\color{Blue} F(x) =\\ P(X\leq x)=\tfrac{1}{1+e^{-(x-\mu)/\gamma }}}

{\color{Blue} f(x) = F'(x) = \tfrac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}}

最大熵

{\color{Blue} H(P)= -\sum_{x,y}\widetilde{P}(x)P(y|x) \log P(y|x)}

{\color{Blue} P_{w}(y|x) = \tfrac{1}{Z_{w}(x)}\exp \left( \sum_{i=1}^{n}w_{i}f_{i}(x,y) \right)}

{\color{Blue} Z_{w}(x) = \sum_{y} \exp \left( \sum_{i=1}^{n}w_{i}f_{i}(x,y) \right)}

     
支持向量机 二类分类 分离超平面 判别模型 极小化正则化合页损失,软间隔最大化 合页损失 序列最小最优化算法(SMO)

线性可分支持向量机

线性支持向量机

非线性支持向量机

    {\color{Blue} w^{*}\cdot x+b^{*}=0} {\color{Blue} f(x)=sign(w^{*}\cdot x+b^{*})} {\color{Blue} \min_{w,b} \tfrac{1}{2}||w||^2} L(y(w \cdot x+b))=[1-y(w \cdot x+b)]_{+}
提升方法 二类分类 弱分类器的线性组合 判别模型 极小化加法模型的指数损失 指数损失 前向分步加法算法  
               
EM算法 概率模型参数估计 含隐变量概率模型   极大似然估计,极大后验概率估计 对数似然损失 迭代算法  
   

E步,求期望:{\color{Blue} Q(\theta,\theta^{(i)})=\sum_{Z}\log P(Y,Z|\theta) P(Z|Y,\theta^{(i)})}

M步,求极大:{\color{Blue} \theta^{(i+1)}=\arg \max_{\theta}Q(\theta, \theta^{(i)})}

隐马尔可夫模型 标注 观测序列与状态序列的联合概率分布模型 生成模型 极大似然估计,极大后验概率估计 对数似然损失 概率计算公式,EM算法

概率计算算法

学习算法

预测算法

               
条件随机场 标注 状态序列条件下观测序列的条件概率分布,对数线性模型 判别模型 极大似然估计,极大后验概率估计 对数似然损失 改进的迭代尺度法,梯度下降,拟牛顿法

概率计算算法

学习算法

预测算法

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


参考文献:[1] 李航.统计学习方法[M], 清华大学出版社, 2012.3, ISBN 978-7-302-27595-4

没有更多推荐了,返回首页