统计学习方法 订阅
《统计学习方法》是2012年清华大学出版社出版的图书,作者是李航。本书全面系统地介绍了统计学习的主要方法,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 [1] 展开全文
《统计学习方法》是2012年清华大学出版社出版的图书,作者是李航。本书全面系统地介绍了统计学习的主要方法,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 [1]
信息
ISBN
9787302275954
页    数
235页
作    者
李航
书    名
统计学习方法
出版时间
2012 年3月
开    本
16开
出版社
清华大学出版社
统计学习方法内容简介
统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。
收起全文
精华内容
下载资源
问答
  • 统计学习方法

    万次阅读 2018-11-19 00:16:18
    第一章 统计学习方法概论 1.2监督学习 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示 ...
    • 统计学习的方法:
      • 监督学习
      • 非监督学习
      • 半监督学习
      • 强化学习

    第一章 统计学习方法概论

    1.2监督学习

    • 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
    • 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示
    1.2.2问题的形式化
    • 监督学习分为学习和预测两个过程

    1.3统计学习三要素

    • 方法=模型+策略+算法
    1.3.1模型
    • 模型就是要学习的条件概率分布或者决策分布
    1.3.2策略
    • 用一个损失函数或者代价函数来度量预测错误的程度
    • 损失函数
      • 0-1损失函数
      • 平方损失函数
      • 绝对损失函数
      • 对数损失函数
    • 模型f(X)关于训练数据集的平均损失称为经验风险或经验损失
    • 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失
    • 监督学习的两个基本策略:经验风险最小化与结构风险最小化
    • 经验风险最小化的策略认为经验风险最小的模型就是最优模型
    • 结构风险最小化(SRM)是为了防止过拟合的策略,等价于正则化
      • 结构风险在经验风险上加上表示模型复杂度的正则化项或罚项
    1.3.3算法
    • 算法是指学习模型的具体计算方法

    1.4模型评估与模型选择

    1.4.1训练误差与测试误差
    • 损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就是学习方法评估的标准
    • 训练误差是模型关于训练数据集的平均损失
    • 测试误差是模型关于测试数据集的平均损失
    • 通常将学习方法对未知数据的预测能力称为泛化能力
    1.4.2过拟合与模型选择
    • 当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大

    1.5正则化与交叉验证

    1.5.1正则化
    • 正则化是结构风险最小化策略的实现, 是在经验风险上加一个正则化项或罚项
      • 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
    • 范数就是衡量向量的大小
    • 正则化符合奥卡姆剃刀(Occam’s razor)原理。应用于模型选择:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。
      • 从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。
    1.5.2交叉验证
    • 将数据集分为三部分;
      • 训练集:训练模型
      • 验证集:模型的选择
      • 测试集:对学习方法的评估
    • 简单交叉验证
      • 数据集分为两部分:
        • 训练集 70%
        • 测试集 30%
      • 选出测试误差最小的模型
    • S折交叉验证
      • 首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型
    • 留一交叉验证
      • S折交叉验证的特殊情形是S=N,称为留一交叉验证,往往在数据缺乏的情况下使用(N是给定数据集的容量)

    1.6泛化能力

    1.6.1发话误差
    • 模型对未知数据预测的误差即为泛化误差。泛化误差越小,这种方法就越有效
    1.6.2泛化误差上界
    • 训练误差小的模型,泛化误差也会小

    1.7

    • 监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出
    • 监督学习方法又可分为判别方法生成方法
      • 生成方法由数据学习联合概率分布P(X, Y),然后求出条件概率模型P(Y | X)作为预测的模型,即生成模型:
        P(YX)=P(X,Y)P(X)P(Y | X) = \frac{P(X, Y)} {P(X)}
        • 典型的生成模型有:
          • 朴素贝叶斯法
          • 隐马尔可夫模型
        • 特点:
          • 生成方法可以还原出联合概率分布P(X, Y),而判别方法则不能
          • 生成方法的学习速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型
          • 当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用
      • 判别方法有数据直接学习决策函数f(X)或者条件概率分布P(Y | X)作为预测模型,即判别模型
        • 典型的判别模型方法:
          • k临近法
          • 感知机
          • 决策树
          • 逻辑斯谛回归模型
          • 最大熵模型
          • 支持向量机
          • 提升方法
          • 条件随机场
        • 特点:
          • 判别方法直接学习的是条件概率P(Y | X)或决策函数f(X),直接面对预测,往往学习的准确率更高
          • 由于直接学习P(Y | X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题

    1.8分类问题

    • 监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出预测,称为分类
    • 分类问题分为学习分类
    • 分类器的性能指标一般是分类准确率:
      • 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数0-1损失时测试数据集上的准确率
    • 二分类评价指标值精准率召回率
    类别 解释
    TP 将正类预测为正类数
    FN 将正类预测为负类数
    FP 将负类预测为正类数
    TN 将负类预测为负类数
    • 精确率:

    P=TPTP+FPP = \frac{TP} {TP + FP}

    • 召回率:

    R=TPTP+FNR = \frac{TP}{TP + FN}

    • F1值:

    2F1=1P+1R\frac{2} {F1} = \frac{1} {P} + \frac{1} {R}

    F1=2TP2TP+FP+FNF1 = \frac {2 * TP} {2 * TP + FP + FN}

    1.9标注问题

    • 输入是一个观测序列,输出是一个标记序列或状态序列
    • 常用统计学习方法有:
      • 隐马尔科夫模型
      • 条件随机场

    1.10回归问题

    • 回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输出变量的值发生变化时,输出变量的值随之发生变化。
    • 按照输入变量的个数,分为一元回归多元回归
    • 按照输入变量和输出变量之间关系类型,分为线性回归非线性回归
    • 回归学习最常用的损失函数是平方损失函数,由最小二乘法求解

    第二章 感知机

    • 感知机是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别
    • 属于判别模型

    2.1感知机模型

    • 感知机定义:
      • 输入空间(特征空间)是XRnX \subseteq R^n
      • 输出空间是y={+11}y = \begin{Bmatrix}+1, -1\end{Bmatrix}
      • 输入空间到输出空间的函数(称为感知机)f(x)=sign(wx+b)f(x) = sign(w * x + b)
        • w和b为感知机模型参数
        • w叫做权值或权值向量
        • b叫做偏置
        • w * x表示w和x的内积
        • sign是符号函数

    2.2感知机学习策略

    • 数据集的线性可分性
      • 如果存在某个超平面S能够将数据集的正实例和负实例点完全正确地划分到超平面的两侧,即对所有yi=+1y_i = +1 的实例 i,有wxi+b>0w * x_i + b > 0,对所有yi=1y_i = -1的实例 i,有wxi+b<0w * x_i + b < 0,则称数据集T为线性可分数据集。
    • 感知机学习策略
      • 感知机sign(w * x + b)学习的损失函数定义为L(w,b)=xiMyi(wxi+b)L(w, b) = - \sum_{x_i \in M} y_i(w * x_i + b)
      • M为误分点的集合,感知机学习的经验风险函数
      • 损失函数L(w, b)是w, b的连续可导函数

    2.3感知机学习算法

    • 损失函数极小化问题的损失函数minw,bL(w,b)=xiMyi(wxi+b)\min_{w, b}L(w, b) = - \sum_{x_i \in M} y_i * (w * x_i + b)
      损失函数对应于误分类点到分离超平面的总距离

    第三章 k近邻法

    • k近邻法(k-NN)是一张基本分类回归方法
    • 基本要素:
      • k值的选择
      • 距离度量
      • 分类决策规则

    3.1k近邻算法

    • 定义:
      • 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k和实例,这k个实例的多数属于某个类,就把该输入实例分为这个类
    • 没有显式的学习过程
    3.2.2距离度量
    • 欧式距离:以空间为基准的两点之间最短距离
    • 曼哈顿距离:两点在南北方向上的距离加上在东西方向上的距离,即dij=xixj+yiyjd(i,j)=|xi-xj|+|yi-yj|
    3.2.3k值的选择
    • k值的减小就意味着整体模型变得复杂,容易发生过拟合
    • k值的增大就相当于用较大邻域中的训练实例进行预测,可以减少学习的估计误差,学习的近似误差增大,模型变得简单
    • 应用中,k值一般取一个较小的数值,通常采用交叉验证法来选取最优的k值

    3.3k近邻法的实现:kd树

    • k近邻法最简单的实现就是线性扫描,当训练集很大时,计算非常耗时
    3.3.1构造kd树
    • kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构
    • kd树是二叉树,表示对k维空间的划分
    • 构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一系列的k维超巨型区域。kd树的每个节点对应于一个k维超巨型区域
    3.3.2 搜索kd树
    • kd树的最邻近搜索
      • 输入:已构造的kd树;目标点x
      • 输出:x的最邻近
      • 解答:
        • 在kd树中找出包含目标点x的叶节点:从根节点出发,递归地向下访问kd树。若目标点x当前维的坐标小于切分点的坐标,则移动到左子节点,否则移到右子节点。直到子节点为叶节点为止
        • 以此叶节点为“当前最近点”
        • 递归地向上回退,在每个节点进行以下操作:
          • 如果该节点保存的实例点比当前最近点距离目标点更近,则以该实例点为“当前最近点”
          • 当前最近点一定存在于该节点一个子节点对应的区域。检查该子节点的父节点的另一子节点的区域是否有更近的点。具体地,检查另一子节点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超平面球体相交。如果相交,可能在另一个子节点对应的区域内存在距目标点更近的点,移动到另一个子节点。接着,递归地进行最近邻搜索。
        • 当回退到根节点时,搜索结束,最后的“当前最近点”即为x的最近邻点。

    第四章 朴素贝叶斯法

    • 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

    • 对于给定的训练数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y

    • 先验概率:P()P(原因)

    • 后验概率:P()P(原因|结果)

    • 条件概率:P(YX)P(Y|X) 表示在条件X成立时,Y存在成立的概率

    4.1朴素贝叶斯法的学习与分类

    • 朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)P(X, Y)
      学习先验概率分布:P(Y=ck),k=1,2,,kP(Y=c_k), k=1, 2, ……, k
      学习条件概率分布:P(X=xY=ck)=P(X(1)=x(1),,X(n)=x(n)),k=1,2,,kP(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, ……, X^{(n)}=x^{(n)}), k=1, 2, ……, k
      于是学习到联合概率分布P(X,Y)P(X, Y)
    • 属于生成模型
    • 朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布P(Y=ckX=x)P(Y=c_k|X=x),将后验概率最大类作为x的类输出。后验概率公式:
      P(Y=ckX=x)=P(X=xY=ck)P(Y=ck)kP(X=xY=ck)P(Y=ck)P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)}
    4.1.2后验概率最大化的含义
    • 朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化
    • 后验概率最大化准则:f(x)=argmaxckP(ckX=x)f(x)=\mathop{\arg\max}_{c_k}P(c_k|X=x)
    4.2.1极大似然估计
    • 先验概率P(Y=ck)P(Y=c_k)的极大似然估计是P(Y=ck)=i=1NI(yi=ck)N,k=1,2,,KP(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}, k=1, 2, ……, K
    • 条件概率P(X(f)=ajlY=ck)P(X^{(f)}=a_{jl}|Y=c_k)的极大似然估计是P(X(f)=ajlY=ck)=i=1NI(xi(f)=ajl,yi=ck)i=1NI(yi=ck)P(X^{(f)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(f)}=a_{jl}, y_i=c_k)}{\sum_{i=1}{N}I(y_i=c_k)}
      j=1,2,,n;l=1,2,,Sj;k=1,2,,Kj=1, 2, ……, n; l=1, 2, ……, S_j; k=1, 2, ……, K
      式中,xi(f)x_i^{(f)}是第i个样本的第j个特征;ajla_{jl}是第j个特征可能取的第l个值;I为指示函数
    4.2.3贝叶斯估计
    • 用极大似然估计可能会出现所要估计的概率值为0的情况。条件概率的贝叶斯估计是Pλ(Xj=ajlY=ck)=i=1NI(xi(j)=ajl,yi=ck)+λi=1NI(yi=ck)+SjλP_\lambda(X^{j}=a_{jl}|Y=c_k)=\frac{\sum^N_{i=1}I(x_i^{(j)}=a_{jl}, y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}

    • 式中λ>=0\lambda>=0等价于在随机变量各个取值的频数上赋予一个正数λ>0\lambda>0。当λ=0\lambda=0时就是极大似然估计。常取λ=1\lambda=1,这时称为拉普拉斯平滑。显然对于任何l=1,2,,Sj,k=1,2,,Kl=1, 2, ……, S_j, k=1, 2, ……, KPλ(X(f)=ajlY=ck)>0P_\lambda(X^{(f)=a_{jl}}|Y=c_k)>0l=1SjP(Xj=ajlY=ck)=1\sum_{l=1}^{S_j}P(X^{j}=a_{jl}|Y=c_k)=1先验概率的贝叶斯估计是Pλ(Y=ck)=i=1NI(yi=ck)+λN+KλP_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}

    • 本章概要

      • 生成方法由训练数据学习联合概率分布P(X,Y)P(X, Y),然后求得到后验概率分布P(YX)P(Y|X)。利用训练数据学习P(XY)P(X|Y)P(Y)P(Y)的估计,得到联合概率分布:P(X,Y)=P(Y)P(XY)P(X, Y)=P(Y)P(X|Y)
      • 朴素贝叶斯法的基本假设是条件概率独立性,P(X=xY=ck)=P(X(1)=x(1),,X(n)=X(n)Y=ck)P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, ……, X^{(n)}=X^{(n)}|Y=c_k)=j=1nP(X(j)=x(j)Y=ck)=\prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_k)这是一个较强的假设,因此条件概率的数量大为减小,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易于实现,缺点是分类的性能不一定很高。
      • 朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行预测。P(YX)=P(X,Y)P(X)=P(Y)P(XY)YP(Y)P(XY)P(Y|X)=\frac{P(X, Y)}{P(X)}=\frac{P(Y)P(X|Y)}{\sum_YP(Y)P(X|Y)}将输入x分到后验概率最大的类y。

      y=argmaxcky=\mathop{\arg\max}_{c_k}\

      P(Y=ck)j=1nP(Xj=x(j)Y=ck)P(Y=c_k)\prod^n_{j=1}P(X_j=x^{(j)}|Y=c_k)

    后验概率最大等价于0-1损失函数时的期望风险最小化

    • 注解:
      P(AB)=P(BA)P(A)P(B)P(A|B)=P(B|A)*\frac{P(A)}{P(B)}
      • 贝叶斯三要素

    第五章 决策树

    • 决策树的学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪
    5.1.1决策树模型
    • 定义:分类决策树模型是一种描述对实例进行分类的树形结构
    5.2.1特征选择
    5.2.2信息增益
    • 熵是表示随机变量不确定性的度量
    • 信息增益:定义:
      • 特征A对训练集D的信息增益g(D, A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D | A)之差,及:g(D,A)=H(D)H(DA)g(D, A) = H(D) - H(D | A)
      • 一般地,熵H(Y)与条件熵H(Y | X)之差称为互斥信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

    5.3决策树的生成

    第六章 逻辑斯谛回归与最大熵模型

    • 都属于对数线性模型

    逻辑斯谛回归模型

    6.1.1逻辑斯谛分布
    • 定义:
      • 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:F(x)=P(Xx0)=11+e(xμ)/γF(x)=P(X \le x0)=\frac{1}{1+e^{-(x-\mu)/\gamma}}
        f(x)=F(x)=e(xμ)/γγ(1+e(xμ)/γ)2f(x)=F^{'}(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}式中,μ\mu为位置参数,γ>0\gamma>0为形状参数
    6.1.2二项逻辑斯谛回归模型
    • 定义:二项逻辑斯谛回归模型是如下的条件概率分布:P(Y=1x)=exp(wx+b)1+exp(wx+b)xRnY0,1P(Y=1|x)=\frac{exp(w*x+b)}{1+ exp(w * x+b)}这里,x\in R^n是输入,Y\in \\{0, 1\\}是输出,

    wRnbRwbwxwxw\in R^n 和 b\in R是参数,w称为权值向量,b称为偏置,w*x为w和x的内积

    6.1.3模型参数估计

    ww^假设w的极大似然估计值是\hat{w},那么学到的逻辑斯谛回归模型为

    P(Y=1X)=exp(w^x)1+exp(w^x)P(Y=1|X)=\frac{exp(\hat{w}*x)}{1+exp(\hat{w}*x)}

    P(Y=0X)=11+exp(w^x)P(Y=0|X)=\frac{1}{1+exp(\hat{w}*x)}

    6.2最大熵模型

    6.2.1最大熵原理

    XP(X)假设离散随机变量X的概率分布是P(X),其熵是

    H(P)=xP(x)logP(x)H(P)=-\sum_xP(x)logP(x)

    0H(P)logX熵满足下列不等式:0\le H(P)\le log|X|

    式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。就是,当X服从均匀分布时,熵最大。

    最大熵模型:假设满足所有约束条件的模型集合为CPpEp(fi)=Epˉ(fi)i=1,2,,nC\equiv \\{ P\in p | E_p(f_i)=E_{\bar{p}}(f_i),i=1, 2, ……, n \\}

    P(YX)H(P)=x,yPˉ(x)P(yx)logP(yx)定义在条件概率分布P(Y|X)上的条件熵为H(P)=-\sum_{x,y}\bar{P}(x)P(y|x)logP(y|x)

    CH(P)则模型集合C中条件熵H(P)最大的模型称为最大熵模型。式中的对数为自然对数

    P99

    展开全文
  • 统计学习方法 动手实现李航《统计学习方法》的C++代码。 代码将首先在Github上更新,等到完全更新完毕之后会将此代码库更新完全。 我的GitHub:Statistic-Learning-Theory
  • 李航:统计学习方法 学习笔记 1 统计学习方法概论前言1.1 统计学习1.2 监督学习1.3 统计学习三要素1.3.1 损失函数和风险函数1.3.2 经验风险最小化和结构风险最小化1.4 模型评估与模型选择1.5 其他... 前言 考研终于...

    前言

    考研终于告一段落,接下来是安心等待入学。想利用这段时间系统学习一下机器学习基础,简单记录一下自己的学习过程,也算是对自己的一种监督。

    1.1 统计学习

    • 统计学习(statistics learning)关注概率统计模型,也称为统计机器学习(statistics machine learning)。
    • 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,一般假设数据是独立同分布产生的。
    • 统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型 (model)、策略(strategy)和算法 (algorithm)

    1.2 监督学习

    • 统计学习假设数据存在一定的统计规律,X 和 Y 具有联合概率分布的假设就是监督学习关于数据的基本假设。
    • 监督学习的模型可以是概率模型或非概率模型,由条件概率分布 P(Y | X)决策函数 Y = f(X) 表示,随具体学习方法而定.
    • 如果这个模型有很好的预测能力,训练样本输出 yi 和模型输出 f(xi) 之间的差就应该足够小,学习系统通过不断地尝试,选取最好的模型。

    1.3 统计学习三要素

    • 模型:监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
    • 策略:有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型,统计学习的目标在于从假设空间中选取最优模型。
    • 算法:算法是指学习模型的具体计算方法。通常解析解不存在,这就需要用数值计算的方法求解。

    下面详细介绍一下“策略”,首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

    1.3.1 损失函数和风险函数

    统计学习常用的损失函数有以下几种:0-1损失,平方损失,绝对损失函数,对数损失函数。

    损失函数的期望是理论上模型 f(X) 关于联合分布 P(X, Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)

    一方面根据期望风险最小学习模型要用到联合分布,另一方面联合分布又是未知的,所以监督学习就成为 一个病态问题(ill-formed problem)

    模型 f(X) 关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical lost),记作 Remp。

    期望风险 Rexp(f) 是模型关于联合分布的期望损失,经验风险 Remp(f) 是模型关于训练样本集的平均损失。根据大数定律,当样本容量 N 趋于无穷时,经验风险 Rexp(f) 趋于期望风险 Remp(f)。所以一个很自然的想法是用经验风险估计期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化

    1.3.2 经验风险最小化和结构风险最小化

    经验风险最小化 (empirical risk minimization, ERM)的策略认为,经验风险最小的模型是最优的模型。根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题:
    在这里插入图片描述
    比如,极大似然估计 (maximum likelihood estimation) 就是经验风险最小化的一个例子。但是,样本容量很小时,经验风险最小化学习的效果就未必很好,会产生"过拟合(over-fitting)" 现象。

    结构风险最小化(structure risk minimization, SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。
    在这里插入图片描述
    比如,贝叶斯估计中的最大后验概率估计 (maximum posterior probability estimation, MAP) 就是结构风险最小化的一个例子。

    1.4 模型评估与模型选择

    • 统计学习方法具体采用的损失函数(学习时)未必是评估时使用的损失函数。当然,让两者一致是比较理想的。
    • 假设学习到的模型是 y=f-hat(X) ,则训练误差是模型 y=f-hat(X) 关于训练数据集的平均损失。测试误差是模型 y=f-hat(X) 关于测试数据集的平均损失。
    • 例如,当损失函数是 0-1 损失时,测武误差就变成了常见的测试数据集上的误差率(error rate)。
      在这里插入图片描述
      关于过拟合与模型选择的例子,例 1.1 多项式拟合。文中对wj偏导的结果似乎有问题,参考 李航《统计学习方法》多项式函数拟合问题V2
      在这里插入图片描述

    1.5 其他…

    还有正则化交叉验证,模型泛化能力生成模型(如朴素贝叶斯和隐马尔科夫模型)与判别模型(k近邻、感知机、决策树和支持向量机),以及分类问题、标注问题(NLP里的词性标注)和回归问题的内容,知识点不一一细记,主要梳理一下疑问的地方。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    好奇上图中第一个不等式右边括号里为什么不是 1/N… 上图书中第1版的式1.27和式1.28有误,分子少了N^2,与分母N约掉后结果为N。
    在这里插入图片描述

    展开全文
  • 统计学习方法》第一章 统计学习方法概论1.1 统计学习1.统计学习的特点2.统计学习的对象3.统计学习的目的4.统计学习的方法5.统计学习的研究6.统计学习的重要性 1.1 统计学习 1.统计学习的特点 统计学习: ...

    1.1 统计学习

    1.统计学习的特点

    1. 统计学习: 计算机基于数据构建概率统计模型并运行模型对数据进行预测与分析的一门学科,也成为统计机器学习(statistical machine learning)。
    2. 主要特点:(1)与计算机及网络为平台;(2)以数据为研究对象,是数据驱动的学科;(3)目的是对数据进行预测与分析;(4)以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;(5)交叉学科(概率论、统计学、最优化理论等),并有独自的理论体系和方法论。
    3. 学习: 一个系统能够通过执行某个过程改进它的性能。统计学习就是计算机系统通过运行数据及统计方法提高系统性能的机器学习

    2.统计学习的对象

    1. 统计学习的对象数据。从数据出发,提取数据的特征,抽象出数据的模型,学习数据中的知识,并将其应用到对数据的分析与预测中去。
    2. 统计学习的前提:统计学习关于数据的基本假设是同类数据具有一定的统计规律性
    3. 同类数据:具有某种共同性质的数据。
    4. 随机变量描述数据的特征概率分布描述数据的统计规律。在统计学习过程中,以变量或变量组表示数据。数据分为连续变量离散变量

    3.统计学习的目的

    对数据进行预测与分析。
    总的目标:考虑学习什么样的模型,如何学习模型。

    4.统计学习的方法

    1. 分类: 监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)。
    2. 监督学习的统计学习方法概括:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合(假设空间(hypothesis space));应用某个评价标准(evaluation criterion),从假设空间中选取一个最优的模型;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间模型选择的准则模型学习的算法,简称为三要素:模型(model)、策略(strategy)和算法(algorithm)。
    3. 实现统计学习方法的步骤:
      (1)得到一个有限的训练数据的集合;
      (2)确定包含所有可能的模型的假设空间,即学习模型的集合;
      (3)确定模型选择的准则,即学习的策略;
      (4)实现秋节最优模型的算法,即学习的算法;
      (5)通过学习方法选择最优的算法;
      (6)利用学习的最优模型对新数据及进行预测或分析。
    4. 监督学习方法:分类标注回归问题。

    5.统计学习的研究

    1. 统计学习方法(statistical learning method): 开发新的学习方法;
    2. 统计学习理论(statistical learning theory): 探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;
    3. 统计学习应用(application of statistical learning): 将统计学习方法应用到实际问题中去,解决实际问题。

    6.统计学习的重要性

    1. 处理海量数据的有效方法;
    2. 计算机智能化的有效手段;
    3. 计算机科学发展的一个重要的组织部分。
    展开全文
  • 统计学习方法(一)——统计学习方法概论

    文章作者:Tyan
    博客:noahsnail.com  |  CSDN  |  简书

    1. 统计学习方法概论

    本文是统计学习方法(李航)第一章的学习总结。

    1.1 统计学习

    1.统计学习的特点

    统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。现在人们提到的机器学习往往是指统计机器学习。

    统计学习的特点:(1)以计算机和网络为平台;(2)以数据为研究对象,是数据驱动的学科;(3)目的是对数据进行分析和预测;(4)以方法为中心,构建模型并应用模型进行分析和预测;(5)是概率论、统计学、信息论、优化理论和计算机科学等多个领域的交叉学科。

    2.统计学习的对象

    统计学习的对象是数据(data)。它从数据出发,提取数据特征,抽象出数据模型,根据模型对数据进行分析和预测。统计学习的前提是假设同类数据(具有某种共同性质)具有一定的统计规律性。统计学习过程中,以变量或变量组表示数据,数据分为连续变量和离散变量表示的类型。

    3.统计学习的目的

    统计学习总的目标就是考虑学习什么的模型和如何学习模型,以使模型能够对数据进行准确的预测和分析,同时也要考虑学习效率。

    4.统计学习的方法

    统计学习分为监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等。统计学习方法包括模型的假设空间、模型选择的准则及模型选择的算法,称为统计学习方法的三要素,简称模型(model)、策略(strategy)和算法(algorithm)。

    5.统计学习的研究

    统计学习的研究包括统计学习方法(算法创新)、统计学习理论(算法效率及有效性)及统计学习应用(解决问题)三个方面。

    6.统计学习的重要性

    统计学习的重要性体现在三个方面:(1)统计学习是处理海量数据的有效方法。(2)统计学习是计算机智能化的有效手段。(3)统计学习是计算机发展的重要组成部分。

    1.2 监督学习

    监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

    1.2.1 基本概念

    1.输入空间、特征空间与输出空间

    在监督学习中,输入与输出的所有可能的取值集合分别称为输入空间(input space)和输出空间(output space)。通常输出空间远远小于输入空间。

    每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应一个特征。当输入空间与特征空间不同时,需要将实例从输入空间映射到特征空间,模型实际上都是定义在特征空间上的。

    监督学习过程中,将输入和输出看作是定义在输入空间和输出空间上的随机变量的取值。习惯上输入变量写作X,其取值写作x,输出变量写作Y,其取值写作y。输入实例的x的特征向量记作

    x=(x(1),x(2),...,x(i),...,x(n))Tx = (x^{(1)}, x^{(2)},..., x^{(i)} ,...,x^{(n)})^T

    x(i)x^{(i)}表示向量x的第i个特征,而xix_i表示第i个输入变量。

    xi=(xi(1),xi(2),...,xi(i),...,xi(n))Tx_i = (x_i^{(1)}, x_i^{(2)},..., x_i^{(i)} ,...,x_i^{(n)})^T

    监督学习从训练数据中学习模型,对测试数据进行预测。训练集通常表示为

    T=(x1,y1),(x2,y2),...,(xN,yN)T = {(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}

    (xi,yi)(x_i,y_i)表示样本或样本点。

    输入变量和输出变量可以是离散型的,也可以是连续型的。输入变量和输出变量都是连续型变量的预测问题称为回归问题;输出变量为有限个离散型变量的预测问题称为分类问题;输入变量和输出变量均为变量序列的预测问题称为标注问题。

    2.联合概率分布

    监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)P(X,Y)表示分布函数或分布密度函数。训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律。

    3.假设空间

    监督学习的目的在于学习一个由输入到输出的映射,映射关系用模型表示。输入到输出的映射集合就是假设空间(hypothesis space)。简单学习的模型可以是概率模型或非概率模型。由条件概率分布P(Y|X)或决策函数Y=f(X)表示。对具体的输入进行输出预测时,写作P(y|x)y=f(x)

    1.2.2 问题的形式化

    监督学习利用训练数据学习模型,再用模型对测试数据进行预测。学习过程中的训练数据往往是人工给出的,因此称为监督学习。监督学习分为学习和预测两个过程,如下图:

    监督学习

    首先给定数据集T=(x1,y1),(x3,y2),...,(xN,yN)T={(x_1,y_1),(x_3,y_2),...,(x_N,y_N)},其中(xi,yi)i=1,2,...,N(x_i,y_i),i=1,2,...,N,称为样本或样本点,xiXRnx_i \in X \subseteq R^n是输入的观测值,称为输入或实例,yiYy_i \in Y是输出的观测值,也称为输出。通过学习得到的模型表示为条件概率分布P(YX)P(Y|X)和决策函数Y=f(X)Y=f(X),模型表示的是输入与输出之间的映射关系。

    预测过程中,对于测试数据中的输入x_N+1x\_{N+1},由模型y_N+1=argmaxP(y_N+1x_N+1)y\_{N+1}=argmax P(y\_{N+1}|x\_{N+1})y_N+1=f(x_N+1)y\_{N+1}=f(x\_{N+1})给出对应的输出y_N+1y\_{N+1}

    1.3 统计学习三要素

    统计学习方法的三要素为模型、策略和算法,它们关系为:统计学习方法 = 模型 + 策略 + 算法

    1.3.1 模型

    在监督学习过程中,模型是要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。假设空间用F表示:
    F={fY=f(X)}F=\lbrace f|Y=f(X)\rbrace
    X和Y是定义在输入输出空间上的变量,F通常是由一个参数向量决定的函数族:
    F={fY=fθ(X),θRn}F=\lbrace f|Y=f_\theta (X),\theta \in R^n \rbrace
    参数向量θ\theta取值于n维欧式空间RnR^n,称为参数空间(parameter space)。假设空间也可以定义为条件概率的集合:

    F={PP(YX)}F=\lbrace P|P(Y|X)\rbrace
    X和Y是定义在输入输出空间上的随机变量,F通常是一个由参数向量决定的条件概率分布族:

    F={PPθ(YX)θRn}F=\lbrace P|P_\theta (Y|X),\theta \in R^n \rbrace
    参数向量θ\theta取值于n维欧式空间RnR^n,也称为参数空间。

    1.3.2 策略

    有了模型的假设空间,统计学习接着考虑的是按照什么样的准则学习或选择最优的模型,统计学习的目标在于从假设空间中选取最优的模型。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

    1.损失函数和风险函数

    监督学习问题是在假设空间F中选取f作为决策函数,对于给定的输入X,f(X)给出对应的输出Y,输出预测值f(X)与真实值Y可能一致也可能不一致,用一个损失函数(loss function)或代价函数(cost function)。损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X))L(Y,f(X))。统计学习常用的损失函数有以下几种:

    • 0-1损失函数(0-1 loss function)
      L(Y,f(X))={1,Yf(X)0,Y=f(X) L(Y,f(X))= \begin{cases} 1, Y \neq f(X) \\\\ 0, Y=f(X) \end{cases}

    • 平方损失函数(quadratic loss function)
      L(Y,f(X))=(Yf(X))2L(Y,f(X))=(Y-f(X))^2

    • 绝对损失函数(absolute loss function)
      L(Y,f(X))=(Yf(X))L(Y,f(X))=|(Y-f(X))|

    • 对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)
      L(Y,f(X))=logP(YX)L(Y,f(X))=-\log P(Y|X)

    损失函数越小,模型越好。由于模型输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是

    R_exp(f)=E_p[L(Y,f(X))]=xyL(y,f(x))P(x,y)dxdyR\_{exp}(f)=E\_p[L(Y,f(X))]=\int_{x*y}L(y,f(x))P(x,y)dxdy

    这是理论上模型f(X)关于联合分布P(x,y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。学习的目标就是选择期望风险最小的模型。由于联合分布P(X,Y)是未知的,Rexp(f)R_{exp}(f)不能直接计算。如果知道联合分布P(X,Y),从联合分布可以直接求出条件概率分布P(Y|X),也就不需要学习了。一方面根据期望风险最小学习模型需要用到联合分布,一方面联合分布又是未知的,因此监督学习就称为一个病态问题(ill-formed problem)。

    给定一个训练数据集

    T=(x1,y1),(x2,y2),...,(xN,yN)T = {(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}

    模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作RempR_{emp}

    R_emp(f)=1Ni=1NL(yi,f(xi))R\_{emp}(f)=\frac {1} {N} \sum_{i=1}^N L(y_i,f(x_i))

    期望风险R_exp(f)R\_{exp}(f)是模型关于联合分布的期望损失,经验风险R_emp(f)R\_{emp}(f)是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险R_emp(f)R\_{emp}(f)趋于期望风险R_exp(f)R\_{exp}(f)。因此很自然的一个想法就是用经验风险估计期望风险,但由于训练数据是有限的,因此要对经验风险进行一定的矫正。这关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

    2.经验风险最小化和结构风险最小化

    在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数就可以确定。经验风险最小化(empirical risk minimization,ERM)策略认为,经验风险最小的模型就是最优的模型。求解经验最小化最优模型就是求解最优化问题:

    min_fF1N_i=1NL(y_i,f(x_i))^{min} \_{f \in F} \frac {1} {N} \sum\_{i=1}^N L(y\_i, f(x\_i))

    当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子。当模型是条件概率分布时,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。但是,当样本容量很小时,经验风险最小化未必会很好,有可能产生“过拟合”现象。

    结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出来的策略,结构化风险最小化等价于正则化(regularization)。结构风险在经验风险的基础上加上了表示模型复杂度的正则项(regularizer)或惩罚项(penalty term)。在假设空间、损失函数和训练数据集确定的情况下,结构风险定义为:

    R_srm(f)=1Ni=1NL(yi,f(xi))+λJ(f)R\_{srm}(f)=\frac {1} {N} \sum_{i=1}^N L(y_i,f(x_i)) + \lambda J(f)

    J(f)J(f)为模型的复杂度,模型f越复杂,J(f)越大。λ>=0\lambda>=0是权衡经验风险和模型复杂度的系数。

    结构风险最小化策略认为,结构风险最小的模型就是最优的模型。求解最优模型就是求解最优化问题:

    min_fF1N_i=1NL(y_i,f(x_i))+λJ(f)^{min} \_{f \in F} \frac {1} {N} \sum\_{i=1}^N L(y\_i, f(x\_i)) + \lambda J(f)

    这样,监督学习问题变成了经验风险或结构风险的最优化问题。

    1.3.3算法

    算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选取最优模型,然后考虑用什么计算方法求解最有模型。统计学习问题变为了最优化问题,统计学习的算法变味求解最优化问题的算法。如何保证找到全局最优解,并使求解过程非常高效,就称为一个重要问题。

    1.4 模型评估与模型选择

    1.4.1 训练误差与测试误差

    当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就自然称为学习方法评估的标准。假设学习到的模型为$ Y=f\hat (X)$,训练误差是模型关于训练数据集的平均损失:

    R_emp(f)^=1N_i=1NL(y_i,f(^x_i))R\_{emp}(f \hat)=\frac {1} {N} \sum\_{i=1}^N L(y\_i,f \hat(x\_i))

    测试误差是关于测试数据集的平均损失:

    e_test(f)^=1N_i=1NL(y_i,f(^x_i))e\_{test}(f \hat)=\frac {1} {N \prime} \sum\_{i=1}^{N\prime} L(y\_i,f \hat(x\_i))

    N和NN\prime分别为训练数据集和测试数据集的样本容量。

    通常将学习方法对未知数据的预测能力称为泛化能力(generalization ability)。

    1.4.2 过拟合和模型选择

    过拟合是指学习时选择的模型包含参数过多,以至于模型对已知数据预测很好,而对未知数据预测很差的现象。模型选择旨在避免过拟合并提供模型的预测能力。模型选择时,不仅要考虑对已知数据的预测能力,而且还要考虑对未知数据的预测能力。下图展示了训练误差、测试误差与模型复杂度之间的关系。当模型复杂度增大时,训练误差会逐渐减少并趋向于0;而测试误差会先减少,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。学习时要防止过拟合,进行最优的模型选择,即选择模型复杂度适当的模型,以使测试误差达到最小。

    训练误差、测试误差与模型复杂度之间的关系

    1.5 正则化与交叉验证

    1.5.1 正则化

    模型选择的方法是正则化(regularization)。正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项(regularizer)或惩罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化一般具有以下形式:

    min_fF1N_i=1NL(y_i,f(x_i))+λJ(f)^{min}\_{f \in F } \frac {1} {N} \sum\_{i=1}^{N} L(y\_i,f(x\_i)) + \lambda J(f)

    其中,第一项是经验风险,第二项是正则化项,λ>=0\lambda >= 0为调整两者之间关系的系数。

    正则化项可以取不同的形式,回归问题中,损失函数是平方损失,正则化项可以是参数向量的L_2L\_2范数:

    L(w)=1N_i=1N(f(x_i;w)y_i)2+λ2w2L(w)=\frac {1} {N} \sum\_{i=1}^{N} (f(x\_i;w) - y\_i)^2 + \frac {\lambda} {2} ||w||^2

    w||w||表示参数向量w的L_2L\_2范数。正则化项也可以是参数向量的L_1L\_1范数:

    L(w)=1N_i=1N(f(x_i;w)y_i)2+λ2w_1L(w)=\frac {1} {N} \sum\_{i=1}^{N} (f(x\_i;w) - y\_i)^2 + \frac {\lambda} {2} ||w||\_1

    w_1||w|\_1表示参数向量w的L_1L\_1范数。

    正则化的作用是选择经验风险和模型复杂度同时较小的模型。正则化符合奥卡姆剃刀原理:在所有可能选择的模型中,应该选择能够很好的解释已知数据并且十分简单的模型。从贝叶斯估计的角度来看,正则化项对应模型的先验概率,可以假设复杂的模型具有较小的先验概率,简单的模型具有较大的先验概率。

    1.5.2 交叉验证

    另一种常用的模型选择方法是交叉验证(cross validation)。如果给定的样本数据充足,进行模型选择的一种简单方法是随机的将数据分为训练集(training set)、测试集(test set)和验证集(validation set)。训练集用来训练模型,测试集用于模型的评估,验证集用于模型的选择。在学习到的模型中,选择对验证集有最小预测误差的模型。当数据集不充足时,可以采用交叉验证的方法。交叉验证的基本思想是重复的使用数据;吧核定的数据分为训练集和测试集,在此基础上进行反复的训练、测试和模型选择。

    1.简单交叉验证

    简单交叉验证方法是:首先随机地将数据分为两部分——训练集(70%)和测试集(30%);然后用训练集在各种条件下训练得到不同的模型,在测试集上评价各个模型的测试误差,选择测试误差最小的模型。

    2.S折交叉验证

    应用最多的是S折交叉验证(S-fold cross validation),首先随机地将数据分为S个互不相交的大小相同的子集,然后利用S1S-1个子集的数据进行训练,用剩下的子集进行测试;重复上述过程,最后选出S次测试中平均测试误差最小的模型。

    3.留一交叉验证

    S折交叉验证特殊情况是S=NS=N,称为留一交叉验证(leave-one cross validation),往往在数据缺乏的情况下使用。

    1.6 泛化能力

    1.6.1 泛化误差

    学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上最重要的性质。通常采用测试误差来评价学习方法的泛化能力,但这种方法依赖于测试数据,但数据较少时评价结果有可能不可靠。统计学试图从理论上对学习方法的泛化能力进行分析。

    首先给出泛化误差的定义,如果学到的模型是f^\hat f,那么用这个模型对未知数据预测的误差即为泛化误差(generalization error)

    R_exp(f^)=E_p[L(Y,f^(X))]=xyL(y,f^(x))P(x,y)dxdyR\_{exp}(\hat f)=E\_p[L(Y,\hat f(X))] = \int_{x*y}L(y,\hat f(x))P(x,y)dxdy

    泛化误差反映了学习方法的泛化能力,泛化误差就是所学习到的模型的期望风险。

    1.6.2 泛化误差上界

    学习方法的泛化能力分析往往是通过研究误差的概率上界进行的,简称为泛化误差上界(generalization error bound)。泛化误差上界通常具有以下性质:它是样本容量的函数,当样本容量增加时,泛化上界趋向于0;它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

    1.7 生成模型和判别模型

    监督学习方法可分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:

    P(YX)=P(X,Y)P(X)P(Y|X)=\frac {P(X,Y)} {P(X)}

    之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。

    判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:k近邻法、感知机、决策树、逻辑回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

    在监督学习中,生成方法和判别方法各有优缺点,适合于不同条件下的学习问题。生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的收敛速度更快,当存在隐变量时,仍可以使用生成方法,此时判别方法不可用。判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

    1.8 分类问题

    分类是监督学习的一个核心问题。在监督学习中,当输出变量Y取有限个离散值时,预测问题便称为分类问题。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction),称为分类(classification)。分类的类别为多个时,称为多分类问题。分类问题包括学习和分类两个过程。学习过程中,根据已知的训练数据集学习一个分类器,分类过程中,根据学习的分类器对新实例进行分类。分类问题如图所示:

    分类问题

    精确率的定义为P=TPTP+FPP=\frac {TP} {TP+FP},召回率的定义为R=TPTP+FNR=\frac {TP} {TP+FN},F1值是精确率和召回率的调和均值,公式为F1=2PRP+RF1=\frac {2PR} {P+R}。精确率和召回率都高时,F1值也会高。

    1.9 标注问题

    标注(tagging)也是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。标注问题分为学习和标记过程。学习系统基于训练数据集构建一个模型,表示为条件概率,标注系统按照学习到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。标注问题如下图所示:

    标注问题

    评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率。标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。标注问题在信息抽取、自然语言处理等领域被广泛应用,是这些领域的基本问题。

    1.10 回归问题

    回归(regression)是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生变化。回归模型正是表示从输入变量到输出变量之间的映射的函数。回归问题等价于函数拟合,选择一条函数曲线使其很好地拟合已知数据且很好的预测未知数据。

    回归问题分为学习和预测两个过程。学习系统基于训练数据构建一个模型,预测系统根据学习的模型确定相应的输出。回归问题如下图所示:

    回归问题

    回归问题按照变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数,此情况下回归问题可以用最小二乘法求解。

    展开全文
  • 统计学习方法-李航

    2017-11-06 09:15:48
    统计学习方法-李航统计学习方法-李航统计学习方法-李航统计学习方法-李航
  • 统计学习方法》学习笔记目录

    千次阅读 多人点赞 2019-12-10 21:54:27
    此篇为 李航老师著的《统计学习方法》的学习笔记汇总,准备学习并敲一敲代码,还请大家不吝赐教!
  • 这一系列的博客是对李航老师的《统计学习方法》的总结,算是个人的学习笔记吧,因为刚刚接触机器学习,对一些知识的理解可能会不到位,若有不严谨的地方,欢迎大家纠正,一起交流。 文章目录什么是统计学习监督学习...
  • 统计学习方法.rar

    2020-07-23 21:42:52
    李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场...
  • 统计学习方法》第1章 统计学习方法概论1.3统计学习的三要素 1.3统计学习的三要素 方法=模型+策略+算法
  • (4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析; (5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中
  • 一.基本概念 1.统计学习:统计学习是利用计算机并基于数据构建概论统计模型并利用模型对数据进行预测和分析的一门学科。又称为“统计机器学习...(4)统计学习以方法为中心,统计学习方法构建模型并利用模型对...
  • 统计学习方法概论学习统计学习统计学习的特点统计学习的目的统计学习的方法监督学习基本概念输入空间、特征空间与输出空间联合概率分布假设空间统计学习三要素模型策略损失函数和风险函数损失函数风险函数经验风险...
  • 第一章:统计学习方法概论 1.1统计学习(or统计机器学习)     本章简要叙述统计学习方法中的一些基本概念 1. 统计学习的定义:统计学习是用计算机 基于数据 构建概率统计模型 对数据进行分析预测的一门学科 2. ...
  • 统计学习方法 李航 学习总结 学习笔记 高清版
  • 统计学习方法 第1章 统计学习方法概论统计学习 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习包括监督学习,非监督学习,半监督学习和强化学习。本书主要讨论监督学习...
  • 李航《统计学习方法》学习笔记-第一章-统计学习方法概论导学与资源推荐数据与规律课件中推荐的资源机器学习概述机器学习定义理解机器学习应用机器学习的发展历程机器学习VS统计学习统计学习的方法按有无监督分类监督...
  • 第一章 统计学习方法概论 1.1 统计学习 1.2 监督学习 1.2.1 基本概念 1.3 统计学习三要素 1.3.1 模型 1.3.2 策略 1.4 模型评估与模型选择 1.4.1 训练误差和预测误差 1.4.2 过拟合与模型选择 1.5 正则化与交叉...
  • 统计学习方法PPT

    2016-11-29 21:48:00
    李航蓝皮书《统计学习方法》配套PPT,由清华大学深圳研究院袁春老师制作,特意分享出来供大家学习
  • 李航-统计学习方法PPT

    2018-11-06 23:36:13
    李航-统计学习方法PPT,与统计学习方法一书配套结合。
  • 统计学习方法概论 1.1 统计学习 1.1.1 统计学习的特点 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科 1.1.2. 统计学习的对象 对象是数据,基本假设是同类数据具有一定...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 17,548
精华内容 7,019
热门标签
关键字:

统计学习方法