统计学习方法 订阅
《统计学习方法》是2012年清华大学出版社出版的图书,作者是李航。本书全面系统地介绍了统计学习的主要方法,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 [1] 展开全文
《统计学习方法》是2012年清华大学出版社出版的图书,作者是李航。本书全面系统地介绍了统计学习的主要方法,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 [1]
信息
ISBN
9787302275954
页    数
235页
作    者
李航
书    名
统计学习方法
出版时间
2012 年3月
开    本
16开
出版社
清华大学出版社
统计学习方法内容简介
统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。
收起全文
精华内容
下载资源
问答
  • 清华大学的袁春老师制作的《统计学习方法》的课件,我对所有ppt进行了合并,很方便集体打印。
  • 统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持...
  • 以李航《统计学习方法》为参考,包含自己的理解和部分相关代码~有所不对请大家指出,新手上路,请多指教。
  • 【机器学习】李航 统计学习方法 知识点总结

    万次阅读 多人点赞 2019-06-21 10:43:42
    机器学习实战代码 阅读目录 知识点 感知机 k近邻法 朴素贝叶斯 决策树 logistic回归和最大熵...因为要准备面试,本文以李航的《统计学习方法》为主,结合西瓜书等其他资料对机器学习知识做一个整理. 知识点...
    展开全文
  • 统计学习方法学习笔记一

    千次阅读 2017-03-16 09:23:04
    第一章 统计学习方法概论 统计学习的主要特点是 统计学习的对象 统计学习方法的分类 统计学方法的三个要素 统计学方法的步骤 统计学习的研究 监督学习supervised leaning 三要素 模型 策略 算法 训练误差与测试误差 ...

    第一章 统计学习方法概论

    统计学习的主要特点是

             (1)平台--------计算机及网络,是建立在计算机及网络之上的;
             (2)研究对象--------数据,是数据驱动的学科;
             (3)目的---------对数据进行预测与分析;
             (4)中心---------方法,统计学习方法构建模型并应用模型进行测试与分析;
             (5)交叉学科--------概率论、统计学、信息论、计算理论、最优化理论以及计算机科学等多个领域的交叉学科。
    

    统计学习的对象

      面向的研究对象就是数据
    

    Created with Raphaël 2.1.0 数据开始 提取数据特征 发现数据中的知识 对数据进行分析和预测

    统计学习方法的分类

      监督学习(supervised leaning)
      无监督学习(unsupervised leaning)
      半监督学习(semi-supervised leaning)
      强化学习(reinfoucement leaning)
    

    统计学方法的三个要素

     统计学习方法=模型(model)+策略(strategy)+算法(algorithm)
     模型:找到一个能够解决问题的条件概率或者决策函数。
     策略:找到一个能够可以优化模型(或者衡量模型的)损失函数(比如0-1损失)。
     算法:找到一种可以优化损失函数的方法(比如:梯度下降法)。
    

    统计学方法的步骤

     1  得到一个有限的训练数据集
     2 确定假设空间(即所有可能的模型)
     3 确定选择模型的准则(即策略)
     4 实现求解最优化模型的算法(即算法)
     5 选择最优模型
     6 利用最优模型对新来的数据进行预测和分析
    

    统计学习的研究

    • 统计学习方法的研究——发现新的学习方法
    • 统计学习理论的研究——提高统计学习方法的有效性和效率
    • 统计学习应用的研究——-将统计学习方法应用到实际问题中去,解决实际问题。

    监督学习/supervised leaning

    监督学习是本书的主要学习
    

    监督学习也可以叫做有指导的学习,(在老师的指导和监督下学习,你会学的更好)所以,一般情况下,监督学习模型要优于无监督学习模型。当然会以需要训练集来作为代价,也就是说监督学习比无监督学习需要更多的资源(毕竟需要指导)。

    假设输入实例X的特征向量记作
    训练集:
    假设输入变量用X表示,输出变量用Y表示,并假设输入与输出的随机变量X和Y满足联合概率分布P(X,Y),监督学习问题的模型如下所示:

    这个模型还是比较容易理解的,简单的可以理解为:将训练集输入到我们的学习系统—->根据决策方法学习一个最优的模型—–>利用这个最优的模型对新来的数据进行预测。

    根据输入、输出变量的不同可以把预测任务分为以下三类:
    
    回归问题-----输入变量与输出变量均为连续变量的预测问题;
    分类问题------输出变量为有限个离散变量的预测问题;
    标注问题------输入变量与输出变量均为变量序列的预侧问题.
    他们的问题模型只需要把上图中的“预测系统”改为“分类系统”、“标注系统”即可
    

    三要素

    模型

    在监督学习过程中,模型就是所要学习的条件概率或者决策函数。
    (决策函数模型)
    (条件概率模型)

    策略

    损失函数和风险函数
    损失函数(loss function)或代价函数(cost function)是用来度量模型的预测能力的。损失函数是 f (X)(预测值)和Y(真实值)之间的非负实值函数(因为两者之间的差值可以理解为两者之间的距离,是非负的。),记作L(Y, f (X)) 。

    常用损失函数:

      (1)0-1损失函数(0-1 loss function)
    

     (2)平方损失函数 (quadratic loss function)
    

     (3)绝对损失函数 (absolute loss function)
    

     (4)对数损失函数(logarithmic loss function)或对数似然损失函数 (loglikehood loss function)
    


    当然还存在其他的损失函数比如:指数损失函数或者Hinge Loss等。损失函数值越小,代表模型越好,模型出现的误差越小。
    经验损失或者经验风险
    由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:

    这是理论上模型f (X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。学习的日标就是选择期望风险最小的模型。由于,一方面根据期望风险最小化模型要用到联合概率分布,另一方面联合分布又是未知的,所以监督学习就成为一个病态问题!
    在此我们提出另外一个概念:经验风险。(根据我自己的理解,带有“经验”的东东,一般是平均意义下东东,毕竟经验是需要积累的嘛。)
    模型f(x)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss):

    期望风险Rexp(f)是模型关于联合分布的期望损失,经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。所以一个很自然的想法是用经验风险估计期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正.这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化.

    经验风险最小化(empirical risk minimization, ERM),即求解最优化问题:

    当样本容量足够大时,经验风险最小化能保证有很好的学习效果(比如一个人的经验积累越多,判别力肯定会越好)但是当样本容量很小的时候,经验风险最小化的学习效果未必很好(毕竟走过的路有点小,以为世界就那么大,所以很容易做出错误的判断),可能会产生“过拟合(over-fitting)”现象。因此这时需要结构风险最小化。

    结构风险最小化(structural risk minimization, SRM)是为了防止过拟合,在经验风险上加上表示模型复杂度的正则化项(regulatizer)或罚项(penalty term ),定义是:

    其中J (f)为模型的复杂度(有的时候可以理解为模型所需要的参数个数。)

    结构风险小需要经验风险与模型复杂度同时小。

    算法

    学习模型的具体计算方法。统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问
    题的算法。如何找到全局最优解并使得求解的过程非常高效!

    训练误差与测试误差

    一般情况下,我们将数据集分为两大类:训练集和测试集。(有的时候分成三部分:训练集、验证集、测试集)。
    训练误差是指模型在训练集上的误差,反映的是模型的学习能力。
    (关于训练数据集的平均损失)
    测试误差是指模型在测试集上误差,反映的是模型的预测能力。
    (关于测试数据集的平均损失)

    过拟合

    过拟合(over-fitting):如果一味追求提高对训练数据的预侧能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting)。过拟合是指学习时选择的模型对己知数据(训练数据集中的数据)预测得很好,但对未知数据(测试数据集中的数据)预测得很差的现象。

    例如:

    上面的例子是,根据数据分布拟合多项式模型,M代表模型的多项式次数,我们可以看到M=0和M=1的时候,模型的学习和预测能力都不好,而M=9的时候,模型的学习能力很好(几乎都学会了,也就是说拟合出的多项式模型,可以通过每个训练数据样本点),但是它的预测能力很差!并且模型太复杂!而当M=3的时候,模型的学习能力和预测能力都是比较好的。(从图图像上直观的看到是,预测出的曲线模型和真实的曲线模型之间拟合度)。

    训练误差和测试误差与模型复杂度之间的关系

    模型的选择方法:正则化和交叉验证

    正则化我们学过了,就是结构风险最小化策略的实现:

    上式中的第二项就是我们的正则项(或者罚项)。

    交叉验证:重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择.

    简单交叉验证 
        首先随机地将己给数据分为两部分,一部分作为训练集,另一部分作为测试集;然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型.
     k-折交叉脸证(S-fold cross validation)
         方法如下:首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均侧试误差最小的模型.
     留一文叉验证 (leave-one-out cross validation)
         k-折交叉验证的特殊情形是k=N,N是给定数据集的容量。
    

    生成模型和判别模型

    监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach).所学到的模型分别称为生成模型(geuemtive model)和判别模型(discriminative model)。生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(YIX)作为预测的模型,即生成模型。

    这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系.典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。

    判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型.判别方法关心的是对给定的输入X,应该预测什么样的输出Y.典型的判别模型包括k近邻法、感知机、决策树、逻辑斯谛回归模型、最大嫡模型、支持向量机、提升方法和条件随机场等。

    给定输入X,生成模型不能直接预测出输出的y,需要计算之后,再比较(或者求出的是各种输出可能性的概率值,最大作为最终的求解结果),而判别模型可以直接给出预测结果y,(利用判断规则或者方法)

    生成方法的特点:

      1、生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;
     2、生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;
    3、当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
    

    判别方法的特点:

    1、直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;
    2、由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题.
    

    几种模型评估标准

    这里写图片描述

    TP(True Positive)——将正类预测为正类数(d);
    FN(False Negative)——将正类预测为负类数(c);
    FP(False Positive)——将负类预测为正类数(b):
    TN(True Negative)——将负类预测为负类数(a).
    

    精确率 P(Positive)=TP/(TP+FP)=d/(d+b)
    召回率R(Positive)=TP/(TP+FN)=d/(d+c)
    F1(精确率和召回率的调和均值)
    F1(Positive)=(2*P*R)/(P+R)

    同理可以求得P(Negative)、R(Negative)、F1(Negative)
    这三种度量一般用于检测模型对每一类别的检测或预测能力。
    对模型整体评估如有准确率AC(accuracy)
    AC=(a+d)/(a+b+c+d)(对角线元素,正类和负类都预测正确的样本数)/(样本总数)
    还有ROC曲线等。
    最后贴一张比较高大上的图片,看不懂的童鞋不用较真,能准确理解上面的几种度量标准也ok~~~


                                                              人生如棋,落子无悔
                                  ----by Ada
    
    展开全文
  • 统计学习方法

    万次阅读 2018-11-19 00:16:18
    第一章 统计学习方法概论 1.2监督学习 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示 ...
    • 统计学习的方法:
      • 监督学习
      • 非监督学习
      • 半监督学习
      • 强化学习

    第一章 统计学习方法概论

    1.2监督学习

    • 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
    • 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示
    1.2.2问题的形式化
    • 监督学习分为学习和预测两个过程

    1.3统计学习三要素

    • 方法=模型+策略+算法
    1.3.1模型
    • 模型就是要学习的条件概率分布或者决策分布
    1.3.2策略
    • 用一个损失函数或者代价函数来度量预测错误的程度
    • 损失函数
      • 0-1损失函数
      • 平方损失函数
      • 绝对损失函数
      • 对数损失函数
    • 模型f(X)关于训练数据集的平均损失称为经验风险或经验损失
    • 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失
    • 监督学习的两个基本策略:经验风险最小化与结构风险最小化
    • 经验风险最小化的策略认为经验风险最小的模型就是最优模型
    • 结构风险最小化(SRM)是为了防止过拟合的策略,等价于正则化
      • 结构风险在经验风险上加上表示模型复杂度的正则化项或罚项
    1.3.3算法
    • 算法是指学习模型的具体计算方法

    1.4模型评估与模型选择

    1.4.1训练误差与测试误差
    • 损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就是学习方法评估的标准
    • 训练误差是模型关于训练数据集的平均损失
    • 测试误差是模型关于测试数据集的平均损失
    • 通常将学习方法对未知数据的预测能力称为泛化能力
    1.4.2过拟合与模型选择
    • 当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大

    1.5正则化与交叉验证

    1.5.1正则化
    • 正则化是结构风险最小化策略的实现, 是在经验风险上加一个正则化项或罚项
      • 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
    • 范数就是衡量向量的大小
    • 正则化符合奥卡姆剃刀(Occam’s razor)原理。应用于模型选择:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。
      • 从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。
    1.5.2交叉验证
    • 将数据集分为三部分;
      • 训练集:训练模型
      • 验证集:模型的选择
      • 测试集:对学习方法的评估
    • 简单交叉验证
      • 数据集分为两部分:
        • 训练集 70%
        • 测试集 30%
      • 选出测试误差最小的模型
    • S折交叉验证
      • 首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型
    • 留一交叉验证
      • S折交叉验证的特殊情形是S=N,称为留一交叉验证,往往在数据缺乏的情况下使用(N是给定数据集的容量)

    1.6泛化能力

    1.6.1发话误差
    • 模型对未知数据预测的误差即为泛化误差。泛化误差越小,这种方法就越有效
    1.6.2泛化误差上界
    • 训练误差小的模型,泛化误差也会小

    1.7

    • 监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出
    • 监督学习方法又可分为判别方法生成方法
      • 生成方法由数据学习联合概率分布P(X, Y),然后求出条件概率模型P(Y | X)作为预测的模型,即生成模型:
        P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y | X) = \frac{P(X, Y)} {P(X)} P(YX)=P(X)P(X,Y)
        • 典型的生成模型有:
          • 朴素贝叶斯法
          • 隐马尔可夫模型
        • 特点:
          • 生成方法可以还原出联合概率分布P(X, Y),而判别方法则不能
          • 生成方法的学习速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型
          • 当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用
      • 判别方法有数据直接学习决策函数f(X)或者条件概率分布P(Y | X)作为预测模型,即判别模型
        • 典型的判别模型方法:
          • k临近法
          • 感知机
          • 决策树
          • 逻辑斯谛回归模型
          • 最大熵模型
          • 支持向量机
          • 提升方法
          • 条件随机场
        • 特点:
          • 判别方法直接学习的是条件概率P(Y | X)或决策函数f(X),直接面对预测,往往学习的准确率更高
          • 由于直接学习P(Y | X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题

    1.8分类问题

    • 监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出预测,称为分类
    • 分类问题分为学习分类
    • 分类器的性能指标一般是分类准确率:
      • 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数0-1损失时测试数据集上的准确率
    • 二分类评价指标值精准率召回率
    类别解释
    TP将正类预测为正类数
    FN将正类预测为负类数
    FP将负类预测为正类数
    TN将负类预测为负类数
    • 精确率:

    P = T P T P + F P P = \frac{TP} {TP + FP} P=TP+FPTP

    • 召回率:

    R = T P T P + F N R = \frac{TP}{TP + FN} R=TP+FNTP

    • F1值:

    2 F 1 = 1 P + 1 R \frac{2} {F1} = \frac{1} {P} + \frac{1} {R} F12=P1+R1

    F 1 = 2 ∗ T P 2 ∗ T P + F P + F N F1 = \frac {2 * TP} {2 * TP + FP + FN} F1=2TP+FP+FN2TP

    1.9标注问题

    • 输入是一个观测序列,输出是一个标记序列或状态序列
    • 常用统计学习方法有:
      • 隐马尔科夫模型
      • 条件随机场

    1.10回归问题

    • 回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输出变量的值发生变化时,输出变量的值随之发生变化。
    • 按照输入变量的个数,分为一元回归多元回归
    • 按照输入变量和输出变量之间关系类型,分为线性回归非线性回归
    • 回归学习最常用的损失函数是平方损失函数,由最小二乘法求解

    第二章 感知机

    • 感知机是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别
    • 属于判别模型

    2.1感知机模型

    • 感知机定义:
      • 输入空间(特征空间)是 X ⊆ R n X \subseteq R^n XRn
      • 输出空间是 y = { + 1 , − 1 } y = \begin{Bmatrix}+1, -1\end{Bmatrix} y={+11}
      • 输入空间到输出空间的函数(称为感知机) f ( x ) = s i g n ( w ∗ x + b ) f(x) = sign(w * x + b) f(x)=sign(wx+b)
        • w和b为感知机模型参数
        • w叫做权值或权值向量
        • b叫做偏置
        • w * x表示w和x的内积
        • sign是符号函数

    2.2感知机学习策略

    • 数据集的线性可分性
      • 如果存在某个超平面S能够将数据集的正实例和负实例点完全正确地划分到超平面的两侧,即对所有 y i = + 1 y_i = +1 yi=+1 的实例 i,有 w ∗ x i + b &gt; 0 w * x_i + b &gt; 0 wxi+b>0,对所有 y i = − 1 y_i = -1 yi=1的实例 i,有 w ∗ x i + b &lt; 0 w * x_i + b &lt; 0 wxi+b<0,则称数据集T为线性可分数据集。
    • 感知机学习策略
      • 感知机sign(w * x + b)学习的损失函数定义为 L ( w , b ) = − ∑ x i ∈ M y i ( w ∗ x i + b ) L(w, b) = - \sum_{x_i \in M} y_i(w * x_i + b) L(w,b)=xiMyi(wxi+b)
      • M为误分点的集合,感知机学习的经验风险函数
      • 损失函数L(w, b)是w, b的连续可导函数

    2.3感知机学习算法

    • 损失函数极小化问题的损失函数 min ⁡ w , b L ( w , b ) = − ∑ x i ∈ M y i ∗ ( w ∗ x i + b ) \min_{w, b}L(w, b) = - \sum_{x_i \in M} y_i * (w * x_i + b) w,bminL(w,b)=xiMyi(wxi+b)
      损失函数对应于误分类点到分离超平面的总距离

    第三章 k近邻法

    • k近邻法(k-NN)是一张基本分类回归方法
    • 基本要素:
      • k值的选择
      • 距离度量
      • 分类决策规则

    3.1k近邻算法

    • 定义:
      • 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k和实例,这k个实例的多数属于某个类,就把该输入实例分为这个类
    • 没有显式的学习过程
    3.2.2距离度量
    • 欧式距离:以空间为基准的两点之间最短距离
    • 曼哈顿距离:两点在南北方向上的距离加上在东西方向上的距离,即 d ( i , j ) = ∣ x i − x j ∣ + ∣ y i − y j ∣ d(i,j)=|xi-xj|+|yi-yj| dij=xixj+yiyj
    3.2.3k值的选择
    • k值的减小就意味着整体模型变得复杂,容易发生过拟合
    • k值的增大就相当于用较大邻域中的训练实例进行预测,可以减少学习的估计误差,学习的近似误差增大,模型变得简单
    • 应用中,k值一般取一个较小的数值,通常采用交叉验证法来选取最优的k值

    3.3k近邻法的实现:kd树

    • k近邻法最简单的实现就是线性扫描,当训练集很大时,计算非常耗时
    3.3.1构造kd树
    • kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构
    • kd树是二叉树,表示对k维空间的划分
    • 构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一系列的k维超巨型区域。kd树的每个节点对应于一个k维超巨型区域
    3.3.2 搜索kd树
    • kd树的最邻近搜索
      • 输入:已构造的kd树;目标点x
      • 输出:x的最邻近
      • 解答:
        • 在kd树中找出包含目标点x的叶节点:从根节点出发,递归地向下访问kd树。若目标点x当前维的坐标小于切分点的坐标,则移动到左子节点,否则移到右子节点。直到子节点为叶节点为止
        • 以此叶节点为“当前最近点”
        • 递归地向上回退,在每个节点进行以下操作:
          • 如果该节点保存的实例点比当前最近点距离目标点更近,则以该实例点为“当前最近点”
          • 当前最近点一定存在于该节点一个子节点对应的区域。检查该子节点的父节点的另一子节点的区域是否有更近的点。具体地,检查另一子节点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超平面球体相交。如果相交,可能在另一个子节点对应的区域内存在距目标点更近的点,移动到另一个子节点。接着,递归地进行最近邻搜索。
        • 当回退到根节点时,搜索结束,最后的“当前最近点”即为x的最近邻点。

    第四章 朴素贝叶斯法

    • 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

    • 对于给定的训练数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y

    • 先验概率: P ( 原 因 ) P(原因) P()

    • 后验概率: P ( 原 因 ∣ 结 果 ) P(原因|结果) P()

    • 条件概率: P ( Y ∣ X ) P(Y|X) P(YX) 表示在条件X成立时,Y存在成立的概率

    4.1朴素贝叶斯法的学习与分类

    • 朴素贝叶斯法通过训练数据集学习联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)
      学习先验概率分布: P ( Y = c k ) , k = 1 , 2 , … … , k P(Y=c_k), k=1, 2, ……, k P(Y=ck),k=1,2,,k
      学习条件概率分布: P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , … … , X ( n ) = x ( n ) ) , k = 1 , 2 , … … , k P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, ……, X^{(n)}=x^{(n)}), k=1, 2, ……, k P(X=xY=ck)=P(X(1)=x(1),,X(n)=x(n)),k=1,2,,k
      于是学习到联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)
    • 属于生成模型
    • 朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布 P ( Y = c k ∣ X = x ) P(Y=c_k|X=x) P(Y=ckX=x),将后验概率最大类作为x的类输出。后验概率公式:
      P ( Y = c k ∣ X = x ) = P ( X = x ∣ Y = c k ) P ( Y = c k ) ∑ k P ( X = x ∣ Y = c k ) P ( Y = c k ) P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)} P(Y=ckX=x)=kP(X=xY=ck)P(Y=ck)P(X=xY=ck)P(Y=ck)
    4.1.2后验概率最大化的含义
    • 朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化
    • 后验概率最大化准则: f ( x ) = arg ⁡ max ⁡ c k P ( c k ∣ X = x ) f(x)=\mathop{\arg\max}_{c_k}P(c_k|X=x) f(x)=argmaxckP(ckX=x)
    4.2.1极大似然估计
    • 先验概率 P ( Y = c k ) P(Y=c_k) P(Y=ck)的极大似然估计是 P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N , k = 1 , 2 , … … , K P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}, k=1, 2, ……, K P(Y=ck)=Ni=1NI(yi=ck),k=1,2,,K
    • 条件概率 P ( X ( f ) = a j l ∣ Y = c k ) P(X^{(f)}=a_{jl}|Y=c_k) P(X(f)=ajlY=ck)的极大似然估计是 P ( X ( f ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( f ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) P(X^{(f)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(f)}=a_{jl}, y_i=c_k)}{\sum_{i=1}{N}I(y_i=c_k)} P(X(f)=ajlY=ck)=i=1NI(yi=ck)i=1NI(xi(f)=ajl,yi=ck)
      j = 1 , 2 , … … , n ; l = 1 , 2 , … … , S j ; k = 1 , 2 , … … , K j=1, 2, ……, n; l=1, 2, ……, S_j; k=1, 2, ……, K j=1,2,,n;l=1,2,,Sj;k=1,2,,K
      式中, x i ( f ) x_i^{(f)} xi(f)是第i个样本的第j个特征; a j l a_{jl} ajl是第j个特征可能取的第l个值;I为指示函数
    4.2.3贝叶斯估计
    • 用极大似然估计可能会出现所要估计的概率值为0的情况。条件概率的贝叶斯估计是 P λ ( X j = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ P_\lambda(X^{j}=a_{jl}|Y=c_k)=\frac{\sum^N_{i=1}I(x_i^{(j)}=a_{jl}, y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda} Pλ(Xj=ajlY=ck)=i=1NI(yi=ck)+Sjλi=1NI(xi(j)=ajl,yi=ck)+λ

    • 式中 λ &gt; = 0 \lambda&gt;=0 λ>=0等价于在随机变量各个取值的频数上赋予一个正数 λ &gt; 0 \lambda&gt;0 λ>0。当 λ = 0 \lambda=0 λ=0时就是极大似然估计。常取 λ = 1 \lambda=1 λ=1,这时称为拉普拉斯平滑。显然对于任何 l = 1 , 2 , … … , S j , k = 1 , 2 , … … , K l=1, 2, ……, S_j, k=1, 2, ……, K l=1,2,,Sj,k=1,2,,K P λ ( X ( f ) = a j l ∣ Y = c k ) &gt; 0 P_\lambda(X^{(f)=a_{jl}}|Y=c_k)&gt;0 Pλ(X(f)=ajlY=ck)>0 ∑ l = 1 S j P ( X j = a j l ∣ Y = c k ) = 1 \sum_{l=1}^{S_j}P(X^{j}=a_{jl}|Y=c_k)=1 l=1SjP(Xj=ajlY=ck)=1先验概率的贝叶斯估计是 P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda} Pλ(Y=ck)=N+Kλi=1NI(yi=ck)+λ

    • 本章概要

      • 生成方法由训练数据学习联合概率分布 P ( X , Y ) P(X, Y) P(X,Y),然后求得到后验概率分布 P ( Y ∣ X ) P(Y|X) P(YX)。利用训练数据学习 P ( X ∣ Y ) P(X|Y) P(XY) P ( Y ) P(Y) P(Y)的估计,得到联合概率分布: P ( X , Y ) = P ( Y ) P ( X ∣ Y ) P(X, Y)=P(Y)P(X|Y) P(X,Y)=P(Y)P(XY)
      • 朴素贝叶斯法的基本假设是条件概率独立性, P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , … … , X ( n ) = X ( n ) ∣ Y = c k ) P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, ……, X^{(n)}=X^{(n)}|Y=c_k) P(X=xY=ck)=P(X(1)=x(1),,X(n)=X(n)Y=ck) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) =\prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_k) =j=1nP(X(j)=x(j)Y=ck)这是一个较强的假设,因此条件概率的数量大为减小,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易于实现,缺点是分类的性能不一定很高。
      • 朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行预测。 P ( Y ∣ X ) = P ( X , Y ) P ( X ) = P ( Y ) P ( X ∣ Y ) ∑ Y P ( Y ) P ( X ∣ Y ) P(Y|X)=\frac{P(X, Y)}{P(X)}=\frac{P(Y)P(X|Y)}{\sum_YP(Y)P(X|Y)} P(YX)=P(X)P(X,Y)=YP(Y)P(XY)P(Y)P(XY)将输入x分到后验概率最大的类y。

      y = arg ⁡ max ⁡ c k y=\mathop{\arg\max}_{c_k} y=argmaxck\

      P ( Y = c k ) ∏ j = 1 n P ( X j = x ( j ) ∣ Y = c k ) P(Y=c_k)\prod^n_{j=1}P(X_j=x^{(j)}|Y=c_k) P(Y=ck)j=1nP(Xj=x(j)Y=ck)

    后验概率最大等价于0-1损失函数时的期望风险最小化

    • 注解:
      P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) P ( B ) P(A|B)=P(B|A)*\frac{P(A)}{P(B)} P(AB)=P(BA)P(B)P(A)
      • 贝叶斯三要素

    第五章 决策树

    • 决策树的学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪
    5.1.1决策树模型
    • 定义:分类决策树模型是一种描述对实例进行分类的树形结构
    5.2.1特征选择
    5.2.2信息增益
    • 熵是表示随机变量不确定性的度量
    • 信息增益:定义:
      • 特征A对训练集D的信息增益g(D, A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D | A)之差,及: g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D, A) = H(D) - H(D | A) g(D,A)=H(D)H(DA)
      • 一般地,熵H(Y)与条件熵H(Y | X)之差称为互斥信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

    5.3决策树的生成

    第六章 逻辑斯谛回归与最大熵模型

    • 都属于对数线性模型

    逻辑斯谛回归模型

    6.1.1逻辑斯谛分布
    • 定义:
      • 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数: F ( x ) = P ( X ≤ x 0 ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X \le x0)=\frac{1}{1+e^{-(x-\mu)/\gamma}} F(x)=P(Xx0)=1+e(xμ)/γ1
        f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F^{&#x27;}(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ式中, μ \mu μ为位置参数, γ &gt; 0 \gamma&gt;0 γ>0为形状参数
    6.1.2二项逻辑斯谛回归模型
    • 定义:二项逻辑斯谛回归模型是如下的条件概率分布: P ( Y = 1 ∣ x ) = e x p ( w ∗ x + b ) 1 + e x p ( w ∗ x + b ) 这 里 , x ∈ R n 是 输 入 , Y ∈ 0 , 1 是 输 出 , P(Y=1|x)=\frac{exp(w*x+b)}{1+ exp(w * x+b)}这里,x\in R^n是输入,Y\in \\{0, 1\\}是输出, P(Y=1x)=1+exp(wx+b)exp(wx+b)xRnY0,1

    w ∈ R n 和 b ∈ R 是 参 数 , w 称 为 权 值 向 量 , b 称 为 偏 置 , w ∗ x 为 w 和 x 的 内 积 w\in R^n 和 b\in R是参数,w称为权值向量,b称为偏置,w*x为w和x的内积 wRnbRwbwxwx

    6.1.3模型参数估计

    假 设 w 的 极 大 似 然 估 计 值 是 w ^ , 那 么 学 到 的 逻 辑 斯 谛 回 归 模 型 为 假设w的极大似然估计值是\hat{w},那么学到的逻辑斯谛回归模型为 ww^

    P ( Y = 1 ∣ X ) = e x p ( w ^ ∗ x ) 1 + e x p ( w ^ ∗ x ) P(Y=1|X)=\frac{exp(\hat{w}*x)}{1+exp(\hat{w}*x)} P(Y=1X)=1+exp(w^x)exp(w^x)

    P ( Y = 0 ∣ X ) = 1 1 + e x p ( w ^ ∗ x ) P(Y=0|X)=\frac{1}{1+exp(\hat{w}*x)} P(Y=0X)=1+exp(w^x)1

    6.2最大熵模型

    6.2.1最大熵原理

    假 设 离 散 随 机 变 量 X 的 概 率 分 布 是 P ( X ) , 其 熵 是 假设离散随机变量X的概率分布是P(X),其熵是 XP(X)

    H ( P ) = − ∑ x P ( x ) l o g P ( x ) H(P)=-\sum_xP(x)logP(x) H(P)=xP(x)logP(x)

    熵 满 足 下 列 不 等 式 : 0 ≤ H ( P ) ≤ l o g ∣ X ∣ 熵满足下列不等式:0\le H(P)\le log|X| 0H(P)logX

    式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。就是,当X服从均匀分布时,熵最大。

    最大熵模型:假设满足所有约束条件的模型集合为 C ≡ P ∈ p ∣ E p ( f i ) = E p ˉ ( f i ) , i = 1 , 2 , … … , n C\equiv \\{ P\in p | E_p(f_i)=E_{\bar{p}}(f_i),i=1, 2, ……, n \\} CPpEp(fi)=Epˉ(fi)i=1,2,,n

    定 义 在 条 件 概 率 分 布 P ( Y ∣ X ) 上 的 条 件 熵 为 H ( P ) = − ∑ x , y P ˉ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) 定义在条件概率分布P(Y|X)上的条件熵为H(P)=-\sum_{x,y}\bar{P}(x)P(y|x)logP(y|x) P(YX)H(P)=x,yPˉ(x)P(yx)logP(yx)

    则 模 型 集 合 C 中 条 件 熵 H ( P ) 最 大 的 模 型 称 为 最 大 熵 模 型 。 式 中 的 对 数 为 自 然 对 数 则模型集合C中条件熵H(P)最大的模型称为最大熵模型。式中的对数为自然对数 CH(P)

    P99

    展开全文
  • ##《统计学习方法》各章节代码实现与课后习题参考解答 章节 代码 课后习题 第1章 统计学习方法概论(LeastSquaresMethod) 传送门 传送门 第2章 感知机(Perceptron) 传送门 传送门 ...

    待完成。。。


    《统计学习方法》各章节代码实现与课后习题参考解答

    章节代码课后习题
    第1章 统计学习方法概论(LeastSquaresMethod)传送门传送门
    第2章 感知机(Perceptron)传送门传送门
    第3章 k近邻法(KNearestNeighbors)传送门传送门
    第4章 朴素贝叶斯(NaiveBayes)传送门传送门
    第5章 决策树(DecisonTree)传送门传送门
    第6章 逻辑斯谛回归(LogisticRegression)传送门传送门
    第7章 支持向量机(SVM)传送门传送门
    第8章 提升方法(AdaBoost)传送门传送门
    第9章 EM算法及其推广(EM)传送门传送门
    第10章 隐马尔可夫模型(HMM)传送门传送门
    第11章 条件随机场(CRF)传送门传送门

    代码参考:传送门

    记录学习过程中看过的不错的各章讲解

    https://zhuanlan.zhihu.com/p/36378498
    https://www.cnblogs.com/pinard/category/894692.html

    第二章感知机:
    https://www.zhihu.com/question/26526858/answer/136577337
    https://www.zhihu.com/question/26526858/answer/253579695
    https://www.cnblogs.com/pinard/p/6042320.html

    第三章 k近邻法
    https://www.joinquant.com/community/post/detailMobile?postId=2843&page=&limit=20&replyId=&tag=

    第四章 贝叶斯

    第五章 决策树
    https://blog.csdn.net/gzj_1101/article/details/78355234
    http://www.cnblogs.com/yonghao/p/5135386.html
    https://blog.csdn.net/weixin_40604987/article/details/79296427
    https://www.zhihu.com/question/22697086
    https://www.zhihu.com/question/22928442
    https://blog.csdn.net/olenet/article/details/46433297?utm_source=blogxgwz1

    第六章 逻辑回归模型与最大熵模型

    https://blog.csdn.net/itplus/article/details/26550201
    https://www.jianshu.com/p/e7c13002440d
    https://www.cnblogs.com/shixiangwan/p/7532830.html
    https://www.cnblogs.com/ooon/p/5677098.html

    第七章 支持向量机
    https://blog.csdn.net/sinat_20177327/article/details/79729551
    https://blog.csdn.net/v_july_v/article/details/7624837
    http://www.cnblogs.com/pinard/p/6097604.html
    https://www.zhihu.com/question/30371867/answer/73428260?utm_source=qq&utm_medium=social&utm_oi=668836644459909120

    第八章 提升方法
    https://blog.csdn.net/guyuealian/article/details/70995333
    https://www.cnblogs.com/ModifyRong/p/7744987.html
    https://blog.csdn.net/zpalyq110/article/details/79527653
    https://www.zybuluo.com/yxd/note/611571
    https://www.cnblogs.com/pinard/p/6140514.html

    https://www.cnblogs.com/liuwu265/p/4690486.html
    https://www.zhihu.com/question/26760839/answer/40337791

    第九章 EM算法及其推广
    https://blog.csdn.net/zouxy09/article/details/8537620
    http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html
    https://www.jianshu.com/p/1121509ac1dc
    https://blog.csdn.net/jinping_shi/article/details/59613054

    第十章 隐马尔可夫模型
    https://www.zhihu.com/question/20962240
    https://blog.csdn.net/likelet/article/details/7056068

    候选:
    https://blog.csdn.net/likelet/article/details/7056068
    https://blog.csdn.net/baimafujinji/article/details/51285082
    https://blog.csdn.net/ppn029012/article/details/8923501
    https://www.cnblogs.com/bigmonkey/p/7230668.html

    展开全文
  • 统计学习方法概述

    千次阅读 2020-07-23 16:52:44
    统计学习方法概论学习统计学习统计学习的特点统计学习的目的统计学习的方法监督学习基本概念输入空间、特征空间与输出空间联合概率分布假设空间统计学习三要素模型策略损失函数和风险函数损失函数风险函数经验风险...
  •   提升方法是一种常用的统计学习方法,是集成学习实现的一种方式,《统计学习方法》只介绍了提升方法的相关知识,本文从集成学习方法开始回顾,形成这部分内容的一个学习框架。   集成学习通过构建并结合多个...
  • 统计学习方法》学习笔记目录

    千次阅读 多人点赞 2019-12-10 21:54:27
    此篇为 李航老师著的《统计学习方法》的学习笔记汇总,准备学习并敲一敲代码,还请大家不吝赐教!
  • 李航《统计学习方法》课件

    千次阅读 2019-07-23 20:11:31
    百度网盘: ...errmsg=Auth Login Sucess&&bduss=&ssnerror=0&traceid= 提取码:ffxy 作者袁春:清华大学深圳研究生院,提供了第一版全书 12 章的 PPT 课件。 ...
  • 1. 统计学习概述 2. 统计学习三要素 3. 模型的评估与选择 4. 分类问题、标注问题与回归问题   1. 统计学习概述 (1)概念:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测分析的...
  • 李航《统计学习方法》的代码实现

    千次阅读 2019-07-23 20:02:27
    githun地址: https://github.com/fengdu78/lihang-code 黄海广博士对原有代码进行内容的更新,修改了部分错误,增加每章概述。 目前有前13章,后续会继续更新
  • 李航《统计学习方法》课后习题答案(第2版)

    千次阅读 多人点赞 2021-02-19 17:57:17
    李航《统计学习方法》课后习题答案(第2版) 章节 链接 第1章 统计学习及监督学习概论 点击进入 第2章 感知机 点击进入 第3章 k近邻法 点击进入 第4章 朴素贝叶斯法 点击进入 第5章 决策树 点击进入...
  • 第一章:https://blog.csdn.net/weixin_43646592/article/details/109551026 第二章: https://blog.csdn.net/weixin_43646592/article/details/109572240 ...
  • 第一章 https://blog.csdn.net/familyshizhouna/article/details/70160782 第二章  2.1-2.2 https://blog.csdn.net/cracker180/article...
  •   从头开始学习李航老师的《统计学习方法》,这本书写的很好,非常适合机器学习入门。   如果部分显示格式有问题请移步Quanfita的博客查看 目录 感知机模型 感知机学习策略 感知机学习算法 原始形式 ...
  • 统计学习方法 第三章习题解答

    千次阅读 多人点赞 2019-08-01 15:21:48
    3.1 题目:参照图3.1,在二维空间中给出实例点,画出k为1和2时的k近邻法构成的空间划分,并对其进行比较,体会k值选择与模型复杂度及预测准确率的关系。 答:本题的意思我理解蛮久(汗-_-||),简单来讲,将一整块的...
  • 李航 《统计学习方法》习题8.1

    千次阅读 热门讨论 2018-04-24 21:19:32
    解题:因为题中假设弱分类器为决策树,可采用CART二叉分类树。1、初始化数据权值分布:D = (w11, w12, ..., w110) = (0.1,0.1, ..., 0.1)w1i =0.1 ,i = 1,2,....,102、计算各特征的基尼系数(为计算方便,就取...
  • 统计学习方法》勘误表

    千次阅读 2018-01-29 10:37:16
    李航老师的统计学习方法堪称是机器学习、数据挖掘等方向必读之书,然而书中难免有部分错误。 于是李航老师更新了新的勘误表,转载作为收藏 详情参见:...
  • 统计学习方法》课后习题答案汇总

    千次阅读 多人点赞 2020-06-04 10:32:29
    第一章 统计学习方法概论 Blog 第二章 感知机 Blog 第三章 K近邻法 Blog 第四章 朴素贝叶斯法 Blog 第五章 决策树 Blog 第六章 逻辑斯蒂回归与最大熵模型 第七章 支持向量机 Blog 第八章 提升方法 ...
  • (5) 李航《统计学习方法》基于Python实现——决策树

    千次阅读 多人点赞 2019-05-05 16:48:55
    决策树是一种基本的分类和回归方法,本文主要讨论用户分类的决策树。决策树模型呈现树桩结构,在分类问题中,它表示基于特征对实例进行分类的过程。它可以认为是if-then的规则的集合也可以认为是定义在特征空间与类...
  • 李航统计学习方法总结与整理

    万次阅读 2019-03-26 22:22:18
    重要的是,这时子问题可以通过解析方法求解从而加快整个算法的计算速度。子问题有两个变量,一个是违反KKT条件最严重的一个,另一个由约束条件自动确定。如此,SMO算法将原问题不断分解为子问题并对子问题求解,进而...
  • 李航老师的《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。2019年5月1日,《统计学习方法第二版》出版了!本文对新书做下简...
  • 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门...实现统计学习方法的步骤如下: 1) 得到一个有限的训练数据集合; 2) 确定包含所有可能的模型的...
  • 习题7.1 习题7.2 习题7.3 习题7.4
  • 统计学习方法》第7章 课后题答案

    万次阅读 多人点赞 2017-06-16 11:47:19
    最近在补一些机器学习的基础知识,所以就刷了一下李航博士的《统计学习方法》。那么刷一本书怎么才能彻底呢,只有继续刷题了。幸好作者在每一章留有课后题,在这里尝试做一下。(一想到这部分内容可能会被完爆我好几...
  • 在网上搜到的课后习题10.1的答案有误,在这里重新写一遍解题过程供大家参考: (1) 计算初值 (2) 递推计算 (3) 终止 ...
  • 李航博士的《统计学习方法》可以说是机器学习的入门宝典。现如今,统计学习方法(第2版)于今年5月份出版,在第一版监督学习的基础上,增加了无监督学习内容,更加丰富,是非常值得学习材料。最近清...
  • 主要内容(只考虑监督学习) (1)统计学习三要素概述 (2)策略(目标函数、代价函数、损失函数) --------------------------------------------------------...一、统计学习方法概述 统计学习三要素:方法 = ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 385,184
精华内容 154,073
关键字:

统计学习方法