精华内容
下载资源
问答
  • 统计学习方法 动手实现李航统计学习方法》的C++代码。 代码将首先在Github上更新,等到完全更新完毕之后会将此代码库更新完全。 我的GitHub:Statistic-Learning-Theory
  • 统计学习方法李航--带书签.pdf,带书签。附上找到的一份对应的学习笔记,希望有用 https://www.cnblogs.com/limitlessun/p/8611103.html
  • 第3章 k 近邻法k 近邻法(k-NN)是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化问题)。它的特点是对特征空间进行搜索。除了k近邻法,本章还对以下几个问题进行较深入的讨论:切比雪夫距离 ...

    第3章 k 近邻法

    k 近邻法(k-NN)是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化问题)。它的特点是对特征空间进行搜索。除了k近邻法,本章还对以下几个问题进行较深入的讨论:

    • 切比雪夫距离
      的计算
    • “近似误差”与“估计误差”的含义
    • k-d树搜索算法图解

    一、算法

    输入:训练集

    为实例特征向量,
    为实例的类别,

    输出:实例

    所属的类

    设在给定距离度量下,涵盖最近k个点的邻域为

    其中示性函数

    寻找使得函数

    取得最大值的变量
    ,也就是说,看看距离
    最近的k个点里面哪一类别最多,以此作为输出。关于
    的含义可参考本专栏的第一章。
    mygame182:李航统计学习方法(第一章)zhuanlan.zhihu.com

    二、模型

    根据模型的分类,k-NN模型属于非概率模型。

    观察

    可发现它与感知机不同的之处,作为决策函数,它并不需要任何未知参数(感知机需要确定w和b),直接从训练集的数据得到输出。
    1. 距离度量

    k-NN的基本思想是,特征空间中的距离反映了两个点的相似程度,因此“距离”是作出分类判断的基本依据。向量空间

    的距离有多种度量方式:

    (1)不同距离度量

    一般形式是闵可夫斯基距离

    范数):

    当p=1时,称为曼哈顿距离

    范数):

    当p=2时,称为欧几里得距离

    范数),也就是最常用的距离:

    时,称为
    切比雪夫距离,它是各个坐标(分量)距离的最大值:

    下图表示平面上A、B两点之间不同的距离:

    ccfb6fbc8ec23a4262ac552814c980e4.png
    三种距离对比
    • 只允许沿着坐标轴方向前进,就像曼哈顿街区的出租车走过的距离
    • 两点之间直线最短,通过勾股定理计算斜边的距离
    • 只剩下一个维度,即最大的分量方向上的距离

    可见p取值越大,两点之间的距离越短。

    (2)问题:为什么切比雪夫距离

    其实这个问题等价于:为什么

    ,即
    空间中的向量
    ,它的切比雪夫长度等于它的最大分量方向上的长度。

    证明:

    不妨设

    ,即

    注意:最大分量的长度唯一,但最大分量可能并不唯一,设有

    等k个分量的长度都等于

    ,即
    时;

    ,即
    为非最大长度分量时。

    计算

    的切比雪夫长度:

    由于已知

    等于0或1,且有k个分量结果为1,所以

    因此

    ,得证。

    以上证明参考

    p范数的极限(无穷范数)为什么是极大值范数?www.zhihu.com

    (3)平面上的圆

    在平面上的图像:

    06596373221a8bf26d4b424fa1a63ac8.png

    如果圆形的定义是“到某一点距离相等的曲线围成的图形”,那么在不同的距离度量下,圆形的形状可以完全不同。为何

    正则化在平面上的等高线为同心正方形,不就很容易理解吗?

    关于不同距离度量下的圆,可参考此文:

    若 π 被证明是有理数会对世界有何影响?www.zhihu.com
    e8c95fe16886f495bab00f0f891e3c3f.png

    2. k值选择

    书中引入了“近似误差”和“估计误差”两个概念,但没有给出具体定义。网上关于它们的解释众说纷纭,我把个人理解回答如下:

    如何理解和区分近似误差和估计误差?www.zhihu.com
    d5a38564cca794f802f9ec8c966a4873.png

    简单总结一下:

    右侧两项分别是“估计误差”和“近似误差”。

    估计误差:训练集与无限数据集得到的模型的差距

    近似误差:限制假设空间与无限制假设空间得到的模型的差距

    k值越小

    单个样本影响越大
    模型越复杂
    假设空间越大
    近似误差越小(估计误差越大),容易过拟合;

    k值越大

    单个样本影响越小
    模型越简单
    假设空间越小
    近似误差越大(估计误差越小),容易欠拟合。

    一般通过交叉验证来确定最优的 k 值。

    3. 决策规则

    k 近邻的决策规则就是“多数表决”,即少数服从多数,用数学表达式表示为

    等号左侧为误分类率,要是误分类率最小,就要使得

    最大,即选择集合
    中最多的一类。

    三、kd树

    尽管k-NN的原理简单易懂,但将其转化为高效的算法却不容易。

    当然,我们可以逐个计算目标点

    与训练集
    的距离(欧氏距离),然后进行排序,得出k个最为接近的点。就是所谓“线性扫描”,这样显然效率不高。

    于是,Jon Bentley在70年代提出了k-dimensions Tree 方法。

    以最近邻算法(k=1)为例:为了减少计算距离的次数,首先根据维度特征把“训练集”按“二叉树”排列,再将目标点定位至某个较接近的“叶结点”,然后反向搜索最接近的“叶结点”(需要计算距离)。由于反向搜索在大部分情况下不需遍历整棵“二叉树”,因此可以减少计算距离的次数。在某些极端的情况下,例如:空间维度接近训练实例数,算法接近遍历整棵二叉树,此时就达不到减轻计算量的效果了。

    书上已列出算法步骤,在此只对个别问题进行较深入的讨论:

    (1)构造k-d树

    1. 切分坐标轴
      是什么意思?

    此公式的目标是实现对坐标轴轮流切分,假设特征空间有3个维度,那么切分顺序是

    对于书中的例子,k=2,

    为当前结点的深度,例如:根结点深度为0 ,因此第一次切分轴为 0 (mod 2) + 1 =1,第二层结点深度为1,1(mod 2) + 1 =2,第三层结点深度为2,2(mod 2) + 1= 1。

    也有资料把上述公式定义为

    ,坐标轴定义不同,可实现同样效果。

    2. 为什么要轮流对不同坐标轴进行切分?

    如果只对一个坐标轴(例如:x轴)进行切分,各块只包含x轴信息,把所有的y轴信息丢弃,显然会降低定位精度,无法使“叶节点”尽量接近“目标点”。

    (2)k-d树搜索

    算法3.3的第(1)、(2)步实现定位至“较接近”的叶结点。第(3)、(4)步是反向搜索的关键步骤,但没有代码,单纯文字描述实在令人费解。

    关于k-d树搜索的过程,网上有不少参考资料,例如:

    华盛顿大学:https://courses.cs.washington.edu/courses/cse373/02au/lectures/lecture22l.pdf

    卡内基梅隆:https://www.cs.cmu.edu/~ckingsf/bioinfo-lectures/kdtrees.pdf

    这里引用华盛顿大学的资料作为图解:

    1. 二叉树建立完毕。与书中的区别在于,切分面不过数据点,所有数据点位于底层结点:

    d83eb127c96d89708a76dd0043d851d5.png

    2. 沿红色实线正向搜索二叉树,定位至“较接近”的g点

    b371a7968f7f5ae73d5e1a9ed9cfdf4b.png

    3. 计算q与g的距离为w,沿蓝色虚线反向搜索

    4aa9c23619d15d777fb5111a4ebe001f.png

    4. 由于s4超平面对y轴切分,q的y坐标减去w小于s4的y坐标,因此球体与s4相交。需要正向搜索s4的另一侧结点。

    97eff4b02c85caf054156d8b31c54d17.png

    5. 继续正向搜索,发现e点,计算q与e的距离,作为新的w

    2d1cab9f2969461dc0040bde554d5397.png

    6. 反向搜索,直至发现与s1相交,开始正向搜索s1的另一侧

    1c47cbd529f675592e4551a8d662d2f3.png

    7. 发现结点f,反向搜索,再发现h,再反向......

    b1f134052ffc37cf64d1f536c8c5676a.png

    e4ed204af46805efb512946051b6ea3b.png

    8. 没有新的发现,搜索结束

    d333cb21ba9dba0e98aac7945b326c7f.png

    从上面的过程来看,只需计算4个点的距离,如果“线性扫描”则需要计算9个点,大幅减少计算量。

    如果从最近邻推广至k近邻,以上算法需作一定的修改。除了找到最近距离

    ,还需要保存其他点的距离
    ,以便进行排序确定最靠近的k 个点。
    展开全文
  • 李航作者写的统计学习方法,这本书非常经典。这是这本书配套的ppt,方便学习理解。PDF文件
  • 李航统计学习方法》笔记 --从原理到实现:基于R.pdf
  • 这里包含两本机器学习中常用的数学知识,有同济线性代数第六版、统计学习方法_李航,是电子数的,PDF的格式。
  • machine learning +李航的《统计学习方法PDF资源
  • 本文档为李航统计学习方法》,可直接复制文本,方便笔记记录, 解压 文件获取pdf
  • 李航:毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。1990年至2001年就职于日本NEC 公司中央研究所,任研究员,2001年至2012年就职于微软亚洲研究院,任高级研究员与主任研究员。2012年至...

    d2069b7d44963dd9ee5738b2f3380a46.png

    李航:毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。1990年至2001年就职于日本NEC 公司中央研究所,任研究员,2001年至2012年就职于微软亚洲研究院,任高级研究员与主任研究员。2012年至2017年就职于华为技术有限公司诺亚方舟实验室,任首席科学家、主任。现任字节跳动科技有限公司人工智能实验室总监,北京大学、南京大学客座教授,IEEE 会士,ACM 杰出科学家,CCF 高级会员。研究方向包括信息检索,自然语言处理,统计机器学习,及数据挖掘。曾出版过三部学术专著,并在顶级国际学术会议和顶级国际学术期刊上发表过120多篇学术论文,拥有40项授权美国专利。

    李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。

    《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。

    1.《统计学习方法》的代码实现

    《统计学习方法》这本书,附件里并没有代码实现,于是许多研究者复现了里面算法的代码,并放在github里分享,这里介绍几个比较热门的《统计学习方法》代码实现的项目:


    1)https://github.com/fengdu78/lihang-code (标星:12k+)

    这个仓库由黄海广博士整理,已经基本整理完毕(第一版、第二版),仓库的主要内容以Jupyter Notebook格式展现,同时介绍书上的主要算法及公式推导。

    2) https://github.com/WenDesi/lihang_book_algorithm (标星:4.4k+)

    这个仓库不介绍任何机器学习算法的原理,只是将《统计学习方法》中每一章的算法用我自己的方式实现一遍。除了李航书上的算法外,还实现了一些其他机器学习的算法,这个仓库用Python代码实现。(更新完十二章)

    3)https://github.com/Dod-o/Statistical-Learning-Method_Code (标星:5.6k+)

    这个仓库力求每行代码都有注释,重要部分注明公式来源。具体会追求下方这样的代码,学习者可以照着公式看程序,让代码有据可查。(更新完十章)

    f681fe73e0f8c3621e87fed271027aee.png
    代码截图,注释完整且规范

    4)https://github.com/SmirkCao/Lihang (标星:3.6k+)

    这个仓库用markdown编写,前十二章更新完毕,后面部分也更新了大部分,没有代码,但是,公式推导相当全。

    2. 《统计学习方法》课后习题解答

    1)https://github.com/datawhalechina/statistical-learning-method-solutions-manual

    这个仓库主要完成了该书(第一版)的全部习题,并提供代码和运行之后的截图,里面的内容是以统计学习方法的内容为前置知识,该习题解答的最佳使用方法是以李航老师的《统计学习方法》为主线,并尝试完成课后习题,如果遇到不会的,再来查阅习题解答。

    由于习题解答中需要有程序和执行结果,采用jupyter notebook的格式进行编写(文件路径:notebook/notes),然后将其导出成markdown格式,再覆盖到docs对应的章节下。

    内容截图:

    858b3b940d31f9584abfaa7aa1d1d366.png
    内容截图

    温馨提醒:主页置顶的有实用贴合集,欢迎大家积极参与和分享,你分享,我赠书,一起涨姿势!

    文章内容来源:

    李航老师《统计学习方法》的代码实现、课件、作业等相关资源的最全汇总mp.weixin.qq.com
    9cc4facc360667a0bdde0da7313b07ed.png

    如有侵权,可私信联系。

    感谢关注和点赞

    展开全文
  • 统计学习方法 本书已经出第二版,2019年5月之后所有内容更新参考第二版第一次印刷。 [目录] 工具包 为方便学习,整理一些工具说明。 GitHub的markdown公式支持一般,推荐使用Chrome插件来渲染TeX公式,本地...
  • 李航书勘误errata.pdf

    2018-04-21 18:20:39
    李航书勘误errata.pdf,针对的是李航的 《统计学习方法 李航.pdf
  • 统计学习方法.rar

    2019-07-05 19:56:09
    这是 统计学习方法-李航 .pdf,电子书带书签,查阅方便
  • 转自:http://blog.csdn.net/dashuye4/article/details/24852273 参考文献:http://www.cs.cmu.edu/~aberger/pdf/scaling.pdf
    
    


    参考文献:http://www.cs.cmu.edu/~aberger/pdf/scaling.pdf

    展开全文
  • 李航统计学习方法.pdf统计学习方法-勘误.pdf,仅供学习研究,24小时请删除,支持购买正版
  • 统计学习方法课件.zip

    2019-09-05 22:15:40
    李航老师的统计学习方法第一版pdf和清华配套的课件pdf版。
  • 统计学习算法

    2018-01-26 12:16:37
    李航统计学习方法PDF扫描版,机器学习方法介绍,常用的机器学习算法
  • 摘自李航统计学习方法》第2版课件文末提供所有22章PDF下载方式接下来我会依次整理《统计学习方法》第2版课件的每一章节PPT到公众号里,感觉这样直接学习更加方便友好些,...

    摘自李航《统计学习方法》第2版课件
    文末提供所有22章PDF下载方式

    接下来我会依次整理《统计学习方法》第2版课件的每一章节PPT到公众号里,感觉这样直接学习更加方便友好些,希望这种方式可以真正帮助到各位。

    - END -

    如果看到这里,说明你喜欢这篇文章,请转发、点赞扫描下方二维码或者微信搜索「perfect_iscas」,添加好友后即可获得10套程序员全栈课程+1000套PPT和简历模板向我私聊「进群」二字即可进入高质量交流群。

    扫描二维码进群↓

    在看 

    展开全文
  • 文件包含了:机器学习基础,监督学习方法、非监督学习方法,Python数据科学和深度学习等相关知识,若初学者在自学周志华老师的西瓜书或李航老师的《统计学习方法》的过程中感到困惑时,可查阅该机器学习算法知识手册...
  • 摘自李航统计学习方法》第2版课件提供所有22章PDF下载方式长按二维码2秒,关注「Python小例子」回复LH接下来我会依次整理《统计学习方法》第2版课件的每一章节P...
  • 统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其...
  • 隐马尔可夫模型(HMM) - 3 - 学习方法

    千次阅读 2016-05-17 14:30:58
    统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。  2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子...
  • PRML笔记:模式识别与机器学习

    千次阅读 2016-03-30 10:15:37
    http://blog.csdn.net/pipisorry/article/details/51011724统计学习方法-李航(适合快速入门)。PRML: Pattern Recognition and Machine learning 机器学习和模型识别的必读书。[PRML笔记-Notes on Pattern ...
  • EM算法个人总结:.pdf

    2019-10-31 20:24:53
    本人结合李航第二版统计学习方法以及网上视频资源对EM算法进行了总结
  • 在机器学习上,首先要推荐的是两部国内作者的著作:李航博士所著的《统计学习方法》和周志华教授的《机器学习》。 《统计学习方法》采用“总 - 分 - 总”的结构,在梳理了统计学习的基本概念后,系统而全面地介绍了...
  • 机器学习-笔记2

    2018-10-20 23:51:44
    李航的 《统计学习方法》 斋藤康毅的 《深度学习入门》 学到哪里跟到哪里。 还是老规矩会把所有代码贴上来。 目前的情况有点混乱。 进度条 吴恩达 视频学习——19/151 , pdf——0 西瓜——0 统计...

空空如也

空空如也

1 2 3 4 5 6
收藏数 111
精华内容 44
关键字:

统计学习方法李航pdf