李航机器学习_周志华的机器学习和李航的统计学习 - CSDN
  • 《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等...

    《统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。


    这是作者的内容简介,看完本书(最后两章跟自己的关系不大,没有看)最大的感受就是书确实跟内容简介相吻合。本书最大的特色:
    (1)理论浅显易懂。读的时候可以看出作者功力非常深厚,跟那些平凑的或者生涩翻译的完全不一样。有人评价说作者可能英文演讲或者写作用惯,有些地方中文不知道怎么写。我也有这样的感受,有些地方确实有些晦涩,但这种晦涩跟那种不懂而直译的晦涩是完全不一样的,不影响阅读。
    (2)作者把复杂的推导单独拧出来,侧重在介绍每种算法的思想以及如何使用。
    (3)每一章基本都有很容易懂的例子,告诉读者如何使用刚介绍的算法。
    (4)每章最后的推荐阅读材料也很不错。

    我虽然很喜欢模式识别和机器学习,但我暂时并不希望在这上面做深入的研究,只想把别人研究好的成熟的理论用在计算机视觉任务上。比如SVM,Adaboost,EM,朴素贝叶斯,K近邻,决策树等等。能够知道每种算法的原理,而并不想深究其实现过程以及理论证明。比如SVM,我想知道的是这种算法如何实现分类,有哪几种类型,每种适合什么样的分类任务,对应的参数的意义是什么。这样我在使用SVM-Light或者libsvm的时候就知道该怎么选用参数,怎么使用学习到的系数。从这个角度看这本书很适合我。当然也适合那些在想在机器学习方面做深入研究的人作为入门教材,我想对原理了解一二之后,阅读大部头或者原著肯定会轻松很多。

    作者在书里面力荐了两本教材:Bishop的PRML和Hastie的The elments of statistical learning(这本书有第二版了,而且是免费的电子版)。这两本书应该是深入学习机器学习的必读之作了。

    要说这本书有什么缺点的话,还真有。这本书覆盖面太窄,只介绍了几种算法,当然这可能跟书名有关系。建议作者再版时可以加一些常见的经典算法:比如LDA,PCA,SVD,神经网络,随机森林,聚类算法,特征选择方法,甚至CS和Sparse Representation等模式识别教材中常见的内容。如果再版而且内容有所扩充的话,一定第一时间购买。定价不要太贵哟,这本书的定价还是偏贵了一点点。

     

    获取书籍

    这么好的电子书当然要分享给大家,获取方法:

     关注微信公众号  “  无知红  ”,后台回复  “统计学习方法 ” ,即可获取下载地址

    感觉本文内容不错,读后有收获?

    我要小额赞助,鼓励作者写出更好的教程

    还可以关注作者,获取更多教程

     

    展开全文
  • 算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解...

      算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个八年十年的刻苦钻研是不可能的事情。其实整个人工智能范畴都属于科研难题,包括模式识别、机器学习、搜索、规划等问题,都是可以作为独立科目存在的。我不认为有谁可以把人工智能的各个方面都做到极致,但如果能掌握其中的任一方向,至少在目前的类人尖端领域,都是不小的成就。

      这篇日志,作为我2014年的学业总结,详细阐述目前我对机器学习的理解,希望各位看官批评指正,多多交流!

      机器学习(MachineLearning),在我看来就是让机器学习人思维的过程。机器学习的宗旨就是让机器学会“人识别事物的方法”,我们希望人从事物中了解到的东西和机器从事物中了解到的东西一样,这就是机器学习的过程。在机器学习中有一个很经典的问题:

      “假设有一张色彩丰富的油画,画中画了一片茂密的森林,在森林远处的一棵歪脖树上,有一只猴子坐在树上吃东西。如果我们让一个人找出猴子的位置,正常情况下不到一秒钟就可以指出猴子,甚至有的人第一眼就能看到那只猴子。”

      那么问题就来了,为什么人能在上千种颜色混合而成的图像中一下就能识别出猴子呢?在我们的生活中,各种事物随处可见,我们是如何识别出各种不同的内容呢?也许你可能想到了——经验。没错,就是经验。经验理论告诉我们认识的所有东西都是通过学习得到的。比如,提起猴子,我们脑海里立刻就会浮现出我们见过的各种猴子,只要画中的猴子的特征与我们意识中的猴子雷同,我们就可能会认定画中画的是猴子。极端情况下,当画中猴子的特征与我们所认识某一类猴子的特征完全相同,我们就会认定画中的猴子是哪一类。

      另一种情况是我们认错的时候。其实人识别事物的错误率有的时候也是很高的。比如,当我们遇见不认识的字的时候会潜意识的念字中我们认识的部分。比如,“如火如荼”这个词,是不是有朋友也跟我一样曾经念过“如火如茶(chá)”?我们之所以犯错,就是因为在我们没有见过这个字的前提下,我们会潜意识的使用经验来解释未知。

      目前科技如此发达,就有牛人考虑可不可以让机器模仿人的这种识别方法来达到机器识别的效果,机器学习也就应运而生了。

      从根本上说,识别,是一个分类的结果。看到四条腿的生物,我们可能会立即把该生物归为动物一类,因为我们常常见到的四条腿的、活的东西,九成以上是动物。这里,就牵扯出了概率的问题。我们对身边的事物往往识别率很高,是因为人的潜意识几乎记录了肉眼看到的事物的所有特征。比如,我们进入一个新的集体,刚开始大家都不认识,有的时候人和名字都对不上号,主要原因就是我们对事物的特征把握不够,还不能通过现有特征对身边的人进行分类。这个时候,我们常常会有这种意识:哎,你好像叫张三来着?哦,不对,你好像是李四。这就是分类中的概率问题,有可能是A结果,有可能是B结果,甚至是更多结果,主要原因就是我们的大脑收集的特征不够多,还无法进行准确分类。当大家都彼此熟悉了之后,一眼就能识别出谁是谁来,甚至极端情况下,只听声音不见人都能进行识别,这说明我们已经对该事物的特征把握相当精确。

      所以,我认为,人识别事物有四个基本步骤:学习、提取特征、识别、分类。

      那么机器可不可以模仿这个过程来实现识别呢?答案是肯定的,但是没有那么容易。难题有三:第一,人的大脑有无数神经元进行数据交换和处理,在目前的机器中还达不到同等的处理条件;第二,人对事物特征的提取是潜意识的,提取无意识情况下的信息,误差很大;第三,也是最重要的一点,人的经验来自于人每时每刻的生活中,也就是人无时无刻都处在学习中,如何让机器进行各个方面的自主学习?因此,目前在人工智能领域始终还没达到类人的水平,我认为主要原因就是机器没有潜意识。人的潜意识其实并不完全受人的意识支配,但却可以提高人类识别事物的概率。我们无法给机器加载潜意识,因为主动加载的意识就是主观意识,在机器里无法完成人类潜意识的功能。所以,以目前的发展情况来看,要达到完全类人,还有不短的时间。但即便如此,与人的思维差别很大的机器依然可以为我们的生活带来帮助。比如,我们常用的在线翻译、搜索系统、专家系统等,都是机器学习的产物。

      那么,如何实现机器学习呢?

      整体上看,机器学习就是模仿人识别事物的过程,即:学习、提取特征、识别、分类。由于机器不能跟人类思维一样根据事物特征自然而然的选择分类方法,所以机器学习方法的选择依然还需要人工选择。目前,机器学习的方法主要有三种:监督学习、半监督学习和无监督学习。监督学习是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。白话一点,就是根据已知的,推断未知的。代表方法有:Nave Bayes、SVM、决策树、KNN、神经网络以及Logistic分析等;半监督方法主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,也就是根据少量已知的和大量未知的内容进行分类。代表方法有:最大期望、生成模型和图算法等。无监督学习是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。也就是及其自个儿学。代表方法有:Apriori、FP树、K-means以及目前比较火的Deep Learning。从这三方面看,无监督学习是最智能的,有能实现机器主动意识的潜质,但发展还比较缓慢;监督学习是不太靠谱的,从已知的推断未知的,就必须要把事物所有可能性全都学到,这在现实中是不可能的,人也做不到;半监督学习是“没办法中的办法”,既然无监督学习很难,监督学习不靠谱,就取个折中,各取所长。目前的发展是,监督学习技术已然成熟,无监督学习还在起步,所以对监督学习方法进行修改实现半监督学习是目前的主流。但这些方法基本只能提取信息,还不能进行有效的预测(人们就想,既然没法得到更多,就先看看手里有什么,于是数据挖掘出现了)。

      机器学习方法非常多,也很成熟。下面我挑几个说。

      首先是SVM。因为我做的文本处理比较多,所以比较熟悉SVM。SVM也叫支持向量机,其把数据映射到多维空间中以点的形式存在,然后找到能够分类的最优超平面,最后根据这个平面来分类。SVM能对训练集之外的数据做很好的预测、泛化错误率低、计算开销小、结果易解释,但其对参数调节和核函数的参数过于敏感。个人感觉SVM是二分类的最好的方法,但也仅限于二分类。如果要使用SVM进行多分类,也是在向量空间中实现多次二分类。

      SVM有一个核心函数SMO,也就是序列最小最优化算法。SMO基本是最快的二次规划优化算法,其核心就是找到最优参数α,计算超平面后进行分类。SMO方法可以将大优化问题分解为多个小优化问题求解,大大简化求解过程。

      SVM还有一个重要函数是核函数。核函数的主要作用是将数据从低位空间映射到高维空间。详细的内容我就不说了,因为内容实在太多了。总之,核函数可以很好的解决数据的非线性问题,而无需考虑映射过程。

      第二个是KNN。KNN将测试集的数据特征与训练集的数据进行特征比较,然后算法提取样本集中特征最近邻数据的分类标签,即KNN算法采用测量不同特征值之间的距离的方法进行分类。KNN的思路很简单,就是计算测试数据与类别中心的距离。KNN具有精度高、对异常值不敏感、无数据输入假定、简单有效的特点,但其缺点也很明显,计算复杂度太高。要分类一个数据,却要计算所有数据,这在大数据的环境下是很可怕的事情。而且,当类别存在范围重叠时,KNN分类的精度也不太高。所以,KNN比较适合小量数据且精度要求不高的数据。

      KNN 有两个影响分类结果较大的函数,一个是数据归一化,一个是距离计算。如果数据不进行归一化,当多个特征的值域差别很大的时候,最终结果就会受到较大影响; 第二个是距离计算。这应该算是KNN的核心了。目前用的最多的距离计算公式是欧几里得距离,也就是我们常用的向量距离计算方法。

      个人感觉,KNN最大的作用是可以随时间序列计算,即样本不能一次性获取只能随着时间一个一个得到的时候,KNN能发挥它的价值。至于其他的特点,它能做的,很多方法都能做;其他能做的它却做不了。

      第三个就是Naive Bayes了。Naive Bayes简称NB(牛X),为啥它牛X呢,因为它是基于Bayes概率的一种分类方法。贝叶斯方法可以追溯到几百年前,具有深厚的概率学基础,可信度非常高。Naive Baye中文名叫朴素贝叶斯,为啥叫“朴素”呢?因为其基于一个给定假设:给定目标值时属性之间相互条件独立。比如我说“我喜欢你”,该假设就会假定 “我”、“喜欢”、“你”三者之间毫无关联。仔细想想,这几乎是不可能的。马克思告诉我们:事物之间是有联系的。同一个事物的属性之间就更有联系了。所以,单纯的使用NB算法效率并不高,大都是对该方法进行了一定的改进,以便适应数据的需求。

      NB 算法在文本分类中用的非常多,因为文本类别主要取决于关键词,基于词频的文本分类正中NB的下怀。但由于前面提到的假设,该方法对中文的分类效果不好,因为中文顾左右而言他的情况太多,但对直来直去的老美的语言,效果良好。至于核心算法嘛,主要思想全在贝叶斯里面了,没啥可说的。

      第四个是回归。回归有很多,Logistic回归啊、岭回归啊什么的,根据不同的需求可以分出很多种。这里我主要说说Logistic回归。为啥呢?因为 Logistic回归主要是用来分类的,而非预测。回归就是将一些数据点用一条直线对这些点进行拟合。而Logistic回归是指根据现有数据对分类边界线建立回归公式,以此进行分类。该方法计算代价不高,易于理解和实现,而且大部分时间用于训练,训练完成后分类很快;但它容易欠拟合,分类精度也不高。主要原因就是Logistic主要是线性拟合,但现实中很多事物都不满足线性的。即便有二次拟合、三次拟合等曲线拟合,也只能满足小部分数据,而无法适应绝大多数数据,所以回归方法本身就具有局限性。但为什么还要在这里提出来呢?因为回归方法虽然大多数都不合适,但一旦合适,效果就非常好。

      Logistic 回归其实是基于一种曲线的,“线”这种连续的表示方法有一个很大的问题,就是在表示跳变数据时会产生“阶跃”的现象,说白了就是很难表示数据的突然转折。所以用Logistic回归必须使用一个称为“海维塞德阶跃函数”的Sigmoid函数来表示跳变。通过Sigmoid就可以得到分类的结果。

      为了优化Logistic回归参数,需要使用一种“梯度上升法”的优化方法。该方法的核心是,只要沿着函数的梯度方向搜寻,就可以找到函数的最佳参数。但该方法在每次更新回归系数时都需要遍历整个数据集,对于大数据效果还不理想。所以还需要一个“随机梯度上升算法”对其进行改进。该方法一次仅用一个样本点来更新回归系数,所以效率要高得多。

      第五个是决策树。据我了解,决策树是最简单,也是曾经最常用的分类方法了。决策树基于树理论实现数据分类,个人感觉就是数据结构中的B+树。决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。决策树计算复杂度不高、输出结果易于理解、对中间值缺失不敏感、可以处理不相关特征数据。其比 KNN好的是可以了解数据的内在含义。但其缺点是容易产生过度匹配的问题,且构建很耗时。决策树还有一个问题就是,如果不绘制树结构,分类细节很难明白。所以,生成决策树,然后再绘制决策树,最后再分类,才能更好的了解数据的分类过程。

      决策树的核心树的分裂。到底该选择什么来决定树的分叉是决策树构建的基础。最好的方法是利用信息熵实现。熵这个概念很头疼,很容易让人迷糊,简单来说就是信息的复杂程度。信息越多,熵越高。所以决策树的核心是通过计算信息熵划分数据集。

      我还得说一个比较特殊的分类方法:AdaBoost。AdaBoost是boosting算法的代表分类器。boosting基于元算法(集成算法)。即考虑其他方法的结果作为参考意见,也就是对其他算法进行组合的一种方式。说白了,就是在一个数据集上的随机数据使用一个分类训练多次,每次对分类正确的数据赋权值较小,同时增大分类错误的数据的权重,如此反复迭代,直到达到所需的要求。AdaBoost泛化错误率低、易编码、可以应用在大部分分类器上、无参数调整,但对离群点敏感。该方法其实并不是一个独立的方法,而是必须基于元方法进行效率提升。个人认为,所谓的“AdaBoost是最好的分类方法”这句话是错误的,应该是“AdaBoost是比较好的优化方法”才对。

      好了,说了这么多了,我有点晕了,还有一些方法过几天再写。总的来说,机器学习方法是利用现有数据作为经验让机器学习,以便指导以后再次碰到的决策。目前来说,对于大数据分类,还是要借助分布式处理技术和云技术才有可能完成,但一旦训练成功,分类的效率还是很可观的,这就好比人年龄越大看待问题越精准的道理是一样的。这八个月里,从最初的理解到一步步实现;从需求的逻辑推断到实现的方法选择,每天都是辛苦的,但每天也都是紧张刺激的。我每天都在想学了这个以后可以实现什么样的分类,其实想想都是让人兴奋的。当初,我逃避做程序员,主要原因就是我不喜欢做已经知道结果的事情,因为那样的工作没有什么期盼感;而现在,我可以利用数据分析得到我想象不到的事情,这不仅满足了我的好奇感,也让我能在工作中乐在其中。也许,我距离社会的技术需求还有很远的距离,但我对自己充满信心,因为,我不感到枯燥,不感到彷徨,虽然有些力不从心,但态度坚定。

      2014的学习很艰难,我挺过来了;2015年,可能会更艰难,但我更加期待!

      最后,希望各位能人、牛人、同道中人给予点评,多多交流,一个人做算法是吃力的,希望各位踊跃评价,共同进步!

        原文链接:http://www.weibo.com/2814648147/BFkLT7E2S?type=comment

     

    展开全文
  • 摘自李航《统计学习方法》第2版课件接下来我会依次整理《统计学习方法》第2版课件的每一章节PPT到公众号里,感觉这样直接学习更加方便友好些,希望这种方式可以真正帮助到各位。...
        

    摘自李航《统计学习方法》第2版课件

    接下来我会依次整理《统计学习方法》第2版课件的每一章节PPT到公众号里,感觉这样直接学习更加方便友好些,希望这种方式可以真正帮助到各位。

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    下载所有22章PPT方法

    640?wx_fmt=jpeg

    长按二维码2秒,关注公众号后

    回复LH

    展开全文
  • 一个是经典分类方法,一个是概率模型学习的准则。 首先是逻辑斯蒂分布: 逻辑斯谛还分为二项和多项。 最大熵原理: 这是概率模型学习的一个准则,这个原理认为 ,学习概率模型时,再所有可能的概率模型中,熵最大...

    逻辑斯谛回归与最大熵模型
    一个是经典分类方法,一个是概率模型学习的准则。
    首先是逻辑斯蒂分布:
    在这里插入图片描述
    逻辑斯谛还分为二项和多项。

    最大熵原理:
    这是概率模型学习的一个准则,这个原理认为

    ,学习概率模型时,再所有可能的概率模型中,熵最大的模型适最好的模型,也可以表述为在满足约束条件的模型集合中选取熵最大的模型

    在这里插入图片描述
    在求最大熵模型的时候,需要根据拉格朗日对偶性来求得。并且在最大熵学习中的对偶函数极大化等价于最大熵模型的极大似然估计这个事实。

    基于改进的迭代尺度法与拟牛顿法的最大熵模型学习算法
    改进的迭代尺度法是一种最大熵模型学习的最优化算法
    目的是通过极大似然估计学习模型参数,即求对数似然函数的极大值。
    在这里插入图片描述
    支持向量机
    也就是鼎鼎大名的SVM,是一种二类分类模型,他的基本模型适定义在特征空间上的间隔最大的线性分类器,间隔最大使得他有别于感知机,支持向量机还包括核技巧,这使他成为实质上的非线性分类器,支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。

    有各种各样的模型:

    1. 线性可分支持向量机
    2. 线性支持向量机
    3. 非线性支持向量机
      在这其中,通过使用核函数可以学习非线性支持向量机,等价于隐式地在高维的特征空间中学习线性支持向量机,这个方法称之为核技巧。

    线性可分支持向量机与硬间隔最大化
    假设输入空间和特征空间为两个不同的空间,输入空间是欧式空间或者离散集合,特征空间是欧式空间或者希尔伯特空间,
    学习的目标是在特征空间中找到一个分离超平面,能够将实例分到不同的类。
    其中的线性可分支持向量机:就是给定线性可分训练数据集,通过间隔最大化或等价的求解相应的凸二次规划问题学习得到的分离超平面:
    在这里插入图片描述
    函数间隔和几何间隔:也就是一个点与对应的分离超平面之间的距离,一般来说,距离越远,准确度越高。
    一个点距离分离超平面的远近可以表示分类预测的确信程度,而距离就是w*x+b,并且在前面再加一个y的符号,这样就可以表示分类的准确性和确信度,这就是函数间隔
    几何间隔:对法向量进行约束,比如规范化,使得间隔是确定的。
    在这里插入图片描述
    间隔最大化
    向量机的想法就是求解能过正确划分训练数据集并且几何间隔最大的分类超平面。

    对训练数据集找到几何间隔最大的超平面意味着以充分的确信度对训练数据进行分类,也就是说,不仅将正负实例点分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将他们分开,这样的超平面应该对未知的新实例有很好的分类预测能力。

    最大间隔分离超平面
    首先他的存在是唯一的,并且支持向量和间隔边界。
    对偶算法:
    将最优化问题作为原始的,再应用拉格朗日对偶性,通过求解对偶问题得到原始问题的最优解,这就是对偶算法。

    线性支持向量机与软间隔最大化
    出现的前提是因为,将其扩展到线性不可分的时候,修改硬间隔最大化,使其成为软间隔最大化,让其中一些特异点,将这些特异点除去后,剩下大部分样本点组成的集合是线性可分的。
    非线性支持向量机与核函数
    对于分类问题是非线性的,可以使用非线性支持向量机,主要是用核技术。
    核技术
    1.非线性分类问题
    就是通过利用非线性模型才能很好的进行分类的问题
    在这里插入图片描述

    展开全文
  • 机器学习的三种不同方法: 一、监督学习(supervised learning)——对未来事件进行预测。使用有类标的数据构建数据模型。然后使用经训练得到的模型对未来的数据进行预测。 主要分为两类: 1.利用分类对类标进行...

    机器学习的三种不同方法:
    一、监督学习(supervised learning)——对未来事件进行预测。使用有类标的数据构建数据模型。然后使用经训练得到的模型对未来的数据进行预测。
    主要分为两类:
    1.利用分类对类标进行预测
    2.使用回归预测连续输出值
    二、无监督学习(unsupervised learning)——发现数据本身潜在的结构。分为两类:
    1.通过聚类发现数据的子群
    2.数据压缩中的降维
    三、强化学习(reinforecement learning)——解决交互式问题。构建一个系统,在与环境交互的过程中提高系统的性能。

    四、基本术语
    在这里插入图片描述

    在这里插入图片描述

    机器学习的十大经典算法
    https://www.toutiao.com/i6610271910351602184/?tt_from=weixin&utm_campaign=client_share&wxshare_count=2&from=singlemessage&timestamp=1539183202&app=news_article&utm_source=weixin&iid=11612498513&utm_medium=toutiao_ios&group_id=6610271910351602184&pbid=6610741823151982087
    一、决策树
    二、随机森林算法
    三、逻辑回归
    四、SVM
    五、朴素贝叶斯
    六、k最邻近算法
    七、k均值算法
    八、Adaboost算法
    九、神经网络
    十、马尔可夫

    展开全文
  • 项目链接:https://github.com/Wchenguang/gglearn/blob/master/KNNClassifier-todo/李航机器学习讲解/KNNClassifier.ipynb 公式笔记 Lp距离公式 Lp(xi,xj)=(∑l=1n∣xi(l)−xj(l)∣p)1p L_{p}\left(x_{i}, x_{j}...
  • 1、思想 最大化最小间隔 拉格朗日乘子法求解 2、推导过程 3、拓展知识点 软间隔,原来是最小间隔必须大于1,软了就是相对宽松些,可以有个ϵ\epsilonϵ. 核函数,橘黄色的部分,是特征向量内积,相当于把向量...
  • 恰逢最近在学习提升树(boosting tree)算法,参考了李航统计学习方法(第二版),但仍觉有一些疑惑,遂上网看了很多资料但仍感觉有些细节不清楚,主要原因是网上的公式符号使用自成一体,且一些结论缺少具体推理,...
  • 链接:https://pan.baidu.com/s/1axTiDqA3cBAY9-XDymUfyQ 提取码:sczz
  • 航博士,华为技术有限公司 ...实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个八年十年的刻苦钻研是不
  • 统计学习方法 = 模型 + 策略 + 算法 1.模型 学习一个什么样的模型是统计学习首先要考虑的问题。在监督学习中,模型就是要学习的条件概率分布或者决策函数。模型的假设空间就是所有可能的条件概率分布或者决策函数的...
  • 一、原理 什么是K近邻?就是KNN,当N=1的时候就是最近邻了。 k近邻算法简单、直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例多数属于某个类,就把该输入实例...
  • 统计学习方法
  • 其实统计学习也叫统计机器学习,从名字就可以看出,统计学习是从统计学科的角度、利用机器(编程算法)来对数据进行预测分析,机器学习差不多等于统计学习,机器学习可不可以不依赖统计方法?目前没找到资料证实。我...
  • 机器学习三要素

    2020-06-26 17:05:35
    1 机器学习三要素 机器学习方法由都是由模型、 策略和算法(优化算法)构成的, 即机器学习方法由三要素构成, 可以简单地表示为: 方法=模型+学习准则+优化算法; 学习准则亦可统称为策略,所有涉及到的机器...
  • 《统计学习方法》的李航所著,非常适合作为机器学习,人工智能学习的入门书
  • 本课程是机器学习的普及课程,是基础的课程,主要介绍机器学习的定义、分类(回归学习与分类学习、监督学习与无监督学习)、基本术语(维数、学习、训练、学习器、样例、聚类、泛华、鲁棒、分布等);介绍什么是假设...
  • 本系列为李航《统计学习方法》学习笔记整理,以下为目录:  (一)统计学习方法概论  (二)感知机  (三)k近邻  (四)朴素贝叶斯  (五)决策树  (六)逻辑斯蒂回归与最大熵模型  (七)支持向量...
  • 李航老师的《统计学习方法》第二版的代码实现更新完毕,本文提供下载。李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法...
  • 作者 | 夕颜出品 | AI科技大本营(ID:rgznai100)【导读】一阵凉风吹过人工智能,让这个曾是燥热的领域逐渐冷却下来,留下的是扎实地在做研究的人、机构、企业。...
1 2 3 4 5 ... 20
收藏数 8,049
精华内容 3,219
关键字:

李航机器学习