统计学习_统计学习方法 - CSDN
精华内容
参与话题
  • 最近开始阅读李航老师的经典著作《统计学习方法》,现将其中自认为较为重要的点写出来,一个是作为回忆复习,二一个是希望能够分享给更多人。第一次写博客,如有错误,希望多包涵。 第一章统计学习方法概论 个人...

        最近开始阅读李航老师的经典著作《统计学习方法》,现将其中自认为较为重要的点写出来,一个是作为回忆复习,二一个是希望能够分享给更多人。第一次写博客,如有错误,希望多包涵。

       第一章统计学习方法概论

        个人认为第一章主要介绍的是机器学习中一些最为基本的概念和重要的要素,比方说监督学习,假设空间,损失函数,风险函数(期望风险),经验风险,结构风险,正则化,过拟合,泛化误差这些概念。非常好理解,而且只用一些比较简单的数学表示,从字面上到数学公式可以构建一个比较直观的联系。

    下面给出学习之后我个人觉得很重要的三个推导

    一 由经验风险最小化推导极大似然估



    二 由结构风险最小化推导最大后验概率:



    三 证明二类分类问题的泛化误差上界:

    无限个函数的情况没有讨论。

    问题一:书上说当模型是条件概率分布,损失函数是对数损失函数,结构风险最小化就等价于MAP,但是上面给出了损失函数是平方损失函数,结果也是结构风险最小化。也就是似然概率服从高斯分布时的推导。

    问题二:推导泛化误差上界过程中那个N,是如何从分子跑到分母的,还有就是hoeffding不等式给的是随机变量之和,怎么带成期望风险和经验风险的?那个1/N那里去了?是不等式左边那个N吗?



    展开全文
  • 统计机器学习的经典之作,无数大神推荐与入门,这是最新版,清楚讲解统计机器学习中各种算法,建立起统计学习的框架,此书英文容易理解,推荐
  • 李航作者写的统计学习方法,这本书非常经典。这是这本书配套的ppt,方便学习理解。PDF文件
  • 李航统计学习方法总结与整理

    千次阅读 2019-03-26 22:22:18
    感知机(perception):二类分类的线性模型,输入为实例的特征向量,输出为实例的类别,取+1,-1。 对应于输入空间中将样本实例分成正负两类的分离超平面,属于判别模型。 其损失函数为:所有误分类点到分类超平面...

    感知机(perception):二类分类的线性模型,输入为实例的特征向量,输出为实例的类别,取+1,-1。

    对应于输入空间中将样本实例分成正负两类的分离超平面,属于判别模型。

    其损失函数为:所有误分类点到分类超平面的距离总和。目的为最小化这个距离总和。

                                                       \small L(w,b) = -\sum_{x_{i} \in M}y_{i}(w\cdot x+b)

    其中,\small -y_{i}(w\cdot x+b) 为误分类点到分离超平面距离。L 是 w, b 的连续可导函数。

    其包括原始形式和对偶形式,采用随机梯度下降法进行求解。首先任意选择一个超平面w0,b0,然后使用梯度下降法不断的极小化目标函数,其过程不是一次使所有的M个点的梯度下降,而是随机选择一个误分类点使其梯度下降,这样以来随机梯度下降会存在震荡,但整体趋势是下降的,算法本身是收敛的。

                                               \small \begin{matrix} \bigtriangledown_{w}L(w,b) = -\sum_{x_{i}\in M}y_{i}x_{i}&\: \: \: \: \: w\leftarrow w+\eta y_{i}x_{i} \\ \bigtriangledown_{b}L(w,b) = -\sum_{x_{i}\in M}y_{i}&\: \: \: \: \: b\leftarrow w+\eta y_{i} \end{matrix}

    无法显示

     对偶形式的基本思想是将w和b表示为实例xi和标记yi的线性组合,通过求其解系求得w和b,本质是用\small \alpha代替w属于全局数据求解

    由感知机模型可以进一步推出支持向量机

    支持向量机(SVM):是一种二分类模型,定义在特征空间上的建个最大的线性分类器,这也是与感知机的区别:求间隔最大化。

    支持向量机的学习策略就是间隔最大化,可形式化为求解一个凸二次规划问题,也等价于正则化的合页损失函数最小化问题。

    线性可分支持向量机:硬间隔最大化

    \large \begin{matrix} {functional \, margin} : \hat{\gamma}_{i} = y_{i}(w \cdot x+b) \, \, \, \Rightarrow \hat{\gamma} = \min_{i=1,2,...,N} \hat{\gamma}_{i} \\ {geometic \, margin}:\gamma_{i} = y_{i}\left(\tfrac{w}{||w||} \cdot x_{i}+\tfrac{b}{||w||} \right) \Rightarrow \gamma = \min_{i=1,2,...,N} \gamma_{i} \end{matrix}

    则:

    \large \max_{w,b} \gamma\;\;\;\;s.t.\;\;\; y_{i}\left(\tfrac{w}{||w||} \cdot x_{i}+\tfrac{b}{||w||} \right)\geqslant \gamma, i=1,2,...,N\\ \Rightarrow \max_{w,b} \tfrac{\hat{\gamma}}{||w||}\;\;\;\;s.t.\;\;\; y_{i}\left(w \cdot x_{i}+b \right)\geqslant \hat{\gamma}, i=1,2,...,N\\ \xrightarrow{\hat{\gamma} =1,max\tfrac{1}{||w||}\Leftrightarrow min1/2||w||^{2}} \min_{w,b} \tfrac{1}{2}||w||^{2}\;\;\;\;s.t.\;\;\; y_{i}\left(w \cdot x_{i}+b \right)-1\geqslant 0

    线性支持向量机:软间隔最大化

    \large \min_{w,b,\xi} \tfrac{1}{2}\left \| w \right \|^{2}+C\sum_{i=1}^{N}\xi_{i}\\\\ s.t.\\ y_{i}\left(w \cdot x_{i}+b \right)\geqslant 1-\xi_{i},\;\;\;i=1,2,...,N\\ \xi_{i}\geqslant 0 \;\;\;i=1,2,...,NNOTE: w的解唯一,b的解不唯一,存在于一个区间中

     

    非线性支持向量机:核函数 + 软间隔最大化

    通过非线性变换将非线性问题转化为线性问题。

    这里引入了核函数将输入空间映射为特征空间,核函数:\large K(x,z) = \phi(x) \cdot \phi(z), 在学习与预测中只定义核函数,不显示定义函数 \large \phi 

    常用核函数

    多项式核函数:

                                                   \large K(x,z)=(x \cdot z +1)^{p}

    ,对应的支持向量机是一个p次多项式分类器,分类决策函数为:

                                          \large f(x) = sign\left( \sum_{i=1}^{N_{s}}\alpha_{i}^{*}y_{i}(x_{i} \cdot x+1)^{p} +b^{*} \right )

    高斯核函数:

                                                   \large K(x,z)=\exp\left(-\tfrac{\left\|x-z\right\|^{2}}{2\sigma^{2}} \right )

    对应的支持向量机为高斯径向基函数分类器,分类决策函数为:

                                         \large f(x) = sign\left( \sum_{i=1}^{N_{s}}\alpha_{i}^{*}y_{i}\exp\left(-\tfrac{\left\|x-z\right\|^{2}}{2\sigma^{2}} \right )+b^{*} \right )

    字符串核函数:

                                  \large k_{n}(s,t) = \sum_{u \in \Sigma^{n}}[\phi_{n}(s)]_{u} [\phi_{n}(t)]_{u} =\sum_{u \in \Sigma^{n}}\sum_{(i,j):s(i)=t(j)=u} \lambda^{l(i)}\lambda^{l(j)}


           

    原始问题:  对偶问题:
    \large \min_{x \in \mathbb{R}^{n}}f(x)\\ \\ s.t. \\c_{i}(x)\leqslant 0,\;\;\;i ={1,2,...,k}\\ h_{j}(x)=0,\;\;\;j=1,2,...,l  \large \max_{\alpha, \beta}\theta_{D}(\alpha, \beta) =\max_{\alpha, \beta}\min_{x}L(x, \alpha, \beta)\\ \\s.t.\;\;\; \alpha_{i}\geqslant 0,\;\;\;i=1,2,...,k

     

    KKT(Karush-Kuhn-Tucker)条件:

    对原始问题和对偶问题,如果函数 f(x) 和ci(x) 是凸函数,hj(x) 是仿射函数,并且不等式约束ci(x)是严格可行的,则\large x^{*},\alpha^{*},\beta^{*} 分别是原始问题和对偶问题的解的充分必要条件是\large x^{*},\alpha^{*},\beta^{*}满足以下条件:
                                                                          \large \center \triangledown _{x}L({x^{*},\alpha^{*},\beta^{*}}) = 0\\ \alpha_{i}^{*} c_{i}({x^{*})=0,\;\;\;i=1,2,...,k\\ c_{i}({x^{*})\leq 0,\;\;\;i=1,2,...,k\\ \alpha_{i}^{*}\geq 0,\;\;\;i=1,2,...,k\\ h_{j}({x^{*})=0,\;\;\;i=1,2,...,k

    且,\large \alpha_{i}\geq 0,\;\;\;i=1,2,...,k 是对偶互补条件,即:若 \large \alpha_{i}^{*}> 0,则 \large c_{i}({x^{*})=0


    最后给出求解svm的SMO算法:

    SMO算法假设如果所有的变量的解都满足KKT条件,则此问题的解就找到了。否则选择两个变量,固定其他变量,针对这两个变量构建一个二次规划问题,这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解,因为这会使得原始二次规划问题的目标函数值变得更小。重要的是,这时子问题可以通过解析方法求解从而加快整个算法的计算速度。子问题有两个变量,一个是违反KKT条件最严重的一个,另一个由约束条件自动确定。如此,SMO算法将原问题不断分解为子问题并对子问题求解,进而达到求解原问题的目的。

     

    展开全文
  • 统计学习(the element of statistical learning英文原版)
  • 作者:Demon的黑与白  来源:CSDN  ...   统计学习方法资源汇总 历时近半年《统计学习方法》的学习,今天告一段落。也没什么好说的,在学习过程遇到的一些坑,和搜集到的...本书介绍了10种主要的统计学习方法:感知...

    作者:Demon的黑与白 
    来源:CSDN 
    原文:https://blog.csdn.net/u014688145/article/details/60758291 


     

    统计学习方法资源汇总
    历时近半年《统计学习方法》的学习,今天告一段落。也没什么好说的,在学习过程遇到的一些坑,和搜集到的一些资料都在此汇总下,方便自己复习查阅。

    统计学习方法总结
    本书介绍了10种主要的统计学习方法:感知机、k邻近法、朴素贝叶斯、决策树、逻辑斯蒂回归与最大熵模型、支持向量机、提升发方法、EM算法、隐马尔可夫模型和条件随机场。这10中统计学习方法的特点概括总结在下表中。 

    alt text
    建议学习顺序

    1. 1.k近邻法

    所有方法中,最简单的模型,本质上并不算任何学习算法。参考博文有:

    1. 2. 决策树

    决策树的核心在于对熵的理解,算法有ID3,C4.5,以及CART算法。参考的博文有:

    1. 3.感知机和支持向量机

    这两部分都属于对几何空间的划分,可以放在一块学,支持向量机是感知机的升级版,该系列对数学的要求较高,是块难啃的骨头。参考博文有:

    在总结之余,有一篇大神的博文高达56万的阅读量,可谓是SVM典型之作,强烈推荐。

    1. 4.朴素贝叶斯方法

    深刻的贝叶斯原理,它的哲学绝对不是一行简单的贝叶斯公式所能描述的。参考博文有:

    又发掘了一篇大神之作,现居美国研究心理学,从他口中叙述的贝叶斯令人印象深刻,强烈推荐。

    1. 5.逻辑斯蒂回归模型与最大熵模型

    对熵有了一定的概念之后,以及了解了概率模型的极大似然估计方法后,便可以开始上述两个模型的学习了。参考博文有:

    关于最大熵模型,可以参考吴军之作《数学之美》,深入浅出。

    1. 6. EM算法及隐马尔可夫模型

    EM算法是解决含隐变量问题的迭代算法,是隐马尔可夫模型中Baum-Welch算法的一般形式,所以必须先学习EM算法,才能理解隐马尔可夫模型的学习算法。而隐马尔可夫模型则可归结为三个大问题:概率计算,参数学习,模型预测。参考的博文有:

    关于EM算法的参考资料较多,可以直接参看上述博文的参考文献。

    大神之作总是需要单独拎出来,说一下,讲的实在是太棒了。

    1. 7. 条件随机场

    它是这本书的终极大boss,谁叫它放在了最后呢,它可谓是朴素贝叶斯、逻辑斯蒂回归、最大熵模型及隐马尔科夫模型的综合升级版。所以必须最后一个学,否则云里雾里。参考博文有:

    那么这里就有一篇关于应用【概率模型】进行多元分类和序列标注的introduction,参考链接如下:

    能帮助你理解书中所提到的【判别模型】和【生成模型】的区别。

    1. 8. 提升方法

    指数损失函数的经典应用,三个臭皮匠顶个诸葛亮。参考博文有:

    提升方法,引入了计算机学习理论PAC,发现了一位大牛,毕业于浙江大学,留美博士,链接如下:

    机器学习牛博推荐
    这一部分,推荐几位我认为在机器学习领域的大牛,呵呵,看着他们的博客长大,感觉自己差点变牛了,然而还差一大截,唉。

    码农场: http://www.hankcs.com/ 
    他总结了《统计学习方法》中的所有章节,基本上是抄书,但是每个章节都有相应的代码,我博文中的代码基本上全来源于该博文,是开源项目NLP的作者,牛!

    我爱自然语言处理 : http://www.52nlp.cn 
    里面有很多统计学中各种分布的知识,非常深刻有趣,大部分资源也可以从中找。

    阮一峰的网络日志 : http://www.ruanyifeng.com/blog/ 
    上海财大经济学博士,非常博学,出版《ECMAScript 6入门》、《黑客与画家》、《软件随想录》等等。

    CSDN July 大神:http://blog.csdn.net/v_july_v/article/details/7624837 
    七月在线的CEO,专注于机器学习的教学,看了他的SVM三重境界,变成了他的小粉。对算法也颇有研究,强烈推荐。

    Free Mind : http://blog.pluskid.org/?p=772 
    浙大本科硕士,留美深造,数学功底强至令人折服,不怕虐可以看看。

    刘未鹏 | Mind Hacks 思维改变生活 : http://mindhacks.cn/ 
    南大本科,现依旧在美国,所写文章深刻而哲学,喜欢研究认知心理学,但在机器学习领域也有深刻的认识,所谓知己知彼百战百胜,对如何学习有着自己独特的见解。

    优化算法专栏:http://blog.csdn.net/column/details/optimization-a.html 
    zouxy09的专栏:http://blog.csdn.net/zouxy09

    未完待续
    更新进行时…
    --------------------- 

     

    展开全文
  • 统计学习(概论)

    2018-11-05 13:15:00
    统计学习是关于计算机数据构建概率统计模型并运行模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statisticcal machine learning) 统计学习的主要特点是: 以计算机及网络为平台,是...

    统计学习是关于计算机数据构建概率统计模型并运行模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statisticcal machine learning)

    统计学习的主要特点是:

    1. 以计算机及网络为平台,是建立在计算机及网络之上的
    2. 以数据为研究对象,是数据驱动的学科
    3. 目的是对数据进行预测与分析
    4. 以方法为中心,统计学习方法构建模型并应用模型进行预测与分析
    5. 统计学习是概率论,统计学,信息论,计算理论,最优化理论及计算机科学等多个领域的交叉学科

    统计学习的对象:
    统计学习的对象是数据【data】,它是从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去,作为统计学习的对象,数据是多样的,包括存在与计算机及网络上的各种数字,文字,图像,视频,音频数据以及它们的组合。
    可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。在统计学习过程中,以变量或变量组表示数据,数据分为由连续变量和离散变量表示的类型。

    统计学习的目的:
    统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析,对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获取新的知识,给人带来新的发现。
    对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目的就是考虑学习什么的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习的效率。

    统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。

    统计学习由:

    • 监督学习【supervised learning】
    • 非监督学习【unsupervised learning】
    • 半监督学习【semi-supervised learning】
    • 强化学习【reinforcement learning】

    等组成。

    监督学习的方法:从给定的,有限的,用于学习的训练数据【training data】集合出发,假设数据是独立分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间【hypothesis space】;应用某个评价准则【evaluation criterion】,假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据【test data】在给定的评价准则下有最优的预测,最优模型的选取由算法实现。
    这样统计学习方法包括模型的假设空间,模型选择的准则以及模型学习的算法,称为统计学习的三要素,简称为模型【model】,策略【strategy】和算法【algorithm】。

    实现统计学习方法的步骤如下:

    1. 得到一个有限的训练数据集合
    2. 确定包括所有可能的模型的假设空间,即学习模型的集合
    3. 确定模型选择的准则,即学习的策略
    4. 实现求解最优模型的算法,即学习的算法
    5. 通过学习方法选择最优模型
    6. 利用学习的最优模型对新数据进行预测或分析

    在这里插入图片描述

    learning的目标是训练出一个模型,用这个模型进行一系列的预测。我们可以将训练过程涉及的过程抽象成数学函数:首先需要定义一个网络结构,相当于定义一种线性非线性函数;接着设定一个优化目标,即定义一种损失函数;而训练的过程就是求解最优解及次优解。

    展开全文
  • 统计学习方法概论

    2020-10-20 09:57:47
    1、统计学习(statistical learning)也称为统计机器学习,是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析预测的一门学科,主要特点有: 统计学习以计算机及网络为平台,建立在计算机及网络上; ...
  • 统计学习方法-学习总结

    千次阅读 2018-07-06 15:22:54
    统计学习方法-李航;监督学习,非监督学习,半监督学习,强化学习。 感知器,k近邻,kNN,朴素贝叶斯,决策树,逻辑回归,最大熵模型,支持向量机,SVM,提升方法,Adaboost,提升树,EM算法,隐马尔科夫模型,HMM,...
  • 统计学习

    千次阅读 2018-08-01 16:24:03
    基本概念 统计学习 统计学习(statistical learning) 是基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 也称为统计机器学习(statistical machine learning) ...
  • 统计学习是基于数据构建概率统计模型并运用模型对数据进行预测与分析,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称为统计学习方法的三要素。 一般实现统计学习的步骤如下: 1.准备有限的...
  • 统计学习笔记(1)——统计学习方法概论

    万次阅读 多人点赞 2014-04-17 11:37:42
    1.统计学习  统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化...
  • 统计学习基础(ESL)中文版

    万次阅读 多人点赞 2018-11-25 17:52:58
    ESL 指的是 The Elements of Statistical Learning。因为自己也是统计学专业,所以想研读这本书,同时实现书中的算法及其例子,并尝试解决习题。 说明 参考文献保留原书的写法,如 “Efron and Tibshirani (1993)”...
  • 李航 统计学习方法 课后习题答案

    万次阅读 多人点赞 2018-07-09 22:09:29
    第一章 https://blog.csdn.net/familyshizhouna/article/details/70160782 第二章 2.1-2.2 https://blog.csdn.net/cracker180/article/details/78778305 2.3 https://blog.csdn.net/xiaoxiao_wen/arti...
  • 李航—统计学习方法第四章课后答案

    万次阅读 多人点赞 2017-01-05 20:56:39
    4.1 用极大似然估计法推导朴素贝叶斯法中的先验概率估计公式和条件概率估计公式
  • 一转眼,从开始接触机器学习,到现在被琐事左右,不得不放下李航老师的《统计学习方法》,快五个月了。这五个月里,开头的一个月是我最快活的时候,全身心地享受统计学习方法带来的种种思维的乐趣,妙不可言。 ...
  • 2.3 题目:证明一下定理:样本集线性可分的充分必要条件是正实例点集和负实例点集所构成的凸壳互不相交。 这里给出比较精确的数学证明,主要参考凸优化相关理论
  • 最近看了上海交大张志华教授的精品课程 《机器学习导论》和《统计机器学习》,觉得讲的很深入,适合学习机器学习和深度学习的研究者深入学习,张教授讲的比较偏向理论,需要一定的数学基础。 至于广大网友最关心的...
  • ##《统计学习方法》各章节代码实现与课后习题参考解答 章节 代码 课后习题 第1章 统计学习方法概论(LeastSquaresMethod) 传送门 传送门 第2章 感知机(Perceptron) 传送门 传送门 ...
  • 统计学习方法》——李航 学习大纲

    万次阅读 多人点赞 2018-01-27 17:40:38
    最近在学习李航写的统计学习方法概论, 每一章都用xmind理清了思路,括号里是书里的公式,第一次写博文,敬请指教~~~~ 第一章 统计学习方法论 第二章 感知机 每个方法其实只需要着重掌握三要素和...
1 2 3 4 5 ... 20
收藏数 444,294
精华内容 177,717
关键字:

统计学习