精华内容
下载资源
问答
  • 张志华教授的统计机器学习课程讲义、机器学习导论讲义 作业+答案
  • 统计机器学习课件

    2017-03-11 14:02:09
    研究生统计机器学习的课件,比较全
  • 张志华教授《机器学习导论》和《统计机器学习》课程讲义 最近看了上海交大张志华教授的精品课程 《机器学习导论》和《统计机器学习》,觉得讲的很深入,适合学习机器学习和深度学习的研究者深入学习,张教授讲的...

    张志华教授《机器学习导论》和《统计机器学习》课程讲义

    尊重原创,转载请注明出处http://blog.csdn.net/guyuealian/article/details/53672487 
         最近看了上海交大张志华教授的精品课程 《机器学习导论》和《统计机器学习》,觉得讲的很深入,适合学习机器学习和深度学习的研究者深入学习,张教授讲的比较偏向理论,需要一定的数学基础。
        至于广大网友最关心的课程讲义和配套教材书籍,后来鄙人邮件详问过张志华教授,他说“目前只有学生记录下来的讲义,没有专门的教材”,张教授还好心留下讲义的下载链接:http://bcmi.sjtu.edu.cn/log/courses.html ,这也是他的个人主页,讲义不一定完全配套视频,自己且看且将就着用吧。
    
    
        PS:鄙人并非上海交大的学生,所以也不清楚交大同学们现在用什么教程和讲义,如果交大的网友看见此文,希望能告知相关内容,方面我们相互学习,拜托了~!
         张教授的简历请见:http://www.cs.sjtu.edu.cn/PeopleDetail.aspx?id=68 
    一、《机器学习导论》
    课程视频:http://ocw.sjtu.edu.cn/G2S/OCW/cn/CourseDetails.htm?Id=397
    或者到云盘下载: http://pan.baidu.com/s/1miuJwDU 密码: ab8e
    
    课程目录:
    01. 基本概念
    02. 随机向量
    03. 随机向量的性质
    04. 条件期望
    05. 多元高斯分布
    06. 分布的性质
    07. 多元高斯分布及其运用
    08. 多项式分布
    09. 渐进性质
    10. 核定义
    11. 正定核性质
    12. 正定核应用
    13. 主元分析
    14. 主坐标分析
    15.  核主元分析
    16. 概率PCA
    17. 最大似然估计方法
    18. 期望最大算法
    19. EM算法的收敛性
    20. MDS方法
    21. MDS中加点方法
    22. T矩阵范式
    23. 次导数
    24. 矩阵次导数
    25. Matrix_Completion
    26. K_means algorithm
    27. spectral clustering
    28. 谱聚类1
    29. 谱聚类2
    30. Fisher判别分析
    31. Fisher Discriminant Analysis
    32. computational Methods1
    33. computational Methods2
    34. Kernel FDA
    35. Linear classification1
    36. Linear classification2
    37. Naive Bayes 方法
    38. Support Vector Machinese1
    39. Support Vector Machinese2
    40. SVM 
    41. Boosting1
    42. Boosting2
     
    
    二、《统计机器学习
    课程视频:http://ocw.sjtu.edu.cn/G2S/OCW/cn/CourseDetails.htm?Id=398
    或者到云盘下载: 链接: http://pan.baidu.com/s/1i5iEpnR 密码: wct9
    课程目录:
    01. 概率基础
    02. 随机变量1
    03. 随机变量2
    04. 高斯分布
    05. 连续分布
    06. 例子
    07. scale mixture pisribarin
    08. jeffrey prior
    09. statistic interence
    10. Laplace 变换
    11. 多元分布定义
    12. 概率变换
    13. jacobian
    14. wedge production
    15. 统计量
    16. 多元正态分布
    17. Wishart 分布
    18. 矩阵元Beta分布
    19. 统计量 充分统计量
    20. 指数值分布
    21. 共轭先验性质
    22. Entropy
    23. KL distance
    24. properties
    25. 概率不等式1
    26. 概率不等式2
    27. 概率不等式1
    28. 概率不等式2
    29. 概率不等式3
    30. 概率不等式
    31. 随机投影
    32. John引理
    33. Stochastic Convergence-概念
    34. Stochastic Convergence-性质
    35. Stochastic Convergence-应用
    36. EM算法1
    37. EM算法
    38. EM算法3
    39. Markov Chain Monte carlo1
    40. Markov Chain Monte carlo2
    41. Bayesian Classification
    如果你觉得该帖子帮到你,还望贵人多多支持,鄙人会再接再厉,继续努力的~
    
    
    
    展开全文
  • 统计机器学习入门——线性回归

    千人学习 2016-07-11 14:35:17
    "统计机器学习入门——老司机带你读经典"系列课程使用经典的ISLR(An Introduction to Statistical Learning with Applications in R)为教材,结合具体案例,介绍统计学习的基本概念和常用算法。
  • 统计机器学习(机器学习) 概念

    千次阅读 2016-04-09 11:24:28
    统计机器学习(机器学习) 概念 该文章是作者阅读相关书籍和资料后,总结和归纳的一些个人认为有必要整理和了解的知识点介绍。与大家一起分享,如有不妥之处,还望指正。   统计(机器)学习 1.统计学习概念  ...

    统计机器学习(机器学习) 概念

    该文章是作者阅读相关书籍和资料后,总结和归纳的一些个人认为有必要整理和了解的知识点介绍。与大家一起分享,如有不妥之处,还望指正。

     

    统计(机器)学习

    1.统计学习概念

           统计学习也叫统计机器学习(statistical machine learning),是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。现在提及的机器学习往往指的是统计机器学习。

           Herbert A.Simon对“学习”的定义是:如果一个系统能够通过执行某个过程来改进它的性能,这就是学习。

           Mitchell,1997 给学习的一个形式化定义:假设用P来评估计算机程序在某一任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

          1956年,在IBM公司研发了西洋跳棋程序的Arthur Samuel 发明了machine learning 一词,将其定义为“不显式编程地赋予计算机能力的研究领域”。

    2. 基本假设

           统计学习关于数据的基本假设是同类数据具有一定的统计规律性。这里的同类数据指的是具有同类性质的数据,“某一类”的数据。之所以称之为“某一类”就说明数据呈现相同的性质,而往往也具有相同的统计特性

    3. 统计学习方法

            统计学习由监督学习、半监督学习、无监督学习、强化学习等组成。主要讨论有监督学习(有监督学习研究相对而言比较成熟和深入,也具有代表性)。书本的概括如下:

            从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则,从假设空间中选取一个最优的模型,使得它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样统计学习方法就包括模型的假设空间、模型的选择准则和模型的学习算法,称为统计学习方法的三要素,简称:模型(model)、策略(strategy)、算法(algorithm)。可以更形象的称之为:

                     方法=设想+指标+方案

    4. 基本术语

    机器学习:  machine learning

    模型:  model

    数据集:  data set

    示例: instance

    样本: sample

    属性: attribute

    特征: feature

    属性值: attribute value

    属性空间: attribute space

    样本空间(输入空间): sample space

    特征向量: feature vector

    维数(维度): dimensionality

    学习: learning

    训练: training

    训练样本: training sample

    训练集: training set

    假设: hypothesis

    真实(真相): ground truth

    预测: prediction

    标记(标签): label

    样例: example

    标记空间(输出空间):label space

    分类: classification

    回归:  regression

    二分类: binary classification

    正类: positive class

    反类: negative class

    多分类: multi-class classification

    测试: testing

    测试样本: testing sample

    聚类: clustering

    簇: cluster

    有监督学习: supervised learning

    无监督学习: unsupervised learning

    泛化: generalization

    分布: distribution

    独立同分布: independent and identically distributed. i.i.d.

    归纳: induction

    演绎: deduction

    特化: specialization

    概念: concept

    版本空间: version space

    输入空间:input space

    输出空间: output space

    特征空间: feature space

    决策函数: decision function

    损失函数: loss function

    主要参考资料:

    《统计学习方法》李航著

    《机器学习实战》Peter Harrington著 李锐等译

    《机器学习》周志华 著

     《模式分类》Richard O.Duda 等著

    展开全文
  • 统计机器学习入门视频教程

    千人学习 2016-06-21 15:06:58
    "统计机器学习入门——老司机带你读经典"系列课程使用经典的ISLR(An Introduction to Statistical Learning with Applications in R)为教材,结合具体案例,介绍统计学习的基本概念和常用算法,希望大家能够在以下...
  • 内有张志华,统计机器学习的视频,包含张志华老师所有的内容
  • 目前机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义),对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:...
  • 统计机器学习入门——分类2

    千人学习 2016-08-08 10:51:31
    "统计机器学习入门——老司机带你读经典"系列课程使用经典的ISLR(An Introduction to Statistical Learning with Applications in R)为教材,结合具体案例,介绍统计学习的基本概念和常用算法,希望大家能够有所...
  • 统计机器学习理论

    千次阅读 2016-07-11 15:47:33
    目前机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义),对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:...

    目前机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义),对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:一类做统计学习理论相关工作,如泛化界、约简或一致性;一类做优化算法,如支持向量机、Boosting等。作为一个纯统计机器学习的学者来说,我想这两块内容都得了解。优化算法的门槛低点,可能比较容易上手,了解他们并不太难,比如支持向量机本质上是求解一个RKHS上的二次优化问题,Boosting是函数空间上的梯度下降优化问题。统计学习理论的门槛高点,需要的基础数学知识多点,离计算机出生的人比较远,因而常常使人望而生畏。最近本人对统计学习理论这块做了些整理,发现其实这块东西并非如想象的那么难,他们的本质无非是概率集中不等式在机器学习上的应用,下面以泛化界为例讲一下自己对那块内容的理解。

        Talagrand(1996)说过: "A random variable that depends (in a "smooth way") on the influence of many independent variables(But not too much on any of them) is essentially constant". 中文上的意思是,依赖于许多独立随机变量的随机变量本质上是个常量,举个例子,经验风险就是一个依赖于一个随机训练样本集合的随机变量,因而经验风险本质上应该是个常量。正因为如此,这个随机变量离开它均值的概率就以指数形势衰减,因此这就是泛化界中常见的如下论述:“以1-\sigma的概率,作如下论断”的由来。目前使用的各种泛化界分析工具本质上正是基于这个原理,下面介绍下目前主流的三种泛化界分析方法,VC维,R复杂度和稳定性分析。

        为了叙述清楚,如一个游戏开始之前需要设置游戏规则一样,这里简单介绍一下机器学习问题设置。统计机器学习研究的问题一般是,给定一堆带标签的训练样本集合,需要从训练集合中学习出一个预测器来,对新的样本进行预测,使得预测结果尽可能的接近它的真实标签。相应的,对统计机器学习理论分析,我们需要做如下一些假设:假设训练样本集合是从一个未知但固定的分布中独立同分布的抽取出来,学习的目标是根据这样一个样本集合,从一个事先给定的分类器集合中挑选出一个分类器,使得分类器的对从同一个分布中随机抽取的样本在给定的一个损失评价下的风险最小。一个需要特别注意的是,在统计学习泛化界分析时,分类器的风险常常被认为是随机样本集上的一个随机变量,这样的随机风险集合(以分类器为索引)在统计上被叫做经验过程

        VC维可能是影响最深也是最早提出来的泛化界分析方法, V是统计机器学习理论的垫基者Vapnic的名称的缩写,这从名称上就验证了VC维在统计机器学习理论的影响力。这块的分析得先从Hoeffding不等式说起,Hoeffding不等式本质说明一组独立随机变量的均值离开它的期望的可能性以指数形式衰减。因此,对于任一给定的分类器F(F与训练样本集合无关), F与每个随机样本结合形成了一个F作用在该随机变量上的新的随机变量(取值0,1,即分对与分错),这个随机变量的期望刚好是F的期望风险,N个这样随机变量的均值刚好是F的经验风险,因此,我们获得了F在N个训练样本集合上的经验风险偏离F期望风险的可能性的概率描述,为叙述方便,以下简称经验风险偏离F期望风险为偏离情况。然而,这样的概率描述只能针对一个F,它所起作用的那部分训练样本集合上也直接与F相关,而我们的学习是从事先给定的函数空间中选择一个F,因此我们并不能保证Hoeffding不等式作用的那个F就是我们选择出来的F,即使假设我们没看到训练样本集合之前,我们已经知道选择哪个F,我们在推导该F与最优F(函数空间里期望风险最小的F)之间关系时,也需要一个不随样本集合变化的概率描述。因此,我们需要一个对函数空间中的所有F一致成立的偏离情况的可能性的概率描述,这就是泛化界里常说的uniform。当函数空间的势是个有限值时,这种情况比较容易处理,分别对每个F运用Hoeffinding不等式,所有的偏离可能性的和就是存在一个F,它的偏离情况超过一个给定值的概率的上界。反过来说,即是假设空间里的任何函数都以至少一定的概率,偏离情况小于一个给定值。当函数空间的势不是一个有限值时,上面的处理就遇到了问题,因为无穷个偏离可能性的和是个无穷大的数,这样的上界就是个无意义的事。为了处理这种情况,我们的先驱者注意到了以下两个情况:1)假设空间的中所有函数偏离情况的上确界是所有函数偏离情况的上界;2)在任何有限的样本上(比如N),尽管函数空间的势是无穷的,但是它们作用在有限个样本的分类情况却是有限的(上界是2^N)。如果我们能够找到偏离情况的上确界的概率的一个上界,并且这个上界能够以有限个样本上的某种概率表达出来,我们就能解决问题。具体的做法是,可以证明偏离情况的上确界的概率的一个上界是两个同样大小的从同一分布中抽取的训练样本集合经验风险之差的概率的上确界。然后对后者就可以使用有限假设空间下的Hoeffinding不等式,得出后者偏离情况的概率描述。为了得到比较精确的界的描述,必须刻画函数集合在有限样本上的分类情况,这个分类情况对应的术语叫生长函数,它表示N个样本被函数空间的函数们分成不同情况的最大值。为了计算生长函数,VC维被定义出来,它描述了函数集合分类样本的能力,具体表现为函数集合能够任意分类的最大样本个数。由生长函数和VC维定义马上知道,当样本的个数N小于等于VC维时,生长函数的值等于2^N, 否则生长函数的值小于2^N。这也说明了,一个有限VC维空间的生长函数并非指数增长,从而避免了界的无意义性。Vapnik老前辈已经为我们推导出了生长函数与VC维的关系不等式,将他们之间的关系降到了多项式,因而我们的界从O(1)->O(sqrt(logn/n))。后人在此基础上又提出了一些改进,主要集中在如何让不等式的界更紧,比如比生长函数小的VC熵,对函数能力的更有效描述的覆盖数,还有对Hoeffding不等式的改进版本Bernstein不等式等。VC维这套理论的建立为统计机器学习的理论铺下了坚实的理论基础,从此机器学习变得有理可依,也许这就是机器学习从人工智能中分离出来的一个重要因素之一,然而由于VC维的难以计算,还是给具体应用带来了不便(目前常用的一个事实是,d维超平面集合的VC维是d+1)。

         R复杂度的提出,动机之一就是克服VC维的的不容易计算。另外一个原因是某些算法在无穷维空间里也获得了很好的经验性能,然而却不能用VC维解释。比如RKHS中的函数都是无穷维的,在此空间得出的用VC维表达的界是平凡的,无法对实际算法设计提供指导。与VC维类似,R复杂度也是对一个函数集合能力的描述,它描述了函数集合拟合噪声的能力,能力越强,R复杂度越大。R复杂度有两种:一种是期望R复杂度,一种是经验R复杂度,期望R复杂度与经验R复杂度本质上也是经验量与期望量之间的关系,因而也可以用概率集中不等式描述其中的关系,经验R复杂度因为是给定了N个样本的情况,因而更容易计算。与VC维的分析类似,R复杂度的分析也是专注于偏离情况的上确界,与VC维不同的是,这儿使用了一个比Hoeffinding更强大的不等式McDiarmid集中不等式,由Mcdiarmid不等式我们可以得出,偏离情况与期望偏离情况之间的差的概率描述。其中期望偏离情况的分析比较复杂,通过一些列分析可以得出期望偏离情况的一个上界,刚好是函数集的R复杂度,由此我们得到了与VC维类似的一个泛化风险界,其中生长函数被替换成了R复杂度。R复杂度的计算比VC维容易,常常可以根据一些不等式如Cauchy-Schwarz或Jensen不等式求出,另外机器学习大牛们还提供了一些组合函数的与个体函数之间R复杂度的关系的计算公式,因此对于实际应用更有指导意义,比如我们可以从中推导出著名的Margin界

         VC维和R复杂度存在的一个问题是,它们关心的都是整个函数空间的拟合能力,而对算法如何搜索函数空间无关,实际上我们并不需要一个对整个函数空间都成立的界,我们关心的只是我们的算法可能搜索到的函数的泛化能力,此外,描述一个函数空间能力大小的事也不是一件容易的事情。因此,我们需要一个能够仅仅对我们算法搜索出来的解的泛化能力分析的概率表达式子。因此与前面两种分析方法不一样的是,稳定性分析关心的是算法搜索出来的解的偏离情况的概率描述稳定性描述的是当训练样本集合中的训练样本发生变动时(常常研究一个变动),算法输出的分类器是如何变化的,用的最多是算法的一致稳定性,它表示,当训练集合中的一个样本被替换或者删掉时,分类器的输出的函数在定义域上变动的最大值,这个最大值称为稳定数,即对应于两个函数之差的无穷范数。有了这个工具后,我们对算法输出的函数的偏移情况与期望偏移情况使用McDiarmid集中不等式,就可以得出偏移情况的一个上界,在对期望偏移情况分析,可以得出期望偏移情况的一个用算法稳定数表示的上界,因此我们得到了一个用稳定数表达的算法输出的函数期望风险的上界。由于我们需要得到一个有意义的上界,因此稳定数至少应该长得像1/N。接下来稳定性分析关心的是,如何计算有效的稳定数的问题,大牛们已经提供了一套在正则化RKHS空间下的算法稳定性的计算公式,可以发现这个空间下的算法的确满足1/N的形式。

         统计机器学习推动了机器学习的发展,统计学习理论的建立为统计机器学习奠定了坚实的基础,随着统计机器学习理论的发展,相信不久将来更紧的更容易指导实践的界会被提出来。想做这块研究的人需要一定的数学基础,然而,做出来的东西确很少有实际价值,因此需要慎重对待。好了,改天有空再写写自己对一致性或约简的一些体会。

    展开全文
  • 统计机器学习入门——重抽样方法

    千人学习 2016-08-17 14:18:12
    "统计机器学习入门——老司机带你读经典"系列课程使用经典的ISLR(An Introduction to Statistical Learning with Applications in R)为教材,结合具体案例,介绍统计学习的基本概念和常用算法。
  • 统计机器学习(斯坦福大学讲义),机器学习斯坦福大学讲义,英文版
  • "统计机器学习入门——老司机带你读经典"系列课程课件1,课程介绍详见:http://edu.csdn.net/huiyiCourse/detail/151
  • 统计机器学习-卡耐基梅隆大学(Carnegie Mellon University)708 讲义、作业、习题解答
  • 到目前为止,人工智能可以划分为三个阶段:早期的符号学习、九十年代开始的统计机器学习、近年兴起的深度学习。 人工智能早期,机器学习的技术几乎全是符号学习。符号学习的概念很简单,就是用一些特定的符号来表示...

    到目前为止,人工智能可以划分为三个阶段:早期的符号学习、九十年代开始的统计机器学习、近年兴起的深度学习。

    人工智能早期,机器学习的技术几乎全是符号学习。符号学习的概念很简单,就是用一些特定的符号来表示现实的事物或者观念,例如用汉字“苹果”来表示现实中的苹果,这些符号代表的意义是约定俗成的,一个完全空白的人是需要通过学习才能将符号和现实事物建立联系。而且符号不只是字符还可以是图片、图表等。

     

    对于统计机器学习,用一句话概括,统计机器学习是基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。学习流程如下:

    关于统计机器学习更详细的的内容请参考:https://blog.csdn.net/slx_share/article/details/79960635

     

    深度机器学习在理论和技术方面并没有太多的创新,只是因为现在计算能力的大幅提高,使得人们可以使用比以前更加精确的方法进行计算,从而得到更好的结果,目前深度学习主要适合于神经网络

    展开全文
  • 本文档介绍了统计机器学习领域常用的不等式及其证明过程。其中包括了Chernoff不等式,Markov不等式,Chebyshev不等式,Hoeffding不等式,大数定律,中心极限定律等
  • 这都是我们老师上课时用的 老师讲的很好 感觉很有用所以拿出来和大家分享一下!
  • 关于统计机器学习的一些文献,介绍了机器学习领域的最新进展,包括半监督学习的一些介绍
  • 统计机器学习入门——老司机带你读经典"系列课程使用经典的ISLR(An Introduction to Statistical Learning with Applications in R)为教材,结合具体案例,介绍统计学习的基本概念和常用算法
  • "统计机器学习入门——老司机带你读经典"系列课程使用经典的ISLR(An Introduction to Statistical Learning with Applications in R)为教材,结合具体案例,介绍统计学习的基本概念和常用算法。
  • 机器学习新-统计机器学习第二版

    千次阅读 2021-06-14 22:25:57
    生物学和医学中的统计和计算问题创造了“生物信息学”大量的数据在许多领域产生,统计学家的工作是理解所有这些:提取重要的模式和趋势,并理解“数据说明了什么”。我们称之为从数据中学习。 文末付本书最新版pdf...
  • ML:利用time模块统计机器学习模型训练前后的时间成本代码实现 目录 利用time模块统计机器学习模型训练前后的时间成本代码实现 利用time模块统计机器学习模型训练前后的时间成本代码实现 ML:...
  • 张志华教授的两门机器学习公开课是很好的机器学习资源。但在上海交大的公开课视频网站上挂出的教学视频顺序有点乱。对于初学者来说,如果没看对顺序的话,会觉得讲得很乱,从而错过这么优质的资源。事实上板书很完整...
  • 机器之心向大家介绍一门统计机器学习课程,该课程的授课老师是 CMU 的 Ryan Tibshirani 和 Larry Wasserman,他们从回归模型到概率图模型向我们展示了统计机器学习的全面概念与推导。本课程适合有一定概率论...
  • 浅谈对统计机器学习的认识

    千次阅读 2018-04-16 15:01:48
    最早是在《数据处理与优化算法》课堂上接触到数据挖掘(Data Mining),接着自学Pang-Ning Tan et al.的《数据挖掘导论》入门数据挖掘。...机器学习偏向于数学与计算机的交叉,统计的理论往往需要通过机...
  • 周志华教授的两门机器学习公开课是很好的机器学习资源。但在上海交大的公开课视频网站上挂出的教学视频顺序有点乱。对于初学者来说,如果没看对顺序的话,会觉得讲得很乱,从而错过这么优质的资源。事实上板书很完整...
  • 周志华教授的两门机器学习公开课是很好的机器学习资源。但在上海交大的公开课视频网站上挂出的教学视频顺序有点乱。对于初学者来说,如果没看对顺序的话,会觉得讲得很乱,从而错过这么优质的资源。 事实上板书很...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 224,788
精华内容 89,915
关键字:

统计机器学习