李政轩机器学习 - CSDN
  • 转自: http://blog.csdn.net/songzitea/article/details/24854507本节是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程。讲得很好不错,这里非常感谢他的分享:http://www.powercam.cc/chli。也贴到这里...

    转自: http://blog.csdn.net/songzitea/article/details/24854507

    本节是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程。讲得很好不错,这里非常感谢他的分享:http://www.powercam.cc/chli。也贴到这里,和大家共同学习。

    Clustering  

    1. Fuzzy C-Means 基本概念(第1部分)  
    2. Fuzzy C-Means 基本概念(第2部分)
    3. Fuzzy C-Means 基本概念(第3部分)
    4. Fuzzy C-Means 迭代公式推導    

    Regression 

    1. Linear Regression Models-1 
    2. Linear Regression Models-2

    KernelMethod(A Chinese Tutorial on Kernel Method, PCA, KPCA, LDA, GDA, and SVMs) 

    1. AnAutomatic Method to Find the Best Parameter for RBF Kernel Function to SupportVector Machines
    2. Kernel Method 本單元介紹kernel method的基本概念與計算特徵空間中的距離與角度的方法,並提供一個簡單的例子來讓您初步探索kernel method的奧妙。在本單元的後面,點出了kernel method背後的幾個重要
    3. Principal Component Analysis and Kernel Principal Component Analysis本單元利用幾何與單變數統計的概念來介紹主成分分析(Principal Component Analysis, PCA),並介紹如何將kernel method引入主成分分析,即 Kernel Principal Component.
    4. Linear Discriminant Analysis and Generalized Discriminant Analysis  本單元利用幾何的概念來介紹線性區別分析(Linear Discriminant Analysis )於特徵萃取(feature extraction)上的應用,並介紹如何將kernel method結合線性區別分析的...
    5. Hard-Margin Support Vector Machines(SVMs, SVM)  本單元詳細介紹Hard-Margin Support Vector Machines (Hard-Margin Support Vector Machine, SVMs, SVM, 支撐向量機)的基本概念與做法。
    6. Soft-Margin Support Vector Machines  本單元點出了Hard-Margin Support Vector Machines (Soft-Margin Support Vector Machine, SVMs, SVM, 支撐向量機)會遇到的問題,並介紹了SVM....
    7. Linear Regression Model andKernel-based Linear Regression Model  本單元利用介紹線性迴規模型(Linear Regression Model),並介紹如何將kernel method引入線性迴規模型,即Kernel-based Linear Regression Model。
    8. Reproducing Kernel Hilbert Space:Definitions  本單元中利用大量的例子與圖形來介紹下面兩大主題:1. 給定kernel function後,如何創造出其相對應的feature mapping與feature space。2. 給定feature mapping...
    9. Reproducing Kernel Hilbert Space:Theorems and Proofs 本單元中利用大量的例子與圖形來介紹下面兩大主題:1. 給定kernel function後,如何創造出其相對應的feature mapping與feature space。2. 給定feature mapping

    其他

    1. 如何使用Word 2010來製作符合APA格式的文獻(1/3)
    2. 如何使用Word 2010來製作符合APA格式的文獻(2/3)
    3. 如何使用Word 2010來製作符合APA格式的文獻(3/3)


    关于Meachine Learning&Pattern Recognition更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.


    展开全文
  • Kernel Methord 的基本思想:   Kernal的基本思想是,将低维空间不可分数据映射到高纬度的空间,比如说左图的数据是线性不可分的,分界线是: ,将数据映射到三维空间,就可以得到线性的分类面, ...

    课程链接:http://www.powercam.cc/slide/6552。

    Kernel Method 的基本思想:

                            
    Kernel的基本思想是,将低维空间不可分数据映射到高纬度的空间,比如说左图的数据是线性不可分的,分界线是:

    将数据映射到三维空间,就可以得到线性的分类面,

    总结:在低维空间线性不可分,映射到高纬空间,线性可分的概率会增大,比如说,数据在一维空间线性可分的难度比二维空间线性可分的难度大,二维空间线性可分的难度比在三维空间线性可分的难度大。以此类推。

    Kernal的另一个关键点事Kernal Function:

                             
    2维空间映射到3维空间的结果是:
    ,在映射后的空间的内积为:
    。也就是说,我们的内核函数K(),计算的是新空间的数据点之间的相似度。
    内核方法总结:1、将数据从第维映射到更高维。2,映射到高维后,数据可以线性可分。3、kernel function可以计算高纬度空间的几何性质,角度,距离,并不需要得到映射函数.
    现在推导,可以利用kernel function计算高纬度空间的距离,角度。
                                   
    总结:在高维空间中要计算数据向量之间的角度,距离,只需要知道kernel function即可,并不需要知道.

            现在引出内积矩阵,也叫做Gram Matrix ,Kernel Matrix。Kernel Matrix其实就是把所有的样本点映射到高维空间,然后在高维空间中计算内积,形成内积矩阵。内积矩阵的计算,也只需要,kernel function,不需要映射函数
                                                               

    现在,举个小例子,讲解kernel function 的使用。
                                      

    在地位空间中的数据点:,映射到高纬空间得到,图中坐标系画的是在高维空间中的数据分布,显而易见,在高维的空间中,数据已经是线性可分了,那么如何找到分类平面和相应的决策函数呢。

                                                           
    其中,,是正类别(标签值为+1的数据的中心点)是负类别(标签值为-1的数据的中心点)
    。那么中间那条虚线就是对应于我们的分类平面,虚线和红线的交点坐标为,
    那样就可以得到决策函数如下:
                                      
                                      

    所有,要判断在高维的空间中,未知的点对应的表是啥,关键是计算出。那么如何用核函数计算出y呢? 推导如下:
                                      
    其中,b也是可以用kernel function函数解决的,所以,只要我们知道kernel function 我们是可以用k来计算出y的。

            现在进行总结:对于kernel function 映射函数是不一定需要的,只要有kernel function即可,但是不是随便定义一个kernel function 就可以找到相应的映射,其kernel matrix 是半正定矩阵。
                             


    现证明k(x,z)=<x,z>对应的kernel function是正半定矩阵。
                               

    Dual Representation:
    在读关于核映射的paper时,我们经常看到如下式子:
                                                                                    

    如果是预测问题,那么f(x)就是预测值,如果是分类问题,那么f(x)就是对应的类别。举个例子,对于刚才我们的分类问题,
                                                           

            可以看出,W是的线性组合,所以,判决平面完全由训练样本所控制的。在统计上面有个定理,因为我们所掌握的只是训练数据,所以,我们计算处理的判决平面,投影方向等等,都是由训练样本所决定的。

                                                                    

                                                      


    展开全文
  • 机器学习算法中文视频教程    在网上狂搜ReproducingKernel Hilbert Space的时候,找到了一个好东西。这个是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程。感觉讲得很好。这里非常感谢他的...

    机器学习算法中文视频教程

     

           在网上狂搜ReproducingKernel Hilbert Space的时候,找到了一个好东西。这个是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程。感觉讲得很好。这里非常感谢他的分享:http://www.powercam.cc/chli。也贴到这里,和大家共同学习。

     

    一、KernelMethod(A Chinese Tutorial on Kernel Method, PCA, KPCA, LDA, GDA, and SVMs)  

    AnAutomatic Method to Find the Best Parameter for RBF Kernel Function to SupportVector Machines

    1. Kernel Method

    2. Principal Component Analysis andKernel Principal Component Analysis

    3. Linear Discriminant Analysis andGeneralized Discriminant Analysis

    4. Hard-Margin Support Vector Machines(SVMs, SVM)

    5. Soft-Margin Support Vector Machines

    6. Linear Regression Model andKernel-based Linear Regression Model

    7. Reproducing Kernel Hilbert Space:Definitions

    8. Reproducing Kernel Hilbert Space:Theorems and Proofs

     

    二、Clustering

    1. Fuzzy C-Means 基本概念(第1部分)

    2. Fuzzy C-Means 基本概念(第2部分)

    3. Fuzzy C-Means 基本概念(第3部分)

    4. Fuzzy C-Means 迭代公式推導

     

    三、Regression

    1. Linear Regression Models-1

    2. Linear Regression Models-2

    展开全文
  • 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的原因,在周志华《机器学习》中用最近邻分类器给了一个解释——数据集需要满足密采样条件,以及高维计算下会有...

    机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的原因,在周志华《机器学习》中用最近邻分类器给了一个解释——数据集需要满足密采样条件,以及高维计算下会有很多麻烦,甚至在尾数特别高的时候连计算内积都变的复杂,这种计算阻碍称为“维数灾难”。其他的原因还有过滤噪音等。

    多维缩放(MIDS)

    假设样本数m($X\in \mathbb{R}^{d*m}$),样本间的距离矩阵$D\in \mathbb{R}^{m*m}$,其第i行第j列的元素为$dist_{ij}$是$x_{i}$到$x_{j}$的距离

    这里降维的目标是得到样本在$d'\leq d$的$d'$维空间里的表示:$Z\in \mathbb{R}^{d'*m}$且任意两个样本之间的欧氏距离不变。即($||z_{i}-z_{j}||=dist_{ij}$)

    令内积矩阵$B=Z^{T}Z\in \mathbb{R}^{m*m}$,$b_{ij}=z_{i}^{T}z_{j}$有

    $$ dist_{ij}^{2}=||z_{i}||^{2}+||z_{j}||^{2}-2z_{i}^{T}z_{j} $$

    $$ =b_{ii}+b_{jj}-2b_{ij} $$

    为便于计算,令Z被中心化,即质心在原点,则$\sum_{i=1}^{m}z_{i}=0$,则:

    $$ \sum_{i=1}^{m}dist_{ij}^{2}=\sum_{i=1}^{m}b_{ii}+mb_{jj}-2\sum_{i=1}^{m}b_{ij} $$

    $$ =tr(B)+mb_{jj} $$

    $$ \sum_{j=1}^{m}dist_{ij}^{2}=tr(B)+mb_{ii} $$

    $$ \sum_{i=1}^{m}\sum_{j=1}^{m}dist_{ij}^{2}=m tr(B)+m\sum_{j=1}^{m}b_{jj}=2m\ tr(B) $$

    $$ dist_{i.}^{2}=\frac{1}{m}\sum_{i=1}^{m}dist_{ij}^{2} $$

    $$ dist_{.j}^{2}=\frac{1}{m}\sum_{j=1}^{m}dist_{ij}^{2} $$

    $$ dist_{..}^{2}=\frac{1}{m^{2}}\sum_{i=1}^{m}\sum_{j=1}^{m}dist_{ij}^{2} $$

    则可以由上式得:

    $$ b_{ij}=-\frac{1}{2}(dist_{ij}^{2}-dist_{i.}^{2}-dist_{.j}^{2}+dist_{..}^{2}) $$

    由此就可以在保持样本距离矩阵不变并求出内积矩阵B。

    接下来求矩阵Z:

    可以把B特征值分解为$B=V\Lambda V^{T},\Lambda =diag(\lambda_{1},\lambda_{2},...,\lambda_{d} )$(这是写到现在为止学了线代唯一还记得的:))

    特征值按从大到小排序,令$ \tilde{\Lambda}=diag(\lambda_{1},\lambda_{2},...,\lambda_{d'} ) $,因为降维后往往距离与原始距离尽可能接近,不必严格相等,所以只需取最大的$d'$个特征即可。而Z即可表达为:

    $$ Z= \tilde{\Lambda}^{\frac{1}{2}}\tilde{V}^{T}\in \mathbb{R}^{d'*m} $$

    求出Z矩阵后,MIDS也就结束了。如果Z满足$Z=W^{T}X,W\in\mathbb{R}^{d*d'}$,则此变换为线性变换。

    主成分分析(PCA)

    将d维的样本降维至d’维,相当于用一个d'维超平面让所有人样本点投影到这个超平面上。而为了使这个超平面尽可能完整的表达样本点的性质,被削减的维度部分的偏离程度必然要尽可能的小。

    两个性质:

    • 最近重构性:样本点到这个超平面的距离尽可能近
    • 最大可分性:样本点在在这个超平面上的投影尽可能展开(方差尽可能大)

    从这两个性质出发,都可以推导出同样的结果,从最大可分性出发:
    $z_{i}=Wx_{i}$,则为了方差最大化,求:

    $$ \underset{W}{max} \ \sum_{i}z_{i}z_{i}^{T}=max \sum_{i}W^{T}x_{i}x_{i}^{T}W $$

    则,优化目标可以写成:

    $$ \underset{W}{max} \ tr(W^{T}XX_{T}W) $$

    因为不关心W大小,只关心超平面的方向,故默认W为单位矩阵
    运用拉格朗日乘数法,得到

    $$ XX^{T}\omega_{i}=\lambda_{i}\omega_{i} $$

    最后,对协方差矩阵$XX^{T}$进行特征值分解,即可得到d'个按大小排序的特征值$\lambda_{1},...,\lambda_{d'}$以及对应的特征向量$W^{*}=(\omega_{1},...,\omega_{d'})$也就是主成分分析的解。

    降维的个数由使用者决定。

    多维缩放和主成分分析看上去方法还挺相似的,都是保留最大的d'个特征值,那么矩阵的秩也变为d',势必会舍弃一部分信息来做到降维,而这部分微量信息也往往和噪声有关,它们的舍弃一定程度上能达到去躁的效果。

    李政轩老师的PCA和KPCA讲解视频,非常详细易懂http://www.powercam.cc/slide/6553
    核化PCA(KPCA)
    假设$z_{i}$是样本点$x_{i}$在高维空间的像,即通过映射$\phi$,即$z_{i}=phi(x_{i}),i=1,2,...,m$。

    则由上述结果可得,新的式子为

    $$ ZZ^{T}\omega_{i}=\lambda_{i}\omega_{i} $$

    可得

    $$ \omega_{j}=\frac{1}{\lambda_{j}}\left(\sum_{i=1}^{m}z_{i}z_{i}^{T}\right)\omega_{j}=\sum_{i=1}^{m}z_{i}\frac{z_{i}^{T}\omega_{j}}{\lambda_{j}} $$

    $$ =\sum_{i=1}^{m}z_{i}\alpha_{i}^{j} $$

    其中$\alpha_{i}^{j}=\frac{1}{\lambda_{j}}z_{i}^{T}\omega_{j}$
    因为不清楚$\phi$的具体形式,于是引入核函数:

    $$ \kappa(x_{i},x_{j})=\phi(x_{i})^{T}\phi(x_{j}) $$

    由上式可以得到

    $$ K\alpha^{j}=\lambda_{j}\alpha^{j} $$

    $K$为$\kappa$对应的核矩阵

    同样,这也是特征值分解问题,解出最大的d'个特征值对应的特征向量即可。

    个人更推荐观看李政轩的讲解视频,推导过程也更为清晰,这里的过程是参考周志华《机器学习》的,矩阵的行列关系没有细说,看起来容易似懂不懂。

    展开全文
  • 用matlab实现matlab原理编程
  • 1. 核函数Kernel 1.1 特征空间的隐式映射:核函数 事实上,大部分时候数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在。对于非线性的情况,SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ,通过将...
  • 线性判别分析(LDA)是一种经典的线性学习方法,亦称Fisher判别分析。LDA的思想非常朴素,即给定训练集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能的远。
  • 李政轩讲核方法kernel Method 视频笔记

    千次阅读 2015-10-24 15:18:23
    Kernel的基本思想是,将低维空间不可分数据映射到高纬度的空间,比如说左图的数据是线性不可分的,
  •   看了第四节讲SVM,非常清晰,对于初学者很好理解,听到刚开始的拉格朗日函数和KKT的时候请坚持听下去,讲SVM就会豁然开朗了,有时间从头开始听最好不过了,也许有一天你收藏的东西突然不见了,所以还是转载一下...
  • 【Kernel Method系列】Kernel Method入门

    千次阅读 2014-07-25 17:27:04
    核方法是20世纪90年代模式识别与机器学习领域兴起的一场技术性革命。其优势在于允许研究者在原始数据对应的高维空间使用线性方法来分析和解决问题,且能有效地规避“ 维数灾难”。在模式识别的特征抽取领域,核方法...
  • 学习资料

    2019-09-27 06:07:20
    PCA和LDA - 百面机器学习,统计学习方法(第二版),李政轩Linear Discriminant Analysis SVM - 林轩田机器学习技法,统计学习方法(第二版) Kernel Trick - 李政轩 Adaboost - 林轩田机器学习技法,统计学习方法...
  • 2019独角兽企业重金招聘Python工程师标准>>> ...
  • SVM算法的个人笔记

    2018-09-02 10:13:55
    一、软间隔支持向量机中惩罚参数C和ζiζi\zeta_i 12||w||2+C∑N1ζi12||w||2+C∑1Nζi\frac{1}{2}||w||^2+C\sum_1^N\zeta_i 这里ζiζi\zeta_i为松弛变量,ζi≥0ζi≥0\zeta_i\geq0,在训练数据集不是完全线性可...
  • 核方法在机器学习中是一种灵活的技术,主要归结为两个方面: 非线性问题转换为高维线性问题; 只依赖于内积的问题。 具体来说,核方法可扩展支持向量机(SVM)、主成分分析(PCA)等算法,用于处理数据在低维...
1 2
收藏数 22
精华内容 8
热门标签
关键字:

李政轩机器学习