精华内容
下载资源
问答
  • 统计学习方法.zip

    2019-05-24 14:35:42
    统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em...
  • 统计学习方法.rar

    2019-07-05 14:54:14
    统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em...
  • 统计学习方法-李航

    2018-01-22 00:07:40
    统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持...
  • 机器学习文献综述

    万次阅读 多人点赞 2018-07-14 22:56:20
    机器学习文献综述一、背景介绍数据库:百度词条、知网数据库。检索式:机器学习检索结果及分析:机器学习有下面几种定义: “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习...

    机器学习文献综述

    一、背景介绍

    数据库:百度词条、知网数据库。检索式:机器学习

    检索结果及分析:

    机器学习有下面几种定义: “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E withrespect to some class of tasks T and performance measure P, if its performanceat tasks in T, as measured by P, improves with experience E。

    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。

    机器学习是人工智能研究较为年轻的分支,它的发展过程大体上分为四个时期。第一阶段是20世纪50年代中叶到60年代中叶,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习。其研究目标是各类自组织系统和自适应系统,其主要研究方法是不断修改系统的控制参数和改进系统的执行能力,不涉及与具体任务有关的知识。本阶段的代表性工作是:塞缪尔(Samuel)的下棋程序。但这种学习的结果远不能满足人们对机器学习系统的期望。第二阶段是在60年代中叶到70年代中叶,被称为机器学习的冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。本阶段的代表性工作有温斯顿(Winston)的结构学习系统和海斯罗思(Hayes-Roth)等的基本逻辑的归纳学习系统。第三阶段从20世纪70年代中叶到80年代中叶,称为复兴时期。在此期间,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进机器学习的发展。1980年,在美国的卡内基—梅隆(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。

    从本质上讲,机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现人工智能。

    随着计算机网络技术的发展,各行各业积累的数字化数据越来越多,如微博的数字化、聊天记录的数字化、视频探头信息的数字化,大数据(Big Data)成为当今流行的研究主题,在这种潮流下,如何对这些数据进行分析,从中发现蕴涵的规律及有价值的信息,机器学习我想将有一席用武之地。

     

    二、研究现状

    数据库:Find+发现。检索式:机器学习*算法*综述

    检索结果及分析:

    1、机器学习分类

      机器学习,一般根据处理的数据是否存在人为标注主要分为监督学习和无监督学习。监督学习用有标签的数据作为最终学习目标,通常学习效果好,但获取有标签数据的代价是昂贵的,无监督学习相当于自学习或自助式学习,便于利用更多的数据,同时可能会发现数据中存在的更多模式的先验知识(有时会超过手工标注的模式信息),但学习效率较低。二者的共性是通过建立数学模型为最优化问题进行求解,通常没有完美的解法。

    监督学习的数据集包括初始训练数据和人为标注目标,希望根据标注特征从训练集数据中学习到对象划分的规则,并应用此规则在测试集数据中预测结果,输出有标记的学习方式。因此,监督学习的根本目标是训练机器学习的泛化能力。监督学习的典型算法有:逻辑回归、多层感知机、卷积神经网络等;典型应用有:回归分析、任务分类等。

    无监督学习,用于处理未被分类标记的样本集数据并且事先不需要进行训练,希望通过学习寻求数据间的内在模式和统计规律,从而获得样本数据的结构特征,因此,无监督学习的根本目标是在学习过程中根据相似性原理进行区分"无监督学习更近似于人类的学习方式,被誉为:人工智能最有价值的地方。无监督学习的典型算法有自动编码器、受限玻尔兹曼机、深度置信网络等;典型应用有:聚类和异常检测等。

    总之,机器学习就是计算机在算法的指导下,能够自动学习大量输入数据样本的数据结构和内在规律,给机器赋予一定的智慧,从而对新样本进行智能识别,甚至实现对未来的预测"。

     

    2、机器学习目前研究现状

    (1)面向任务:在预定的一些任务中,分析和开发学习系统,以便改善完成任务的水平,这是专家系统研究中提出的研究问题;

    (2)认识模拟:主要研究人类学习过程及其计算机的行为模拟,这是从心理学角度研究的问题;

    (3)理论分析研究:从理论上探讨各种可能学习方法的空间和独立于应用领域之外的各种算法。

    这三个研究方向各有自己的研究目标,每一个方向的进展都会促进另一个方向的研究。这三个方面的研究都将促进各方面问题和学习基本概念的交叉结合,推动了整个机器学习的研究。

     

    3、机器学习主要算法

    数据库:谷歌搜索。检索式:机器学习主要算法

    检索结果及分析:

    (1)回归算法

       在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。回归算法有两个重要的子类:即线性回归和逻辑回归。

       线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是这样的,假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最小。最小二乘法将最优问题转化为求函数极值问题。函数极值在数学上我们一般会采用求导数为0的方法。但这种做法并不适合计算机,可能求解不出来,也可能计算量太大。

       计算机科学界专门有一个学科叫“数值计算”,专门用来提升计算机进行各类计算时的准确性和效率问题。例如,著名的“梯度下降”以及“牛顿法”就是数值计算中的经典算法,也非常适合来处理求解函数极值的问题。梯度下降法是解决回归模型中最简单且有效的方法之一。从严格意义上来说,由于后文中的神经网络和推荐算法中都有线性回归的因子,因此梯度下降法在后面的算法实现中也有应用。

       逻辑回归是一种与线性回归非常类似的算法,但是,从本质上讲,线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题,也就是最后预测出的结果是数字,例如房价。而逻辑回归属于分类算法,也就是说,逻辑回归预测结果是离散的分类,例如判断这封邮件是否是垃圾邮件,以及用户是否会点击此广告等等。

       实现方面的话,逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数,将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观,你只需要理解对数值越大,函数越逼近1,数值越小,函数越逼近0),接着我们根据这个概率可以做预测,例如概率大于0.5,则这封邮件就是垃圾邮件,或者肿瘤是否是恶性的等等。从直观上来说,逻辑回归是画出了一条分类线。

    假设我们有一组肿瘤患者的数据,这些患者的肿瘤中有些是良性的(图中的蓝色点),有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的“标签”。同时每个数据包括两个“特征”:患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上,形成了我上图的数据。

       当我有一个绿色的点时,我该判断这个肿瘤是恶性的还是良性的呢?根据红蓝点我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据绿点出现在分类线的左侧,因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤。

    逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归,不过那样的模型在处理数据量较大的时候效率会很低),这意味着当两类之间的界线不是线性时,逻辑回归的表达能力就不足。下面的两个算法是机器学习界最强大且重要的算法,都可以拟合出非线性的分类线。

    (2)神经网络

    神经网络(也称之为人工神经网络,ANN)算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。

    神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进行机器学习的实验,发现在视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后,神经网络的发展进入了一个热潮。BP算法的发明人之一是前面介绍的机器学习大牛Geoffrey Hinton。具体说来,神经网络的学习机理是什么?简单来说,就是分解与整合。在著名的Hubel-Wiesel试验中,学者们研究猫的视觉分析机理是这样的。

    比方说,一个正方形,分解为四个折线进入视觉处理的下一层中。四个神经元分别处理一个折线。每个折线再继续被分解为两条直线,每条直线再被分解为黑白两个面。于是,一个复杂的图像变成了大量的细节进入神经元,神经元处理以后再进行整合,最后得出了看到的是正方形的结论。这就是大脑视觉识别的机理,也是神经网络工作的机理。

    让我们看一个简单的神经网络的逻辑架构。在这个网络中,分成输入层,隐藏层,和输出层。输入层负责接收信号,隐藏层负责对数据的分解与处理,最后的结果被整合到输出层。每层中的一个圆代表一个处理单元,可以认为是模拟了一个神经元,若干个处理单元组成了一个层,若干个层再组成了一个网络,也就是"神经网络"。

     

     

     

     

     

     

     

     

     


    图1、神经网络的逻辑构架

    (3)SVM(支持向量机)

    支持向量机算法是诞生于统计学习界,同时在机器学习界大放光彩的经典算法。

    支持向量机算法从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有某类函数技术,则支持向量机算法最多算是一种更好的线性分类技术。

    但是,通过跟高斯“核”的结合,支持向量机可以表达出非常复杂的分类界线,从而达成很好的的分类效果。“核”事实上就是一种特殊的函数,最典型的特征就是可以将低维的空间映射到高维的空间。例如下图所示:

     

     

     

     

     

     


      

     

    图2、支持向量机图例

    支持向量机是一种数学成分很浓的机器学习算法(相对的,神经网络则有生物科学成分)。在算法的核心步骤中,有一步证明,即将数据从低维映射到高维不会带来最后计算复杂性的提升。于是,通过支持向量机算法,既可以保持计算效率,又可以获得非常好的分类效果。因此支持向量机在90年代后期一直占据着机器学习中最核心的地位,基本取代了神经网络算法。直到现在神经网络借着深度学习重新兴起,两者之间才又发生了微妙的平衡转变。

    (4)聚类算法

    前面的算法中的一个显著特征就是我的训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签。在下面的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。这类算法有一个统称,即无监督算法(前面有标签的数据的算法则是有监督算法)。无监督算法中最典型的代表就是聚类算法。

    让我们还是拿一个二维的数据来说,某一个数据包含两个特征。我希望通过聚类算法,给他们中不同的种类打上标签,我该怎么做呢?简单来说,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。聚类算法中最典型的代表就是K-Means算法。

    (5)降维算法 

    降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。在这里,维度其实表示的是数据的特征量的大小,例如,房价包含房子的长、宽、面积与房间数量四个特征,也就是维度为4维的数据。可以看出来,长与宽事实上与面积表示的信息重叠了,例如面积=长 ×宽。通过降维算法我们就可以去除冗余信息,将特征减少为面积与房间数量两个特征,即从4维的数据压缩到2维。于是我们将数据从高维降低到低维,不仅利于表示,同时在计算上也能带来加速。

    刚才说的降维过程中减少的维度属于肉眼可视的层次,同时压缩也不会带来信息的损失(因为信息冗余了)。如果肉眼不可视,或者没有冗余的特征,降维算法也能工作,不过这样会带来一些信息的损失。但是,降维算法可以从数学上证明,从高维压缩到的低维中最大程度地保留了数据的信息。因此,使用降维算法仍然有很多的好处。

    降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法,可以将具有几千个特征的数据压缩至若干个特征。另外,降维算法的另一个好处是数据的可视化,例如将5维的数据压缩至2维,然后可以用二维平面来可视。降维算法的主要代表是PCA算法(即主成分分析算法)。 

    (6)推荐算法

    推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。推荐算法有两个主要的类别:一类是基于物品内容的推荐,是将与用户购买的内容近似的物品推荐给用户,这样的前提是每个物品都得有若干个标签,因此才可以找出与用户购买物品类似的物品,这样推荐的好处是关联程度较大,但是由于每个物品都需要贴标签,因此工作量较大。 

    另一类是基于用户相似度的推荐,则是将与目标用户兴趣相同的其他用户购买的东西推荐给目标用户,例如小A历史上买了物品B和C,经过算法分析,发现另一个与小A近似的用户小D购买了物品E,于是将物品E推荐给小A。

    两类推荐都有各自的优缺点,在一般的电商应用中,一般是两类混合使用。推荐算法中最有名的算法就是协同过滤算法。 

    (7)其他

    除了以上算法之外,机器学习界还有其他的如高斯判别,朴素贝叶斯,决策树等等算法。但是上面列的六个算法是使用最多,影响最广,种类最全的典型。机器学习界的一个特色就是算法众多,发展百花齐放。

     

    三、机器学习的研究进展

    数据库:谷歌搜索。检索式:机器学习*进展

    检索结果及分析:

    1、机器学习的研究近况

    随着机器学习的深入研究与应用,新的网络结构和学习算法不断涌现,进一步推进了机器学习的发展。下面主要从模型结构与网络参数设计、学习算法两方面对近几年机器学习的研究进展进行介绍。

    (1)模型结构及网络参数设计

    Liu yan等人提出一种半监督可识别深度置信网络算法(ccbRD)并成功应用于图像的分类。Luo等人提出稀疏组受限波尔曼机(SGRBM)算法,通过实验表明该算法可以提取更局部的特征、提高识别率。Yu Dong等提出一种深度凸起网络(DCN) 算法,并用于构建语音分类的可扩展体系。Huang等人提出一种通过局部卷积深度置信网络模型学习图像总体结构特征的方法,并在人

    脸数据库测试通过,取得良好效果。罗切尔提出改进RBM的Class RBM算法,实现在不训练分类器的前提下,提高在线实时监测学习特征的识别性能。Zhou等人提出一种半监督卷积深度网络(CDN)算法,可用于图像分类。Mrazova等人提出一种增长式CNN,实现快速自动调整网络拓扑结构,有效处理高维数据!逐层迭代提取高级抽象特征。Kai Ming等人提出一种空间金字塔池化CNN算法,实现不同尺寸图像的识别。

     

    (2)学习方法

    Wong等人提出一种基于Fisher准则、运用正则化要求进行深度学习提取特征的算法(RD-FM),通过实验表明该方法比核应运具有更强的特征识别能力、微调阶段正则化应用的必要性。Collobert提出一种根据深度卷积递归图

    变换网络(GTN)进行快速自然语言解析的算法,在保持性能的同时,提高了解析速度。Hinton提出通过阻止特征检测器网络权值的相互作用来改善神经网络的性能。Duchi等提出一种自适应次梯度方法用于在线学习和随机优化。孙志军等人提出一种基于边际Fisher准则的深度学习特征提取算法。Zhou等提出一种半监督活跃深度网络(ADN)算法,用于解决标记数据不足的情感分类问题。TOM等人提出用于语句情感分类的高级深度学习算法。Schaul等人提出一种学习率自适应方法。

     

    四、机器学习面临的挑战

    数据库:谷歌搜索     检索式:机器学习*挑战

    目前,以深度学习为代表的机器学习领域的研究与应用取得巨大进展有目共睹,有力地推动了人工智能的发展"但是也应该看到,以深度学习为代表的机器学习前沿毕竟还是一个新生事物,多数结论是通过实验或经验获得,还有待于理论的深入研究与支持。CNN的推动者和创始人之一的美国纽约大学教授 Yann  Lucan在2015IEEE计算机视觉与模式识别会议上指出深度学习的几个关键限制:缺乏背后工作的理论基础和推理机制;缺乏短期记忆;不能进行无监督学习。

    另外,基于多层人工神经网络的深度学习受到人类大脑皮层分层工作的启发,虽然深度学习是目前最接近人类大脑的智能学习方法,但是当前的深度网络在结构!功能!机制上都与人脑有较大的差距。并且对大脑皮层本身的结构与机理还缺乏精准认知,如果要真正模拟人脑的100多亿个神经元组成的神经系统,目前还难以实现。因此,对计算神经科学的研究也需要有很长一段路要走。

    还有,机器学习模型的网络结构!算法及参数越发庞大、复杂,通常只有在大数据量、大计算量支持下才能训练出精准的模型,对运行环境要求越来越高!占用资源也越来越多,这也抬高了其应用门槛。

    总之,机器学习方兴未艾并且拥有广阔的研究与应用前景,但是面临的挑战也不容忽视,二者交相辉映才能够把机器学习推向更高的境界。

     

    五、结论

    本文对机器学习进行了较为全面介绍,包括机器学习的概念,发展简史及分类,重点分析了机器学习的经典算法,还介绍了机器学习的最新研究进展。愿景和应用,最后探讨了机器学习面临的挑战。毋庸讳言,以深度学习为代表的机器学习作为人工智能的一个重要分支,目前在诸多领域取得了巨大进展,并且展示出强大的发展潜力,但是更应该看到,人工智能仍然处理初级阶段,机器学习仍然主要依赖监督学习,还没有跨越弱人工智能,并且作为机器学习模型基础的人脑认知研究还有诸多空白需要填补!机器学习理论本身亟需新的突破!计算机科学技术及相关学科领域的发展与支撑与有待于进一步加强,因此,对于机器学习,我们要走的路一定很长、很长。

    令人欣喜的是机器学习已经成为全人类共同瞩目、发力的研究与应用领域,并且已经上升为国家战略2013-2014年,美国!欧盟和日本先后启动了国家大型脑研究计划;中国未来五年计划实施的100个重大工程及项目中“脑科学与类脑研究”名列第四。因此,可以预见机器学习的道路是曲折的,前途是光明的。

     

     

     

     

     

     

     

     

    展开全文
  • 统计学习方法_李航

    2018-11-03 19:39:00
    统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em...
  • 李航.统计学习方法

    2018-03-21 18:38:29
    统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em...
  • 李航-统计学习方法

    2018-10-05 20:11:04
    统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与熵模型、支持向量...
  • 统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持...
  • 统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持...
  • 统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em...
  • 统计学习方法——模型与问题分类

    千次阅读 2017-03-04 16:31:16
    1. 模型的类型我们知道,统计学习主要包括监督学习、非监督学习、半监督学习和强化学习。那么在统计学习方法一书中主要涉及的是监督学习。而监督学习主要分为两类,一种是生成模型,一种是判别模型。1. 生成模型生成...

    0. 写在前面

    在这一讲中,我们主要介绍一下模型的类别以及问题的类别,并对课后习题进行相应的分析。

    1. 模型的类型

    我们知道,统计学习主要包括监督学习、非监督学习、半监督学习和强化学习。那么在统计学习方法一书中主要涉及的是监督学习。而监督学习主要分为两类,一种是生成模型,一种是判别模型。

    1. 生成模型

    生成模型是由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,其样子为:

    P(Y|X)=P(X,Y)P(X)

    这样的方法称为生成方法,因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型由:朴素贝叶斯发和隐马尔可夫模型。
    生成模型所用的生成方法有以下几个有点
    1. 生成方法可以还原出联合概率分布P(X,Y)
    2. 生成方法的学习收敛速度更快。
    3. 存在隐变量时,仍可以用生成方法学习。

    2. 判别模型

    判别模型则是由数据直接学习决策函数 f(X) 或者条件概率分布P(Y|X)作为预测的模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:K近邻、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
    相比较生成模型所用的生成方法,判别模型的判别方法也有其自身的特点:
    1. 判别方法直接学习的是条件概率P(Y|X)或者决策函数 f(X) .
    2. 直接面对预测,学习准确率更高
    3. 可以简化学习问题。

    2. 问题类型

    监督学习的方法有生成方法和判别方法,但是问题的类型有三种:分类问题、标注问题、回归问题。

    1. 分类问题

    分类问题是一个非常常见的问题。在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。也就是给出一个分类函数 f(x) 其输出值为离散的,就成为分类问题了。常见的分类问题为二分类问题,也就是非此即彼的结果。
    而评价分类器性能的指标一般是分类准确率。这个其实不用解释的,准确率就是正确率,也就是输出结果和实际值相同的百分比。
    而对于二分类问题,可以用精确率、召回率、和F1值综合评价,通常称为PRF值。
    假设:
    TP——将正类预测为正类数
    FN——将正类预测为负类数
    FP——将负类预测为正类数
    TN——将负类预测为负类数
    那么准确率应当是:

    Acc=TP+TNTP+FN+FP+TN

    精确率的定义为:
    P=TPTP+FP

    召回率的定义为:
    R=TPTP+FN

    F1值的定义为:
    F1=2TP2TP+FP+FN

    其多分类问题也可化为二分类从而进行PRF评价,预测正确的为正类,预测错误的为负类。实际上很多统计学习方法都是分类问题,也可以认为大部分的问题都是分类问题。

    2. 标注问题

    标注问题是分类问题的一个更广泛的推广。它可以退化为分类问题,不过它不同于分类问题的一个重要特点是:它的标注问题的输入时一个观测序列,输出是一个标记序列或状态序列。也就是说它不仅仅关注的每一个输入的分类结果,它更关注的是一个序列化的输入,给出一个最可能的序列化输出。这就是序列化标注问题。这种问题还是比较少的,通常使用隐马尔可夫模型或者条件随机场来进行学习。
    其评价标准与分类问题相同,均可采用PRF值来进行预测。

    3. 回归问题

    回归问题我们不在机器学习的时候就已经遇到了,不过我们那时候学习的都还比较基础,就是根据当前的数据拟合出最符合当前走势的曲线,以此能够预测出接下来的过程中数据的走向如何。
    按照输入变量的个数,我们可以分为一元回归和多元回归,按照输入变量和输出变量之间的关系类型,可以分为线性回归和非线性回归。我们之前接触到的大部分是线性回归。
    回归学习的最常用的损失函数就是平方损失函数,通常使用最小二乘法求解。而常见的问题比如股票的走势问题,这个非常形象直观的展示了需要回归的内容,也就是预测出在接下来的时间里,股票的走势如何。

    3. 课后习题解答

    这个课后习题只有两题:
    1. 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。
    2. 通过经验风险最小化推到极大似然估计,证明模型是条件概率分布,当损失函数是对数函数时,经验风险最小化等价于极大似然估计。
    解答:
    1.对于第一题,我们需要读清楚题,它要问的是伯努利模型的吉萨似然估计和贝叶斯估计的三要素。
    那么首先我们来回顾一下统计学习方法的三要素:模型、策略和算法。
    对于模型来讲,既然都是伯努利模型了,模型自然不用说了,肯定是伯努利模型。
    那么主要是策略和算法的不同。在之前我们说过,极大似然估计的策略是经验风险最小化。但是我们不能这么回答,因为我们需要证明是经验风险最小化,其实这就是第二题的答案。
    对于极大似然估计,也就是求这样的一个式子:

    hMLE=argmaxP(x|μ)μ01

    对于伯努利模型来说:
    P(xi|μ)=μxi(1μ)1xi

    这样子,我们就是求μ的取值。
    那么怎么求呢,对于似然估计,也就是求得 Pxi|μ 最大的那个μ的值,这点可以理解为最终取使得P(x_i|μ)最大的μ,这点与贝叶斯估计稍有不同。
    那么第三个因素——算法是什么呢?
    这就是说极大似然估计怎么求解,常规方法为:
    1. 写出似然函数
    2. 对似然函数取对数
    3. 求导数
    4. 解似然方程
    通过以上4步,就差不多可以取得其极大值μ了。
    例如我们这里的伯努利模型:
    1. 找出似然函数
    P(X|μ)=i=1nP(xi|μ)

    P(X|μ)=i=1nμxi(1μ)1xi

    2.对似然函数取对数
    log[P(X|μ)]=logi=1nμxi(1μ)1xi

    log[P(X|μ)]=i=1n[xilogμ+(1xi)log(1μ)]

    3. 求导数
    logP(X|μ)μ=1μi=1nxi11μi=1n(1xi)

    4. 令偏导数为0
    μ=1ni=1nxi

    这就是最终结果了,分类这么大劲,其实我们的日常经验就是这样,例如如果我们投了10次硬币,出现了8次正面,那么我们肯定认为出现正面的概率应该是0.8。
    在解题的过程中,我们就看到了,当模型是条件概率分布,损失函数是对数损失函数时,极大似然估计就是风险最小化。
    我们来看一下经验风险最小化的样子:
    Rsrm(f)=1ni=1nL(yi,f(xi))

    是不是是一个样子。
    同样的贝叶斯估计也是这样的步骤,首先其模型还是伯努利模型,其策略为结构风险最小化,其算法当然是全概率公式了,然后转换为最大后验概率,当先验概率一致时,最大后验概率等于极大似然估计。这点我们之前的机器学习讲过,不过为了防止又忘记了,现在重新再来复习一遍:
    hMAP=argmaxP(h|D)

    利用贝叶斯全概率公式可得:
    hMAP=argmaxP(D|h)P(h)P(D)

    对于同一个训练集来讲P(D)是相同的,因此可以去掉:
    hMAP=argmaxP(D|h)P(h)

    当各个模型的先验概率一样时P(h)就可以去掉,那么就会变为:
    hMAP=argmaxP(D|h)

    这形式是不是和极大似然估计一致?

    4. 小结

    那么第一章的内容,我们就都讲完了,下面我们将会进入到正轨,对每一类具体的机器学习方法来进行学习,下期见。

    展开全文
  • BICOMB文献统计软件

    万次阅读 2016-01-30 20:03:35
    1、以前以为需要手动输入,现在有BICOMB文献统计软件了,好用多了,原来可以这么方便 2、使用技巧,从百度文库找的,挺方便的。 我的文件结构如下图(案例中文献是我在cnki中主题,输入“文献计量学”,被引前...

    1、以前以为需要手动输入,现在有BICOMB文献统计软件了,好用多了,原来可以这么方便

    2、使用技巧,从百度文库找的,挺方便的。

    我的文件结构如下图(案例中文献是我在cnki中主题,输入“文献计量学”,被引前150的文章)。我要做的是作者的共现分析。

    由于BICOMB不支持EXCEL格式(好像所有的文献计量学软件都不支持),我们要把它转化成TXT文件,但直接另存为txt文件可不可以呢?答案是否定的。在转化之前我们要制作节点。要制作两个节点:一个是文章节点,它要使软件能区分哪些作者是一个文章出现的;一个是字段节点,抽取作者字段从哪里开始。

    单独将作者这一列加入到新的表中,在前面加一列,写上抽取字段节点字符,似乎写什么字符都可以,我是按照cnki里面给的代表作者的字符写的。

    下一步制作文章节点。稍微有些复杂。在c列输入2、4、6、8……等差数列,在d列输入1、3、5、7……等差数列,在E列输入文章节点字符,我输入的字符就是“文章节点”。(c、d、e列输入比较简单,只输入前两行,然后点住单元格右下角“黑方点”双机即可。但也不排除有人不会用EXCEL)

    将d列和e列整体选中,剪切,将d列数字与c列数字相接。

    然后以c列为主要关键字进行排序。

     

     

    排列完如下图。

    C列和d列换一下。

    在e列插入函数=CONCATENATE(A1,B1,C1,),这个函数是将所选单元格中的字符串合并,可以学习一下这个函数的相关说明。E列的数据就是我们最后想要的处理数据了。

    将e列的数据选中,复制到一个新建的txt文件中。

    下面要做的是自定义格式。打开BICOMB2,点“管理员”选项卡。点“格式定义”右端的增加按钮,输入你定义的名称,我定义的名称为“作者共现分析”,格式类型一定要选择txt格式。

    在格式定义中选“作者共现分析”,选中“文章节点”,点击右侧“修改”按钮,在节点1中输入“文章节点”,取值方法描述选择“单值、单行”就可以。这个就是Excel中定义的文章节点。

    选中“作者”,点击右侧“修改”按钮,在节点1中输入“Author-作者:”。这个也是在Excel中设定的抽取字段节点。抽取方法选择“多值,分隔符;”;这个很重要,要根据你数据是什么样的选择取值方法。详细参看软件使用说明书。

    这些都定义完以后,我们就可按照软件的正常程序进行分析了。点击项目选项卡,增加一个项目,格式类型选择刚才定义的类型。

    点击提取选项卡,选择“作者分析”txt文档,点击提取,完成提取,就可以查看数据了。以后的分析按软件说明书进行即可。

    字频统计

    共现矩阵生成。

    导出矩阵

    小结:Excel数据转化成软件可使用的数据关键在设定文章节点和抽取字段节点,而且这两个节点不能在同一行(我试了很多次,同一行作者会统计很多很多)。第二个关键处在格式定义要定义好,一定要读明白说明书再定义。


    展开全文
  • 这本书从“线性机器、核方法、统计学习理论、凸优化”四个方面揭示了SVM的内在机理 --利用核使得能够使用线性的的方法发现数据中的非线性关系,并且利用统计学习理论保证学习机器的泛化性能。这些SVM的内在机理并...
    1、支持向量机导论,此书乃是SVM方面的经典著作,
    
          该书的作者也是近年来SVM、kernel methods学术圈内的活跃学者,对于这些领域均有过重要的贡献。这本书从“线性机器、核方法、统计学习理论、凸优化”四个方面揭示了SVM的内在机理 --利用核使得能够使用线性的的方法发现数据中的非线性关系,并且利用统计学习理论保证学习机器的泛化性能。这些SVM的内在机理并没有发生重大的改变。
        这本书我只看了一点,由于需要强大的数学基础作为保证,很难再读下去。。。但是它每一张的前言是非常非常经典,每句话都很有道理,发人深醒~
    2、统计学习理论的本质;
    3、统计学习理论;
          以上两本均是vapnik自六十年代以来的工作的总结,前者在概念上给出统计学习理论的介绍,
    后者则给出了证明。vapnik的目标在于创建小样本统计学。其三十年如一日的苦苦追寻令人感动(60年代开始老瓦的工作一直不被重视,直到SVM的出现)。两本书的翻译都是十分优秀的。张学工老师据我所知在其博士期间就开始关注SVM方面的工作,他是最早介绍统计学习理论到中国的学者。也是国内SVM最好的学者之一。
    目前两本书的电子版都已经被我下到,准备挑一个事情比较少的时间段去看。。。电子书的质量不是很好,不太清晰~
    4、数据挖掘中的新方法:支持向量机。
          很多人推荐这本书,但这本书实在不敢恭维。由于该书作者的背景,该书作者倾向于从最优化的角度介绍SVM,这当然远远偏离了SVM的核心。书中还加入了作 者的工作,但据我所知这部分工作根本没有得到承认(几乎没有被引用过)。至于对SVM的介绍则大量来自于经典(1,2,3)
    没看过~
    5、Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond
         这本书大约被引用2000余次(顺便讲一下,4、数据挖掘中的新方法:支持向量机引用5次,来自google学术),至 于该书作者Schö;lkopf,他的工作只怕近年的SVM、kernel methods方面的文献没有不提到他的。今年的ICML(国际机器学习顶级会议)schö;lkopf是Invited Speakers,报告题目是“Thoughts on Kernels”。这本书意义深远,还给出了大量的习题,实在不容错过。
        没看过~
    6、Kernel Methods for Pattern Analysis
        支持向量机导论的作者的又一部著作,讨论模式识别方法的新框架“核方法”。经典。
    在图书馆看见过,理论基础要求的比较高。。。
    7、Learning to classify text using support vector machines
          SVM理论上近乎完美,但仍然要通过实际应用的考验,文本分类就是最早体现SVM的 领域之一(另一个是手写数字识别)。该书作者更是SVM领域的大牛,他开发了SVM最好的算法包SVM Light。近年来SVM算法的每一次重大优化,几乎都是由他发起。
    看过他的一篇论文,写了7页,只说了SVM在文本分类中的优点~这本书应该是相当经典,不过没找到~
    如果仅仅为了使用SVM,看看台湾人的LibSVM半小时就可以学会使用,马上就能处理数据(分类、回归)。如果想尽快了解SVM的机理,1、支持向量机 导论则是首选,如果希望了解核方法及SVM,5、Learning with Kernels: Support Vector Machines, Regularization,Optimization, and Beyond,决不能错过。
    展开全文
  • 统计学习第一章知识总结

    千次阅读 2018-07-23 13:59:43
    1.1统计学习:  1.学习的概念  一个系统通过执行某些过程从而提高性能。类似于人类大的学习过程,通过不断的采用某种方式(算法)练习(执行算法程序),从中获取经验,根据经验总结找到自身问题并进行改正...
  • 转自: ... 每天上课、看书,感觉和...整理点文献阅读参考方法的技巧来给自己学习吧。 牛人一看外国文献的方法 (从phd到现在工作半年,发了12篇paper, 7篇first author.) 我现在每天还保持读至少2-3篇的文献的习惯
  • 机器学习统计分析(1)

    千次阅读 2017-03-27 18:23:55
    最近在阿里云数加平台上学习一下机器学习,把学习中整理的资料记录于此,已备查看,以下资料主要是概念解释及应用。 数据视图 大数据通用可视化控件,提供所选择字段的直方图,如下图所示: 协方差 ...
  • 浅谈对统计机器学习的认识

    千次阅读 2018-04-16 15:01:48
    最早是在《数据处理与优化算法》课堂上接触到数据挖掘(Data Mining),接着自学Pang-Ning Tan et al.的《数据挖掘导论》入门数据挖掘。...机器学习偏向于数学与计算机的交叉,统计的理论往往需要通过机...
  • 统计分析-学习笔记

    千次阅读 2020-03-09 23:24:51
    1.方差(Variance) 意义:度量一个维度偏离其... “分析”→“描述统计”→“频率”→“统计”→选择“平均值”与“标准差” 2.数据无量纲化 数据归一化(Normalization,又称Min-Max Scaling) 含义:当...
  • 目标跟踪重要概念和优秀文献

    千次阅读 2016-03-08 14:30:27
    常用的图像特征有:特征点(包括角点、高曲率点等)、直线段、边缘(Robert、高斯-拉普拉斯LoG、Canny、Gabor滤波等边缘检测算子)或轮廓、闭合区域、特征结构以及统计特征如矩不变量等 注:像素灰度信息的...
  • 李航博士的《统计学习方法》可以说是机器学习的入门宝典。现如今,统计学习方法(第2版)于今年5月份出版,在第一版监督学习的基础上,增加了无监督学习内容,更加丰富,是非常值得学习材料。最近清...
  • 统计学习方法(3)——KNN,KD树及其Python实现

    千次阅读 多人点赞 2017-04-16 16:12:52
    1 k近邻算法k近邻算法是一种基本的分类算法,它的思想非常的简单直观,即一个样本的类别应该和训练数据集中和它距离最近的k个样本中多数样本所属的类别相同,因此,k近邻法分类时没有显式的学习过程。k近邻法的模型...
  • 点击上方,选择星标或置顶,每天给你送干货!阅读大概需要7分钟跟随小博主,每天进步一丢丢参考:AI派李航博士的《统计学习方法》可以说是机器学习的入门宝典。现如今,统计学习方法(第2版)于今...
  • 2018-12 文献阅读:Boosting for Transfer Learning(2007) 2018-12 文章的作者Wenyuan Dai&Qiang yang&Gui_Rong Xue 阅读原因:A Survey on Transfer Learning(2009)中...
  • 此外,以残差平方和构建代价函数(Cost Function)的方法在机器学习领域十分常见,我们会在后面的Lasso回归和Ridge回归之中继续体会其中的奥妙。 在本章中,我们来继续探索利用最小二乘估计量在性质上究竟具有什么样...
  • 参考文献:《概率论与数理统计》-陈希孺 1. 概率是什么  1)主观概率  (1)主观概率含义:为根据其经验和知识及利害关系的一种心态或倾向性  (2)主观概率特点:不是在坚实的客观理由基础上为人们所...
  • 深度学习之数学基础(概率与统计

    万次阅读 多人点赞 2017-10-26 23:25:17
    3-1、为什么使用概率?  概率论是用于表示不确定性陈述的数学框架,即它是对事物不确定性的度量。 ...在人工智能领域,我们主要以两种方式...计算机科学的许多分支处理的对象都是完全确定的实体,但机器学习却大量
  • python参考文献-python参考文献

    千次阅读 2020-11-11 14:37:32
    简介:本栏目包含python参考文献和python有关的论文范文,免费为你学习Python参考文献提供相关参考资料。[摘要]运用文献计量学分析法及文献管理软件NoteExpress对1992-2010年我国联合参考咨询领域的文献进行了分析,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 27,644
精华内容 11,057
关键字:

统计学习的重要文献