精华内容
下载资源
问答
  • Jordan和Mitchell两位Machine learning大牛在Science 杂志综述长文——机器学习发展趋势和前景
  • 机器学习发展历史回顾

    千次阅读 2020-10-28 20:45:51
    机器学习发展历史回顾 本文为回溯机器学习发展历史阅读笔记,全文链接:机器学习发展历史回顾 在之后的学习中会以此为学习路线,逐步阅读所有机器学习方面的经典论文,并对本文中简略提及的算法进行总结和详细分析。...

    机器学习发展历史回顾

    本文为回溯机器学习发展历史阅读笔记,全文链接:机器学习发展历史回顾
    在之后的学习中会以此为学习路线,逐步阅读所有机器学习方面的经典论文,并对本文中简略提及的算法进行总结和详细分析。

    1 概述

    机器学习是现阶段解决很多人工智能问题的主流方法。最早的机器学习算法可以追溯到20世纪初,到今天为止,已经过去了100多年。从1980年机器学习称为一个独立的方向开始算起,到现在也已经过去了近40年。

    2 分类

    总体上,机器学习算法可以分为有监督学习无监督学习强化学习 3种类型。半监督学习可以认为是有监督学习与无监督学习的结合,不在本文讨论的范围之类。

    2.1 有监督学习

    定义: 通过训练样本学习得到一个模型,然后用这个模型进行推理。
    关键词: 有样本训练
    举例: 识别水果图像 (分类问题)

    1. 人工标注
    2. 样本训练得到模型
    3. 利用模型对未知水果进行判断(预测)

    若上述预测的是一个实数,如根据一个人的学历、工作年限、所在城市、行业等特征来预测这个人的收入,则属于回归问题

    2.2 无监督学习

    定义: 没有训练过程,给定一些样本数据,让机器学习算法直接对这些数据进行分析,得到数据的某些知识。
    关键词: 没有训练过程
    举例: 网页归类 (聚类)

    1. 抓取1w个网页
    2. 聚类算法对网页进行归类

    无监督学习的另外一类典型算法是数据降维,它将一个高维向量变换到低维空间中,并且要保持数据的一些内在信息和结构。

    2.3 强化学习

    定义: 强化学习是一类特殊的机器学习算法,算法要根据当前的环境状态确定一个动作来执行,然后进入下一个状态,如此反复,目标是让得到的收益最大化。
    关键词: 有优化过程,启发式搜索
    举例: 围棋游戏
    在每个时刻,要根据当前的棋局决定在什么地方落棋,然后进行下一个状态,反复的放置棋子,直到赢得或者输掉比赛。这里的目标是尽可能的赢得比赛,以获得最大化的奖励。

    2.4 总结

    总结来说,这些机器学习算法要完成的任务是:

    分类算法-是什么? 即根据一个样本预测出它所属的类别。

    回归算法-是多少? 即根据一个样本预测出一个数量值。

    聚类算法-怎么分? 保证同一个类的样本相似,不同类的样本之间尽量不同。

    强化学习-怎么做? 即根据当前的状态决定执行什么动作,最后得到最大的回报。

    3 详细介绍

    3.1 有监督学习

    下图列出了经典的有监督学习算法(深度学习不在此列):
    有监督学习中的经典算法

    3.1.1 线性判别分析(LDA)

    来历:1936年,Fisher
    Fisher, R. A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics. 7 (2): 179–188.
    类别:有监督的数据降维算法
    介绍:通过线性变换将向量投影到低维空间中,保证投影后同一种类型的样本差异很小,不同类的样本尽量不同。

    3.1.2 贝叶斯分类器

    来历:1950年代
    类别:分类器
    介绍:基于贝叶斯决策理论,把样本分到后验概率最大的那个类。

    3.1.3 logistic回归

    来历:1958年
    Cox, DR (1958). The regression analysis of binary sequences (with discussion). J Roy Stat Soc B. 20 (2): 215–242.
    类别:解决回归问题
    介绍:它直接预测出一个样本属于正样本的概率,在广告点击率预估、疾病诊断等问题上得到了应用。

    3.1.4 感知器模型

    来历:1958年
    Rosenblatt, F. (1958). “The Perceptron: A Probalistic Model For Information Storage And Organization In The Brain”. Psychological Review. 65 (6): 386–408.
    类别:线性分类器
    介绍:它过于简单,甚至不能解决异或问题,因此不具有实用价值,更多的起到了思想启蒙的作用,为后面的算法奠定了思想上的基础。
    个人理解:非黑即白的分类器

    3.1.5 KNN

    来历:1967年
    Thomas M Cover, Peter E Hart. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 1967.

    介绍:这是一种基于模板匹配思想的算法,虽然简单,但很有效,至今仍在被使用。

    总结: 在1980年之前,这些机器学习算法都是零碎化的,不成体系。但它们对整个机器学习的发展所起的作用不能被忽略。
    从1980年开始,机器学习才真正成为一个独立的方向。在这之后,各种机器学习算法被大量的提出,得到了快速发展。

    3.1.6 决策树

    来历:1980年代到1990年代初期,三种典型实现——ID3[4],CART[5],C4.5[6]
    [4] Quinlan, J. R. 1986. Induction of Decision Trees. Mach. Learn. 1, 1 (Mar. 1986), 81–106
    [5] Breiman, L., Friedman, J. Olshen, R. and Stone C. Classification and Regression Trees, Wadsworth, 1984.
    [6] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

    介绍:简单,但可解释性强,这使得决策树至今在一些问题上仍被使用。

    3.1.7 反向传播算法

    来历:1986年
    David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. Learning internal representations by back-propagating errors. Nature, 323(99): 533-536, 1986.
    介绍:这是现在的深度学习中仍然被使用的训练算法,奠定了神经网络走向完善和应用的基础。

    3.1.8 卷积神经网络

    来历:1989年
    Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel, Backpropagation Applied to Handwritten Zip Code Recognition. 1989.
    介绍:1989年,LeCun设计出了第一个真正意义上的卷积神经网络[13],用于手写数字的识别,这是现在被广泛使用的深度卷积神经网络的鼻祖。

    总结: 在1986到1993年之间,神经网络的理论得到了极大的丰富和完善,但当时的很多因素限制了它的大规模使用。

    3.1.9 SVM

    来历:1995年
    介绍:SVM代表了核技术的胜利,这是一种思想,通过隐式的将输入向量映射到高维空间中,使得原本非线性的问题能得到很好的处理。

    3.1.10 AdaBoost

    来历:1995年
    介绍:代表了集成学习算法的胜利,通过将一些简单的弱分类器集成起来使用,居然能够达到惊人的精度。

    3.1.11 LSTM

    来历:2000年
    介绍:在很长一段时间内一直默默无闻,直到2013年后与深度循环神经网络整合,在语音识别上取得成功。

    3.1.12 随机森林

    来历:2001年
    介绍:与AdaBoost算法同属集成学习,虽然简单,但在很多问题上效果却出奇的好,因此现在还在被大规模使用。

    总结: 从1980年开始到2012年深度学习兴起之前,有监督学习得到了快速的发展,这有些类似于春秋战国时代,各种思想和方法层出不穷,相继登场。另外,没有一种机器学习算法在大量的问题上取得压倒性的优势,这和现在的深度学习时代很不一样。

    3.2 无监督学习

    相比于有监督学习,无监督学习的发展一直和缓慢,至今仍未取得大的突破。下面我们按照聚类数据降维两类问题对这些无监督学习算法进行介绍。

    3.2.1 聚类

    聚类算法的历史与有监督学习一样悠久。层次聚类算法出现于1963年[26],这是非常符合人的直观思维的算法,现在还在使用。它的一些实现方式,包括SLINK[27],CLINK[28]则诞生于1970年代。
    聚类算法的发展

    3.2.1.1 k均值算法

    聚类算法中知名度最高的,其历史可以追溯到1967年,此后出现了大量的改进算法,也有大量成功的应用,是所有聚类算法中变种和改进型最多的。

    3.2.1.2 EM算法

    诞生于1977年,它不光被用于聚类问题,还被用于求解机器学习中带有缺数数据的各种极大似然估计问题。

    3.2.1.3 Mean Shift算法

    Mean Shift算法[32]早在1995年就被用于聚类问题,和DBSCAN算法[30],OPTICS算法[31]一样,同属于基于密度的聚类算法。

    3.2.1.4 谱聚类算法

    诞生于2000年左右,它将聚类问题转化为图切割问题,这一思想提出之后,出现了大量的改进算法。

    3.2.2 数据降维

    经典的PCA算法[14]诞生于1901年,这比第一台真正的计算机的诞生早了40多年。LDA在有监督学习中已经介绍,在这里不再重复。
    数据降维算法发展历史

    3.2.2.1 核PCA

    来历:1998年
    介绍:非线性降维算法。这是核技术的又一次登台,与PCA的结合将PCA改造成了非线性的降维算法。

    3.2.2.2 局部线性嵌入LLL

    来历:2000年
    介绍:非线性方法。此后,拉普拉斯特征映射,局部保持投影,等距映射等算法相继提出[17-19]。流形学习在数学上非常优美,但遗憾的是没有多少公开报道的成功的应用。

    3.2.2.3 t-SNE算法

    降维算法中年轻的成员,诞生于2008年,虽然想法很简单,效果却非常好。

    3.3 概率图模型

    概率图模型是机器学习算法中独特的一个分支,它是图与概率论的完美结合。在这种模型中,每个节点表示随机变量,边则表示概率。有些晦涩,但理解了之后并不难。
    概率图模型发展历史

    3.3.1 隐马尔可夫模型

    诞生于1960年,在1980年代,它在语音识别中取得了成功,一时名声大噪,后来被广泛用于各种序列数据分析问题,在循环神经网络大规模应用之前,处于主导地位。

    3.3.2 马尔可夫随机场

    马尔可夫随机场诞生于1974年[23],也是一种经典的概率图模型算法。

    3.3.3 贝叶斯网络

    贝叶斯网络[22]是概率推理的强大工具,诞生于1985年,其发明者是概率论图模型中的重量级人物,后来获得了图灵奖。

    3.3.4 条件随机场

    条件随机场[24]是概率图模型中相对年轻的成员,被成功用于中文分词等自然语言处理,还有其他领域的问题,也是序列标注问题的有力建模工具。

    3.4 强化学习

    相比有监督学习和无监督学习,强化学习在机器学习领域的起步更晚。虽然早在1980年代就出现了时序差分算法[42-44],但对于很多实际问题,我们无法用表格的形式列举出所有的状态和动作,因此这些抽象的算法无法大规模实用。
    强化学习发展历史

    神经网络与强化学习的结合,即深度强化学习46-50],才为强化学习带来了真正的机会。在这里,深度神经网络被用于拟合动作价值函数即Q函数,或者直接拟合策略函数,这使得我们可以处理各种复杂的状态和环境,在围棋、游戏、机器人控制等问题上真正得到应用。神经网络可以直接根据游戏画面,自动驾驶汽车的摄像机传来的图像,当前的围棋棋局,预测出需要执行的动作。其典型的代表是DQN[46]这样的用深度神经网络拟合动作价值函数的算法,以及直接优化策略函数的算法[47-50]。

    展开全文
  • 机器学习发展简史

    千次阅读 2017-01-16 11:06:42
    本文主要参考中科院自动化研究所复杂系统与智能科学实验室王珏研究员《关于机器学习的讨论》,讨论机器学习的描述,理论基础,发展历史以及研究现状。

    本文主要参考中科院自动化研究所复杂系统与智能科学实验室王珏研究员《关于机器学习的讨论》,讨论机器学习的描述,理论基础,发展历史以及研究现状。

    0 引言

    20世纪90年代初,当时的美国副总统提出了一个重要的计划——国家信息基本设施计划(NationalInformation Infrastructure,NII)。这个计划的技术含义包含了四个方面的内容:
    (1)不分时间与地域,可以方便地获得信息。
    (2)不分时间与地域,可以有效地利用信息。
    (3)不分时间与地域,可以有效地利用软硬件资源。
    (4)保证信息安全。
    本文主要讨论解决“信息有效利用”问题,其本质是:如何根据用户的特定需求从海量数据中建立模型或发现有用的知识。对计算机科学来说,这就是机器学习。
    计算机科学,特别是人工智能的研究者一般公认Simon对学习的论述:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”这是一个相当广泛的说明, 其要点是“系统”, 它涵盖了计算系统、控制系统以及人系统等, 对这些不同系统的学习, 显然属于不同的科学领域。即使计算系统, 由于目标不同, 也分为了“从有限观察概括特定问题世界模型的机器学习”、“发现观测数据中暗含的各种关系的数据分析”,以及“从观测数据挖掘有用知识的数据挖掘”等不同分支。由于这些分支发展的各种方法的共同目标都是“从大量无序的信息到简洁有序的知识”,因此,它们都可以理解为Simon 意义下的“过程”,也就都是“学习”。

    1 机器学习描述

    本文将讨论限制在“从有限观察概括特定问题世界模型的机器学习”与“从有限观察发现观测数据中暗含的各种关系的数据分析”的方法上, 并统称其为机器学习。
    我们描述机器学习如下:
    令W是给定世界的有限或无限的所有观测对象的集合, 由于我们观察能力的限制, 我们只能获得这个世界的一个有限的子集Q W, 称为样本集。机器学习就是根据这个样本集, 推算这个世界的模型, 使它对这个世界(尽可能地)为真。
    这个描述隐含了三个需要解决的问题:
    (1) 一致: 假设世界W与样本集Q有相同的性质。例如,如果学习过程基于统计原理,独立同分布( i. i. d )就是一类一致条件。
    (2) 划分: 将样本集放到n维空间,寻找一个定义在这个空间上的决策分界面(等价关系),使得问题决定的不同对象分在不相交的区域。
    (3) 泛化: 泛化能力是这个模型对世界为真程度的指标。从有限样本集合, 计算一个模型,使得这个指标最大(最小)。
    这些问题对观测数据提出了相当严厉的条件,首先需要人们根据一致假设采集数据,由此构成机器学习算法需要的样本集; 其次, 需要寻找一个空间, 表示这个问题; 最后, 模型的泛化指标需要满足一致假设, 并能够指导算法设计。这些条件限制了机器学习的应用范围。

    2 机器学习的发展历史

    2.1 机器学习与人工智能

    机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。
    人工智能涉及到诸如意识(consciousness)、自我(self)、心灵(mind)(包括无意识的精神(unconscious_mind))等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能的必要元素也了解有限,所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。下图展示了人工智能的发展路线:
    机器学习是人工智能研究发展到一定阶段的必然产物。从 20 世纪50 年代到 70 年代初,人工智能研究处于“推理期”,人们认为只要给机器赋予逻辑推理能力,机器就能具有智能。这一阶段的代表性工作主要有 A. Newell 和 H. Simon 的“逻辑理论家”程序以及此后的“通用问题求解”程序等,这些工作在当时取得了令人振奋的成果。例如,“逻辑理论家”程序在 1952 年证明了著名数学家罗素和怀特海的名著《数学原理》中的 38 条定理,在1963年证明了全部的52 条定理,而且定理 2.85甚至比罗素和怀特海证明得更巧妙。A. Newell和 H. Simon因此获得了 1975 年图灵奖。然而,随着研究向前发展,人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工智能的。E.A. Feigenbaum等人认为,要使机器具有智能,就必须设法使机器拥有知识。在他们的倡导下,20 世纪 70 年代中期开始,人工智能进入了“知识期”。在这一时期,大量专家系统问世,在很多领域做出了巨大贡献。E.A. Feigenbaum 作为“知识工程”之父在 1994 年获得了图灵奖。但是,专家系统面临“知识工程瓶颈”,简单地说,就是由人来把知识总结出来再教给计算机是相当困难的。于是,一些学者想到,如果机器自己能够学习知识该多好!实际上,图灵在1950年提出图灵测试的文章中,就已经提到了机器学习的可能,而20世纪50年代其实已经开始有机器学习相关的研究工作,主要集中在基于神经网络的连接主义学习方面,代表性工作主要有 F. Rosenblatt 的感知机、B. Widrow 的 Adaline 等。在 20 世纪 6、70 年代,多种学习技术得到了初步发展,例如以决策理论为基础的统计学习技术以及强化学习技术等,代表性工作主要有 A.L. Samuel 的跳棋程序以及 N.J. Nilson 的“学习机器”等,20 多年后红极一时的统计学习理论的一些重要结果也是在这个时期取得的。在这一时期,基于逻辑或图结构表示的符号学习技术也开始出现,代表性工作有 P. Winston的“结构学习系统”、R.S. Michalski等人的“基于逻辑的归纳学习系统”、E.B. Hunt 等人的“概念学习系统”等。1980 年夏天,在美国卡内基梅隆大学举行了第一届机器学习研讨会;同年,《策略分析与信息系统》连出三期机器学习专辑;1983年,Tioga出版社出版了R.S. Michalski、J.G. Carbonell和T.M. Mitchell主编的《机器学习:一种人工智能途径》,书中汇集了 20 位学者撰写的 16 篇文章,对当时的机器学习研究工作进行了总结,产生了很大反响;1986 年,《Machine Learning》创刊;1989 年,《Artificial Intelligence》出版了机器学习专辑,刊发了一些当时比较活跃的研究工作,其内容后来出现在J.G. Carbonell主编、MIT出版社 1990 年出版的《机器学习:风范与方法》一书中。总的来看,20 世纪 80 年代是机器学习成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期。R.S. Michalski等人中把机器学习研究划分成“从例子中学习”、“在问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”等范畴;而 E.A. Feigenbaum在著名的《人工智能手册》中,则把机器学习技术划分为四大类,即“机械学习”、“示教学习”、“类比学习”、“归纳学习”。

    2.2 机器学习的理论基础

    机器学习的科学基础之一是神经科学, 然而, 对机器学习进展产生重要影响的是以下三个发现, 分别是:
    (1) James关于神经元是相互连接的发现。
    (2) McCulloch 与Pitts 关于神经元工作方式是“兴奋”和“抑制”的发现。
    (3) Hebb 的学习律(神经元相互连接强度的变化)。
    其中, McCulloch 与Pitts 的发现对近代信息科学产生了巨大的影响。对机器学习, 这项成果给出了近代机器学习的基本模型, 加上指导改变连接神经元之间权值的Hebb学习律,成为目前大多数流行的机器学习算法的基础。
    1954年, Barlow 与Hebb 在研究视觉感知学习时,分别提出了不同假设: Barlow 倡导单细胞学说, 假设从初级阶段而来的输入集中到具有专一性响应特点的单细胞, 并使用这个神经单细胞来表象视觉客体。这个考虑暗示, 神经细胞可能具有较复杂的结构; 而Hebb主张视觉客体是由相互关联的神经细胞集合体来表象, 并称其为ensemble。在神经科学的研究中, 尽管这两个假设均有生物学证据的支持, 但是, 这个争论至今没有生物学的定论。这个生物学的现实, 为我们计算机科学家留下了想象的空间, 由于在机器学习中一直存在着两种相互补充的不同研究路线, 这两个假设对机器学习研究有重要的启示作用。
    在机器学习划分的研究中, 基于这两个假设, 可以清晰地将机器学习发展历程总结为: 以感知机、BP与SVM 等为一类;以样条理论、k-近邻、Madalin e、符号机器学习、集群机器学习与流形机器学习等为另一类。
    在McCulloch 与Pitts 模型的基础上, 1957 年, Rosenblatt 首先提出了感知机算法,这是第一个具有重要学术意义的机器学习算法。这个思想发展的坎坷历程, 正是机器学习研究发展历史的真实写照。感知机算法主要贡献是: 首先, 借用最简单的McCulloch与Pitts模型作为神经细胞模型; 然后,根据Hebb集群的考虑, 将多个这样的神经细胞模型根据特定规则集群起来,形成神经网络, 并将其转变为下述机器学习问题: 计算一个超平面, 将在空间上不同类别标号的点划分到不同区域。在优化理论的基础上, Rosenblatt 说明, 如果一个样本集合是线性可分, 则这个算法一定可以以任何精度收敛。由此导致的问题是, 对线性不可分问题如何处理。
    1969年,Minsky 与Paper出版了对机器学习研究具有深远影响的著作Perceptron(《感知机》)。目前, 人们一般的认识是, 由于这本著作中提出了XOR 问题, 从而扼杀了感知机的研究方向。然而, 在这本著作中对机器学习研究提出的基本思想, 至今还是正确的, 其思想的核心是两条:
    (1) 算法能力: 只能解决线性问题的算法是不够的, 需要能够解决非线性问题的算法。
    (2) 计算复杂性: 只能解决玩具世界问题的算法是没有意义的, 需要能够解决实际世界问题的算法。
    在1986 年, Rumelhart 等人的BP 算法解决了XOR 问题, 沉寂近二十年的感知机研究方向重新获得认可,人们自此重新开始关注这个研究方向, 这是Rumelhart等人的重要贡献。
    在20 世纪60 年代的另一个重要研究成果来自Widrow。1960 年,Widrow 推出了Madaline 模型, 在算法上,对线性不可分问题, 其本质是放弃划分样本集的决策分界面连续且光滑的条件, 代之分段的平面。从近代的观点来看, 这项研究与感知机的神经科学假设的主要区别是: 它是确认Barlow 假设中神经细胞具有较复杂结构的思想,由此,将线性模型(例如, 感知机)考虑为神经细胞模型( 而不是简单的McCulloch与Pitts模型) ,然后, 再基于Hebb 神经元集合体假设, 将这些局部模型集群为对问题世界的表征, 由此解决线性不可分问题。但是, 这项研究远不如感知机著名, 其原因是: 其一, 尽管Madaline可以解决线性不可分问题, 但是, 其解答可能是平凡的; 其二,Widrow 没有给出其理论基础, 事实上,其理论基础远比感知机复杂, 直到1990 年, Schapire根据Valiant 的“概率近似正确(PAC)”理论证明了“弱可学习定理”之后, 才真正引起人们的重视。
    进一步比较机器学习中两个不同路线的神经科学启示是有趣的: 对机器学习来说, 它们最显著的差别是对神经细胞模型的假设, 例如, 感知机是以最简单的McCulloch与Pitts 模型作为神经细胞模型, 而Madaline 是以问题世界的局部模型作为神经细胞模型,两种方法都需要根据Hebb 思想集群。因此, 对机器学习研究, 两个神经科学的启示是互补的。但是, 两者还有区别: 前者强调模型的整体性, 这与Barlow“表征客体的单一细胞论”一致, 因此, 我们称其为Barlow 路线; 而后者则强调对世界的表征需要多个神经细胞集群, 这与Hebb“表征客体的多细胞论”一致, 我们称其为Hebb 路线。鉴于整体模型与局部模型之间在计算上有本质差别, 尽管根据Barlow 与Hebb 假设区分机器学习的方法。
    在这一节的最后, 将1989 年Carbonell对机器学习以后十年的展望与十年后Diet terich 的展望作一个对比, 可能是有趣的, 我们希望以此说明机器学习研究由于面临问题的改变所发生的变迁(表1) 。

    3 统计机器学习

    统计机器学习是近几年被广泛应用的机器学习方法,事实上,这是一类相当广泛的方法。更为广义地说, 这是一类方法学。当我们获得一组对问题世界的观测数据, 如果我们不能或者没有必要对其建立严格物理模型,我们可以使用数学的方法, 从这组数据推算问题世界的数学模型, 这类模型一般没有对问题世界的物理解释, 但是, 在输入输出之间的关系上反映了问题世界的实际, 这就是“黑箱”原理。一般来说,“黑箱”原理是基于统计方法的(假设问题世界满足一种统计分布) , 统计机器学习本质上就是“黑箱”原理的延续。与感知机时代不同, 由于这类机器学习科学基础是感知机的延续, 因此,神经科学基础不是近代统计机器学习关注的主要问题, 数学方法成为研究的焦点。

    3.1 统计机器学习概述

    统计机器学习方法的基本假设是同类数据具有一定的统计规律性。其目标是从假设空间(也即模型空间,从输入空间到输出空间的映射函数空间)中寻找一个最优的模型。
    通过对统计机器学习目标的描述,我们可以发现统计机器学习方法主要研究三个问题:
    (1)模型假设:这个问题解决的是如何将样本从输入空间转化到输出空间的,它往往是一个后验概率或者是一个映射函数。
    (2)模型选择:模型所在空间也就是假设空间,往往包含无穷多个满足假设的可选模型,如何从假设空间中选择一个最优模型,应该采用怎样的选择标准?这就是模型选择应该解决的问题。一般采用损失函数来制定模型选择策略,将模型选择转化为一个最优化问题来求解。常用的损失函数包括0-1损失、平方误差损失、绝对损失、对数损失等等。通常我们也会在损失函数中加上正则化项,从而降低模型的复杂性,提高模型的泛化能力,拒绝Overfitting。
    (3)学习算法:学习算法是用来解决最优化问题的方法。在给定损失函数后,如何快速找到损失函数约定条件下的最优解就是学习算法需要解决的问题。常用的学习算法包括梯度下降、拟牛顿法等等。
    统计机器学习方法的三个问题都是非常值得研究的,对于模型假设这个问题,如果模型都选择错误,无论后面如何选择模型,也都难以反映数据集的正确分布。因此,首先需要选择对模型做出正确假设,如何选择模型的假设空间是一个学问,除掉交叉验证的方法之外还有不少其他方法。模型选择的关键在于如何设计损失函数,而损失函数通常包括损失项和正则化项,不同的模型选择策略通常选出的模型也非常不同,从而导致模型的预测效果也大大不同。学习算法比较定式,不同的学习算法不仅学习的效率不同,而且学习出来的效果也不一样。

    3.2 统计机器学习的理论基础

    机器学习早期研究的特点是以划分为主要研究课题, 这个考虑一直延续到Vapnik 在20 世纪70 年代发展的关于有限样本统计理论, 并于20 世纪80 年代末流传到西方之后,在泛化能力意义下指导算法设计才成为人们关注的主要问题, 这是本文需要进一步讨论的问题。
    尽管以Open 问题驱动的BP 算法研究大大推动了感知机研究方向的发展, 然而, 近十年计算机科学与技术的快速发展,使得人们获得数据的能力大大提高, BP 这类算法已不能完全适应这种需求, 同时,Minsky 的算法设计原则愈显重要。
    然而,沿着Barlow 路线的机器学习研究并没有终止,自1992年开始,Vapnik 将有限样本统计理论介绍给全世界, 并出版了统计机器学习理论的著作尽管这部著作更多地是从科学、哲学上讨论了机器学习的诸多问题, 但是, 其暗示的算法设计思想对以后机器学习算法研究产生了重要的影响。
    Vapnik 的研究主要涉及机器学习中两个相互关联的问题, 泛化问题与表示问题。前者包含两个方面的内容: 其一, 有限样本集合的统计理论; 其二, 概率近似正确的泛化描述。而后者则主要集中在核函数, 由此, 将算法设计建立在线性优化理论之上。
    Valiant的“概率近似正确”学习的考虑在机器学习的发展中扮演了一个重要的角色。1984 年,Valiant 提出了机器学习的一个重要考虑, 他建议评价机器学习算法应该以“概率近似正确(PAC)”为基础,而不是以传统模式识别理论中以概率为1 成立为基础,由此, 他引入了类似在数学分析中的ε-δ语言来描述PAC, 这个考虑对近代机器学习研究产生了重要的影响。首先, 统计机器学习理论中泛化不等式的推导均以这个假设为基础;其次, 基于这个考虑的“弱可学习理论”,为研究基于Hebb 路线的学习算法设计奠定了理论基础, 并产生被广泛应用的集群机器学习理念( ensemble )。

    3.3 统计机器学习的研究现状

    3.3.1 SVM与Deep Learning的竞争

    当前统计学习领域最热门方法主要有deep learning和SVM(supportvector machine),它们是统计学习的代表方法。
    可以认为神经网络与支持向量机都源自于感知机(Perceptron)。感知机是由Rosenblatt发明的线性分类模型(1958年)。感知机对线性分类有效,但现实中的分类问题通常是非线性的。
    神经网络与支持向量机(包含核方法)都是非线性分类模型。1986年,Rummelhart与McClelland发明了神经网络的学习算法Back Propagation。后来,Vapnik等人于1992年提出了支持向量机。神经网络是多层(通常是三层)的非线性模型,支持向量机利用核技巧把非线性问题转换成线性问题。
    神经网络与支持向量机一直处于“竞争”关系。SVM应用核函数的展开定理,无需知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾难”。而早先的神经网络算法比较容易过训练,大量的经验参数需要设置;训练速度比较慢,在层次比较少(小于等于3)的情况下效果并不比其它方法更优。
    神经网络研究领域领军者Hinton在2006年提出了神经网络Deep Learning算法,使神经网络的能力大大提高,向支持向量机发出挑战。Deep Learning假设神经网络是多层的,首先用RestrictedBoltzmann Machine(非监督学习)学习网络的结构,然后再通过Back Propagation(监督学习)学习网络的权值。

    3.3.2 支持向量机SVM

    SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilber空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。升维,就是把样本向高维空间做映射,一般情况下这会增加计算的复杂性,甚至会引起“维数灾难”,因而人们很少问津。但是作为分类、回归等问题来说,很可能在低维样本空间无法线性处理的样本集,在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归)。一般的升维都会带来计算的复杂化,SVM方法巧妙地解决了这个难题:应用核函数的展开定理,就不需要知道非线性映射的显式表达式;由于是在高维特征 空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾难”.这一切要归功于核函数的展开和计算理论.
    选择不同的核函数,可以生成不同的SVM,常用的核函数有以下4种:
    ⑴ 性核函数K(x,y)=x·y;
    ⑵多项式核函数K(x,y)=[(x·y)+1]d;
    ⑵ 向基函数K(x,y)=exp(-|x-y|^2/d^2)
    ⑶ 层神经网络核函数K(x,y)=tanh(a(x·y)+b).

    3.3.2.1 SVM有如下主要几个特点:

    (1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;
    (2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;
    (3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。(4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。
    (5)SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。
    (6)少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在:
    ①增、删非支持向量样本对模型没有影响;
    ②支持向量样本集具有一定的鲁棒性;
    ③有些成功的应用中,SVM 方法对核的选取不敏感

    3.3.2.2 SVM的两个不足:

    (1) SVM算法对大规模训练样本难以实施
    由 于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存 和运算时间。针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的 CSVM以及O.L.Mangasarian等的SOR算法。
    (2) 用SVM解决多分类问题存在困难
    经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。

    3.3.2 DeepLearning

    DeepLearning本身算是MachineLearning的一个分支,简单可以理解为Neural Network的发展。大约二三十年前,Neural Network曾经是ML领域特别火热的一个方向,但是后来确慢慢淡出了,原因包括以下几个方面:
    (1) 比较容易过训练,参数比较难确定;
    (2) 训练速度比较慢,在层次比较少(小于等于3)的情况下效果并不比其它方法更优;
    所以中间有大约20多年的时间,神经网络被关注很少,这段时间基本上由SVM和Boosting算法主导。但是,Hinton坚持下来并最终(和Bengio、Yann.lecun等)提成了一个实际可行的Deep Learning框架。

    3.3.3.1 Deep Learning与传统的神经网络异同

    Deep Learning与传统的神经网络的相同在于Deep Learning采用了神经网络相似的分层结构,系统由包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个Logistic Regression模型;这种分层结构,是比较接近人类大脑的结构的。
    而为了克服神经网络训练中的问题,DL采用了与神经网络很不同的训练机制。传统神经网络中,采用的是Back Propagation的方式进行,简单来讲就是采用迭代的算法来训练整个网络,随机设定初值,计算当前网络的输出,然后根据当前输出和label之间的 差去改变前面各层的参数,直到收敛(整体是一个梯度下降法)。而DeepLearning整体上是一个Layer-Wise的训练机制。这样做的原因是因为,如果采用Back Propagation的机制,对于一个Deep Network(7层以上),残差传播到最前面的层已经变得太小,出现所谓的Gradient Diffusion。

    3.3.3.2 Deep Learning训练过程

    (1)采用无标定数据(有标定数据也可)分层训练各层参数,这一步可以看作是一个无监督训练过程,是和传统神经网络区别最大的部分(这个过程可以看作是feature learning过程):具体的,先用无标定数据训练第一层,训练时可以采用auto-encoder来学习第一层的参数(这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层),由于模型capacity的限制以及稀疏性约束,使得得到的模型能够学习到数据本身的结构,从而得到比输入更具有表示能力的特征;在学习得到第n-1层后,将n-1层的输出作为第n层的输入,训练第n层,由此分别得到各层的参数;这里面需要重点理解auto-encoder以及sparse的机制的原理和作用。可以参考这篇文章。
    (2)基于第一步得到的各层参数进一步fine-tune整个多层模型的参数,这一步是一个有监督训练过程;第一步类似神经网络的随机初始化初值过程,由于DL 的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果;所以deep learning效果好很大程度上归功于第一步的feature learning过程。
    总之,deep learning能够得到更好地表示数据的feature,同时由于模型的层次、参数很多,capacity足够,因此,模型有能力表示大规模数据,所以对于图像、语音这种特征不明显(需要手工设计且很多没有直观物理含义)的问题,能够在大规模训练数据上取得更好的效果。此外,从模式识别特征和分类器的角 度,deep learning框架将feature和分类器结合到一个框架中,用数据去学习feature,在使用中减少了手工设计feature的巨大工作量(这是目前工业界工程师付出努力最多的方面),因此,不仅仅效果可以更好,而且,使用起来也有很多方便之处。

    4 集群机器学习

    4.1 弱可学习定理

    1990 年, Schapire 证明了一个有趣的定理: 如果一个概念是弱可学习的, 充要条件是它是强可学习的。这个定理的证明是构造性的, 证明过程暗示了弱分类器的思想。所谓弱分类器就是比随机猜想稍好的分类器, 这意味着, 如果我们可以设计这样一组弱分类器, 并将它们集群起来, 就可以成为一个强分类器, 这就是集群机器学习。由于弱分类器包含“比随机猜想稍好”的条件, 从而, 避免了对Madaline 平凡解的批评。另外, 由于Schapire 定理的证明基于PAC的弱可学习理论, 因此, 这种方法又具有泛化理论的支持。这样, 自Widrow 提出Madaline近30 年之后, 人们终于获得了基于Hebb 路线下的机器学习算法设计的理论基础。这个学习理念立即获得人们的广泛关注, 其原因不言自明,弱分类器的设计总比强分类器设计容易, 特别是对线性不可分问题更是如此。由此,Madaline 与感知机一样, 成为机器学习最重要的经典。

    4.2 经典算法

    Boosting 是一种用来提高学习算法准确度的方法, 这种方法通过构造一个预测函数系列, 然后以一定的方式将它们组合成一个预测函数, 达到把一弱学习算法提升为强学习算法的目的。1989 年Schapire 提出了第一个可证明的多项式时间Boosting 算法, 对这个问题作出了肯定的回答。一年后,Freund 设计了一个高效得多的通过重取样或过滤运作的Boosting- by-Majority 算法。这个算法尽管在某种意义上是优化的, 但却有一些实践上的缺陷。1995 年Freund 和Schapire介绍了通过调整权重而运作的AdaBoost 算法解决了早期Boosting算法很多实践上的困难。
    AdaBoost 是Boosting 家族中的基础算法。Boosting家族中的大部分扩展( 算法) 都由它得来,对AdaBoost 的分析结论也适用于其它的Boosting。下面简要地介绍一下它的思想。
    AdaBoost 算法的主要思想是给定一弱学习算法和训练集( x1, y1) , , , ( xn, yn ) 。这里xi 为一向量, yi 对于分类问题为一类别标志, 对于回归问题为一数值。初始化时对每一个训练例赋相等的权重1/ n , 然后用该学习算法对训练集训练t 轮, 每次训练后, 对训练失败的训练例赋以较大的权重, 也就是让学习算法在后续的学习中集中对比较难的训练例进行学习, 从而得到一个预测函数序列h1, , , ht ,其中hj 也有一定的权重, 预测效果好的预测函数权重较大, 反之较小。最终的预测函数H 对分类问题采用有权重的投票方式, 对回归问题采用加权平均的方法对新示例进行判别。
    Boosting 算法是一种基于其他机器学习算法之上的用来提高算法精度和性能的方法。当用于回归分析时, 不需要构造一个拟合精度高、预测能力好的回归算法, 只要一个效果只比随机猜测略好的粗糙算法即可, 称之为基础算法。通过不断地调用这个基础算法就可以获得一个拟合和预测误差都相当好的组合回归模型。Boosting 算法可以应用于任何的基础回归算法, 无论是线性回归、神经网络、还是SVM 方法, 都可以有效地提高精度。因此, Boosting可以被视为一种通用的增强基础算法性能的回归分析算法。
    Bagging(Bootstrap Aggregating) 又被称为自举聚合, 是Breiman 提出的与Boosting 相似的技术。[ 11]Bagging 技术的主要思想是给定一弱学习算法和一训练集( x 1, y1), , ( xn , yn ) 。让该学习算法训练多轮, 每轮的训练集由从初始的训练集中随机取出的n 个训练例组成, 初始训练例在某轮训练集中可以出现多次或根本不出现。训练之后可得到一个预测函数序列: h1, , , ht , 最终的预测函数H 对分类问题采用投票方式, 对回归问题采用简单平均。
    Bagging 与Boosting 的区别在于Bagging 的训练集的选择是随机的, 各轮训练集之间相互独立, 而Boosting的训练集的选择不是独立的, 各轮训练集的选择与前面各轮的学习结果有关; Bagging 的各个预测函数没有权重, 可以并行生成, 而Boosting 是有权重的, 只能依次顺序生成; Boosting 往往从一些弱的学习器开始, 组合形成一个集成学习器, 从而给出一个好的学习结果, 而Bagging学习效果的好坏往往取决于集成学习器中每个学习器的相关性和各个学习器的学习效果。对于神经网络这类极为耗时的学习方法, Bagging 可通过并行训练节省大量时间开销。

    5 符号机器学习

    自1969 年Minsky 出版Perceptron(《感知机》)一书以后, 感知机的研究方向被终止,到1986 年Rumelhart 等发表BP 算法, 近20 年间, 机器学习研究者在做什么事情呢? 这段时间正是基于符号处理的人工智能的黄金时期, 由于专家系统研究的推动, 符号机器学习得到发展, 事实上, 这类研究方法除了建立在符号的基础上之外, 从学习的机理来看, 如果将学习结果考虑为规则, 每个规则将是一个分类器, 尽管这些分类器中有些不一定满足弱分类器的条件, 但是, 它应该是Hebb 路线的延续。
    符号机器学习的最大优点是归纳的解答与归纳的过程是可解释的, 换句话说, 数据集合中的每个观测(样本或对象)对用户都是透明的, 它在解答以及计算过程中所扮演的角色, 用户都是可以显现了解的。然而, 它的缺陷同样突出, 就是泛化能力。由于学习结果是符号表述, 因此, 只可能取“真”与“假”, 这样大大减低了对具有一定噪音数据的分析能力, 需要其他技术来补充: 其一, 观测世界的数据到符号域的映射, 其二, 不确定推理机制。但是, 这两种方法与符号机器学习方法本身并没有必然的关系。
    近几年, 由于数据挖掘的提出, 符号机器学习原理有了新的用途, 这就是符号数据分析, 在数据挖掘中称为数据描述, 以便与数据预测类型的任务相区别(从任务来说, 这类任务与机器学习是一致的)。
    与机器学习的目标不同, 数据分析不是以所有用户具有相同需求为假设, 相反, 强调不同用户具有不同的需求。另外, 数据分析强调, 分析结果是为用户提供可阅读的参考文本, 决策将依赖人的洞察。如何根据用户的特定需求将观测数据集合变换为简洁的、可为用户理解的表示成为关键。这是符号机器学习的另一个可以考虑的应用领域。由于符号机器学习在泛化能力上的欠缺, 这也是它在与基于统计的机器学习方法竞争中避免遭到淘汰的出路。

    6 增强机器学习方法

    增强机器学习( reinfo rcementlearning )的本质是对变化的环境的适应。应该说,这是一种“古老”的机器学习思想.在1948年, Wiener的著作“控制论”中,就讨论了这个问题,而在以后的控制理论的研究中,这发展成为重要的研究课题—— 自适应控制。由于控制理论研究这个问题的焦点在于控制品质,且其使用的数学工具是微分方程,因此,对非线性问题,使用计算机进行数值求解存在着本质性的困难。这是这类机器学习长期未得到计算机科学家注意的原因。
    直到20世纪70年代, Holland在讨论进化计算时,需要考虑控制物种群体的染色体数量,以便淘汰对变化环境不适应的个体,为此,提出使用桶队算法解决这个问题。桶队算法在Holland提出的分类器系统中扮演着对变换环境适应的角色。
    以后,在20世纪90年代初, Sutton提出将这类机器学习建立在Markov 过程上,并称其为增强机器学习方法。这个方法是根据环境变化对系统的刺激,并作为系统输入,然后,利用基于统计的方法优化转移概率,并使系统适应新的环境。
    一般地说,增强机器学习应该属于无教师学习,但是,如果考虑环境就是教师,这类机器学习也可以认为是一类特殊有教师的机器学习,与一般有教师机器学习的区别在于: 教师是环境,且是变化的环境。这意味着,不像传统意义下的有教师学习,教师教授的知识不是事先给定的,而是采用更灵活方法,在问题求解的过程中获得的。

    7 总结

    本文从机器学习的起源,发展依据,历史上的重要事件角度讨论了机器学习发展脉络。通过“对神经细胞模型假设的差别”将机器学习领域划分为两大支系——强调模型的整体性,基于Barlow“表征客体的单一细胞论”的Barlow路线;强调对世界的表征需要多个神经细胞集群,基于Hebb“表征客体的多细胞论”的Hebb路线。这一划分可以清晰地将机器学习发展历程总结为:以感知机、BP与SVM等为一类的Barlow路线;以样条理论、k-紧邻、Madaline、符号机器学习,集群机器学习与流行机器学习等为一类的Hebb路线。
    其中,又重点关注了目前发展良好的统计机器学习与集群学习。讨论了SVM与神经网络的关系与优缺点,以及将弱学习算法提升为强学习算法的Boosting算法。
    本文提倡研究者需要重视这样一个问题:我们探讨机器学习在理念、理论、与技术上发展的各种方法所遵循的假设,是否能够适应当前任务的需要?如果问题是否定的,那么,我们是修补这些已被普遍认可的理念、理论与方法(打补丁),以适应当前的需要,还是从根本上清理原有假设,提出新的假设,从而发展新的理念、理论和方法?这是一个需要仔细分析已有理论与方法,并权衡各种利弊才能决定的事情。综上所述,讨论机器学习发展脉络,以从这个脉络发现有趣的经验和教训,对回答这个问题是重要的,这必须考虑机器学习发展的科学依据,历史上的重要事件,以及理论研究中的重要结论。这就是我们本文的讨论集中在动机和理论的原因。

    展开全文
  • 机器学习是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人那样去决策。随着各行业对数据的需求量增多,对处理和分析数据的效率要求变高,一系列机器学习算法...

    1 引言

    机器学习是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人那样去决策。随着各行业对数据的需求量增多,对处理和分析数据的效率要求变高,一系列机器学习算法应运而生。机器学习算法主要是指通过数学及统计方法求解最优化问题的步骤和过程。针对不同的数据和不同模型需求,选择和使用适当的的机器学习算法可以更高效地解决一些实际问题。本文将从机器学习的起源出发,逐步介绍70多年来机器学习领域的若干重大突破及国内外研究现状,并指出未来机器学习算法面临的挑战。

    2 机器学习发展简史

    机器学习最早可以追溯到对人工神经网络的研究。1943年,Warren McCulloch和Wallter Pitts提出了神经网络层次结构模型[1],确立了神经网络的计算模型理论,从而为机器学习的发展奠定了基础。1950年,“人工智能之父”图灵提出了著名的“图灵测试”,使人工智能成为了科学领域的一个重要研究课题。

    1957年,康奈尔大学教授Frank Rosenblatt提出了Perceptron概念,并且首次用算法精确定义了自组织自学习的神经网络数学模型,设计出了第一个计算机神经网络。这个机器学习算法成为了神经网络模型的开山鼻祖[2]。1959年美国IBM公司的A.M.Samuel设计了一个具有学习能力的跳棋程序,曾经战胜了美国保持8年不败的冠军。这个程序向人们初步展示了机器学习的能力。

    1962年,Hubel和Wiesel发现了猫脑皮层中独特的神经网络结构可以有效降低学习的复杂性,从而提出著名的Hubel-Wiese生物视觉模型,这之后提出的神经网络模型均受此启迪。

    1969年,人工智能研究的先驱者Marvin Minsky和Seymour Papert出版了对机器学习研究有深远影响的著作《Perceptron》,其中对于机器学习基本思想的论断:解决问题的算法能力和计算复杂性,影响深远且延续至今。

    1980年夏,在美国卡内基梅隆大学举行了第一届机器学习国际研讨会,标志着机器学习研究在世界范围内兴起。1986年,《Machine Learning》创刊,标志着机器学习逐渐为世人瞩目并开始加速发展。

    1986年,Rumelhart,Hinton和Williams联合在《自然》杂志发表了著名的反向传播算法(BP)。1989年,美国贝尔实验室学者Yann和LeCun教授提出了目前最为流行的卷积神经网络(CNN)计算模型,推导出基于BP算法的高效训练方法,并成功地应用于英文手写体识别。

    进入90年代,多浅层机器学习模型相继问世,诸如逻辑回归,支持向量机等,这些机器学习算法的共性是数学模型为凸代价函数的最优化问题,理论分析相对简单,容易从训练样本中学习到内在模式,来完对象识别,人物分配等初级智能工作。

    2006年,机器学习领域泰斗Geoffrey Hinton和Ruslan Salakhutdinov发表文章[3],提出了深度学习模型。主要论点包括:多个隐层的人工神经网络具有良好的特征学习能力;通过逐层初始化来克服训练的难度,实现网络整体调优。这个模型的提出,开启了深度网络机器学习的新时代。2012年,Hinton研究团队采用深度学习模型赢得了计算机视觉领域最具有影响力的ImageNet 比赛冠军,标志着深度学习进入第二阶段。

    深度学习近年来在多个领域取得了令人赞叹的成绩,推出了一批成功的商业应用,诸如谷歌翻译,苹果语音工具siri,微软的Cortana个人语音助手,蚂蚁金服的Smile to Pay扫脸技术[4]。特别是2016年3月,谷歌的AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。2017年10月18日,DeepMind团队公布了最强版AlphaGo,代号AlphaGo Zero,它能在无任何人类输入的条件下,从空白状态学起,自我训练的时间仅为3天,自我对弈的棋局数量为490万盘,能以100:0的战绩击败前辈

    3机器学习算法研究现状

    3.1分类算法

    1.支持向量机分类。Lau等[5]为SVM提出一种在线学习算法,用于处理按顺序逐渐提供输入数据的分类问题。该算法速度快,所用的支持向量个数少,具有强泛化能力。Laskov等[6]提出一种快速,数值稳定和鲁棒的增量支持向量机学习方法。Huang等[7]提出一种大边缘分类器,与其他大边缘分类器或局部构建分离超平面不同,该模型能局部和全局地判定边界。Kim等[8]提出适用于大数据的特征提取和分类算法。

    2.决策树分类。传统决策树作为一种经典的分类学习算法,对大数据处理存在内

    存开销过大的问题。Franco-Arcega等[9]提出一种从大规模数据中构造决策树的方法,解决当前算法中的一些限制条件,可利用所有的训练集数据,但不需将它们都保存在内存中。 Yang等[10]提出一种增量优化的快速决策树算法用于处理带有噪音的大数据。与传统的挖掘大数据的决策树算法相比,该算法的主要优势是实时挖掘能力,这使得当移动数据流是无限时,它能存储完整的数据用于再训练决策模型。 Ben-Haim等[11]提出一种构建决策树分类器的算法。该算法在分布式环境中运行,适用于大数据集和流数据,与串行决策树相比,在精度误差近似的前提下能提高效率。

    3.神经网络与极端学习机。传统前馈神经网络一般采用梯度下降算法调整权值参数,学习速度慢、泛化性能差等问题是制约前馈神经网络应用的瓶颈。Huang等[12]摒弃梯度下降算法的迭代调整策略,提出ELM。该方法随机赋值单隐层神经网络的输入权值和偏差项,并通过一步计算即可解析求出网络的输出权值。相比于传统前馈神经网络训练算法需经多次迭代调整才可最终确定网络权值,ELM 的训练速度获得较显著提升。

    3.2聚类算法

    聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越来越多的关注。Havens等[13]对比3种扩展的模糊c均值(FCM)聚类算法对于大数据的执行效率。Xue等[14]提出一种压缩感知性能提升模型用于大数据聚类,该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。Hall等[15]研究二次抽样方法以提高聚类算法的可扩展性。Zhao等[16]提出基于MapReduce的 K-means算法,在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。Papadimitriou等[17]给出一种利用MapReduce模型实现协同聚类的系统框架—分布式协同聚类框架,并引入分布式数据预处理、协同聚类等方法,在Hadoop上实现该系统。Ferreira 等[18]给出一种利用MapReduce开展大规模数据聚类的方法。Havens等[19]分析在大数据上运行C-mean的困难,指出模糊技术在处理大数据上的有效性,研究抽样和增量在大数据上运行C-mean的作用。

    3.3特征选择算法

    在数据挖掘、文档分类和多媒体索引等新兴领域中,所面临的数据对象往往是大数据集,其中包含的属性数和记录数都很大,导致处理算法的执行效率低下。通过属性选择可剔除无关属性,增加分析任务的有效性,从而提高模型精度,减少运行时间。Kolda[20]提出一种内存使用高效的Tucker分解方法用于解决传统的张量分解算法无法解决的时间和空间利用问题。Quevedo等[21]基于输入变量的有用性,采用经典技术的简单组合,如相关性和正交性,提出一种输入变量排名算法,用于大数据降维和特征提取,取得良好效果。Gheyas等[22]结合模拟退火算法、遗传算法、贪心算法及神经网络算法的优点,提出一种模拟退火和遗传算法混合算法用于解决选择最优化特征子集的NP时间问题。Pal等[23]提出一种基于SVM的用于分类的特征选择方法,Sun等[24]提出一种用于分类的特征选择算法。该算法利用局部学习理论首先将复杂的非线性问题转换为一组线性问题,然后在最大间隔的框架下学习特征关联性。Hua等[25]对比一些现有的特征选择方法,提出一种特征标签分布式模型。

    4相关研究人员,期刊及会议

    机器学习及其算法在国内外备受瞩目,许多优秀的科研及技术人员致力于此。一些机器学习相关的期刊及会议应运而生,集中收录了大批高质量的论文,汇聚了一些创新性前瞻性的思想。这一部分我将以表格的形式对部分国内外杰出的致力于机器学习及其算法的研究人员,收录优秀机器学习论文的期刊及会议进行总结整理。

    姓名

    就职单位

    研究方向

    代表论文/书著

     

    吴恩达

    斯坦福大学教授

    百度首席科学家

    深度学习

    机器学习

    人工智能

    《Deep Learning with COTS HPC Systems》,《Parsing with Compositional Vector Grammars》

     

    林轩田

    台湾大学

    Appier首席数据科学家

    机器学习

    数据科学

    《Learning from Data: A Short Course》,《Machine Learning Techniques》

     

    周志华

    南京大学教授

    长江学者

    杰青

    人工智能

    机器学习

    数据挖掘

    《机器学习》《Ensemble Methods: Foundations and Algorithms》,《神经网络集成

     

    李航

    华为诺亚方舟实验室首席科学家实验室主任

    信息检索自然语言处理统计机器学习及数据挖掘

    统计学习方法》,《A Short Introduction toLearning to Rank

     

    蔡登

     

    浙江大学教授

    机器学习,计算机视觉,数据挖掘信息检索

    Deep feature based contextual model for object detection》,《信息协同过滤

     

    万小军

     

    北京大学教授

     

    文本挖掘

    自然语言处理

    Co-training for cross-lingual sentiment classification》,《文档聚类中k-means算法的一种改进算法

    吴军

    腾讯副总裁

    语音识别、自然语言处理

    数学之美浪潮之巅文明之光

     

    张钹

    清华大学人工智能研究院院长

    人工智能理论

    人工神经网络

    遗传算法,模式识别

    Theory and Applications of Problem solving》,《人工神经网络理论及应用》

    表1 国内机器学习杰出研究工作者(部分)

     

    姓名

    就职单位

    研究方向

    代表论文/书著

    Yoshua

    Bengio

    Canadian Institute for Advanced Research

    计算机科学

    人工神经网络

    深度学习

    Learning deep architectures for AI

     

    Yann LeCun

     

    New York University

    机器学习

    计算机视觉

    移动机器人

    计算神经科学

    Gradient-based learning applied to document recognition

    Alpaydin,E

    Bogaziçi University

    深度学习

    机器学习

    Introduction to Machine Learning

    DavidE. Goldberg

     

    University of Illinois at Urbana-Champaign

    机器学习

    遗传算法

    优化

    Genetic algorithms and machine learning

    Christophe Andrieu

    the University of Bristol

    统计科学

    机器学习

    An introduction to MCMC for machine learning

     

    Robert Holte

    the University of Alberta

    机器学习

    智能路由

    网络信息访问

    Machine learning for the detection of oil spills in satellite radar images

    Geoffrey Hinton

    Google

    the University of Toronto

    神经网络

    机器学习

    《Imagenet classification with deep convolutional neural networks》

    表2 国际机器学习杰出研究工作者(部分)

     

     

     

     

    1. 《计算机学报》
    2. 《软件学报》
    3.  《电子学报》
    4. 《模式识别与人工智能》
    5. 《计算机科学》
    6. ournal of Machine Learning Research
    7. Machine Learning
    8. Artificial Intelligence

    (9)Journal of Artificial Intelligence Research

     

     

     

    1. 中国机器学习会议(CCML)
    2. International Conference on Machine Learning (ICML)国际机器学习会议
    3. American Association for AI National Conference(AAAI)美国人工智能协会
    4. International Conference on Computer Vision (ICCV)计算机视觉国际会议

    (4)Asian Conference on Machine Learning (ACML)亚洲机器学习会议

    (6)Neural Information Processing Systems 神经信息处理系统(NIPS)

    表3 机器学习相关期刊及会议(部分)

     

    5机器学习面临的挑战

    目前,以深度学习为代表的机器学习领域的研究与应用取得巨大进展有目共睹,有力地推动了人工智能的发展。但是也应该看到,它毕竟还是一个新生事物,多数结论是通过实验或经验获得,还有待于理论的深入研究与支持。CNN的推动者和创始人之一的美国纽约大学教授 Yann LeCun在2015IEEE 计算机视觉与模式识别会议上指出深度学习的几个关键限制:缺乏背后工作的理论基础和推理机制;缺乏短期记忆;不能进行无监督学习[26]。基于多层人工神经网络的深度学习受到人类大脑皮层分层工作的启发,虽然深度学习是目前最接近人类大脑的智能学习方法,但是当前的深度网络在结构、功能、机制上都与人脑有较大的差距。并且对大脑皮层本身的结构与机理还缺乏精准认知,如果要真正模拟人脑的 100 多亿个神经元组成的神经系统,目前还难以实现。因此,对计算神经科学的研究也需要有很长一段路要走。此外,机器学习模型的网络结构、算法及参数越发庞大、复杂,通常只有在大数据量、大计算量支持下才能训练出精准的模型,对运行环境要求越来越高、占用资源也越来越多,这也抬高了其应用门槛。总之,机器学习方兴未艾并且拥有广阔的研究与应用前景,但是面临的挑战也不容忽视,二者交相辉映才能够把机器学习推向更高的境界。

    6结束语

    本文从机器学习的发展简史谈起,介绍了机器学习算法现阶段的研究情况以及取得的进展,整理了国内外部分优秀学者及相关期刊会议的信息,最后探讨了机器学习面临的挑战。毋庸置疑,机器学习作为人工智能的一个重要分支,目前在诸多领域取得了巨大进展,并且展示出强大的发展潜力。但是更应该看到,机器学习的发展仍然处理初级阶段,目前虽然有各种各样机器学习算法但却无法从根本上解决机器学习所面临的壁垒,机器学习仍然主要依赖监督学习,还没有跨越弱人工智能。因此对于机器学习我们还有很长的一段路要走。

     

     

     

    参考文献

    1. Warren McCulloch and Wallter Pitts.A logical calculus of the ideas immanentin nervous activity.The bulletin of mathematical biophysics,1943,5(4):115-113.
    2. 张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报(自然科学版),2016,23(02):10-18+24.
    3. Geoffrey E Hinton,Salakhutdinov RR.Reducing the dimensionally of data with neural networks.Science,2006,313(5786):504-7
    4. 何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(04):327-336.
    5. Lau K W,Wu Q H.Online Training of Support Vector Classifier.Pattern Recognition,2003,365(8)

    1913-1920

    1. Laskov P,Gehl C,Kruger S.Incremental Support Vector Learning:Analysis,Implementation and Application[J].Machine Learning Research,2006,7:1909-1936.
    2. Huang K,Yang H,King L ,Maxi-Min Margin Machine:Learning Large Margin Classifiers Locally and Globally.IEEE Trans on Neural Networks,2008,19(2):260-272
    3. Kim B J.A Classifier for Big Data//Proc of the 6th International Conference on Covergence and Hybrid Information Technology.Daejeon,Republic of Korea,2012:505-512
    4. Franco-Arcega A,Carrasco-Ochoa J A,Sánchez-Díaz G,et al.Building Fast Decision Trees from Large Training Sets.Intelligent Data Analysis,2012,16(4): 649-664
    5. Hang Y,Fong S.Incrementally Optimized Decision Tree for Noisy Big Data / / Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications.Beijing,China,2012: 36-44
    6. Ben-Haim Y,Tom-Tov E. A Streaming Parallel Decision Tree Algorithm. Journal of Machine Learning Research,2010,11: 849-872
    7. Huang G B,Zhu Q Y,Siew C K.Extreme Learning Machine:Theory and Applications.Neurocomputing,2006,70 ( 1 /2 /3 ): 489 - 501
    8. Kim B J.A Classifier for Big Data//Proc of the 6th International Conference on Covergence and Hybrid Information Technology.Daejeon,Republic of Korea,2012:505-512
    9. Franco-Arcega A,Carrasco-Ochoa J A,Sánchez-Díaz G,et al.Building Fast Decision Trees from Large Training Sets.Intelligent Data Analysis,2012,16(4): 649-664
    10. Hang Y,Fong S.Incrementally Optimized Decision Tree for Noisy Big Data / / Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications.Beijing,China,2012: 36-44
    11. Ben-Haim Y,Tom-Tov E. A Streaming Parallel Decision Tree Algorithm. Journal of Machine Learning Research,2010,11: 849-872
    12. Huang G B,Zhu Q Y,Siew C K.Extreme Learning Machine:Theory and Applications.Neurocomputing,2006,70 ( 1 /2 /3 ): 489 - 501
    13. Havens T C,Bezdek J C,Leckie C,et al.Fuzzy c-means Algorithms for Very Large Data..IEEE Trans on Fuzzy Systems,2012,20(6): 1130-1146
    14. Xue Z H,Shen G,Li J H,et al.Compression-Aware I /O Performance Analysis for Big Data Clustering // Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications.Beijing,China,2012: 45-52
    15. Hall L O.Exploring Big Data with Scalable Soft Clustering  //  Proc of the 6th International Conference on Soft Methods in Probability and Statistics.Konstanz,Germany,2012:11-15 [16]Zhao W Z,Ma H F,He Q.Parallel k-means Clustering Based on MapReduce / / Proc of the 1st International Conference on Cloud Computing and Big Data.Beijing,China,2009: 674-679
    16. Papadimitriou S,Sun J M. DisCo: Distributed Co-clustering with MapReduce: A Case Study towards Petabyte-Scale End-to-End Mining // Proc of the 8th IEEE International Conference on Data Mining. Pisa,Italy,2008: 512-521
    17. Ferreira C R L,Junior T C,Traina A J M,et al.Clustering Very Large Multi-dimensional Datasets with MapReduce // Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Diego,USA,2011: 690-698
    18. Havens T C,Chitla R,Jain A K,et al. Speedup of Fuzzy and Possibilistic Kernel c-means for Large-Scale Clustering // Proc of the IEEE International Conference on Fuzzy Systems.Taipei,China,2011: 463-470
    19. Kolda T G,Sun J M.Scalable Tensor Decompositions for Multi-aspect Data Mining / / Proc of the 8th IEEE International Conference on Data Mining.Pisa,Italy,2008: 363-372
    20. Quevedo J R,Bahamonde A,Luaces O.A Simple and Efficient Method for Variable Ranking according to Their Usefulness for Learning.Computational Statistics & Data Analysis,2007,52(1): 578-595
    21. Gheyas I A,Smith L S.Feature Subset Selection in Large Dimensionality Domains.Pattern Recognition,2010,43(1): 5 - 13
    22. Pal M,Foody G M.Feature Selection for Classification of Hyperspectral Data by SVM. IEEE Trans on Geoscience and Remote Sensing,2010,48(5): 2297-2307
    23. Sun Y J,Todorovic S,Goodison S.Local-Learning-Based Feature Selection for High-Dimensional Data Analysis.IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32 (9): 1610-1626
    24. Hua J P,Tembe W D,Dougherty E R.Performance of Feature-Selection Methods in the Classification of High-Dimension Data.Pattern Recognition,2009,42(3): 409-424
    25. 王井东,张婷,罗杰波.中国计算机学会通讯.2015,P72.
    展开全文
  • 可解释机器学习发展和常见方法!

    千次阅读 2020-11-28 20:56:37
    近年来,可解释机器学习(IML) 的相关研究蓬勃发展。尽管这个领域才刚刚起步,但是它在回归建模和基于规则的机器学习方面的相关工作却始于20世纪60年代。最近,arXiv上的一篇论文简要介绍了解释机器学习(IML)领域的...

    本文介绍IML领域的历史,给出了最先进的可解释方法的概述,并讨论了遇到的挑战。

    近年来,可解释机器学习(IML) 的相关研究蓬勃发展。尽管这个领域才刚刚起步,但是它在回归建模和基于规则的机器学习方面的相关工作却始于20世纪60年代。最近,arXiv上的一篇论文简要介绍了解释机器学习(IML)领域的历史,给出了最先进的可解释方法的概述,并讨论了遇到的挑战。

    当机器学习模型用在产品、决策或者研究过程中的时候,“可解释性”通常是一个决定因素。

    可解释机器学习(Interpretable machine learning ,简称 IML)可以用来来发现知识,调试、证明模型及其预测,以及控制和改进模型。

    研究人员认为 IML的发展在某些情况下可以认为已经步入了一个新的阶段,但仍然存在一些挑战。

    可解释机器学习(IML)简史

    最近几年有很多关于可解释机器学习的相关研究, 但是从数据中学习可解释模型的历史由来已久。

    线性回归早在19世纪初就已经被使用,从那以后又发展成各种各样的回归分析工具,例如,广义相加模型(generalized additive models)和弹性网络(elastic net)等。

    这些统计模型背后的哲学意义通常是做出某些分布假设或限制模型的复杂性,并因此强加模型的内在可解释性。

    而在机器学习中,使用的建模方法略有不同。 

    机器学习算法通常遵循非线性,非参数方法,而不是预先限制模型的复杂性,在该方法中,模型的复杂性通过一个或多个超参数进行控制,并通过交叉验证进行选择。这种灵活性通常会导致难以解释的模型具有良好的预测性能。

    虽然机器学习算法通常侧重于预测的性能,但关于机器学习的可解释性的工作已经存在了很多年。随机森林中内置的特征重要性度量是可解释机器学习的重要里程碑之一。

                   

    深度学习在经历了很长时间的发展后,终于在2010年的ImageNet中获胜。

    从那以后的几年,根据Google上“可解释性机器学习”和“可解释的AI”这两个搜索词的出现频率,可以大概得出IML领域在2015年才真正起飞。

                   

    IML中的常见方法

    通常会通过分析模型组件,模型敏感性或替代模型来区分IML方法。

                   

    分析可解释模型的成分

    为了分析模型的组成部分,需要将其分解为可以单独解释的部分。但是,并不一定需要用户完全了解该模型。

                   

     

    通常可解释模型是具有可学习的结构和参数的模型,可以为其分配特定的解释。在这种情况下,线性回归模型,决策树和决策规则被认为是可解释的。

    线性回归模型可以通过分析组件来解释:模型结构(特征的加权求和)允许将权重解释为特征对预测的影响。

    分析更复杂模型的成分

    研究人员还会分析更复杂的黑盒模型的组成部分。例如,可以通过查找或生成激活的CNN特征图的图像来可视化卷积神经网络(CNN)学习的抽象特征。

    对于随机森林,通过树的最小深度分布和基尼系数来分析随机森林中的树,可以用来量化特征的重要性。

     

    模型成分分析是一个不错的工具,但是它的缺点是与特定的模型相关, 而且它不能与常用的模型选择方法很好地结合,通常是通过机器学习搜索很多不同的ML模型进行交叉验证。

    IML发展中遇到的挑战

    统计不确定性

    许多 IML 方法,例如:特征重要度的排列组合等,在不量化解释不确定性的情况下提供了解释。

    模型本身以及其解释都是根据数据计算的,因此存在不确定性。目前研究正在努力量化解释的不确定性,例如对于特征重要性的逐层分析相关性等。

    因果解释

    理想情况下,模型应反映其潜在现象的真实因果结构,以进行因果解释。如果在科学中使用IML,则因果解释通常是建模的目标。

    但是大多数统计学习程序仅反映特征之间的相关结构并分析数据的生成过程,而不是其真正的固有结构。这样的因果结构也将使模型更强大地对抗攻击,并且在用作决策依据时更有用。

    不幸的是,预测性能和因果关系可能是一种相互矛盾的目标。

    例如,今天的天气直接导致明天的天气,但是我们可能只能使用“湿滑的地面”这个信息,在预测模型中使用“湿滑的地面”来表示明天的天气很有用,因为它含有今天的天气的信息,但由于ML模型中缺少了今天的天气信息,因此不能对其进行因果解释。

    特征依赖

    特征之间的依赖引入了归因和外推问题。例如,当特征之间相互关联并共享信息时,特征的重要性和作用就变得难以区分。

    随机森林中的相关特征具有较高的重要性,许多基于灵敏度分析的方法会置换特征,当置换后的特征与另一特征具有某种依赖性时,此关联将断开,并且所得数据点将外推到分布之外的区域。

                  

    ML模型从未在这类组合数据上进行过训练,并且可能不会在应用程序中遇到类似的数据点。因此,外推可能会引起误解。

    如何向具有不同知识和背景的个人解释预测结果,以及满足有关机构或社会层面的可解释性的需求可能是IML今后的目标。

    它涵盖了更广泛的领域,例如人机交互,心理学和社会学等。为了解决未来的挑战,作者认为可解释机器学习领域必须横向延伸到其他领域,并在统计和计算机科学方面纵向延伸。

    参考链接:

    https://arxiv.org/abs/2010.09337

     

    展开全文
  • 机器学习发展与未来

    千次阅读 2019-08-05 09:29:10
    今天读周志华老师的报告(机器学习发展与未来)时,发现周老师许多的新奇观点,记录如下: 虽然AlphaGo战胜人类,但是距离超越人类仍旧有很长的路要走,其中一个重要原因就是其鲁棒性,相对于人类系统相差甚远,...
  • 到目前为止,人工智能可以划分为三个阶段:早期的符号学习、九十年代开始的统计机器学习、近年兴起的深度学习。 人工智能早期,机器学习的技术几乎全是符号学习。符号学习的概念很简单,就是用一些特定的符号来表示...
  • 本文主要叙述了 1.机器学习的研究现状,包括定义,应用领域,研究意义,发展史,系统结构,和对其进行各种角度的分类. 2.机器学习发展趋势。
  • 数据是载体,智能是目标,而机器学习是从数据通往智能的技术、方法途径。因此,机器学习是数据科学的核心,是现代人工智能的本质。通俗地说,机器学习就是从数据中挖掘出有价值的信息。 数据本身是无意识的,它不能...
  • 机器学习发展历程

    万次阅读 多人点赞 2019-06-09 17:52:05
    人工智能及机器学习发展历程。
  • 机器学习是人工智能AI研究发展到一定阶段的必然产物! 二十世纪五十年代~七十年代初,“推理期”:机器的只能体现在具有逻辑推理能力...六七十年代,基于逻辑表示的“ ”符号主义学习发展, 比如:归纳学习系统、概...
  • 本文主要参考中科院自动化研究所复杂系统与智能科学实验室王珏研究员《关于机器学习的讨论》,讨论机器学习的描述,理论基础,发展历史以及研究现状。 关键字:机器学习,科学依据,发展脉络   0引言   20...
  • 机器学习发展

    千次阅读 2016-12-29 12:31:29
    机器学习(Machine Learning, ML)可以认为是:通过数据,算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者预测。它是人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本...
  • 机器学习是一个多学科的领域,当你开始把机器学习和人工智能和数据挖掘这两个紧密相关的领域区分开来时,它会非常混乱。 在这篇文章中,你将了解那些与机器学习相关的领域。具体来说,您将通过学习机器学习如何建立...
  • Q: 机器学习未来的发展形势如何,该如何选择未来的求职方向 A:我的理解 人工智能和机器学习只是一种技术 或者一种工具 未来要结合社会和时代的需要 把它的价值挖掘出来 目前的无人车 无人机 人脸语音图像 等都只是...
  • 机器学习和深度学习综述

    千次阅读 2019-12-02 19:17:05
    人工智能、机器学习和深度学习的概念及关系2.深度学习的历史和发展 1. 人工智能、机器学习和深度学习的概念及关系 人工智能、机器学习和深度学习的概念在近些年十分火热,但很多从业者也难以说清它们之间的关系,...
  • 机器学习历史

    千次阅读 2019-02-24 16:04:41
    总体上,机器学习算法可以分为有监督学习、无监督学习、半监督学习、强化学习4种类型。 监督学习 又称为又教师学习,可以理解为有教师教机器的学习过程,说的专业点就是有数据标签,“标签”就是教师。 无监督...
  • 机器学习实战》学习笔记(一):机器学习基础

    万次阅读 多人点赞 2019-08-19 17:01:32
    专栏【机器学习】 【机器学习】《机器学习实战》读书笔记及代码 总目录 https://blog.csdn.net/TeFuirnever/article/details/99701256 ————————————————————————————————————...
  • 机器学习的概念、历史和未来

    千次阅读 2018-07-17 10:17:00
    在直观的层面,如果说计算机科学是研究关于算法的科学,那么机器学习就是研究关于“学习算法”的科学,或者说,不同于一般的显式编程,机器学习就是研究如何使得计算机在无法被显式编程的情况下进行学习的领域,需要...
  • 分布式机器学习平台比较

    千次阅读 2017-08-15 10:51:27
    当然,资金驱动着这些技术以极快的速度向前发展,而且,最近我们已经看到了有很多机器学习平台正在建立起来。 这篇文章调查分析了多个分布式机器学习平台所使用的设计方法,并提出了未来的研究方
  • 机器学习

    千次阅读 2020-01-09 22:01:52
    机器学习综述机器学习介绍机器学习的分类机器总结 机器学习介绍 机器学习在我个人看来就是运用相关的算法,对某件事一次又一次地重复,直到达到自己想要的目标 机器学习的分类 学习策略的分类标准就是根据学生实现...
  • 监督学习 无监督学习 半监督学习@监督学习 无监督学习 半监督学习 监督学习 在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。 监督学习分类 回归...
  • 机器学习的分类

    千次阅读 2017-11-30 18:59:05
    目前机器学习主流分为:监督学习,无监督学习,强化学习。 监督学习: 监督学习可分为“回归”和“分类”问题。 在回归问题中,我们会预测一个连续值。也就是说我们试图将输入变量和输出用一个连续函数...
  • 机器学习思维导图

    千次阅读 2018-11-01 14:12:18
    机器学习思维导图机器学习思维导图思维导图解释需求分析与数据获取数据预处理特征工程算法模型模型评估 机器学习思维导图 思维导图解释 需求分析与数据获取 在需求分析与数据获取中,我们往往要考虑以下几个...
  • 机器学习极简入门课

    千次阅读 2018-07-03 02:45:07
    本达人课针对机器学习初学者,从机器学习、深度学习最基本的原理及学习意义入手,以模型为驱动,带领大家吃透几个最经典的机器学习模型——学习这些模型的原理、数学推导、训练过程和优化方法。 本课为每个模型提供...
  • 而这类问题正是机器学习所能够解决的。 传统上来讲,计算机编程指在结构化的数据上执行明确的程序规则。软件开发人员动手编写程序,告诉计算机如何对数据执行一组指令,并输出预期的结果,如图1-1所示。这个过程与...
  • 机器学习和深度学习的关系 事实上,很多PGM也可从神经网络的方面来解释。尤其是VAE,它可看做二类的混合模型。 当PGM的层太多时,学习和推断都很难。因此,Deep learning往往偏向于指代Deep neural network。 从...
  • 统计机器学习理论

    千次阅读 2016-07-11 15:47:33
    目前机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义),对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 270,243
精华内容 108,097
关键字:

机器学习发展