精华内容
下载资源
问答
  • 机器学习系统的组成特点
    千次阅读
    2019-05-15 16:07:28

    最初的原文地址:不明

    机器学习文献综述

    一、背景介绍

    数据库:百度词条、知网数据库。检索式:机器学习

    检索结果及分析:

    机器学习有下面几种定义: “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E withrespect to some class of tasks T and performance measure P, if its performanceat tasks in T, as measured by P, improves with experience E。

    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。

    机器学习是人工智能研究较为年轻的分支,它的发展过程大体上分为四个时期。第一阶段是20世纪50年代中叶到60年代中叶,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习。其研究目标是各类自组织系统和自适应系统,其主要研究方法是不断修改系统的控制参数和改进系统的执行能力,不涉及与具体任务有关的知识。本阶段的代表性工作是:塞缪尔(Samuel)的下棋程序。但这种学习的结果远不能满足人们对机器学习系统的期望。第二阶段是在60年代中叶到70年代中叶,被称为机器学习的冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。本阶段的代表性工作有温斯顿(Winston)的结构学习系统和海斯罗思(Hayes-Roth)等的基本逻辑的归纳学习系统。第三阶段从20世纪70年代中叶到80年代中叶,称为复兴时期。在此期间,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进机器学习的发展。1980年,在美国的卡内基—梅隆(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。

    从本质上讲,机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现人工智能。

    随着计算机网络技术的发展,各行各业积累的数字化数据越来越多,如微博的数字化、聊天记录的数字化、视频探头信息的数字化,大数据(Big Data)成为当今流行的研究主题,在这种潮流下,如何对这些数据进行分析,从中发现蕴涵的规律及有价值的信息,机器学习我想将有一席用武之地。

     

    二、研究现状

    数据库:Find+发现。检索式:机器学习*算法*综述

    检索结果及分析:

    1、机器学习分类

      机器学习,一般根据处理的数据是否存在人为标注主要分为监督学习和无监督学习。监督学习用有标签的数据作为最终学习目标,通常学习效果好,但获取有标签数据的代价是昂贵的,无监督学习相当于自学习或自助式学习,便于利用更多的数据,同时可能会发现数据中存在的更多模式的先验知识(有时会超过手工标注的模式信息),但学习效率较低。二者的共性是通过建立数学模型为最优化问题进行求解,通常没有完美的解法。

    监督学习的数据集包括初始训练数据和人为标注目标,希望根据标注特征从训练集数据中学习到对象划分的规则,并应用此规则在测试集数据中预测结果,输出有标记的学习方式。因此,监督学习的根本目标是训练机器学习的泛化能力。监督学习的典型算法有:逻辑回归、多层感知机、卷积神经网络等;典型应用有:回归分析、任务分类等。

    无监督学习,用于处理未被分类标记的样本集数据并且事先不需要进行训练,希望通过学习寻求数据间的内在模式和统计规律,从而获得样本数据的结构特征,因此,无监督学习的根本目标是在学习过程中根据相似性原理进行区分"无监督学习更近似于人类的学习方式,被誉为:人工智能最有价值的地方。无监督学习的典型算法有自动编码器、受限玻尔兹曼机、深度置信网络等;典型应用有:聚类和异常检测等。

    总之,机器学习就是计算机在算法的指导下,能够自动学习大量输入数据样本的数据结构和内在规律,给机器赋予一定的智慧,从而对新样本进行智能识别,甚至实现对未来的预测"。

     

    2、机器学习目前研究现状

    (1)面向任务:在预定的一些任务中,分析和开发学习系统,以便改善完成任务的水平,这是专家系统研究中提出的研究问题;

    (2)认识模拟:主要研究人类学习过程及其计算机的行为模拟,这是从心理学角度研究的问题;

    (3)理论分析研究:从理论上探讨各种可能学习方法的空间和独立于应用领域之外的各种算法。

    这三个研究方向各有自己的研究目标,每一个方向的进展都会促进另一个方向的研究。这三个方面的研究都将促进各方面问题和学习基本概念的交叉结合,推动了整个机器学习的研究。

     

    3、机器学习主要算法

    数据库:谷歌搜索。检索式:机器学习主要算法

    检索结果及分析:

    (1)回归算法

       在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。回归算法有两个重要的子类:即线性回归和逻辑回归。

       线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是这样的,假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最小。最小二乘法将最优问题转化为求函数极值问题。函数极值在数学上我们一般会采用求导数为0的方法。但这种做法并不适合计算机,可能求解不出来,也可能计算量太大。

       计算机科学界专门有一个学科叫“数值计算”,专门用来提升计算机进行各类计算时的准确性和效率问题。例如,著名的“梯度下降”以及“牛顿法”就是数值计算中的经典算法,也非常适合来处理求解函数极值的问题。梯度下降法是解决回归模型中最简单且有效的方法之一。从严格意义上来说,由于后文中的神经网络和推荐算法中都有线性回归的因子,因此梯度下降法在后面的算法实现中也有应用。

       逻辑回归是一种与线性回归非常类似的算法,但是,从本质上讲,线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题,也就是最后预测出的结果是数字,例如房价。而逻辑回归属于分类算法,也就是说,逻辑回归预测结果是离散的分类,例如判断这封邮件是否是垃圾邮件,以及用户是否会点击此广告等等。

       实现方面的话,逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数,将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观,你只需要理解对数值越大,函数越逼近1,数值越小,函数越逼近0),接着我们根据这个概率可以做预测,例如概率大于0.5,则这封邮件就是垃圾邮件,或者肿瘤是否是恶性的等等。从直观上来说,逻辑回归是画出了一条分类线。

    假设我们有一组肿瘤患者的数据,这些患者的肿瘤中有些是良性的(图中的蓝色点),有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的“标签”。同时每个数据包括两个“特征”:患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上,形成了我上图的数据。

       当我有一个绿色的点时,我该判断这个肿瘤是恶性的还是良性的呢?根据红蓝点我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据绿点出现在分类线的左侧,因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤。

    逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归,不过那样的模型在处理数据量较大的时候效率会很低),这意味着当两类之间的界线不是线性时,逻辑回归的表达能力就不足。下面的两个算法是机器学习界最强大且重要的算法,都可以拟合出非线性的分类线。

    (2)神经网络

    神经网络(也称之为人工神经网络,ANN)算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。

    神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进行机器学习的实验,发现在视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后,神经网络的发展进入了一个热潮。BP算法的发明人之一是前面介绍的机器学习大牛Geoffrey Hinton。具体说来,神经网络的学习机理是什么?简单来说,就是分解与整合。在著名的Hubel-Wiesel试验中,学者们研究猫的视觉分析机理是这样的。

    比方说,一个正方形,分解为四个折线进入视觉处理的下一层中。四个神经元分别处理一个折线。每个折线再继续被分解为两条直线,每条直线再被分解为黑白两个面。于是,一个复杂的图像变成了大量的细节进入神经元,神经元处理以后再进行整合,最后得出了看到的是正方形的结论。这就是大脑视觉识别的机理,也是神经网络工作的机理。

    让我们看一个简单的神经网络的逻辑架构。在这个网络中,分成输入层,隐藏层,和输出层。输入层负责接收信号,隐藏层负责对数据的分解与处理,最后的结果被整合到输出层。每层中的一个圆代表一个处理单元,可以认为是模拟了一个神经元,若干个处理单元组成了一个层,若干个层再组成了一个网络,也就是"神经网络"。

    (3)SVM(支持向量机)

    支持向量机算法是诞生于统计学习界,同时在机器学习界大放光彩的经典算法。

    支持向量机算法从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有某类函数技术,则支持向量机算法最多算是一种更好的线性分类技术。

    但是,通过跟高斯“核”的结合,支持向量机可以表达出非常复杂的分类界线,从而达成很好的的分类效果。“核”事实上就是一种特殊的函数,最典型的特征就是可以将低维的空间映射到高维的空间。例如下图所示:

    支持向量机是一种数学成分很浓的机器学习算法(相对的,神经网络则有生物科学成分)。在算法的核心步骤中,有一步证明,即将数据从低维映射到高维不会带来最后计算复杂性的提升。于是,通过支持向量机算法,既可以保持计算效率,又可以获得非常好的分类效果。因此支持向量机在90年代后期一直占据着机器学习中最核心的地位,基本取代了神经网络算法。直到现在神经网络借着深度学习重新兴起,两者之间才又发生了微妙的平衡转变。

    (4)聚类算法

    前面的算法中的一个显著特征就是我的训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签。在下面的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。这类算法有一个统称,即无监督算法(前面有标签的数据的算法则是有监督算法)。无监督算法中最典型的代表就是聚类算法。

    让我们还是拿一个二维的数据来说,某一个数据包含两个特征。我希望通过聚类算法,给他们中不同的种类打上标签,我该怎么做呢?简单来说,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。聚类算法中最典型的代表就是K-Means算法。

    (5)降维算法 

    降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。在这里,维度其实表示的是数据的特征量的大小,例如,房价包含房子的长、宽、面积与房间数量四个特征,也就是维度为4维的数据。可以看出来,长与宽事实上与面积表示的信息重叠了,例如面积=长 ×宽。通过降维算法我们就可以去除冗余信息,将特征减少为面积与房间数量两个特征,即从4维的数据压缩到2维。于是我们将数据从高维降低到低维,不仅利于表示,同时在计算上也能带来加速。

    刚才说的降维过程中减少的维度属于肉眼可视的层次,同时压缩也不会带来信息的损失(因为信息冗余了)。如果肉眼不可视,或者没有冗余的特征,降维算法也能工作,不过这样会带来一些信息的损失。但是,降维算法可以从数学上证明,从高维压缩到的低维中最大程度地保留了数据的信息。因此,使用降维算法仍然有很多的好处。

    降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法,可以将具有几千个特征的数据压缩至若干个特征。另外,降维算法的另一个好处是数据的可视化,例如将5维的数据压缩至2维,然后可以用二维平面来可视。降维算法的主要代表是PCA算法(即主成分分析算法)。 

    (6)推荐算法

    推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。推荐算法有两个主要的类别:一类是基于物品内容的推荐,是将与用户购买的内容近似的物品推荐给用户,这样的前提是每个物品都得有若干个标签,因此才可以找出与用户购买物品类似的物品,这样推荐的好处是关联程度较大,但是由于每个物品都需要贴标签,因此工作量较大。 

    另一类是基于用户相似度的推荐,则是将与目标用户兴趣相同的其他用户购买的东西推荐给目标用户,例如小A历史上买了物品B和C,经过算法分析,发现另一个与小A近似的用户小D购买了物品E,于是将物品E推荐给小A。

    两类推荐都有各自的优缺点,在一般的电商应用中,一般是两类混合使用。推荐算法中最有名的算法就是协同过滤算法。 

    (7)其他

    除了以上算法之外,机器学习界还有其他的如高斯判别,朴素贝叶斯,决策树等等算法。但是上面列的六个算法是使用最多,影响最广,种类最全的典型。机器学习界的一个特色就是算法众多,发展百花齐放。

     

    三、机器学习的研究进展

    数据库:谷歌搜索。检索式:机器学习*进展

    检索结果及分析:

    1、机器学习的研究近况

    随着机器学习的深入研究与应用,新的网络结构和学习算法不断涌现,进一步推进了机器学习的发展。下面主要从模型结构与网络参数设计、学习算法两方面对近几年机器学习的研究进展进行介绍。

    (1)模型结构及网络参数设计

    Liu yan等人提出一种半监督可识别深度置信网络算法(ccbRD)并成功应用于图像的分类。Luo等人提出稀疏组受限波尔曼机(SGRBM)算法,通过实验表明该算法可以提取更局部的特征、提高识别率。Yu Dong等提出一种深度凸起网络(DCN) 算法,并用于构建语音分类的可扩展体系。Huang等人提出一种通过局部卷积深度置信网络模型学习图像总体结构特征的方法,并在人

    脸数据库测试通过,取得良好效果。罗切尔提出改进RBM的Class RBM算法,实现在不训练分类器的前提下,提高在线实时监测学习特征的识别性能。Zhou等人提出一种半监督卷积深度网络(CDN)算法,可用于图像分类。Mrazova等人提出一种增长式CNN,实现快速自动调整网络拓扑结构,有效处理高维数据!逐层迭代提取高级抽象特征。Kai Ming等人提出一种空间金字塔池化CNN算法,实现不同尺寸图像的识别。

     

    (2)学习方法

    Wong等人提出一种基于Fisher准则、运用正则化要求进行深度学习提取特征的算法(RD-FM),通过实验表明该方法比核应运具有更强的特征识别能力、微调阶段正则化应用的必要性。Collobert提出一种根据深度卷积递归图

    变换网络(GTN)进行快速自然语言解析的算法,在保持性能的同时,提高了解析速度。Hinton提出通过阻止特征检测器网络权值的相互作用来改善神经网络的性能。Duchi等提出一种自适应次梯度方法用于在线学习和随机优化。孙志军等人提出一种基于边际Fisher准则的深度学习特征提取算法。Zhou等提出一种半监督活跃深度网络(ADN)算法,用于解决标记数据不足的情感分类问题。TOM等人提出用于语句情感分类的高级深度学习算法。Schaul等人提出一种学习率自适应方法。

     

    四、机器学习面临的挑战

    数据库:谷歌搜索     检索式:机器学习*挑战

    目前,以深度学习为代表的机器学习领域的研究与应用取得巨大进展有目共睹,有力地推动了人工智能的发展"但是也应该看到,以深度学习为代表的机器学习前沿毕竟还是一个新生事物,多数结论是通过实验或经验获得,还有待于理论的深入研究与支持。CNN的推动者和创始人之一的美国纽约大学教授 Yann  Lucan在2015IEEE计算机视觉与模式识别会议上指出深度学习的几个关键限制:缺乏背后工作的理论基础和推理机制;缺乏短期记忆;不能进行无监督学习。

    另外,基于多层人工神经网络的深度学习受到人类大脑皮层分层工作的启发,虽然深度学习是目前最接近人类大脑的智能学习方法,但是当前的深度网络在结构!功能!机制上都与人脑有较大的差距。并且对大脑皮层本身的结构与机理还缺乏精准认知,如果要真正模拟人脑的100多亿个神经元组成的神经系统,目前还难以实现。因此,对计算神经科学的研究也需要有很长一段路要走。

    还有,机器学习模型的网络结构!算法及参数越发庞大、复杂,通常只有在大数据量、大计算量支持下才能训练出精准的模型,对运行环境要求越来越高!占用资源也越来越多,这也抬高了其应用门槛。

    总之,机器学习方兴未艾并且拥有广阔的研究与应用前景,但是面临的挑战也不容忽视,二者交相辉映才能够把机器学习推向更高的境界。

     

    五、结论

    本文对机器学习进行了较为全面介绍,包括机器学习的概念,发展简史及分类,重点分析了机器学习的经典算法,还介绍了机器学习的最新研究进展。愿景和应用,最后探讨了机器学习面临的挑战。毋庸讳言,以深度学习为代表的机器学习作为人工智能的一个重要分支,目前在诸多领域取得了巨大进展,并且展示出强大的发展潜力,但是更应该看到,人工智能仍然处理初级阶段,机器学习仍然主要依赖监督学习,还没有跨越弱人工智能,并且作为机器学习模型基础的人脑认知研究还有诸多空白需要填补!机器学习理论本身亟需新的突破!计算机科学技术及相关学科领域的发展与支撑与有待于进一步加强,因此,对于机器学习,我们要走的路一定很长、很长。

    令人欣喜的是机器学习已经成为全人类共同瞩目、发力的研究与应用领域,并且已经上升为国家战略2013-2014年,美国!欧盟和日本先后启动了国家大型脑研究计划;中国未来五年计划实施的100个重大工程及项目中“脑科学与类脑研究”名列第四。因此,可以预见机器学习的道路是曲折的,前途是光明的。

     

     

     

     

     

     

     

     




     

    更多相关内容
  • 机器学习理论知识.zip

    2020-01-05 22:07:30
    这是很全的机器学习理论的知识,是最好的自学机器学习的速查文档和速学方式,里面的内容涵盖机器学习的很多领域,从机器学习面试题集锦,到特征工程,正则等基础知识,到sklearn,spark等分布式,从线性回归,逻辑...
  • 文章目录参考资料一、机器学习的定义二、数据集构成三、机器学习算法分类3.1 白话理解3.2 练习题3.3 官方概念四、机器学习开发流程五、总结与收获 参考资料 视频链接 一、机器学习的定义 关键词 : 数据、 模型、...

    参考资料


    视频链接

    一、机器学习的定义


    关键词 : 数据、 模型、预测

    定义:机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

    人类从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略

    二、数据集构成

    构成元素:特征值 + 目标值

    房子面积房子位置房子楼层房子朝向目标值
    数据18093080
    数据2100951120
    数据3801030100
    • 每一行数据称为 样本

    • 有的数据集可以没有目标值

    三、机器学习算法分类


    学习目标

    • 目标
      • 说明机器学习算法监督学习与无监督学习的区别
      • 说明监督学习中的分类、回归特点

    3.1 白话理解

    特征值(案例)目标值(案例)类别
    猫 / 狗 的图片猫 / 狗 的类别分类问题
    房价的各个属性信息房屋价格 -连续型数据回归问题
    人物的各个属性信息无监督学习

    总结:根据目标值来区分问题类型

    • 类别 -> 分类

    • 连续型数据 -> 回归

    • 无目标值 -> 无监督学习 (聚类)

    3.2 练习题

    1. 预测明天的气温是多少度? 回归
    2. 预测明天是阴、晴还是雨? 分类
    3. 人脸年龄预测?回归(具体年龄)/ 分类 (老少)
    4. 人脸识别? 分类

    3.3 官方概念

    • 监督学习 (supervised learning) (预测)
      • 定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出有限个离散值(称作分类)
      • 分类常见算法:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
      • 回归常见算法:线性回归、岭回归
    • 无监督学习(unsupervised learning)
      • 定义:输入数据是由输入特征值所组成的
      • 常见算法:聚类 k-means

    四、机器学习开发流程


    在这里插入图片描述

    1. 获取数据
    2. 数据处理
    3. 特征工程
    4. 机器学习算法训练 - 模型
    5. 模型评估
    6. 应用

    学习目标:

    • 学会分析问题,使用机器学习算法的目的,想要算法完成哪种任务
    • 掌握算法基本思想,学会对问题用相应的算法解决
    • 学会利用库或者框架解决问题

    机器学习库与框架参考:

    在这里插入图片描述

    书籍资料参考:

    在这里插入图片描述

    五、总结与收获


    机器学习的三大关键因素是数据、模型、预测。

    人工智能 > 机器学习 > 深度学习

    逻辑回归居然是分类算法而不是回归算法。

    分类与回归的区别在于目标值是类别还是连续型的数据

    机器学习的过程:数据获取、处理 -> 特征工程 -> 机器学习算法训练构建模型 -> 模型评估

    笔者在本学期的机器学习课程里做的最多就是"特征工程", 但因为数学基础较差,评估结果往往不尽人意,最主要的原因还是知识面太少,比如对字段的了解程度、统计学知识的运用等。

    现阶段只需要会使用现成的机器学习算法来预测结果就好。

    笔者打算系统整理机器学习的知识,将来在做推荐系统的时候会以机器学习为基础,比如一个商品推荐系统的项目就需要用到机器学习的相关知识。

    最后需要实现的目标:在拿到一个数据集,能对数据集进行一些处理,并使用机器学习算法对数据进行模型构建,最后再拿这个模型去预测没有目标值的特征值数据。

    展开全文
  • 了解机器学习(深度学习)的几个特点

    千次阅读 2019-04-09 08:53:55
    机器学习(深度学习)跟编程范式以及处理的数据等方面根传统的编程有较大不同,需要...利用机器学习,人们输入的是数据和从这些数据中预期得到的答案,系统输出的是规则或者叫模型。这些规则随后可应用于新的数据,...

    机器学习(深度学习)跟编程范式以及处理的数据等方面根传统的编程有较大不同,需要学习或准备转型做这个领域的需要引起足够的关注。

    1、编程范式

    在经典的程序设计(即符号主义人工智能的范式)中,人们输入的是规则(即程序)和需要根据这些规则进行处理的数据,系统输出的是答案 (见下图)。
    图1-1

    利用机器学习,人们输入的是数据和从这些数据中预期得到的答案,系统输出的是规则或者叫模型。这些规则随后可应用于新的数据,并使计算机自主生成答案。
    机器学习系统是训练出来的,而不是明确地用程序编写出来的。将与某个任务相关的许多示例输入机器学习系统,它会在这些示例中找到统计结构,从而最终找到规则将任务自动化。这一点与人类思考类似,看下图人类解决问题的思路:
    图1-2

    可以看出,机器学习处理的是数据,通过学习输入的数据,从而建立模型,以便预测新的数据都输出。

    2、数据

    在处理的数据方面,传统的编程处理的数据往往都是简单的数据或存在数据库里的关系型数据,经常的操作是对数据的增删改查(CRUD)操作,而机器学习(深度学习)处理的数据一般都是很大的数据,经常把它叫做数据集,为了高效处理这些数据,我们需要用到向量、矩阵或多维数组来存储和表达。这也是准备学习或转型到向量的同仁需要注意的,所以,你需要了解、熟悉并习惯使用多维数组来进行数据存储、变换。这里列举一下,你可能会遇到的几类数据集:

    1. 向量数据:2D张量,形状为 (samples, features)。这是最常见的数据,对于这种数据集,每个数据点都被编码为一个向量,因此一个数据批量就被编码为2维张量(即向量组成的数组,即矩阵),其中第一个轴是样本轴,第二个轴是特征轴。例如在手写数字识别的例子中,一副28乘28像素的图片,展成一个向量就是一个784个像素的向量,如果有10000副这样的图片,就可以使用一个形状为(10000,784)的二维张量来表达。

    2. 时间序列数据或序列数据:3D张量,形状为(samples, timesteps, features)。当时间(或序列顺序)对于数据很重要时,应该将数据存储在带有时间轴的3D张量中。每个样本可以被编码为一个向量序列(即2D张量),因此一个数据批量就被编码为一个3D张量。例如,股票价格数据集,每一分钟,我们将股票的当前价格、前一分钟的最高价格和前一分钟的最低价格保存下来,因此每分钟被编码为一个3D向量,整个交易日被编码为一个形状为(390, 3) 的2D张量(一个交易日有390 分钟),而250天的数据则可以保存在一个形状为(250, 390,3) 的3D张量中。这里每个样本是一天的股票数据。

    图2-1

    1. 图像:4D张量,形状为(samples, height, width, channels)或(samples, channels,height, width)。图像通常具有三个维度:高度、宽度和颜色深度。虽然灰度图像(比如MNIST 数字图像)只有一个颜色通道,因此可以保存在2D 张量中,但按照惯例,图像张量始终都是3D 张量,灰度图像的彩色通道只有一维。因此,如果图像大小为256×256,那么128 张灰度图像组成的批量可以保存在一个形状为(128, 256, 256, 1) 的张量中,而128 张彩色图像组成的批量则可以保存在一个形状为(128, 256, 256, 3) 的张量中。

    图2-2

    1. 视频:5D张量,形状为(samples, frames, height, width, channels)或(samples,frames, channels, height, width)。视频数据是现实生活中需要用到5D张量的少数数据类型之一。视频可以看作一系列帧,
      每一帧都是一张彩色图像。由于每一帧都可以保存在一个形状为(height, width, color_depth) 的3D张量中,因此一系列帧可以保存在一个形状为(frames, height, width,color_depth) 的4D张量中,而不同视频组成的批量则可以保存在一个5D 张量中,其形状为(samples, frames, height, width, color_depth)。

    读到这里可能有的同学会觉得有点晕了,就像一个习惯了舞枪弄棒的人,现在教你改用机枪和大炮,从使用冷兵器到使用热兵器,不习惯是必然的,但是学习曲线就是这样的陡!而你必须习惯,否则学习机器学习(深度学习)会比较吃力。

    总之,一句话,机器学习(深度学习)大多数情况下处理的是多维数据,不管具体是几维。

    3、工程性强

    深度学习在理论上无法证明它为何有效,但是在实际问题上它的确有效,没有形成系统的理论。比如,各个深度学习模型为什么好用?原理本质是什么?各个模型都适用于什么场合?针对特定数据,特定问题,如何组合搭建模型,各个参数怎么选?如何根据特定模型,特定数据来训练模型?所以,机器学习(深度学习)领域工程性强,或者说实践性强。由于这一领域是靠实验结果而不是理论指导的,所以只有当合适的数据和硬件可用于尝试新想法时(或者将旧想法的规模扩大,事实往往也是如此),才可能出现算法上的改进。机器学习不是数学或物理学,靠一支笔和一张纸就能实现重大进展,这或许是人工智能一路曲折发展的一个因素。它是一门工程科学。

    4、再谈维度

    维度这个词语我们经常听到,在物理学上,认为我们生活的空间是个3维空间,加上时间,大家认为就是4维;但是在数学领域,可以由3维上升到N维空间,数学上的理解有所不同,有兴趣的可以查看2008年欧洲数学界的一个关于维度的专业讲解;在意识领域,也可以有多维的概念,在梁冬采访北大教授刘丰的视频中,刘丰讲到了生命的意义在于提升意识的维度,并说上升到4维就是宗教,而且说人类的智慧往往来自直觉,而直觉往往来自高维度的信息,有兴趣的可以参考这里。人工智能处理的数据,从数学上讲就是高纬度的数据,是否人类在人工智能的努力方向正在解开高纬度的秘密?高维度是否打开了通往智慧、通往上帝之门?这里只是做点延展。

    以上就是学习机器学习(深度学习)需要注意的几点,供大家参考和讨论。

    继续阅读下一篇 深度学习的“Hello World”

    深度学习系列文章

    展开全文
  • 机器学习概述

    2021-01-28 11:00:49
    1 机器学习初识 1. 什么是机器学习机器学习其实是用数据回答问题,可理解为使用数据,回答问题。 使用数据是指训练系统,回答问题是指依据训练的系统做出预测与分类。训练是指使用数据了解用户习惯,并不断完善...

    1 机器学习概述

    1. 什么是机器学习?

    机器学习其实是用数据回答问题,可理解为使用数据,回答问题
    使用数据是指训练系统,回答问题是指依据训练的系统做出预测与分类。训练是指使用数据了解用户习惯,并不断完善预测模型,而预测模型则可以对未知的数据进行预测并回答一系列问题。
    机器学习训练

    数据越多,模型则会被训练的越好,预测的结果越准确,所以在机器学习中最重要的就是数据,不管是机器学习还是大数据,所有的内容均与数据息息相关。数据并不局限于数字,还包括文本,图像,视频等
    简单来说,机器学习就是从历史数据中学习规律,然后将规律应用到未来中
    机器学习训练

    2. 机器学习流程

    假如我们正在教小朋友识字(一、二、三)。我们首先会拿出3张卡片,然后便让小朋友看卡片,一边说“一条横线的是一、两条横线的是二、三条横线的是三”。不断重复这个过程,小朋友的大脑就在不停的学习。当重复的次数足够多时,小朋友就学会了一个新技能——认识汉字:一、二、三。
    我们用上面人类的学习过程来类比机器学习。机器学习跟上面提到的人类学习过程很相似。

    • 认字的卡片在机器学习中叫——训练集
    • “一条横线,两条横线”这种区分不同汉字的属性叫——特征
    • 小朋友不断学习的过程叫——建模
    • 学会了识字后总结出来的规律叫——模型

    通过训练集,不断识别特征,不断建模,最后形成有效的模型,这个过程就叫“机器学习”
    模型产生过程

    3. 机器学习发展历程

    机器学习的起源应该追溯到17世纪,贝叶斯,拉普拉斯关于最小二乘法的推导和马尔科夫链构成了机器学习被广泛使用的工具和基础,从1950年(艾伦.图灵提出建立学习机器)到2000年初(深度学习的广泛应用),机器学习有了很大的进展。从20世纪50年代以来,由于机器学习所应用的时期与领域的不同,可以划分为四个阶段。
    艾伦.图灵

    3.1. 第一阶段

    20世纪50年代中期到60年代中期,这个时期主要研究“有无知识的学习”。这类方法主要是研究系统的执行能力。这个时期,主要通过对机器的环境及其相应性能参数的改变来检测系统所反馈的数据,就好比给系统一个程序,通过改变它们的自由空间作用,系统将会受到程序的影响而改变自身的组织,最后这个系统将会选择一个最优的环境生存。在这个时期最具有代表性的研究就是Samuel的下棋程序。
    Samuel与他的下棋程序

    3.2. 第二阶段

    20世纪60年代中期到70年代中期,这个时期主要研究将各个领域的知识植入到系统里,在本阶段的目的是通过机器模拟人类学习的过程。在这一研究阶段,主要是用各种符号来表示机器语言。在这一阶段具有代表性的工作有Hayes-Roth和Winson的对结构学习系统方法
    机器人模仿人类握手
    3.3. 第三阶段

    1980 年,在美国的卡内基梅隆(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。此后,机器学习开始得到了大量的应用。1984 年,Simon等20多位人工智能专家共同撰文编写的Machine Learning文集第二卷出版,国际性杂志Machine Learning创刊,更加显示出机器学习突飞猛进的发展趋势。这一阶段代表性的工作有Mostow的指导式学习、Lenat的数学概念发现程序、Langley的BACON程序及其改进程序

    3.4. 第四阶段

    20世纪80年代中期,是机器学习的最新阶段。这个时期的机器学习具有如下特点:

    • 机器学习成为新的学科,融合了各种学习方法,且形式多样的集成学习系统研究正在兴起。
    • 机器学习与人工智能各种基础问题的统一性观点正在形成。
    • 各种学习方法的应用范围不断扩大,部分应用研究成果已转化为产品。
    • 与机器学习有关的学术活动空前活跃。
      学术会议
      小爱音箱

    4. 应用现状

    机器学习应用广泛,无论是在军事领域还是民用领域,都有机器学习算法施展的机会,主要包括:

    • 数据分析与挖掘
    • 模式识别
    • 虚拟助手
    • 交通预测
    • 过滤垃圾邮件和恶意软件
      虚拟助手
      交通预测
      数据分析
    4.1 数据分析与挖掘

    “数据挖掘”和"数据分析”通常被相提并论,但无论是数据分析还是数据挖掘,都是帮助人们收集、分析数据,使之成为信息,并做出判断,因此可以将这两项合称为数据分析与挖掘。数据分析与挖掘技术是机器学习算法和数据存取技术的结合,利用机器学习提供的统计分析、知识发现等手段分析海量数据,同时利用数据存取机制实现数据的高效读写。机器学习在数据分析与挖掘领域中拥有无可取代的地位,2012年Hadoop进军机器学习领域就是一个很好的例子。
    Hadoop标志

    4.2 模式识别

    模式识别的应用领域广泛,包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等,而这些领域也正是机器学习大展身手的舞台,因此模式识别与机器学习的关系越来越密切。
    医学图像
    指纹识别
    人脸识别
    语音识别

    4.3 虚拟助手

    Siri,Alexa,Google Now都是虚拟助手。顾名思义,当使用语音发出指令后,它 们会协助查找信息。对于回答,虚拟助手会查找信息,回忆我们的相关查询,或向其他资源(如电话应用程序)发送命令以收集信息。我们甚至可以指导助手执行某些任务,例如“设置7点的闹钟”等。
    苹果虚拟助手

    4.4 交通预测

    生活中我们经常使用GPS导航服务,机器学习有助于根据估计找到拥挤的区域。当前高德地图,腾讯地图等都有助于找到拥挤的路段,规划最优的路线。
    五一期间交通状况

    4.5 过滤垃圾邮件与恶意软件

    电子邮件客户端使用了许多垃圾邮件过滤方法。为了确保这些垃圾邮件过滤器能够不断更新 ,它们使用了机器学习技术。由机器学习驱动的系统安全程序,可以轻松检测到2%~10%变异的新恶意软件,并提供针对它们的保护。

    5. 机器学习实操步骤

    机器学习包括七个步骤:

    • 收集数据
    • 数据准备
    • 选择模型
    • 训练模型
    • 模型评估
    • 参数调整
    • 预测
      机器学习实操步骤
    举例说明

    首先要求创建一个系统回答饮料是啤酒还是葡萄酒,而这个问答系统被称为模型,而这个系统需要通过训练模型创建,训练模型的目标是创建一个在大多数情况下会正确回答我们提出问题的模型,但是训练模型就需要通过数据训练模型,所以:

    • 收集数据:收集葡萄酒与啤酒的数据,颜色、酒精含量、价格。
    • 数据准备:在实际情况中,我们收集到的数据会有很多问题,所以会涉及到数据清洗等工作。当数据本身没有什么问题后,我们将数据分成3个部分:训练集(60%)、验证集(20%)、测试集(20%),用于后面的验证和评估工作。
    • 选择模型:研究人员和数据科学家多年来创造了许多模型。有些非常适合图像数据,有些非常适合于序列(如文本或音乐),有些用于数字数据,有些用于基于文本的数据。在我们的例子中,由于我们只有2个特征,颜色和酒精度,我们可以使用一个小的线性模型,这是一个相当简单的模型。
    • 训练模型:在训练模型阶段,使用数据逐步提高问答系统的准确度,类似于一个3岁小孩子不认识“一,二,三”,通过不断的看,写,练,认识并学会了“一,二,三”的过程,同时不断进步,可以认识到十。
    • 模型评估:使用测试集评估模型的准确度,代表着问答系统对未来所有位置数据判断的准确率。
    • 参数调整:当我们进行训练时,我们隐含地假设了一些参数,我们可以通过认为的调整这些参数让模型表现的更出色。
    • 预测:我们上面的6个步骤都是为了这一步来服务的。这也是机器学习的价值。这个时候,当我们买来一瓶新的酒,只要告诉机器他的颜色和酒精度,他就会告诉你,这时啤酒还是红酒了。

    6. 小故事-“机器学习”名字由来

    1953年,阿瑟.萨缪尔(Arthur Samuel,1901-1990)在IBM公司研制出一个西洋跳棋程序,这个程序具有自我学习能力,可通过大量棋局的分析逐渐辨识出当前棋局是“好棋”还是“坏棋”,不断提高弈棋水平,并很快便打败了萨缪尔自己。1956年,萨缪尔应约翰.麦卡锡(“人工智能之父”)之邀,在标志着人工智能学科诞生的达特茅斯会议上介绍了西洋跳棋程序,提出了“机器学习”这个词,并将此定义为“不显式编程地赋予计算机能力的研究领域”,1961年,爱德华.费根鲍姆(“知识工程之父”)邀请萨缪尔提供一个跳棋程序中最好的对弈实例,于是萨缪尔借机向康涅狄格州的跳棋冠军,当时全美排名第四的棋手发起挑战,并大获全胜。
    阿瑟.萨缪尔与他的跳棋程序

    展开全文
  • 机器学习知识点总结

    千次阅读 2022-01-08 16:18:06
    一、机器学习: 二、统计学习: 1. 统计学习概念: 1.1 统计学习步骤: 1.2 统计学习特点: 1.3统计学习目的: 1.4统计学习的分类 2.统计学习三要素: 2.1 模型: 2.2 策略: 2.3 算法: 3. 模型的评估 ...
  • 距离上次介绍机器学习相关的内容,已经过了一年的时间了,而这篇博客目前的阅读量也将近3000k,这样数据看起来似乎也还算不错,可惜因为我当时没有足够的时间和精力去完整把这篇博客写完,只介绍了机器学习的基础...
  • 机器学习概念

    2022-03-22 23:20:11
    机器学习(Machine Learning) 定义 1959年Arthur Samuel定义 是由1959年机器学习先驱Arthur Samuel(编写了世界上第一个棋类游戏的人工智能程序) **英文原版:**Machine Learning is Fields of study that gives ...
  • 机器学习基础

    千次阅读 2022-04-05 19:03:33
    追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成机器学习广泛使用的工具和基础。1950年(艾伦.图灵提议建立一个学习机器)到2000年初(有深度学习的实际应用以及最近的进展,比如2012...
  • 经典的数据挖掘算法是机器学习算法在数据集合上的优化. 从提取、检索、储存、分享、分析和处理等角度 来看,传统经典的机器学习方法已经无法胜任在海量的异构数据体系中进行数据挖掘. 研究大数据环境 下的机器...
  • 第二章 图机器学习简介 Graph Machine Learning 文章目录第二章 图机器学习简介 Graph Machine Learning前言1. 环境要求Technical requirements2. 理解图机器学习2.1 机器学习的基本原理2.2 图机器学习的优点3. 广义...
  • 机器学习原理及应用课程教学大纲.pdf机器学习原理及应用课程教学大纲.pdf机器学习原理及应用课程教学大纲.pdf机器学习原理及应用课程教学大纲.pdf机器学习原理及应用课程教学大纲.pdf机器学习原理及应用课程教学大纲...
  • 本文主要对比各种常见的分布式机器学习框架原理,包括数据分布式,参数服务器,Ring-Allreduce 架构和数据流图。 1.数据分布式机器学习(例如spark-mllib): Spark 是使用 scala 实现的基于内存计算的大数据...
  • 机器学习的数学基础

    千次阅读 2021-09-09 16:29:26
    我们知道,机器学习特点就是:以计算机为工具和平台,以数据为研究对象,以学习方法为中心;是概率论、线性代数、数值计算、信息论、最优化理论和计算机科学等多个领域的交叉学科。所以本文就先介绍一下机器学习...
  • 机器学习原理及应用课程教学大纲.docx机器学习原理及应用课程教学大纲.docx机器学习原理及应用课程教学大纲.docx机器学习原理及应用课程教学大纲.docx机器学习原理及应用课程教学大纲.docx机器学习原理及应用课程...
  • 机器学习——卷积神经网络(CNN)

    千次阅读 2022-03-12 15:33:38
    机器学习——卷积神经网络(CNN)
  • 机器学习练习题

    千次阅读 2021-11-16 10:08:00
    机器学习考试练习题单项选择题多项选择题判断题填空题简答题 单项选择题 1.在NumPy中创建一个元素均为0的数组可以使用( )函数。 [A] A.zeros( ) B.arange( ) C.linspace( ) D.logspace( ) 2.通常( )误差作为...
  • 机器学习之推荐系统模型

    千次阅读 2019-05-26 16:24:49
    推荐系统模型基于内容的推荐基于协同过滤的推荐算法基于用户的协同过滤算法基于物品的协同过滤算法基于隐语义模型算法基于关联规则的推荐Apriori算法FP-增长算法 [基于物品的协通过滤算法举的例子参考自这位博主,图...
  • 机器学习——时间序列预测方法

    千次阅读 2022-05-05 10:50:52
    目录 传统时序建模 自回归模型(Autoregressive model,简称AR) 移动平均模型(Moving Average model,简称MA ) ...机器学习模型方法 深度学习模型方法 传统时序建模 自回归模型(Autoregressi...
  • 机器学习------安全与隐私问题综述

    千次阅读 2021-08-26 17:14:13
    近年来机器学习的发展十分迅速,机器学习被用在很多场景。 机器学习的学习方式 1.集中学习 即传统的机器学习训练,在模型训练之前,各方的数据需要被数据收集者集中收集,然后由数据分析者进行模型训练。数据收集者...
  • 【第一章】机器学习概述

    千次阅读 2022-04-06 11:13:32
    【第一章】机器学习概述
  • 机器学习的分类

    千次阅读 2020-07-14 20:02:51
    机器学习的一般分类为:监督学习、无监督学习、强化学习、半监督学习、主动学习。 1.监督学习 监督学习是从<x, y>这样的示例对中学习统计规律,然后对于新的X,给出对应的y。 输入空间、特征空间、输出空间...
  • 机器学习期末总结

    千次阅读 多人点赞 2021-01-05 21:01:59
    很多不考的没写,仅供参考 第1章 绪论 1.基本术语 记录:如(色泽=青白;...学习/训练:从数据中学得模型的过程 测试:学的模型后,使用其进行预测的过程 2.学习任务(根据训练数据是否有标记信息) 监.
  • 什么是机器学习机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 为什么需要机器学习 解放生产力、解决专业问题、提供社会便利 机器学习应用场景 自然语言处理、无人驾驶、...
  • 机器学习与数据挖掘

    千次阅读 2021-06-06 09:35:50
    机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。 数据挖掘试图从海量...
  • 如何高效地学习机器学习算法?

    千次阅读 2020-01-01 21:57:37
    大家好,欢迎来到久违的机器学习系列,这是「美团」算法工程师带你入门机器学习专栏的第一篇文章,不会太长,一半聊想法,一半聊干货。熟悉我的朋友可能知道,我以前的文章比较随意,涉及的内容极广,包括但不限于...
  • 量化中的机器学习简述

    千次阅读 2019-06-24 17:54:20
    人工智能,特别是机器学习,在最近几年大出风头,无人驾驶汽车,阿尔法狗战胜人类最强棋手,演唱会人脸识别抓捕逃犯,手机多国语言在线翻译,这一切一切无不给我们带来深深的震撼,可以说人工智能将在不久的未来引来...
  • 一、数据挖掘与机器学习 1、概念 2、人工智能 3、数据挖掘体系 二、机器学习 1、什么是机器学习 2、机器学习的应用 3、实现机器学习算法的工具与技术框架 三、Spark MLlib介绍 1、简介 2、MLlib基本数据...
  • 机器学习实践应用

    万次阅读 多人点赞 2018-04-12 10:04:41
    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为。机器学习是人工智能的核心,是使计算机具有 智能的根本途径。 本书通过对...
  • 1.2 强化学习的主要特点 1.3 强化学习组成部分 2强化学习训练过程 3强化学习算法归类 3.1 Value Based 3.2Policy Based 3.3 Actor-Critic 3.4 其他分类 4EE(Explore & Exploit)探索与利用 5 强化...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 94,309
精华内容 37,723
关键字:

机器学习系统的组成特点