精华内容
下载资源
问答
  • 机器学习入门——机器学习基础概念

    千次阅读 多人点赞 2020-03-15 17:02:02
    包括机器学习的主要任务,机器学习的分类等。 文章目录引言用到的数据机器学习的主要任务分类回归 用到的数据 鸢尾花(IRIS)是比较常见的在我们学习机器学习时用到的数据。数据来源: ...

    引言

    本文介绍机器学习的一些基本概念。包括机器学习的主要任务,机器学习的分类等。


    用到的数据

    鸢尾花(IRIS)是比较常见的在我们学习机器学习时用到的数据。数据来源: http://archive.ics.uci.edu/ml/datasets/Iris

    iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型的鸢尾花的各50个样本数据构成。其中的一个种类与另外两个种类是线性可分离的,后两个种类是非线性可分离的。
    该数据集包含了4个属性:

    • Sepal.Length(花萼长度),单位是cm;
    • Sepal.Width(花萼宽度),单位是cm;
    • Petal.Length(花瓣长度),单位是cm;
    • Petal.Width(花瓣宽度),单位是cm;

    在这里插入图片描述
    种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。

    这里我们抽出三份数据,最后一列是所属种类。一般我们会对这个类别进行数值化,这样好在机器学习中进行处理。
    在这里插入图片描述
    接下来介绍一些常见概念。

    • 数据整体叫数据集(data set)
    • 其中每一份(写成表格形式的话就是每一行)数据称为一个样本(sample)
    • 除了最后一列(一般所属类别都放到最后一列),每一列都叫样本的一个特征(feature,有时也叫属性)
    • 最后一列,称为标记(label)

    在这里插入图片描述

    我们把除标记列的特征都放到一个矩阵 X X X中,每一份数据对应矩阵的一行,每个特征对应矩阵的一列。

    标记列通常用 y y y表示,这是一个向量,每一维度表示某份数据对应的类别。在数学上大写字母表示矩阵,小写字母表示向量。

    i i i个样本的标记写作 y ( i ) y^{(i)} y(i),其中的括号可加可不加。

    在这里插入图片描述

    • 对于数据而言,萼片长度、萼片宽度等都叫特征;
    • 每一行本身也组成了一个向量,通常叫特征向量 X i X^i Xi

    通常向量都表示为列向量的形式。

    因此矩阵 X X X也可以表示为:

    在这里插入图片描述

    我们抽出这份数据的前两个特征(这样可以在直角坐标系中画出这些点):

    在这里插入图片描述
    萼片长度作为横轴,萼片宽度作为纵轴。

    每个样本都是这些特征所组成的空间中的一个点,这个空间我们叫称为特征空间(feature space)

    分类任务本质就是在特征空间上进行切分,以区分不同的类别。

    在这里插入图片描述
    比如我们能在这个空间上画一条直线将这两个类别切分开来。切分之后,如果有了一个新的未知数据点,它出现在红线的上分,那么我们就可以说它属于红点类别。

    这里我们用的是直线切分,真正在机器学习的时候我们也可以用曲线进行切分。

    这里我们虽然用二维平面展示切分,其实在高维空间也是同理的。比如在三维空间,你可以想象是用平面去切分。

    这里要注意的是,特征很多情况下是很抽象的,也就是人类不好理解。以手写数字识别为例
    在这里插入图片描述
    这是个数字5,是28*28的图像,在图像中就由一个个像素点构成的。最简单的方式就是把每个像素点都看成是一个特征。

    也就是说每个图像有784个特征。

    机器学习的主要任务

    主要有两类:分类和回归。

    分类

    分类任务有很多,比如分辨一张图片里面的动物是猫还是狗。

    在这里插入图片描述
    或者是手写数字识别。

    在这里插入图片描述

    分类任务中根据要分类的类别数量可分为 二分类任务和多分类任务。

    上面的分类猫狗就是二分类。

    二分类任务看起来简单,但是生活中还是很常见的。比如判断邮件是否为垃圾邮件;银行判断发给客户信用卡有无风险。

    而手写数字识别,要识别10个数字,属于多分类任务。

    其实可以把很多复杂的问题转换为多分类任务问题。

    在这里插入图片描述
    比如训练机器玩2048这款游戏,给定现在的盘面,只需要机器判断上移、下移、左移、右移即可。

    围棋也可以转换为多分类任务;无人驾驶可以想想也可以转换为分类任务,无非就是控制方向角度,油门。刹车。

    但这里只是说可以解决这些问题,但不一定是接近这些问题的最佳方法。

    有些算法只支持完成二分类的任务,但是多分类的任务可以转换成二分类的任务。

    就是说通过转换,只支持二分类任务的算法通过转换可以变成支持多分类。

    还有些算法本身支持多分类任务。

    现在前沿的还有一种更高级的分类任务,可以把一张图片分到多个类别中。

    在这里插入图片描述

    比如这张图片,可以分类到女人、白色裙子、网球拍等等。综合这些信息,我们可以得到这张图片的语义。可以知道这张图片描述了一个什么样的场景。比如我们上面的类别可知,大概就是说一个穿白色裙子的女人在打网球。

    回归

    上面介绍的都是分类任务,和我们介绍的数据是相对应。还有一种数据是这样的。

    在这里插入图片描述

    前面四个列是这份数据的特征,最后一列是这份数据的标签,是个价格。我们可以猜到这个任务需要预测房屋的价格。

    而价格它不能简单的分为几个类别。毕竟如果你想卖房子,当然是想知道确切的数字。

    对于这种连续数值的问题,就是回归任务要解决的问题。
    回归任务的结果是一个连续数值,而不是一个类别。

    回归任务也有很多常见的场景:

    • 房屋价格
    • 市场分析
    • 学生成绩
    • 股票价格

    对于回归问题来说:

    • 有些算法只能解决回归问题
    • 有些算法只能解决分类问题
    • 还有一些算法既能解决回归问题,又能解决分类问题(比如SVM)

    还要注意的是,在某些情况下,回归任务可以简化为分类任务。

    在这里插入图片描述

    还是以无人驾驶为例,方向盘转动的角度这是一个连续的数值,上面在分类任务中,我们将它类别话,也就是将每一度看作一个类别。这样一来,我们将回归任务简化为分类任务。

    还有在成绩预测中,现在很多学校都不给出具体成绩,只给出 A + , A , A − A^+,A,A^- A+,A,A等等这种,这里也是回归任务简化为分类任务的一个例子。

    在这里插入图片描述

    在机器学习的流程中,我们通过将训练数据喂给机器学习算法,可以学得一个模型 f ( x ) f(x) f(x),学好模型后,给定一个新的样例 x x x,输入到这个模型中,可以得到一个输出。

    我们根据输出结果是否是连续的,可以分为回归和分类。

    我们说机器学习能解决分类问题和回归问题,更加具体的说法应该是,监督学习能解决这两个问题。

    机器学习还可以解决其他问题。

    从解决问题的角度分类,机器学习可以解决分类问题和回归问题。如果从机器学习算法本身,整体上可以将机器学习算法分为监督学习、非监督学习、半监督学习以及增强学习。

    机器学习算分分类

    监督学习

    训练数据有标记。

    在这里插入图片描述

    在区分猫狗任务中,仅仅给包含猫狗的照片是不够的,还是告诉机器哪些是狗,哪些是猫。

    在这里插入图片描述
    手写数字识别中也一样了,每份训练样本都会有对应的真实数字标记。

    我们要介绍的监督学习算法主要有:

    • K近邻
    • 线性回归于多项式回归
    • 逻辑回归
    • SVM
    • 决策树和随机森林

    非监督学习

    训练数据本身无标记。

    在这里插入图片描述

    非监督学习可以通过一定的方法将上面的样本进行归类。
    它的意义是可以对没有标记的数据进行分类-聚类分析:
    在这里插入图片描述

    非监督学习还有一个重要的作用是可以对数据进行降维处理。

    主要包含两部分:

    • 特征提取:信用卡的信用评级和人的胖瘦无关?(如果确定无关,就可以把胖瘦这个特征扔掉)
    • 特征压缩:PCA

    对数据降维意义之一是方便可视化。

    在这里插入图片描述

    比如把高维数据降维二维就可以在平面上画出来。

    非监督学习还可以进行异常检测。

    在这里插入图片描述

    从这个例子可以看出来,这两个红点离蓝点非常的远,如果它们都是一类数据的话,这两个红点可能是异常数据。去除异常数据能让模型的泛化能力更好。

    半监督学习

    一部分数据有标记,另一部分数据没有。

    其实这种情况在生活中很常见,比如对于某种领域,我们可以请领域专家人工标记少部分数据,对于剩下的大量数据都是没有标记的,因为人工标记成本太大;或者是各种原因产生的标记缺失 。

    通常都先使用无监督学习手段对数据处理,之后使用监督学习手段做模型的训练和预测。

    增强学习

    根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式叫增强学习。

    在这里插入图片描述
    事实上AlphaGo就是通过增强学习来训练的。
    在这里插入图片描述

    像无人驾驶其实也是通过增强学习来实现的。

    机器学习的其他分类

    批量学习与在线学习

    我们先来看下**批量学习(也叫离线学习)**的概念。

    在这里插入图片描述

    我们之前介绍的那些算法,如果没有特殊处理的话,都可以采用批量学习的方式。

    在我们通过大量资料训练好一个模型后,然后就可以开始应用了,现在可以拿新的数据来进行预测,此时模型本身不会发生变化了。

    虽然模型上线后可能会遇到大量新的数据,但是这些数据不会用来优化我们的模型了。这种学习方式就叫批量学习。

    它的优点是简单。缺点是无法适应环境的变化。

    以垃圾邮件为例,随着时间的推移垃圾邮件的形式也是日新月异的,可能仅能训练的垃圾邮件分类模型能很好工作,第二年遇到新的形式,效果就不好了。

    对于垃圾邮件这个例子,解决方法可以是定时重新学习。比如每隔三个月重新学习一次。这个方法的缺点是每次重新批量学习,运算量巨大。在某些环境变化非常快的情况下,甚至是不可能的。

    接下来看下在线学习

    在这里插入图片描述

    在线学习的流程和离线学习是一样的,区别就在于对于输入样例进入模型得到预期结果后,这个输入样例不会浪费掉,我们拿到这个输入样例的正确结果后就可以迭代进我们的算法,从而改进我们的模型。

    比如预测下一分钟的股价,过了一分钟后就可以知道正确结果,我们可以拿这个正确结果来改进我们的模型。

    因此整个过程叫在线学习。

    在线学习的优点是可以及时反映新的环境变化,但是新的数据(异常数据)可能带来不好的变化,从而使得模型的表现反而降低。对于这个问题的解决方法是加强对数据质量的监控。 比如可以利用非监督学习的异常数据监测来排除异常数据。

    在线学习也适用于数据量巨大,完全无法批量学习的环境。

    参数学习与非参数学习

    从另外一个维度可以将学习算法分为参数学习与非参数学习。
    在这里插入图片描述

    假设横坐标是房屋的面积,纵坐标是房屋的价格,基于这些数据点,我们可以假设房屋的价格是房屋面积的一个线性关系,如 f ( x ) = a ⋅ x + b f(x) = a \cdot x + b f(x)=ax+b

    基于这样的参数学习特点,就叫参数学习。一旦学到了参数,就不再需要原有的数据集。

    那非参数学习呢,它不对模型进行过多假设。通常训练时的数据集也要参与预测的过程。这里要强调的是非参数学习不等于没有参数。

    好了机器学习基础概念就介绍到这里,下篇文章会介绍下常用的工具。

    参考

    1.Python3入门机器学习

    展开全文
  • 中国科学院自动化研究所 刘康。机器学习基础概念(179页-ppt转的pdf)
  • 机器学习入门——MATLAB实战与应用》一书中的实例程序。涉及监督学习,非监督学习和强化学习。(code for book "Machine Learning Introduction & Action in MATLAB")
  • 机器学习入门 — 梯度下降原理 机器学习入门 — 逻辑回归算法 案例概述 在这里我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。此大学会根据两次考试的结果来决定每个申请人的录取机会。大学里有以前的...
  • 个人黑马机器学习入门笔记
  • 机器学习基础教程(Rogers)内的源码,包含.m和.r文件,大家下载学习吧!
  • 纽约大学教授Mehryar Mohri 14年教学精华,相信对大家的学习有很大帮助!
  • 机器学习入门经典算法剖析代码以及Jupyter Notebook例子、源码阐述
  • 机器学习入门指导,包括基础学习程序设计过程中的思维导图之类的内容,很适合初学者看,大神就不需要了,都是入门级的指导文档
  • 机器学习基础

    2021-06-13 17:33:42
    课程目标帮助数百万的年轻人...适用人群想入门机器学习的小白课程简介机器学习是人工智能的基础,本课程将学习到大多数机器学习中的经典数学基础问题,经典机器学习算法 课程希望帮助数百万的小白打开人工智能的大门!
  • 机器学习入门项目,kaggle里的项目房价预测,适合初学者学习数据分析及机器学习算法,入门Kaggle.
  • 机器学习入门到精通/适合刚入门/适合开发/本科/研究生等
  • 机器学习基础.pptx

    2020-07-19 17:05:10
    机器学习是学好人工智能的基础基础知识的学习方便大家更好的去了解机器学习的内容和学习的方向,初学者了解机器学习最好的文件!
  • 机器学习入门书单整理

    千次阅读 2019-04-25 21:04:29
    接上一篇:35岁码农的机器学习入门之路-python篇,先回顾下知识体系图。 数据分析 利用python进行数据分析 这本书是pandas作者写的,包含了数据分析的细节和要点,内容涉及:基础、numpy、pandas、matplotlib等。...

    接上一篇:35岁码农的机器学习入门之路-python篇,先回顾下知识体系图。

    在这里插入图片描述

    数据分析

    利用python进行数据分析

    {% asset_img data.png 利用python进行数据分析 %}

    这本书是pandas作者写的,包含了数据分析的细节和要点,内容涉及:基础、numpy、pandas、matplotlib等。关于数据分析相关的内容,先简单的了解会用即可,更多的在实际项目中实践时,需要什么再学什么。

    机器学习

    python机器学习基础教程

    {% asset_img ml-1.png python机器学习基础教程 %}

    这本书的作者是scikit-learn库维护者和核心贡献者,作为入门机器学习来说,非常适合,它直观的介绍机器学习算法,优缺点及其适用场景,没有一下子引入很多数学知识和公式,把人吓跑。

    机器学习实战:基于Scikit-Learn和TensorFlow

    {% asset_img ml-2.png 机器学习实战:基于Scikit-Learn和TensorFlow %}

    这本书既有机器学习,也有深度学习,通过实际项目把应用机器学习所涉及的过程及算法等串起来,中文版没有英文版好,翻译差了,但不影响本书的优秀。

    机器学习(周志华)

    {% asset_img ml-3.png 机器学习(周志华) %}

    又称西瓜书,系统性的讲解算法及相应的数学推导,适合深入理解学习。

    统计学习方法(李航)

    {% asset_img ml-4.png 统计学习方法(李航) %}

    这本书封面看起来好像很老,过时了的样子,但也是经典书,同样是系统性的讲解算法及相应的数学推导,适合深入理解学习。

    优达学城-机器学习入门

    {% asset_img ml-5.png 优达学城-机器学习入门 %}

    这是原Google X 创始人、Google 无人车之父 Sebastian Thrun创建的在线教育平台,上面有一些免费的视频,包括:机器学习入门,这个视频的特点是讲解非常浅显易懂,有些基础的人可能会觉得不屑,但如果看书觉得晕晕的,可以先看看这个视频课程,会更容易接受和理解。

    Cousera-机器学习-吴恩达

    {% asset_img ml-6.png Cousera-机器学习-吴恩达 %}

    这个是非常的经典的机器学习视频了,讲得比优达的深一些,但是讲得循序渐进,也挺好理解,就是作业是用类似matlab的octave来做的。如果觉得稍难可以先看优达的机器学习入门视频,熟悉后再看Ng的。

    深度学习

    python神经网络编程

    {% asset_img dl-1.png python神经网络编程 %}

    当对神经网络还不明白怎么回事时,每每在网上看到神经网络的文章,总是晕晕的,这本书号称只要高中数学水平就可以看,看过后,确实如此,写得很浅显,带你理解神经网络后,又带你用python自己实现一个神经网络。

    深度学习入门-基于python的理论与实现

    {% asset_img dl-2.png 深度学习入门-基于python的理论与实现 %}

    本书的作者是个日本人,好书不分国界,个人在报名学习优达学城机器学习课程时,在深度学习这个环节,视频里没有听得很明白,然后结合这本书,还是最终能理解了,当然数学原理,推导这些还是菜鸟。本书后面部分也包含了用python自己实现神经网络的过程。

    python深度学习

    {% asset_img dl-3.png python深度学习 %}

    本书作者是keras之父,当对深度学习能简单理解后,可以结合这本书学习计算机视觉(CNN),自然语言处理(RNN/LSTM)

    深度学习

    {% asset_img dl-4.png 深度学习 %}

    号称AI圣经,又称花书,三巨头Ian Goodfellow、Yoshua Bengio 和Aaron Courville联合撰写,这本书基本把深度学习的方方面面都讲到了,适合高阶深入研读。

    deeplearning.ai-深度学习吴恩达

    在这里插入图片描述

    Ng继机器学习后在深度学习课程的最新力作,还没看呢,冲他机器学习课的受欢迎程度,这个免费课程也是必看,可以在网易云课堂上找到课程资源。

    强化学习

    Reinforcement learning

    {% asset_img rl.png Reinforcement learning %}

    强化学习只有这本经典书,只找到英文版的,优达学城机器学习课程里,强化学习部分老师也是推荐这本书。

    数学

    可汗学院

    {% asset_img kehan.png 可汗学院 %}

    如果大学数学忘了,甚至高中的都忘了,没关系,遇到一个概念,去可汗学院上找相对应的课听听就行了。

    以下是囤回来的数学书,国外优秀教材没得说,遇到想深入理解某个知识点,可以拿来翻翻看。

    普林斯顿微积分读本

    {% asset_img math-book-1.png 普林斯顿微积分读本 %}

    线性代数及其应用

    {% asset_img math-book-2.png 线性代数及其应用 %}

    概率论基础教程

    {% asset_img math-book-3.png 概率论基础教程 %}

    统计学

    {% asset_img math-book-4.png 统计学 %}

    划重点

    以上推荐的书,能找得到电子书的,已经帮大家整理成一个资料包,有需要的同学,可关注零壹视界公众号,回复关键词:机器学习,获取下载方式。资料完全免费,但是切记,资料下载了要学习和实践才会变成自己的。
    零壹视界 wechat扫描关注我的微信公众号

    展开全文
  • python机器学习入门-用鸢尾花data建立python机器学习,本次运行Python版本为3.6.2,且已安装相关python库
  • ml-in-action:出版书籍《机器学习入门到实践——MATLAB实践应用》一书中的实例程序。涉及监督学习,非监督学习和强化学习。(本书的代码“ MATLAB中的机器学习简介与操作” ”)
  • 机器学习是一门为了预测某个值而对系统应用算法来学习数据中模式的科学。利用足够的数据,在所有输入变量与待预测值之间建立关系。...机器学习基础知识 有监督学习与无监督学习的比较 构建模型 机器学习中的管
  • 机器学习入门代码

    2018-03-11 21:08:48
    入门代码是Andrew ng(吴恩达)老师在coursera上开设的机器学习课程的编程习题的matlab代码,非常适合机器学习初学者作为参考来熟悉算法内涵、养成良好的编程习惯。
  • 机器学习入门

    2019-02-22 08:57:57
    机器学习入门知识,包括了对机器学习的一些基本概念,对于新手有很大的帮助作用。
  • 机器学习入门书籍推荐

    千次阅读 2019-03-16 12:51:27
     作为一个半路出家的小菜鸡,为了较系统学习机器学习,看过好几本相关书籍,除了上面说的这一本,还看过周志华的《机器学习》、李航的《统计学习方法》、Ian Goodfellow《Deep Learning》(中文版)。最后看的是...

    ————————————2019-12-31更新说明—————————————————
    这本书现在已经出了第二版,新书名字叫
    Hands On Machine Learning with Scikit Learn,keras and TensorFlow.
    主要区别是第二部分深度学习部分用的tensorflow版本是tensorflow2,由于tensorflow2和tensorflow1差别还是很大。建议感兴趣的同学还是直接去找第二版的书看。

    书中只是修改了相关代码,应该是更容易看了,因为tf2更简洁易用,本书依然很优秀。

    ———————————以下是2019-03-16的原文————————————————
    Hands On Machine Learning with Scikit Learn and TensorFlow,也就是下面这本。
    在这里插入图片描述  
      作为一个半路出家的小菜鸡,为了较系统学习机器学习,看过好几本相关书籍,除了上面说的这一本,还看过周志华的《机器学习》、李航的《统计学习方法》、Ian Goodfellow《Deep Learning》。最后看的《Hands On ML》,每本书都感觉相见恨晚,但是《Hands On ML》尤甚。
    【优点】
      这四本书每本都看了至少两遍吧,所以还是至少有个宏观的了解,个人觉得新手入门最合适的还是《Hands On ML》,原因如下(对英文版而言):
      (1)原理易懂:
          个人觉得,虽然读的是英文版,对于原理的解释比很多中文版的资料更好懂。
      (2)更贴近实操:
          书中代码例子很多,真的是手把手教你。而且github上有很全面的代码和解释。
      (3)内容比较全面:
          包括经典的机器学习,到深度学习,还有最后一章的强化学习(算是介绍吧)。
    【不足】
      既然作为初学者入门的书,也有其不足,本书最大的不足就是——公式太少,意思就是理论细节不太够。所以初学者吃透了这本书,就可以考虑更有深度的书籍,例如其他三本(不过有不少重复的地方)。
    【作者的话】
      下面附上原书作者的在书后的后记和致谢,其言辞恳恳,读了颇有感动,真是我辈良师:
    ——————————————————————————————————————
    Thank You!
    Before we close the last chapter of this book, I would like to thank you for reading it
    up to the last paragraph. I truly hope that you had as much pleasure reading this book
    as I had writing it, and that it will be useful for your projects, big or small.
    If you find errors, please send feedback. More generally, I would love to know what
    you think, so please don’t hesitate to contact me via O’Reilly, or through the ageron/
    handson-ml GitHub project.
    Going forward, my best advice to you is to practice and practice: try going through all
    the exercises if you have not done so already, play with the Jupyter notebooks, join
    Kaggle.com or some other ML community, watch ML courses, read papers, attend
    conferences, meet experts. You may also want to study some topics that we did not
    cover in this book, including recommender systems, clustering algorithms, anomaly
    detection algorithms, and genetic algorithms.
    My greatest hope is that this book will inspire you to build a wonderful ML applica‐
    tion that will benefit all of us! What will it be?

    Aurélien Géron, November 26th, 2016
    ——————————————————————————————————————

    展开全文
  • 机器学习入门-源码

    2021-02-16 11:36:18
    机器学习入门
  • 基于百度飞桨平台的机器学习入门,飞桨的框架很方便使用,其实框架大同小异,重要的是能够快速高效的学习到深度学习的原理。
  • 此书是一个对于机器学习入门者的很好一个介绍,入门应该如何开始。
  • matlab上的机器学习教程;四个pdf:简介、快速入门、无监督、有监督。
  • 这可能是最简单易懂的机器学习入门(小白必读)

    万次阅读 多人点赞 2018-07-31 09:00:00
    作者 | Lizzie Turner编译 | 专知翻译 | Xiaowen本文用浅显易懂的语言精准概括了机器学习的相关知识,内容全面,总结到位,剖析了机器学习的what,...

    作者 | Lizzie Turner

    编译 | 专知

    翻译 | Xiaowen


    本文用浅显易懂的语言精准概括了机器学习的相关知识,内容全面,总结到位,剖析了机器学习的what,who,when, where, how,以及why等相关问题。从机器学习的概念,到机器学习的发展史,再到机器学习的各类算法,最后到机器学习的最新应用,十分详尽。适合小白快速了解机器学习。

    640?wx_fmt=png


    Machine Learning: A Primer

    a quick introduction intended for non-technical readers


    你是否使用像Siri或Alexa这样的个人助理客户端?你是否依赖垃圾邮件过滤器来保持电子邮件收件箱的干净?你是否订阅了Netflix,并依赖它惊人的准确推荐来发现新的电影可看?如果你对这些问题说“是”,恭喜你!你已经很好地利用了机器学习!

     

    虽然这听起来很复杂,需要大量的技术背景,但机器学习实际上是一个相当简单的概念。为了更好地理解它,让我们研究一下关于机器学习的what,who,when, where, how,以及why。


    什么是机器学习?




    One day ladies will take their computers for walks in the park and tell each other, “My little computer said such a funny thing this morning”.

    —Alan Turing


    机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习:监督学习、非监督学习和强化学习,所有这些都有其特定的优点和缺点。

    640?wx_fmt=png

    监督学习涉及一组标记数据。计算机可以使用特定的模式来识别每种标记类型的新样本。监督学习的两种主要类型是分类和回归。在分类中,机器被训练成将一个组划分为特定的类。分类的一个简单例子是电子邮件帐户上的垃圾邮件过滤器。过滤器分析你以前标记为垃圾邮件的电子邮件,并将它们与新邮件进行比较。如果它们匹配一定的百分比,这些新邮件将被标记为垃圾邮件并发送到适当的文件夹。那些比较不相似的电子邮件被归类为正常邮件并发送到你的邮箱。


    第二种监督学习是回归。在回归中,机器使用先前的(标记的)数据来预测未来。天气应用是回归的好例子。使用气象事件的历史数据(即平均气温、湿度和降水量),你的手机天气应用程序可以查看当前天气,并在未来的时间内对天气进行预测。

     

    在无监督学习中,数据是无标签的。由于大多数真实世界的数据都没有标签,这些算法特别有用。无监督学习分为聚类和降维。聚类用于根据属性和行为对象进行分组。这与分类不同,因为这些组不是你提供的。聚类的一个例子是将一个组划分成不同的子组(例如,基于年龄和婚姻状况),然后应用到有针对性的营销方案中。降维通过找到共同点来减少数据集的变量。大多数大数据可视化使用降维来识别趋势和规则。

     

    最后,强化学习使用机器的个人历史和经验来做出决定。强化学习的经典应用是玩游戏。与监督和非监督学习不同,强化学习不涉及提供“正确的”答案或输出。相反,它只关注性能。这反映了人类是如何根据积极和消极的结果学习的。很快就学会了不要重复这一动作。同样的道理,一台下棋的电脑可以学会不把它的国王移到对手的棋子可以进入的空间。然后,国际象棋的这一基本教训就可以被扩展和推断出来,直到机器能够打(并最终击败)人类顶级玩家为止。

    640?wx_fmt=png

    但是,等等,你可能会说。我们是在说人工智能吗?机器学习是人工智能的一个分支。人工智能致力于创造出比人类更能完成复杂任务的机器。这些任务通常涉及判断、策略和认知推理,这些技能最初被认为是机器的“禁区”。虽然这听起来很简单,但这些技能的范围非常大——语言处理、图像识别、规划等等。


    机器学习使用特定的算法和编程方法来实现人工智能。没有机器学习,我们前面提到的国际象棋程序将需要数百万行代码,包括所有的边缘情况,并包含来自对手的所有可能的移动。有了机器学习,我们可以将代码量缩小到以前的一小部分。很棒对吧?

     

    有一个缺失的部分:深度学习和神经网络。我们稍后会更详细地讨论它们,请注意,深度学习是机器学习的一个子集,专注于模仿人类大脑的生物学和过程。


    谁发展了机器学习?何时何地?




    A breakthrough in machine learning would be worth ten Microsofts.—Bill Gates


    在我看来,机器学习最早的发展是Thomas Bayes 在1783年发表的同名理论,贝斯定理发现了给定有关类似事件的历史数据的事件的可能性。这是机器学习的贝叶斯分支的基础,它寻求根据以前的信息寻找最可能发生的事件。换句话说,Bayes定理只是一个从经验中学习的数学方法,是机器学习的基本思想。


    640?wx_fmt=png


    几个世纪后,1950年,计算机科学家 Alan Turing发明了所谓的图灵测试,计算机必须通过文字对话一个人,让人以为她在和另一个人说话。图灵认为,只有通过这个测试,机器才能被认为是“智能的”。1952年,Arthur Samuel创建了第一个真正的机器学习程序——一个简单的棋盘游戏,计算机能够从以前的游戏中学习策略,并提高未来的性能。接着是Donald Michie 在1963年推出的强化学习的tic-tac-toe程序。在接下来的几十年里,机器学习的进步遵循了同样的模式--一项技术突破导致了更新的、更复杂的计算机,通常是通过与专业的人类玩家玩战略游戏来测试的。


    它在1997年达到巅峰,当时IBM国际象棋电脑深蓝(Deep Blue)在一场国际象棋比赛中击败了世界冠军加里·卡斯帕罗夫(Garry Kasparov)。最近,谷歌开发了专注于古代中国棋类游戏围棋(Go)的AlphaGo,该游戏被普遍认为是世界上最难的游戏。尽管围棋被认为过于复杂,以至于一台电脑无法掌握,但在2016年,AlphaGo终于获得了胜利,在一场五局比赛中击败了Lee Sedol。

     

    机器学习最大的突破是2006年的深度学习。深度学习是一类机器学习,目的是模仿人脑的思维过程,经常用于图像和语音识别。深度学习的出现导致了我们今天使用的(可能是理所当然的)许多技术。你有没有把一张照片上传到你的Facebook账户,只是为了暗示给照片中的人贴上标签?Facebook正在使用神经网络来识别照片中的面孔。或者Siri呢?当你问你的iPhone关于今天的棒球成绩时,你的话语会用一种复杂的语音解析算法进行分析。如果没有深度学习,这一切都是不可能的。

     

    要获得更全面的机器学习时间表,请务必查看这篇由Google云团队撰写的伟大文章!


    机器学习是如何工作的?




    注意所有对数学恐惧的读者:我很遗憾地告诉你,要完全理解大多数机器学习算法,就需要对一些关键的数学概念有一个基本的理解。但不要害怕!所需的概念很简单,并且借鉴了你可能已经上过的课程。机器学习使用线性代数、微积分、概率和统计。


    640?wx_fmt=png

    Top 3线性代数概念:

    1.矩阵运算;

    2.特征值/特征向量;

    3.向量空间和范数

     

    Top 3微积分概念:

    1.偏导数;

    2.向量-值函数;

    3.方向梯度

     

    Top 3统计概念:

    1.Bayes定理;

    2.组合学;

    3.抽样方法

     

    对于特定的数学资源,我强烈推荐这篇来自MetaDesignIdeas的文章。

     

    一旦你对数学有了基本的理解,就该开始思考整个机器学习过程了。有五个主要步骤:

    640?wx_fmt=png

    上面的图表以比较清楚的方式解释了步骤,所以在我们关注最关键的部分:为数据和情况选择正确的算法之前,花一分钟的时间来研究它。

     

    We don’t have better algorithms, we just have more data.—Peter Norvig


    让我们回顾一下算法的一些常见分组:

     

    回归算法




    这可能是最流行的机器学习算法,线性回归算法是基于连续变量预测特定结果的监督学习算法。另一方面,Logistic回归专门用来预测离散值。这两种(以及所有其他回归算法)都以它们的速度而闻名,它们一直是最快速的机器学习算法之一。


    640?wx_fmt=png

    基于实例的算法




    基于实例的分析使用提供数据的特定实例来预测结果。最著名的基于实例的算法是k-最近邻算法,也称为KNN。KNN用于分类,比较数据点的距离,并将每个点分配给它最接近的组。

    640?wx_fmt=png

    决策树算法




    决策树算法将一组“弱”学习器集合在一起,形成一种强算法,这些学习器组织在树状结构中,相互分支。一种流行的决策树算法是随机森林算法。在该算法中,弱学习器是随机选择的,这往往可以获得一个强预测器。在下面的例子中,我们可以发现许多共同的特征(就像眼睛是蓝的或者不是蓝色的),它们都不足以单独识别动物。然而,当我们把所有这些观察结合在一起时,我们就能形成一个更完整的画面,并做出更准确的预测。

    640?wx_fmt=png

    贝叶斯算法



     

    丝毫不奇怪,这些算法都是基于Bayes理论的,最流行的算法是朴素Bayes,它经常用于文本分析。例如,大多数垃圾邮件过滤器使用贝叶斯算法,它们使用用户输入的类标记数据来比较新数据并对其进行适当分类。


    640?wx_fmt=png


    聚类算法




    聚类算法的重点是发现元素之间的共性并对它们进行相应的分组,常用的聚类算法是k-means聚类算法。在k-means中,分析人员选择簇数(以变量k表示),并根据物理距离将元素分组为适当的聚类。

     

    深度学习和神经网络算法




    人工神经网络算法基于生物神经网络的结构,深度学习采用神经网络模型并对其进行更新。它们是大、且极其复杂的神经网络,使用少量的标记数据和更多的未标记数据。神经网络和深度学习有许多输入,它们经过几个隐藏层后才产生一个或多个输出。这些连接形成一个特定的循环,模仿人脑处理信息和建立逻辑连接的方式。此外,随着算法的运行,隐藏层往往变得更小、更细微。

    640?wx_fmt=png


    其他算法




    下面的图表是我发现的最好的图表,它展示了主要的机器学习算法、它们的分类以及它们之间的关系。

    640?wx_fmt=png

    The numbers have no way of speaking for themselves. We speak for them. We imbue them with meaning….Before we demand more of our data, we need to demand more of ourselves.—Nate Silver

     

    一旦你选择并运行了你的算法,还有一个非常重要的步骤:可视化和交流结果。虽然与算法编程的细节相比,这看起来既愚蠢又肤浅,但是良好的可视化是优秀数据科学家和伟大科学家的关键隔膜。如果没有人能够理解,那么惊人的洞察力又有什么用呢?

     

    为什么机器学习很重要?




    Just as electricity transformed almost everything 100 years ago, today I actually have a hard time thinking of an industry that I don’t think AI will transform in the next several years.— Andrew Ng


    现在应该清楚的是,机器学习有巨大的潜力来改变和改善世界。通过像谷歌大脑和斯坦福机器学习小组这样的研究团队,我们正朝着真正的人工智能迈进一大步。但是,确切地说,什么是机器学习能产生影响的下一个主要领域?


    • 物联网

    物联网(Internet of Things),或者说IOT,是指你家里和办公室里联网的物理设备。流行的物联网设备是智能灯泡,其销售额在过去几年里猛增。随着机器学习的进步,物联网设备比以往任何时候都更聪明、更复杂。机器学习有两个主要的与物联网相关的应用:使你的设备变得更好和收集你的数据。让设备变得更好是非常简单的:使用机器学习来个性化您的环境,比如,用面部识别软件来感知哪个是房间,并相应地调整温度和AC。收集数据更加简单,通过在你的家中保持网络连接的设备(如亚马逊回声)的通电和监听,像Amazon这样的公司收集关键的人口统计信息,将其传递给广告商,比如电视显示你正在观看的节目、你什么时候醒来或睡觉、有多少人住在你家。

    640?wx_fmt=png

     

    • 聊天机器人

    在过去的几年里,我们看到了聊天机器人的激增,成熟的语言处理算法每天都在改进它们。聊天机器人被公司用在他们自己的移动应用程序和第三方应用上,比如Slack,以提供比传统的(人类)代表更快、更高效的虚拟客户服务。

    640?wx_fmt=png

     

    • 自动驾驶

    我个人最喜欢的下一个大型机器学习项目是最远离广泛生产的项目之一。然而,目前有几家大型公司正在开发无人驾驶汽车,如雪佛兰、Uber和Tsla。这些汽车使用了通过机器学习实现导航、维护和安全程序的技术。一个例子是交通标志传感器,它使用监督学习算法来识别和解析交通标志,并将它们与一组标有标记的标准标志进行比较。这样,汽车就能看到停车标志,并认识到它实际上意味着停车,而不是转弯,单向或人行横道。

    640?wx_fmt=png

    这就是我们进入机器学习世界的非常短暂的旅程。感谢观看。


    640?wx_fmt=png

    展开全文
  • TensorFlow MNIST机器学习入门-源码(带mnist数据集)
  • 机器学习数学基础,包括高斯分布,贝叶斯公式,最小二乘法,矩阵特征值分解,SVD,手写pdf,为什么摘要要写这么长,我真是服了,有用吗,不如就写十个字就行
  • python机器学习入门到精通(一)

    万次阅读 多人点赞 2018-06-09 12:29:53
    机器学习概论 机器学习,顾名思义,它是人工智能、统计学、计算机科学交叉的研究领域,也被称作预测分析或统计学习。近年来,由于人工智能的火爆,机器学习方法已经应用到日常生活的方方面面。贴近我们生活的就有,...
  • 补充的代码都是向量化的,除了可以学习机器学习之外,还能够了解matlab向量化的思想

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 523,715
精华内容 209,486
关键字:

机器学习入门