精华内容
下载资源
问答
  • 量化中的机器学习简述

    千次阅读 2019-06-24 17:54:20
    人工智能,特别是机器学习,在最近几年大出风头,无人驾驶汽车,阿尔法狗战胜人类最强棋手,演唱会人脸识别抓捕逃犯,手机多国语言在线翻译,这一切一切无不给我们带来深深的震撼,可以说人工智能将在不久的未来引来...

    在这里插入图片描述
    人工智能,特别是机器学习,在最近几年大出风头,无人驾驶汽车,阿尔法狗战胜人类最强棋手,演唱会人脸识别抓捕逃犯,手机多国语言在线翻译,这一切一切无不给我们带来深深的震撼,可以说人工智能将在不久的未来引来巨大的爆发式增长,对我们每个人的生活带来深刻的影响。

    既然机器学习这么厉害,那么是不是可以让机器帮我们预测市场、选股票,买卖股票,我们只需要坐着看收益就好了,为什么现实不是这样的呢?

    这一节就简单总结一下量化投资中的我们对机器学习需要了解的基本概念。后面再逐个研究算法的实际应用。

    1、机器学习在量化投资领域的现状是怎么样的呢?

    一句话总结:

    机器学习是当前量化投资的一个重要的方向,但是它的效果并不比其他方向的策略更好。

    为什么机器学习在投资领域并无明显优势?
    这个现象在国内国外都是一样,相比之下,国外用机器学习做量化的会比国内多一些。我认为有两个方面原因:

    • 一方面是人才结构决定。机器学习领域的顶级专家,几乎没有投入到量化投资领域的。对机器学习或者说人工智能领域的大牛来说,本身就可以在Google、微软、BAT等大公司获得领导岗位,也可以较容易的自己融资创业,量化投资这种高风险的事情对他们没有吸引力。
    • 另一方面是金融学科性质决定的。金融分析属于非实验性科学,因此无法进行对照实验,虽然存在大量的金融交易数据,但是无法通过设计实验来控制自变量的变化、通过重复性试验来检验提出的假设(比如说机器学习发现的某种选股模式)。如此的数据分析得到的大多是看似显著但实际上是欺骗式的模式(尤其对样本外数据),这个现象称作数据迁就(data
      snooping)。

    2、人工智能、机器学习、深度学习什么关系?
    在这里插入图片描述
    补充:

    • 我们通常说的神经网络,也属于深度学习的范畴。
    • 机器学习中除了深度学习,还有强化学习这样的类别,主要用于电子游戏方面。

    3、怎么理解传统算法和机器学习算法的区别?

    什么是机器学习?
    机器学习是人工智能的一个分支。它的核心就是学习能力。用逻辑化的语言来描述就是:

    通过n个样本数据(训练样本),预测出未知数据(测试样本)的属性。

    它和传统算法的主要差别就是:学习能力,也叫做泛化能力

    • 在传统编程中,开发人员要对程序进行硬编码,对于如何达到结果,需要开发人员自己很清楚。
    • 在机器学习中,是机器去从数据中学习,开发人员未必知道机器是怎么达到结果的。能举一反三,从数据中自我学习,是机器学习算法的主要特性。

    比如:预测股价这个问题,在传统算法中,基本认为是不可行的。但是在机器学习算法中,确是有较大成功概率的。

    4、机器学习包含哪些分类?

    从大体上,我们将机器学习分为监督学习和无监督学习。

    • **监督学习:**训练样本中的“特性”feature对应目标的“标签”labels,通常用来解决以下两类问题:
      分类问题,样本标签属于两类或多类。这通常是离散的数据。
      回归问题,样本标签包括一个或多个连续变量。这通常是连续的数据。

    • **无监督学习:**训练样本的属性不包含对应的“标签”,通常是聚类问题。

    **说明:**从量化投资的角度,我们用得较多的都是监督学习。

    更详细的模型分类如下图:
    在这里插入图片描述

    说明:

    • 有些算法既能够用于处理分类问题,也能用于处理回归的问题,比如支持向量机、决策树等。
    • “降维”算是一种特殊的应用,可以是无监督学习,其实也可以用于监督学习的。

    5、机器学习的基本流程是什么样的?

    就如同人类学习某种技能需要持续练习一样,机器学习某种规律也需要大量的数据进行训练。从开始获取数据、训练机器学习模型到最终模型投入应用,通常需要遵循一些固定的流程。

    下图展示了机器学习的基本框架,主要步骤包括:数据获取、特征提取、数据转换、模型训练、模型选择和模型预测。
    在这里插入图片描述

    6、机器学习的模型怎么选择?

    在模型训练中,针对不同的问题,我们选择什么样的机器学习方法呢,这里列举一些简单的例子:

    • 如果数据中包含特征标签,希望学习特征和标签之间的对应关系,那么可以采用监督学习的方法;
    • 如果没有标签,希望探索特征自身的规律,那么可以采用非监督学习
      如果学习任务由一系列行动和对应的奖赏组成,那么可以采用强化学习
    • 如果需要预测的标签是分类变量,比如预测股票上涨还是下跌,那么可以采用分类方法
    • 如果标签是连续的数值变量,比如预测股票具体涨多少,那么可以采用回归方法
    • 另外,样本和特征的个数,数据本身的特点,这些都决定了最终选择哪一种机器学习方法。

    7、机器学习中有哪些重要的概念?

    在进行模型建立的时候,我们有三种数据集:训练集、验证集、测试集

    • 训练集Training set:用来训练模型的,通常需要的数据量很大。可以理解为机器学习过程中的课本。
    • 验证集Validation set:是用来做模型选择(model selection)、参数优化的,即做模型的最终优化及确定的。可以理解为机器学习过程中的模拟考试。
    • 测试集Test set:纯粹是为了测试已经训练好的模型的泛化(generalization)能力。这既是对机器学习成果的考试了。

    在评价模型效果的时候,有欠拟合、正常拟合和过拟合三种情况:

    • 欠拟合:采用了较少的参数或模型过于简单,训练得到的效果就比较差
    • 正常拟合:采用合适数量的参数和合适复杂度的模型
    • 过拟合:采用过多的参数和过于复杂的模型,模型依赖数据,离开测试集后表现较差,即模型预测效果较差。

    8、机器学习在量化投资中怎么用?

    有人觉得这个问题很奇怪,一点都不。我们要做的是交易系统,要做的是量化投资,不论机器学习还是技术分析都只是工具。那么很自然就会有这样几种用法:

    • 第一个当然是直接用用一个机器学习的模型策略来实现交易系统
    • 第二种方式用机器学习与其他策略结合,增加额外的过滤器
    • 第三种是发挥机器学习算法的优势,把它作为工具,给其他量化策略进行参数优化
    展开全文
  • 机器学习简述——ML(1)

    千次阅读 2018-03-26 16:30:47
    简述 机器学习是人工智能的一种实现方式;深度学习是一种实现机器学习的技术,或者说是一种特殊的机器学习方法,可以说广义上的机器学习也包括了深度学习,三者的关系如下图所示: 从判别垃圾邮件到无人驾驶技术,...

    简述

      机器学习是人工智能的一种实现方式;深度学习是一种实现机器学习的技术,或者说是一种特殊的机器学习方法,可以说广义上的机器学习也包括了深度学习,三者的关系如下图所示:

     

      从判别垃圾邮件到无人驾驶技术,机器学习在众多领域都有着广泛的应用,机器学习成就了今天的人工智能。

    机器学习的本质

      在以往的工程项目中,我们认为计算机程序只能严格执行我们让它做的事情——输入数据,输出计算结果。为了得出正确的结果,需要在程序中写大量的循环和判断,但是对于某些问题,这种方式将无法处理,比如如何判断一张照片中有没有大树?

      对于人类来讲,可能在会走路的时候就认识了大树,然而我们并没有试图给小孩子灌输大树的定义,实际上大多数人都不能准确定义什么是大树,但是我们依然能够分辨:“哦,这就是大树”。联想小孩子学习的过程,是经过家长无数次的教导,告诉他:“嘿,宝贝,这一棵大树”,然后他慢慢学会了:“哦,这种东西就是大树”。当然,这种方式有时可能会出错,比如我的小孩在最近才能分清老虎和猫咪。

      机器学习的本质就是让计算机模拟上述过程,让计算机“学习”,从而获得某种认知,通过这种认知判断新的事物。这种认知称为模型,用数学表示将是一个函数。

      上述过程可以简述为:输入一堆相关数据,让计算机自行学习,得到一个可以判断新事物的模型:

     

      使用机器学习时需要考虑三点:

    1. 必须存在一个模型;
    2. 这个存在的模型无法正确写出;
    3. 手里有足够多的关于这个模型的数据。

      举例来说:

    1. 预测刚会走路的小孩会往哪个方向前进(不存在模型,前进方向不可预测)
    2. 计算加减乘除混合运算(可以正确写出模型)
    3. 外星人是否来袭(没有足够多的数据提供参考)
    4. 判断一个人的信誉是否优良以便对其发放信用卡(可以使用机器学习)

       需要注意的是,除了第三点外,即使12都不是机器学习的必要条件,只是此时机器学习不是最佳实现方案。

            在机器学习开始时,我们应当掌握多少数据?理论上,数据量应当能够恰好完美的得到某个模型;然而实际上可能只有很少的数据,但这并不妨碍开始机器学习。所以问题的答案只能是“具体情况具体分析”。

    机器学习的种类

      通常,机器学习可分为监督学习、非监督学习和强化学习。

      监督学习

      数据集中的每个样本有相应的“正确答案”,根据训练集得出模型,从而预测新数据。对于连续型数据的预测称为回归,对于离散型数据的预测称为分类。

      非监督学习

      给出一堆数据,我也不知道要预测什么,总之你自己预测吧,祝你好运。

      强化学习

      不断尝试新输入,对输出进行评分,每次都选取最高分,渐渐地,机器会只给出高分的答案。这和处于探索阶段的小孩子一样,碰到了仙人球,知道了坏的结果,从此将远离仙人球,然后不断尝试碰触新东西,逐渐知道很多东西不能碰。

     

     


      作者:我是8位的

      出处:http://www.cnblogs.com/bigmonkey

      本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途! 

      扫描二维码关注公众号“我是8位的”

     

     

    展开全文
  • 深度学习是一种实现机器学习的技术,或者说是一种特殊的机器学习方法,可以说广义上的机器学习也包括了深度学习,三者的关系如下图所示:  从判别垃圾邮件到无人驾驶技术,机器学习在众多领域都有着广泛的应用,...

    简述

      机器学习是人工智能的一种实现方式;深度学习是一种实现机器学习的技术,或者说是一种特殊的机器学习方法,可以说广义上的机器学习也包括了深度学习,三者的关系如下图所示:

     

      从判别垃圾邮件到无人驾驶技术,机器学习在众多领域都有着广泛的应用,机器学习成就了今天的人工智能。

    机器学习的本质

      在以往的工程项目中,我们认为计算机程序只能严格执行我们让它做的事情——输入数据,输出计算结果。为了得出正确的结果,需要在程序中写大量的循环和判断,但是对于某些问题,这种方式将无法处理,比如如何判断一张照片中有没有大树?

      对于人类来讲,可能在会走路的时候就认识了大树,然而我们并没有试图给小孩子灌输大树的定义,实际上大多数人都不能准确定义什么是大树,但是我们依然能够分辨:“哦,这就是大树”。联想小孩子学习的过程,是经过家长无数次的教导,告诉他:“嘿,宝贝,这一棵大树”,然后他慢慢学会了:“哦,这种东西就是大树”。当然,这种方式有时可能会出错,比如我的小孩在最近才能分清老虎和猫咪。

      机器学习的本质就是让计算机模拟上述过程,让计算机“学习”,从而获得某种认知,通过这种认知判断新的事物。这种认知称为模型,用数学表示将是一个函数。

      上述过程可以简述为:输入一堆相关数据,让计算机自行学习,得到一个可以判断新事物的模型:

     

      使用机器学习时需要考虑三点:

    1. 必须存在一个模型;
    2. 这个存在的模型无法正确写出;
    3. 手里有足够多的关于这个模型的数据。

      举例来说:

    1. 预测刚会走路的小孩会往哪个方向前进(不存在模型,前进方向不可预测)
    2. 计算加减乘除混合运算(可以正确写出模型)
    3. 外星人是否来袭(没有足够多的数据提供参考)
    4. 判断一个人的信誉是否优良以便对其发放信用卡(可以使用机器学习)

      需要注意的是,除了第三点外,即使12都不是机器学习的必要条件,只是此时机器学习不是最佳实现方案。

     

      在机器学习开始时,我们应当掌握多少数据?理论上,数据量应当能够恰好完美的得到某个模型;然而实际上可能只有很少的数据,但这并不妨碍开始机器学习。所以问题的答案只能是“具体情况具体分析”。

    机器学习的种类

      通常,机器学习可分为监督学习、非监督学习和强化学习。

      监督学习

      数据集中的每个样本有相应的“正确答案”,根据训练集得出模型,从而预测新数据。对于连续型数据的预测称为回归,对于离散型数据的预测称为分类。

      非监督学习

      给出一堆数据,我也不知道要预测什么,总之你自己预测吧,祝你好运。

      强化学习

      不断尝试新输入,对输出进行评分,每次都选取最高分,渐渐地,机器会只给出高分的答案。这和处于探索阶段的小孩子一样,碰到了仙人球,知道了坏的结果,从此将远离仙人球,然后不断尝试碰触新东西,逐渐知道很多东西不能碰。

     

     


      作者:我是8位的

      出处:http://www.cnblogs.com/bigmonkey

      本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途! 

      扫描二维码关注公众号“我是8位的”

     

     

    需要注意的是,除了第三点外,即使12都不是机器学习的必要条件,只是此时机器学习不是最佳实现方案。

     

    转载于:https://www.cnblogs.com/bigmonkey/p/8651819.html

    展开全文
  • 自动机器学习简述(AutoML)

    千次阅读 2019-03-15 11:37:39
    转载本文需注明出处:微信公众号EAWorld,违者必...一、为什么需要自动机器学习 二、超参数优化 Hyper-parameter Optimization 三、元学习 Meta Learning 四、神经网络架构搜索 Neural Architecture Searc...

    https://www.toutiao.com/a6665420964148281864/

     

    自动机器学习简述(AutoML)

     

    转载本文需注明出处:微信公众号EAWorld,违者必究。

    目录:

    一、为什么需要自动机器学习

    二、超参数优化 Hyper-parameter Optimization

    三、元学习 Meta Learning

    四、神经网络架构搜索 Neural Architecture Search

    五、自动化特征工程

    六、其它自动机器学习工具集

    一、为什么需要自动机器学习

    对于机器学习的新用户而言,使用机器学习算法的一个主要的障碍就是算法的性能受许多的设计决策影响。随着深度学习的流行,工程师需要选择相应的神经网络架构,训练过程,正则化方法,超参数等等,所有的这些都对算法的性能有很大的影响。于是深度学习工程师也被戏称为调参工程师。

    自动机器学习(AutoML)的目标就是使用自动化的数据驱动方式来做出上述的决策。用户只要提供数据,自动机器学习系统自动的决定最佳的方案。领域专家不再需要苦恼于学习各种机器学习的算法。

    自动机器学习不光包括大家熟知的算法选择,超参数优化,和神经网络架构搜索,还覆盖机器学习工作流的每一步:

    自动机器学习简述(AutoML)

     

    • 自动准备数据
    • 自动特征选择
    • 自动选择算法
    • 超参数优化
    • 自动流水线/工作流构建
    • 神经网络架构搜索
    • 自动模型选择和集成学习

    二、超参数优化Hyper-parameter Optimization

    学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,后者成为超参数。比如,支持向量机里面的C Kernal Gamma;朴素贝叶斯里面的alpha等。

    超参数优化有很多方法:

    最常见的类型是黑盒优化 (black-box function optimization)。所谓黑盒优化,就是将决策网络当作是一个黑盒来进行优化,仅关心输入和输出,而忽略其内部机制。决策网络通常是可以参数化的,这时候我们进行优化首先要考虑的是收敛性。

    以下的几类方法都是属于黑盒优化:

    网格搜索 (grid search)

    Grid search大家都应该比较熟悉,是一种通过遍历给定的参数组合来优化模型表现的方法。网格搜索的问题是很容易发生维度灾难,优点是很容易并行。

    随机搜索 (random search)

    随机搜索是利用随机数求极小点而求得函数近似的最优解的方法。

    自动机器学习简述(AutoML)

     

    很多时候,随机搜索比网格搜索效果要更好,但是我们可以从上图看出,它们都不能保证找到最优解。

    贝叶斯优化(http://t.cn/EfRNqz8)

    贝叶斯优化是一种迭代的优化算法,包含两个主要的元素,输入数据假设的模型和一个采集函数用来来决定下一步要评估哪一个点。每一步迭代,都使用所有的观测数据fit模型,然后利用激活函数预测模型的概率分布,决定如何利用参数点,权衡是Explaoration还是Exploitation。相对于其它的黑盒优化算法,激活函数的计算量要少很多,这也是为什么贝叶斯优化被认为是更好的超参数调优的算法。

    黑盒优化的一些工具:

    hyperopt(http://t.cn/RyJDbzH)

    hyperopt 是一个Python库,可以用来寻找实数,离散值,条件维度等搜索空间的最佳值

    Google Vizier

    Google的内部的机器学习系统 Google Vizier能够利用迁移学习等技术自动优化其他机器学习系统的超参数

    advisor(http://t.cn/RpTEMhK)

    Google Vizier的开源实现

    katib (http://t.cn/EvQJWbq)

    基于Kubernetes的超参数优化工具

    由于优化目标具有不连续、不可导等数学性质,所以一些搜索和非梯度优化算法被用来求解该问题,包括我们上面提到的这些黑盒算法。此类算法通过采样和对采样的评价进行搜索,往往需要大量对采样的评价才能获得比较好的结果。然而,在自动机器学习任务中评价往往通过 k 折交叉验证获得,在大数据集的机器学习任务上,获得一个评价的时间代价巨大。这也影响了优化算法在自动机器学习问题上的效果。所以一些减少评价代价的方法被提出来,其中多保真度优化(multi-fidelity methods)就是其中的一种。这里的技术包括:基于学习曲线来决定是否要提前终止训练,探索-利用困境(exploration exploitation)的多臂老虎机算法 (Multi-armed bandit)(http://t.cn/R5AMrlH)等等。

    另外还有一些研究是基于梯度下降的优化。

    超参数优化面临许多挑战:

    • 对于大规模的模型或者复杂的机器学习流水线而言,需要评估的空间规模非常大
    • 配置空间很复杂
    • 无法或者很难利用损失函数的梯度变化
    • 训练集合的规模太小
    • 很容易过拟合

    相关参考

    http://t.cn/EfRTKmq

    http://t.cn/EfRTmLa

    http://t.cn/EfRHzrV

    http://t.cn/RM7FoqC

    http://t.cn/RdEUPtd

    http://t.cn/EfRQwnA

    http://t.cn/EfRQio5

    http://t.cn/EfR8vzx

    三、元学习 Meta Learning

    元学习也就是"学习如何学习",通过对现有的学习任务之间的性能差异进行系统的观测,然后学习已有的经验和元数据,用于更好的执行新的学习任务。这样做可以极大的该静机器学习流水线或者神经网络架构的设计,也可以用数据驱动的方式取代手工作坊似的算法工程工作。

    从某种意义上来说,元学习覆盖了超参数优化,因为元数据的学习包含了:超参数,流水线的构成,神经网络架构,模型构成,元特征等等。

    机器学习的算法我们又称为‘学习器’,学习器就是假定一个模型,该模型拥有很多未知参数,利用训练数据和优化算法来找到最适合这些训练数据的参数,生成一个新的算法,或者参数已知的模型,并利用该模型/算法来预测新的未知数据。如果说世界上只有一个模型,那么问题就简单了,问题是模型有很多,不同的模型拥有不同的超参数,我们往往还会把模型和算法组装在一起构成复合模型和机器学习的流水线,这个时候,我就需要知道解决不同的问题要构建那些不同的模型。元学习就在这个时候,我们可以把超参数,流水线,神经网络架构这些都看成是一个新的模型的未知参数,把不同学习任务的性能指标看成是输入数据,这样我们就可以利用优化算法来找到性能最好的那组参数。这个模式可以一直嵌套,也就是说,你可以有‘元元元学习‘,当然我希望你不要走得太远,找不到回来的路。

    元学习的方法包括:

    • 通过模型评估来学习
    • 通过任务的属性,元特征来学习

    以下列出了一些常见的元特征

    自动机器学习简述(AutoML)

     

    • 从现有的模型中学习,包括:
    1. 迁移学习
    2. 利用RNN在学习过程中修改自己的权重

    元学习的一个很大的挑战就是如果通过很少的训练数据来学习一个复杂的模型,这就是one-shot(http://t.cn/EfRmJZp)或者few-shot的问题。

    像人类的学习一样,每次学习无论成功失败,我们都收获一定的经验,人类很少从头学习。在构建自动学习的时候,我们也应该充分利用已有的每一次的学习经验,逐步的改进,使得新的学习更加有效。

    相关参考:

    http://t.cn/EfRuJPM

    http://t.cn/EyEri3B

    http://t.cn/EfR1Iek

    四、神经网络架构搜索Neural Architecture Search

    提起AutoML,其实大多数人都是因为Google的AutoML系统才知道这个故事的。随着深度学习的流行,神经网络的架构变得越来越复杂,越来越多的手工工程也随之而来。神经网络架构搜索就是为了解决这个问题。

    NAS主要包含三个部分:

    • 搜索空间 search space
    • 搜索策略 search strategy
    • 性能估计策略 performance estimation strategy

    自动机器学习简述(AutoML)

     

    相关参考

    http://t.cn/EfRD7WS

    五、自动化特征工程

    自动化特征工程可以帮助数据科学家基于数据集自动创建能够最好的用于训练的特征。

    Featuretools(http://t.cn/Rl9tYUT)是一个开源库,用来实现自动化特征工程。它是一个很好的工具,旨在加快特征生成的过程,从而让大家有更多的时间专注于构建机器学习模型的其他方面。换句话说,它使你的数据处于“等待机器学习”的状态。

    自动机器学习简述(AutoML)

     

    Featuretools程序包中的三个主要组件:

    • 实体(Entities)
    • 深度特征综合(Deep Feature Synthesis ,DFS)
    • 特征基元(Feature primitives)

    一个Entity可以视作是一个Pandas的数据框的表示,多个实体的集合称为Entityset。

    深度特征综合(DFS)与深度学习无关,不用担心。实际上,DFS是一种特征工程方法,是Featuretools的主干。它支持从单个或者多个数据框中构造新特征。

    DFS通过将特征基元应用于Entityset的实体关系来构造新特征。这些特征基元是手动生成特征时常用的方法。例如,基元“mean”将在聚合级别上找到变量的平均值。

    相关参考

    http://t.cn/EfRs7O2

    http://t.cn/EfRsias

    六、其它自动机器学习工具集

    以下列出一些开源的自动机器学习工具空大家参考、选择

    • Auto-Sklearn (http://t.cn/EfEPf5H)
    • AutoKeras(http://t.cn/RDVQhH4)
    • TPOT(http://t.cn/EfEPsHl)
    • H2O AutoML (http://t.cn/EfE2fKw)
    • Python auto_ml(http://t.cn/Ri1Ch74)

    自动机器学习简述(AutoML)

     

    关于作者:陶刚,Splunk资深软件工程师,架构师,毕业于北京邮电大学,现在在温哥华负责Splunk机器学习云平台的开发,曾经就职于SAP,EMC,Lucent等企业,拥有丰富的企业应用软件开发经验,熟悉软件开发的各种技术,平台和开发过程,在商务智能,机器学习,·数据可视化,数据采集,网络管理等领域都有涉及。

    展开全文
  • 读完这篇文章后,如果多模态机器学习让你着迷了,建议你去学习CMU的多模态机器学习课程。链接在参考列表中。 参考列表: Multimodal Machine Learning: A Survey and Taxonomy [2017]. ...
  • 机器学习机器学习概念简述

    千次阅读 2017-12-14 14:57:09
    机器学习追求合理的假设空间的选取和模型的泛化能力   常见的机器学习应用场景: 数据挖掘、模式识别、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列...
  • 机器学习框架简述

    千次阅读 2018-08-22 14:16:56
    机器学习框架意味着一个能够整合包括机器学习算法在内的所有机器学习的系统或方法,使用户最有效的使用它们。具体来讲,这包括数据表示与处理的方法、表示和建立预测模型的方法、评价和使用建模结果的方法。 在...
  • 大数据背景下的机器学习算法简述.pdf
  • 统计机器学习方法简述

    千次阅读 2014-09-03 20:35:51
    2013-01-28 09:04 | (分类:机器学习)
  • 机器学习(一)——K-近邻(KNN)算法 机器学习(二)——K-均值聚类(K-means)算法 机器学习(三)—支持向量机 机器学习(四)—决策树 机器学习(五)—朴素贝叶斯 机器学习(六)— logistic回归 机器...
  • 机器学习中多目标优化算法的简述.pdf
  • 多目标优化方法在机器学习中的应用简述.pdf
  • 机器学习系列(一)——机器学习简介

    万次阅读 多人点赞 2018-06-05 21:33:46
    前前后后接触机器学习也有一年时间,但一直没有系统整理总结过。从本篇博客开始,将记录下我的学习内容与参考资料,系列按照李宏毅的机器学习课程,吴恩达的机器学习课程和周志华的西瓜书为主线。 发展历程 \...
  • 机器学习简述多种降维算法

    千次阅读 2018-01-06 14:51:16
    又由于线性代数中对角化是通过求解特征值与对应的特征向量得到,因此可以推出PCA算法流程(流程主要摘自周志华老师的《机器学习》一书,其中加入了目标和假设用于对比后面的算法。周老师书中是基于拉格朗日乘子法推导...
  • 常见机器学习算法简述及其优缺点

    千次阅读 2014-08-01 14:45:40
    K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似,即特征空间中最邻近的样本中的大多数属于某一个...
  • 机器学习”的研究步骤——简述科学研究的一般过程.pdf
  • 深度学习 ——》机器学习——》人工智能 二.深度学习基础 2.1神经网络 2.1.1特点: 1.并行分布处理。 2.高度鲁棒性和容错能力。 3.分布存储及学习能力。 4.能充分逼近复杂的非线性关系。 2.1.2基本模型 1.人工...
  • 自动化机器学习就是能够自动建立机器学习模型的方法,其主要包含三个方面:方面一,超参数优化;方面二,自动特征工程与机器学习算法自动选择;方面三,神经网络结构搜索。本文侧重于方面三,神级网络结构搜索。 ...
  • 梯度下降算法原理讲解——机器学习

    万次阅读 多人点赞 2019-01-21 20:27:48
    概述 梯度下降(gradient descent)在机器学习中应用十分的广泛,不论是在线性回归还是Logistic回归中,它的主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值。 本文将从一个下山的场景开始,先提出梯度...
  • 我们先带着大家过一遍传统机器学习算法,基本思想...机器学习算法简述 按照不同的分类标准,可以把机器学习的算法做不同的分类。 ### 2.1 从机器学习问题角度分类 我们先从机器学习问题本身分类的角度来看,我们可以分
  • 先来直观理解一下决策树: 可以发现,决策树比较明确直观,一眼看去仿佛跟机器学习无关。决策树在借贷、风控领域应用还是比较多的。 概述 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构建决策树...
  • BAT机器学习面试1000题系列

    万次阅读 多人点赞 2017-12-14 15:19:15
    1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列; 2、文章中带斜体的文字代表是本人自己增加的内容,如有错误还请批评指正; 3、原文中有部分链接已经失效,故而本人重新加上了新的链接,如有...
  • 机器学习 RANSAC算法思想简述

    千次阅读 2015-11-05 17:25:01
    RANSAC算法的输入是一组观测数据,一个可以解释或者适应于观测数据的参数化模型,一些可信的参数。 RANSAC通过反复选择数据中的一组随机子集来达成目标。被选取的子集被假设为局内点,并用下述方法进行验证: ...
  • 决策树常见的算法有ID3 C4.5 CART,这里只简述一下,不做详细介绍。因为了解了决策树的概念,再看这几个算法,特别简单。重点介绍三者的关系。
  • 明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。 这里的抽象成数学问题,指的明确我们可以获得什么样的数据,抽象出的问题,是一个分类还是回归或者...
  • 梯度下降算法分析与简述梯度下降(gradient descent)是一种最优化算法,基于爬山法的搜索策略,其原理简单易懂,广泛应用于机器学习和各种神经网络模型中。在吴恩达的神经网络课程中,梯度下降算法是最先拿来教学的...
  • 机器学习与传统编程模式比较 什么是机器学习 机器学习的四种分类 常见机器学习模型的分类 参考文献: 《机器学习基础:从入门到求职》,胡欢武著 《数据分析求职指南》,徐麟著作
  • 机器学习实战

    2014-09-01 11:15:42
    简述机器学习
  • 前面的博客我们说机器学习分为有监督学习和无监督学习,其中有监督学习又分为回归问题和分类问题。 现在让我们一起讨论分类问题。 像这种结果输出为是否类的问题我们就叫做分类问题~~~ 分类有二分类和多分类,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,622
精华内容 7,448
关键字:

机器学习简述