精华内容
参与话题
问答
  • 机器学习面临的挑战

    2018-06-17 10:16:55
    该文讨论了机器学习目前面临几个挑战,包括:高维特征空间和数据量问题,大数据量计算困难,寻求最优解困难和可解释性差等问题.然后针对当前很多人关心几个重要问题,例如大数据问题,深度学习,概率图模型等做了...
  • 机器学习中,我们主要任务是选择一个学习算法并将其在数据上训练,所以有可能效果不佳两个地方在于: 算法不好 数据不好 我们先从数据不好开始看起。 训练数据数量不够 如果是教一个小孩子认什么是苹果,...

    在机器学习中,我们的主要任务是选择一个学习算法并将其在数据上训练,所以有可能效果不佳的两个地方在于:

    • 算法不好
    • 数据不好

    我们先从数据不好开始看起。

    训练数据的数量不够

    如果是教一个小孩子认什么是苹果,指给他看一下苹果,可能要重复几次,然后这个小孩子就能够识别苹果了。但是对于机器学习而言,实现相同的效果则要难得多。

    机器学习算法需要大量的数据来完成任务。

    即使是简单的任务,也需要大量的样本,对于复杂的问题,比如图片和语音识别则可能需要百万级别的样本。

    对于复杂问题,数据要比算法重要得多,但是通常数据集都是小型的,或者中等大小的数据集,获取额外的数据并不便宜,也不简单。

    训练数据的表征性不够

    为了使得模型泛化足够好,训练数据要包含泛化到新数据的特征。如果用的训练集表征性不够,那么训练得到的模型就不太可能得到精确的预测值。但这个要求其实很高。

    一方面,如果数据样本太小,则很容易受样本噪音的影响;另一方面,即使是样本数量足够大,如果采样方法不够好,也得不到具有表征性的样本数据。这个问题被称作采样偏差

    简言之,在训练时看到的数据要能够代表数据背后的模式。就像考试一样,平时训练的题目不太可能和考试题目一样,但是知识点是一样的。如果训练题没有覆盖到考试的知识点,恐怕考试就得临场发挥了。

    训练数据的质量不够

    这个比较明显,如果你的训练数据充满了错误,异常以及噪音,那你的模型很难习得数据背后的模式,你的系统也就不可能表现得好。

    花费时间和精力来清洗训练数据是十分必要,且重要的。

    现实也是如此,大部分数据科学家都会花费大量时间来做这件事情。

    无关的特征

    Garbage in, garbage out. 垃圾进,垃圾出。

    机器学习项目成功的一个关键点在于得出一套良好的特征集,这个过程称之为特征工程。特征工程牵涉到三个大的方面:

    • 特征选择
    • 特征抽取
    • 收集更多数据,创建新的特征

    特征选择

    在现存的特征中选择出最有用的特征来训练,这显然牵涉到特征的评估方式。

    特征抽取

    组合当前的特征产生一个更有用的特征来。

    创建新特征

    这牵涉到收集更多数据,来创建新的特征。

    在已经知道了数据可能存在的问题之后,我们再来看,数据不够好可能导致的问题。

    过拟合

    过拟合问题其实我们日常生活中天天碰到,我们会对自己遇到的事情放大它的效应。机器学习里,不小心一点,就会掉进来过拟合问题的陷阱中。

    过拟合常常发生的原因在于:模型太复杂而数据量不够以及噪声过大,解决方法有:

    • 简化模型,比如选择有更少参数的模型,减少训练集特征个数,对模型加以限制等
    • 收集更多训练数据
    • 降低训练数据中的噪音:修正错误,去除异常数据

    欠拟合

    过拟合的对立面。表示模型过于简单不足以学到数据中的模式。修正问题的方法有:

    • 选择更复杂的模型,有更多可调参数的模型
    • 特征工程,选择更优秀的特征给学习算法
    • 降低对模型的限制,比如移除正则化等

    现在我们已经了解了很多关于机器学习的概念,当我们完成训练模型时,我们不能只是希望模型要在新数据上泛化得好,而是能够评估它,并微调模型使其表现更好。

    测试和验证

    直接将模型上线看看它的表现当然可以得出评价,但是更好的方式则是将数据集分割成两部分:训练集和测试集

    使用训练集训练,使用测试集测试。

    在测试集上的误差称作泛化误差,这个数字就是我们估计模型好坏的关键指标。

    如果训练误差小,但是泛化误差大,则模型过拟合。
    如果训练误差大,但是泛化误差小,似乎不太可能。

    通常数据的80%用来训练,20%用来留给测试用。

    如果有两个不同模型,让你来选择,那么对两个模型的测试误差进行比较即可做出选择。现在对选好的模型进行优化,比如添加正则化来避免过拟合,如何选择正则化的超参数呢?

    答案是:用验证集,验证集是从训练集中分出来的数据,所以对于训练集来说,会缩小训练集的样本数,我们通过交叉验证法可以避免这种浪费。

    在测试集上验证超参数对应的泛化误差大小,会导致模型渐渐适应测试集,使其在测试集上表现越来越好,但是在生产环境下针对新的数据表现不好。也即扩大范围的泛化能力不强。

    具体执行是这样:训练集被分成互补的两个集合,一个用于训练一个用于验证,训练集不是划分一次,而是划分多次,选出确定的超参数的模型后,就把这个最终的模型在全部训练集上再训练(这我之前没注意到),最后再在测试集上估计泛化误差。

    NFL定理

    没有免费的午餐。

    模型的本质是对观察的简化。

    简化就意味着我们需要丢掉特别详细的细节,这些细节并不能泛化到新的实例上去。但是,哪些数据要丢弃,哪些数据要保留?这就要求我们做出假设,比如这个问题适用线性模型建模呢还是神经网络模型。

    如果对数据本身没有假设,那么就无法断定哪种模型更好。这就是NFL定理。

    但是我们又无法保证哪种模型可以表现更好,唯一能准确知道的方式是在数据上评价它们的表现。在实践中,我们总是要先构建一些合理的假设,并在一些合理的模型上验证。比如简单问题,我们会用线性模型,复杂问题我们则用神经网络模型。

    END.

    参考:

    《Hands-On Machine Learning with Scikit-Learn and Tensorflow》

    展开全文
  • 简而言之,因为机器学习的主要任务就是选择合适的机器学习算法在数据集上进行训练,所以不好的算法和不好的数据都可能严重影响训练效果。下面我们先来看看不好的数据会带来什么影响。 1.4.1 训练数据不足 对一个蹒跚...

    在这里插入图片描述

    红色石头的个人网站:redstonewill.com

    简而言之,因为机器学习的主要任务就是选择合适的机器学习算法在数据集上进行训练,所以不好的算法和不好的数据都可能严重影响训练效果。下面我们先来看看不好的数据会带来什么影响。

    1.4.1 训练数据不足

    对一个蹒跚学步的孩子来说,如何识别苹果?方法是拿出很多各种各样颜色、形状的苹果图片给他看,教他。这样,孩子就能够更好地识别出各种苹果。

    而对机器学习来说还达不到这种程度,大多数机器学习算法都需要很多数据才能有不错的表现。即使是简单的算法可能也需要上千个训练样本。对于复杂的机器学习问题,例如图像识别、语音处理,需要的训练样本就更多了,甚至是百万级别的(除非你基于已有的模型进行再次训练,类似于迁移学习,所需的样本可能不多)。

    数据的不合理有效性

    在 2001 年发表的著名文章里,微软研究员 Michele Banko 和 Eric Brill 展示了不同的机器学习算法在一个较复杂的自然语言消歧问题上的表现情况,他们发现一旦有足够多的训练数据,各算法的表现都基本一致(如下图所示)。

    在这里插入图片描述

    正如作者所说:“这个结果表明我们可能需要重新考虑是花费时间、金钱在算法研究上还是在扩充语料库上。”

    对于复杂问题,数据比算法更加重要这一思想在 Peter Norving 等人于 2009 年发布的文章《The Unreasonable Effectiveness of Data》中得到进一步的推广。值得注意的是,小型和中等数量的数据集仍然非常常见,而且想要获得大量的训练数据通常并不是一件简单的事情,所以还不能抛弃算法。

    1.4.2 没有代表性的训练数据

    为了让模型有更好的泛化能力,很重要的一点是你的训练数据应该有很好的代表性,无论你使用的是基于实例学习还是基于模型学习。

    例如,之前我们训练线性模型选择的一些国家并不具有很好的代表性,缺少了一些国家。下图展示了增加这些国家之后的数据分布和线性模型。

    在这里插入图片描述

    如果你在这些完整的数据上训练线性模型,得到的黑色实线;原来的线性模型是蓝色虚线。如你所见,添加几个缺失的国家后不仅显著地改变了模型,而且清楚地表明,这种简单的线性模型可能永远都不会有很好的性能。看起来,非常富裕的国家并不比中等富裕国家幸福(事实上,他们似乎更不幸福),相反,一些穷国似乎比许多富裕国家更加幸福。

    如果使用没有代表性的数据进行训练,模型不可能得到准确的预测,特别是那些非常贫困和非常富有的国家。

    使用有代表性的训练数据是非常重要的。但这通常比较困难,如果样本太少,容易引入采样噪声(即非代表性的数据);即使是很多样本,如果采样方法有缺陷,也可能得到不好的数据,这被称为采样偏差(sampling bias)。

    一个著名的采样偏差例子

    或许最有名的采样偏差例子发生在 1936 年的美国大选,林轩田课程中也提到过这个例子。当时的候选人是 Landon 和 Roosevelt,《Literary Digest》做了一次很大的民意调查,给 10,000,000 选民发送邮件征集选民意向,总共收到了 2,400,000 的反馈结果。调查报告显示 Landon 的支持率是 57%,但是最终选举投票 Roosevelt 得到了 62% 的选票赢了 Landon。差别如此之大的原因在于《Literary Digest》的民意调查采样方法有缺陷:

    • 首先,《Literary Digest》发送邮件的选民大部分都是美国富人,而这些富人支持共和党(即 Landon)的较多。

    • 其次,只有不到 25% 的人反馈了民意调查。这同样引入了采样偏差,排除了那些对选举不关心的,或者不喜欢《Literary Digest》的,或者是其他关键组织。这种采样偏差被称为无应答偏差(nonreponse bias)。

    还有一个例子,假如你想构建一个系统来识别 funk 音乐视频。得到训练集的方法之一就是在 YouTube 上搜索 “funk music”,得到的视频作为训练集,但这是假设 YouTube 搜索引擎返回的是所有具有代表性的 funk music。事实上,搜索结果可能偏向于推荐某些有名的音乐家(跟你的所在地、平时喜好都有关系)。

    1.4.3 低质量数据

    显然,如果训练数据都是错误、离群点和噪声(例如,由于质量不佳的测量),想要得到一个性能较好的模型是非常困难的。因此,花费时间清洗训练数据是十分必要的,这也是数据科学家们非常重视的。常用的方法如下:

    • 对于离群点,通常的办法是剔除这个实例或者手动修正这个错误。

    • 对于有特征缺失值的情况,可以选择删除这个特征,或者删除缺失特征的实例样本,或者填充缺失值(中值或平均值),或者分别训练包含该特征和不包含该特征的两个模型对比效果等方法。

    1.4.4 不相关特征

    俗话说:种瓜得瓜,种豆得豆。如果训练数据包含了足够的相关特征,没有太多的不相关特征,模型就有能力学习。机器学习如此强大的一个重要原因就是提取一些重要的特征来训练。提取特征并处理的过程我们称之为特征工程,具体包含以下几个方面:

    • 特征选择:从所有特征中选择最有用的特征供模型来训练。

    • 特征提取:结合已有的特征产生更有用的特征(例如降维技术)。

    • 通过收集新数据创建新特征。

    以上就是一些不好的数据类型,接下来我们将介绍有哪些不好的算法。

    1.4.5 过拟合

    举个形象的例子,比如你去某个国家旅游搭乘出租车,半路上司机把你丢在路边,你可能会说这个国家的出租车司机都是坏蛋!这种过度概括的行为是人类经常做的。同样不幸的是,机器有时候也会出现类似的情况,机器学习里称之为过拟合:表示模型在训练数据上表现的很好,但是在其它样本上表现得却不好,泛化能力差。

    下图展示了使用高阶多项式模型来拟合生活满意度与人均 GDP 的关系。尽管在训练数据上该高阶模型表现比简单的线性模型好得多,但是你真的相信这是一个很好的模型吗?

    在这里插入图片描述

    诸如深层神经网络这种复杂模型可以检测出数据中的细微模式,但是如果训练集包含噪声,或者样本不多(带来采样噪声),模型很可能会检测到噪声本身的模式。很明显这些模式无法很好地泛化到其它样本中。例如,生活满意度模型中,采用国家名称这一属性作为特征之一,发现所有训练样本中国家名称包含字母 w 的生活指数都大于 7:New Zealand (7.3), Norway (7.4), Sweden (7.2), Switzerland (7.5)。这种结论你觉得能归纳到训练样本以外的其它样本吗?例如 Rwanda、Zimbabwe?显然是不行的,这一模式只是偶然发生在训练数据中,但是模型本身没有办法判断一个模式是真实反映数据内在特征的还是数据中噪声造成的。

    当模型过于复杂时,容易发生过拟合,常用的解决方法是:

    • 选择少量的参数作为特征,简化模型(例如使用线性模型而不是高阶模型)。

    • 获取更多的训练数据

    • 减少训练数据中的噪声(例如修复数据中的错误,移除离群点)。

    限制模型复杂度,让它变得简单,减少过拟合风险的做法称之为正则化(regularization)。例如,我们之前定义的线性模型包含两个参数 θ0\theta_0θ1\theta_1。这给了学习算法两个自由度来让模型适应训练数据:可以调试直线的截距 θ0\theta_0 和斜率 θ1\theta_1。如果令 θ1=0\theta_1=0,则算法只有一个自由度,很难较好地拟合数据:可以做的仅仅是把这条水平线上下移动,尽量接近训练样本,最终停留在所有训练样本的均值位置。这确实是一个非常简单的模型!如果 θ10\theta_1\neq0,但值很小,学习算法有效的自由度在一和二之间,它比两个自由度模型简单,比一个自由度模型复杂。其实,你的目标就是在完美拟合数据和简化模型之间找到平衡,使模型具有较好的泛化能力。

    下图展示了三种模型:蓝色点线表示原始的线性模型,缺少一些国家的数据;红色短划线表示第二个线性模型,使用了所有国家的数据训练得到的;蓝色实线表示的模型与第一个类似,只是使用了正则化限制。可以看出正则化使得模型的斜率变小,对训练数据的拟合效果比第一种差一些,但是对新样本的拟合效果比第一种更好,泛化能力变强了。

    在这里插入图片描述

    正则化的程度由超参数控制。超参数是算法的参数(不是模型的参数),不受算法本身的影响。超参数在训练模型之前就设置好,整个训练过程中保持不变。如果将超参数设置很大的值,将会得到一个近似平坦的模型(斜率接近 0 )。这时候不太可能出现过拟合,但是模型过于简单,对数据的拟合效果很差。这种情况叫做欠拟合,它和过拟合是两个对立的概念。调试超参数是构建机器学习系统过程中非常重要的一步,下一章节我们想详细介绍。

    1.4.6 欠拟合

    正如上文所说,欠拟合是与过拟合对立的概念:它发生在模型过于简单以至于不能很好地拟合数据的时候。例如,生活满意度的线性模型就可能存在欠拟合,实际的模型可能要比线性模型更加复杂。因此,线性模型即便是对训练样本也会预测得不够准确。

    解决欠拟合得主要方法有:

    • 选择更加强大得模型,带有更多参数。

    • 增加更好得特征到学习算法中(特征工程)。

    • 减小对模型的限制(例如减小正则化超参数)。

    1.4.7 回顾

    到目前为止,我们已经学习了很多机器学习概念知识,下面做个简单回顾:

    • 机器学习就是让机器能够从数据中学习,在某些任务中做得更好,而不是简单地执行固定的程序。

    • 机器学习类型有很多:监督式和非监督式,批量学习和在线学习,基于实例学习和基于模型学习等。

    • 在一个机器学习工程中,我们收集数据作为训练集,使用学习算法在训练集上进行训练。如果算法是基于模型的,得到最佳的模型参数,使模型能够拟合训练集,并且对训练集之外的样本也能有较好的拟合效果。如果算法是基于实例的,学习过程就是简单的记忆,并使用相似性测量来归纳到新的样本中。

    • 以下因素可能造成系统表现不好:训练集样本太少,数据不具有代表性,数据有噪声,受到不相关特征的污染。最后,模型不能过于简单(欠拟合),也不能过于复杂(过拟合)。

    还有一点需要讨论:一旦训练了一个模型,不能仅仅是“希望”它的泛化能力好,我们还要去评估这个模型,必要的时候调试模型。下面就来介绍怎么去调试模型。

    1.5 测试和验证

    评估模型好坏的唯一方法就是测试模型在新样本中的表现。一种做法是把模型直接放到生产中实际检测其表现。但如果模型性能不佳,会让用户抱怨吐槽——因此,这并不是一个好方法。

    一种更好的做法是把数据集划分成两部分:训练集和测试集。顾名思义,训练集用来训练模型,测试集用来评估模型。模型在新样本下的错误率被称为泛化误差(又叫样本外误差,out-of-sample error)。模型在测试集上评估模型,得到的误差可以近似认为就是模型的泛化误差。一般使用整个数据集的 80% 作为训练集,20% 作为测试集。

    如果模型的训练误差(模型在训练集上的误差)很小,而泛化误差很大,则说明模型很可能发生了过拟合。

    这下,评估模型变得简单了:使用测试集即可。如果有两个模型(一个线性模型,一个多项式模型),如何决定哪个模型更好呢?方法就是直接训练两个模型,然后比较它们在测试集上的泛化误差大小就可以了。

    还有一个问题,如何选择最佳的正则化超参数呢?一种方法就是分别使用不同的超参数训练模型,然后比较各个超参数对应模型的泛化误差(泛化误差在测试集上得到),对应泛化误差最小(例如 5%)的超参数即为最佳值。

    然后,将模型上线发布,但不幸的是模型表现却并不像测试时那么好,实际误差达到了 15%。这又是为什么呢?

    问题在于我们是在同一测试集上多次测量泛化误差的,这样产生的最佳模型是适应测试集的,可能造成模型在测试集之外新的样本上表现得不太好。

    解决这一问题通常的做法是除了设置训练集、测试集之外,还设置一个验证集。同样使用训练集来训练不同超参数的模型,每个模型在验证集上进行验证,选择表现最好的超参数对应的模型,最后该模型在测试集上进行测试得到的误差为最终的泛化误差。

    为了避免验证集占用过多的训练样本,造成浪费,通常使用交叉验证(cross-validation):将整个训练集划分为 N 份,取其中的 N-1 份作为训练集,另外的 1 份作为验证集,重复 N 次。然后将 N 次的验证误差求平均作为验证误差。一旦模型和超参数选定之后,使用该模型和超参数,在整个训练集上进行训练。最后,在测试集上测试得到泛化误差。

    无免费午餐定理

    模型是样本观测的一种简化。简化意味着丢弃一些多余的不具备泛化能力的细节。然而,决定哪些数据保留,哪些数据抛弃,我们必须做出假设。例如,一个线性模型假设数据是呈线性关系的,实例与直线之间的距离仅仅是噪声,是可以忽略的。

    在 1996 年的一篇著名论文中,David Wolpert 证明了如果对数据不作任何假设,选择一个模型而不选择其它模型是没有理由的。这被称为无免费午餐(NFL)定理。对某些数据集来说,最好的模型是线性模型,而对于另外某些数据集来说,最好的模型可能是神经网络。没有哪个模型一定是最好的(正如这个定理的名字那样)。确定哪个模型最好的唯一方法就是对所有的模型进行评估,但是这显然不太可能。实际上我们通常会对数据作出某些合理的假设,仅仅评估一些合理的模型。例如,我们可能设置不同的正则化参数来评估线性模型;对于更复杂的问题,可能评估不同的神经网络模型。

    项目地址:

    https://github.com/RedstoneWill/Hands-On-Machine-Learning-with-Sklearn-TensorFlow


    在这里插入图片描述

    展开全文
  • 机器学习的主要挑战主要可分为错误的数据和错误的算法。 错误的数据主要是指训练数据量不足:训练数据太少 训练数据没有代表性:训练数据没有代表性,训练的模型也就没有不可准确预测。 数据质量低:数据中错误、...

    机器学习的主要挑战主要可分为错误的数据和错误的算法。
    错误的数据主要是指训练数据量不足:训练数据太少
    训练数据没有代表性:训练数据没有代表性,训练的模型也就没有不可准确预测。
    数据质量低:数据中错误、异常值、噪声太多、
    不相关的特征:成功的关键之一是:用好的特征进行训练。主要方法是特征选择和特征提取。
    训练数据过拟合:模型在训练数据上表现很好,但是推广效果不好。
    过拟合发生的场景:
    训练数据较少,噪声较多,模型过于复杂。
    解决方法:
    1.简化模型。选择一个参数更少的模型。
    简化模型,降低过拟合风险被称为正则化。
    例子:例如,我们之前定义的线性模型有两个参数,θ0和θ1。它给了学习算法两个自由度以让模型适应训练数据:可以调整截距θ0和斜率θ1。如果强制θ1=0,算法就只剩一个自由度,拟合数据就会更为困难:能做的只是将在线下移动,尽可能地靠近训练实例,结果会在平均值附近。这就是一个非常简单的模型!如果我们允许算法可以修改θ1,但是只能在一个很小的范围内修改,算法的自由度就会介于1和2之间。它要比两个自由度的模型简单,比1个自由度的模型要复杂。你的目标是在完美拟合数据和保持模型简单性上找到平衡,确保算法的推广效果。
    简单来说就是给参数一个限制的范围来减少自由度的数目。
    正则化的度可以用一个超参数控制,超参数是学习算法的一个参数,不是模型的。
    2.收集更多的数据。
    3.减小训练数据的噪声,修改数据错误和去除异常值。
    训练数据欠拟合:由于模型太过简单引起的
    解决方法:
    1.选择一个更强大的模型,带有更多参数。
    2.用更好的特征训练学习算法。
    3.减小对模型的限制,减小正则化超参数。

    展开全文
  • 机器学习是研究如何让计算机不需要明确程序也能具备学习能力。 机器学习非常利于:不存在已知算法解决方案复杂问题,需要大量手动调整或是规则列表超长问题,创建可以适应环境波动系统,以及帮助人类学习...

    机器学习是研究如何让计算机不需要明确的程序也能具备学习能力。
    机器学习非常利于:不存在已知算法解决方案的复杂问题,需要大量手动调整或是规则列表超长的问题,创建可以适应环境波动的系统,以及帮助人类学习(比如数据挖掘)。

    1 机器学习系统的种类

    种类划分标准之间并不排斥,可以任意组合。

    1.1 是否在人类监督下训练

    • 监督使学习:分类任务(垃圾邮件过滤器);回归任务(预测汽车价格)
    • 无监督式学习:聚类算法(访客分组);可视化和降维(特征提取);异常检测(信用卡防诈骗);关联学习(超市摆货规则)
    • 半监督式学习:有大量的未标记数据和少量的标记数据(照片托管服务)
    • 强化学习:通过学习系统(智能体)观察环境->选择执行策略->获得回报/惩罚->不断迭代直至产生最优策略(获得最大回报)(AlphaGo)

    1.2 是否可以动态进行增量学习

    • 批量学习:只能将其所学到的应用出来,无法进行增量学习。【学习过程离线】如果要自主学习适应新环境,需要不断地更新数据,并根据需要频繁地训练新版本的系统。适用于有限资源的系统(智能手机应用程序)
    • 在线学习:需要接收持续的数据流(例如股票价格),同时对数据流的变化做出快速或自主的反映。【学习过程离线】资源有限或者大数据集都使用。依赖学习率(适应不断变化的数据的速度),需要对异常数据做出响应,否则会影响系统性能。
      核外学习:适用于超大数据集(超出一台计算机的主存储器的数据)的再选学习算法。算法每次只加载部分数据,并针对这部分数据进行训练,然后不断重复这个,直到完成所有数据的训练。

    1.3 是否简单地将新旧数据点进行匹配(如何泛化)

    • 基于实例的学习:系统先完全记住学习实例,然后通过某种相似度度量方式将其泛化到新的实例。(垃圾邮件处理)
    • 基于模型的学习:先构造示例的模型,然后使用该模型进行预测。需要设定效用函数(衡量模型多好)/成本函数(衡量模型多差)使用线性回归算法评估模型。(居民生活满意度)

    2 机器学习的主要挑战

    1. 训练数据的数量不足
    2. 训练数据不具代表性
    3. 质量差的数据:丢弃异常情况;忽略实例缺少的部分特征或者补充
    4. 无关特征:特征工程
    5. 训练数据过度拟合:简化模型;收集更多训练数据;减少训练数据中的噪声
    6. 训练数据拟合不足:选择带有更多参数的模型;给学习算法提供更好的特征集;减少模型中的约束
    展开全文
  • 机器学习的主要挑战

    2019-07-29 16:35:00
    简而言之,因为你主要任务是选择一个学习算法并用一些数据进行训练,会导致错误两件事就是“错误算法”和“错误数据”。我们从错误数据开始。...需要大量数据,才能让多数机器学习算法正常工作。即便...
  • 物联网中机器学习的挑战和机遇 据研究报告到2020年,将有超过200亿台互联网连接设备投入使用,这些设备每年将产生超过500个zettabytes的数据,随着更多的技术进步,这个数字预计将继续大幅增加。对于已经投资物联网...
  • 集成学习,而非使用stack,避免overfitting 1.硬件加速,限制模型大小 2.理论 二 监督信息 三 任务环境 预测和训练数据独立同分布 类别标记恒定 属性空间恒定 评价目标恒定 而现在任务...
  • 是懂人工智能人搞业务,还是搞业务学习人工智能? 就我观察,代表我自己观点,我认为一般来说,搞IT人做业务,一般比做业务人搞IT要容易一些。 真正产品如果有其强大功能满足需求一般是会被采用...
  • 机器学习是数据分析的最佳方法。 它还可以自动创建分析业务模型。 这就是机器学习在业务增长中发挥重要作用的原因。 因此,您的企业可能... 在这里,我将列出初创企业实施机器学习的挑战以及如何克服这些挑战。 1....
  • 机器学习面临的挑战和解决方法

    千次阅读 2016-12-29 10:11:23
    今天看了微软亚洲研究院首席科学家刘铁岩博士分享的关于机器学习的六个挑战及解决思路的视频,做了如下总结。  1. 六个挑战  2. 解决方案    1. 六个挑战  2. 解决方案 2.1 对偶学习  对偶学习是为了解决...
  • 2019 机器学习重大成就 在研究机器学习问题时,我们经常在不同步骤中受阻。 为了解决几乎所有这些步骤,我列出了我们面临所有主要挑战以及克服这些挑战可以采取步骤。 为了便于理解,我还将这些挑战归为不同...
  • Nanjing university LAMDA group (abbreviation :learning and mining data) I have wide research interests, mainly including artificial intelligence, machine learning, data mining, pattern ...
  • 孙振平研究员结合国内外机器学习相关技术在智能驾驶领域研究现状和课题组近年来一些研究成果,向与会人员分享了题为《机器学习在无人驾驶中应用现状及面临挑战精彩报告。 国防科技大学智能科学...
  • (二)机器学习面临的挑战 1 训练数据集和输入数据集不一致 机器学习适合解决图像识别,语音识别等方面的问题,但它也存在一些不足。训练数据集和输入数据集不同是机器学习面临的一大挑战,深度学习也有同样的问题...
  • 在研究机器学习问题时,我们经常会在不同步骤受阻。 为了解决几乎所有这些步骤,我列出了我们面临所有主要挑战以及克服这些挑战可以采取步骤。 为了便于理解,我还将这些挑战归为不同子领域,即数据准备,...
  • ↑↑↑关注后"星标"Datawhale每日干货&每月组队学习,不错过Datawhale干货作者:奥雷利安·杰龙由于我们主要任务是选择一种学习算法,并对某...
  • 机器学习100天挑战

    2018-09-09 18:05:51
    你是想喝一辈子糖水,还是想用AI改变世界? ...这个挑战赛意在号召大家行动起来,从参与活动那天起,每天至少花费1小时时间来学习提升或者应用编程,连续坚持100天,从而更好理解和掌...
  • 第一部分概述了AutoML方法。...这些技术模仿了人类从机器学习新手到专家转变过程,可以极大地减少在全新的机器学习任务上获得良好性能所需时间。 第3章全面概述了NAS方法。这是AutoML中最具挑..
  • 导读:让我们看看你在学习过程中可能会遇到哪些问题,阻碍你做出准确预测。简单来说,由于你主要任务是选择一种学习算法,并对某些数据进行训练,所以最可能出现两个问题不外乎...
  • 初创企业估值方法 机器学习是数据分析的最佳方法。 它还可以自动创建分析业务模型。 这就是机器学习在业务增长中发挥重要作用的原因。 因此,您的企业可能... 在这里,我将列出初创企业实施机器学习的挑战以及如何...
  • 机器学习模型部署到网页Also published on my website. 还发布在 我网站上 。 目录 (Table of contents) Traditional Software Development vs Machine LearningMachine Learning WorkflowStage #1: Data ...
  • 大数据挖掘DT数据分析 公众号: datadw ...任务描述:参赛者需要根据知乎给出问题及话题标签绑定关系训练数据,训练出对未标注数据自动标注模型。大赛主页 https://biendata.com/competition/zhihu/
  • 机器学习的主要挑战 简单来说,机器学习的主要任务就是挑选一个算法,并在数据集上训练它。因此,就有两个方面主要的问题:坏数据和坏算法。 训练数据数量不够 要教一个幼儿学习什么是苹果,你只需要指着一个苹果说...
  • 机器学习的主要挑战 典型的机器学习: You studied the data. You selected a model. You trained it on the training data (i.e., the learning algorithm searched for the model parameter values that minimize...
  • 基于协同过滤(CF)潜在因素模型(LFM),如矩阵分解(MF)和深度CF方法,由于其良好性能和推荐精度,在现代推荐系统(RS)中得到了广泛应用。
  • 金融市场已经成为最早采用机器学习(ML)应用领域之一。20世纪80年代以来,人们一直在使用ML以发现市场上规律。尽管ML在预测市场结果方面取得了诸多进展,但最近深度学习并没有对金融市场预测有显著提升。...

空空如也

1 2 3 4 5 ... 20
收藏数 2,304
精华内容 921
关键字:

机器学习的挑战