猜你喜欢
相关培训 相关博客
  • 大数据是目前一个非常活跃的研究领域。由于大数据的海量、复杂多样、变化快的特性,对于大数据环境下的应用问题,传统的在小数据上的机器学习算法很多都不再适用。将大数据应用在机器学习和模式识别中,可以在进行学习和分类时大大提升决策的数据信息,因此,研究大数据下的机器学习算法成为学术界和产业界的研究趋势。本文主要介绍和总结当前大数据下机器学习和模式识别算法的分析与应用。
    2017-01-02 18:42:37
    阅读量:12027
    评论:1
  • 机器学习特征选择的方法总结1.特征选择的重要性随着深度学习的发展, 大大缩减了特征提取和设计的任务。 不过, 特征工程依然是各种机器学习应用领域的重要组成部分。其中对于特征选择(排序)的研究对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:1.减少特征数量、降维,...
    2019-09-12 15:28:33
    阅读量:231
    评论:0
  • 概述在做机器学习的过程中,可视化能帮助我们了解模型训练状态,评估模型效果,还能了解数据,帮助我们了解算法模型,改善模型,在论文中好的可视化也是大大加分的~下面我总结了一下我在做机器学习时候常用的可视化。这篇博文会不断更新,目前水平有限,欢迎小伙伴们补充与指正!!!降维可视化通过PCA、LDA或SVD矩阵分解,将高纬数据转换为2维,便于可视化查看数据分布,了解数据特性。...
    2019-03-16 22:19:59
    阅读量:697
    评论:0
  • 引子这一篇关于机器自然语言应用和特征工程结合的文章,目的在于探讨特征工程的另一种可能性——解决特征稀疏或数据和模型异构场景下一种通用的解决方案。一种大大降低模型开发及数仓建设人力成本,同时提高模型精度的解决方案。 在机器学习科研领域中,往往可以看到的是在规整及缺失率低特征的数据集下,固定的生产线解决一个特定的问题。
    2017-11-14 01:00:39
    阅读量:1219
    评论:0
  • 关于特征工程(FeatureEngineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。纵观Kaggle、KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作
    2016-06-24 09:12:11
    阅读量:17367
    评论:3
  • 什么是参数机器学习算法?它与非参数机器学习算法有何不同?“假设”通常会大大简化学习过程,但也会限制学到的东西。将函数简化为已知形式的算法,称为参数机器学习算法。它包括两个步骤:选择函数的形式。 从训练数据中学习该函数的系数。常见的参数机器学习算法是线性回归和逻辑回归。相反地,不对映射函数的形式做出有力假设的算法,称为非参数机器学习算法。通过不作出任何假设,它可以自由地从训练数据...
    2018-10-02 08:52:50
    阅读量:128
    评论:0
  • 在我的第一篇机器学习笔记的文章中曾写到,机器学习所研究的主要内容是“关于在计算机上从数据中产生模型的算法”,因此在进行机器学习的研究与实践中必然要处理许多的数据。这些数据的维度从低维到高维不等,对于低维的数据计算机处理起来很快,但对于高维的数据计算机处理起来不仅费时费力,而且还往往由于高维中存在着大量噪声,使得最终训练出的模型正确率大大降低。因此如何对数据降维也是机器学习中一个十分重要的话题,本文...
    2018-11-22 23:49:00
    阅读量:53
    评论:0
  • 随机森林定义随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breimanetal.1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman2001a),即通过对数据集的采样生成多个不同的数据集,...
    2018-08-22 22:54:28
    阅读量:2546
    评论:0
  • 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法。还包括了特征提取,数据处理和模型评估者三大模块。sklearn是Scipy的扩展,建立在Numpy和matplolib库的基础上。利用这几大模块的优势,可以大大的提高机器学习的效率。sklearn拥有着完善的文档,上手...
    2019-12-01 19:56:55
    阅读量:14
    评论:0
  • 在线学习  传统的机器学习算法是批量模式的,假设所有的训练数据预先给定,通过最小化定义在所有训练数据上的经验误差得到分类器。这种学习方法在小规模规模上取得了巨大成功,但当数据规模大时,其计算复杂度高、响应慢,无法用于实时性要求高的应用。   与批量学习不同,在线学习假设训练数据持续到来,通常利用一个训练样本更新当前的模型,大大降低了学习算法的空间复杂度和时间复杂度,实时性强。   早期在线...
    2018-07-28 15:51:01
    阅读量:892
    评论:0