热门好课推荐
猜你喜欢
相关培训 相关博客
  • 由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题。这篇主要是关于机器学习中的数据预处理的scaler变化。工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为0;但是在早上8点以后数据就会激增最高常常是500以上的情况。通常,在DataScience中,预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明...
    2019-01-06 19:32:29
    阅读量:2540
    评论:1
  • 机器学习在数据处理方面可能会遇到-CSV数据打开乱码的问题,其实是csv格式特有的原因:按照以下的教程,将会解决乱码的问题:方法1:   安装一个Editplus文本编辑器,文本读取的神器,一般默认格式是UTF-8格式;   优点:(1)  可以自动的进行文本的统计和标记、文本中选中的内容在整个文档中自动标记比较明显的颜色;  缺点:对应的列没有对齐,看起来不是...
    2018-11-23 14:27:43
    阅读量:92
    评论:0
  • 说完机器学习的方法,下面要谈一谈机器学习的应用了。无疑,在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。譬如,但凡你能找到的介绍大数据魔力的文章,都会说大数据如何准确准确预测到了某些事。例如经典的Google利用...
    2018-05-22 16:54:20
    阅读量:3576
    评论:0
  • 解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。解决方式分为:.一、相关方法总结1、采样采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集,在大部分情况下会对最终的结果带来提升。采样分为上采样(Oversampling,过采样)和下采样(U
    2017-07-23 11:10:42
    阅读量:6967
    评论:1
  •     最早是在《数据处理与优化算法》课堂上接触到数据挖掘(DataMining),接着自学Pang-NingTanetal.的《数据挖掘导论》入门数据挖掘。所以我先讲一下数据挖掘、机器学习(MachineLearning)和统计学(Statistics)的关系。个人理解是传统统计学往往是更加偏向于纯粹的数学,偏向于理论。机器学习偏向于数学与计算机的交叉,统计的理论往往需要通过机...
    2018-04-16 15:01:48
    阅读量:2865
    评论:0
  • 数据类型1、属性:属性是对象的性质或者特性,它因对象而异,或随着时间变化。我们根据属性值的运算定义下面四种属性类型:数据集的一般特性1、维度:分析高维数据有时会陷入维灾难,数据预处理的一个重要动机就是减少维度。2、稀疏性:有些数据集如果具有非对称特征的数据集(一个对象的大部分属性上的值都是0,出现非零属性值才是最重要的)。实际上稀疏性是一个优点,因为只有非零值才需要存储...
    2018-09-08 18:04:25
    阅读量:7874
    评论:0
  • 特征工程1前言在机器学习界,有这么一种说法:数据和特征决定了机器学习的上限,而算法和模型只是逼近这个上限。所谓特征工程,是指使用专业的知识处理数据,使得特征能在算法上发挥更好的作用。特征工程关键是贴近业务找出高效的特征。特征工程包括特征使用方案、特征获取方案、特征处理、特征监控,框架如下图:特征处理是特征工程中的核心部分,Scikit-Learn是python的机器
    2016-10-23 21:05:59
    阅读量:4117
    评论:1
  • 支持机器学习!LiDAR360点云数据处理分析软件V2.1发布随着2018年的到来,LiDAR360也迎来2.1版本,作为一款专业的激光雷达点云处理分析软件,LiDAR360基于海量点云数据的处理平台,同时支持地形、林业、电力等行业应用模块进行多源数据叠加分析,提取相关行业的场景特征点,进行点云大数据信息挖掘,满足不同行业多层次的应用需求。    新版本在2.0的基础上对DEM/DSM插值算法...
    2018-03-06 16:04:27
    阅读量:2472
    评论:1
  • 对于数据挖掘和处理类的问题,使用一般的机器学习方法,需要提前做大量的特征工程工作,而且特征工程的好坏会在很大程度上决定最后效果的优劣(也就是常说的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已)。使用深度学习的话,特征工程就没那么重要了,特征只需要做些预处理就可以了,因为它可以自动完成传统机器学习算法中需要特征工程才能实现的任务,特别是在图像和声音数据的处理中更是如此,...
    2018-10-04 15:37:41
    阅读量:1603
    评论:0
  • 简单介绍机器学习主要分为俩大类:分类问题和回归问题。决策树是常用的分类学习算法,当然也能用于处理回归问题,同时也适合集成学习比如随机森林,作为机器学习的入门算法今天简单介绍一下决策树算法的原理和实现(python)决策树的特点:优点决策树易于理解和实现。对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型>属性,在相对短的时间内能够对大型数据...
    2019-06-05 12:59:51
    阅读量:30
    评论:0