热门好课推荐
猜你喜欢
相关培训 相关博客
  • 这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且了解项目情况的朋友。本文分为两部分介绍Kaggle,PartOne简单介绍Kaggle,PartTwo将简单介绍正规的竞赛的项目,大家可以针对性的解决感兴趣的题目。1、Kaggle简介Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/企业或者研究者可以将数据、问题描述、期望的指标发布到Kagg
    2017-08-14 19:03:13
    阅读量:20073
    评论:0
  • 记录自己的第一次天池大赛。。。1.从接触大数据及机器学习以来,学习了较多理论知识,但接触项目不多,大多都是课程的project。不过在跟行业大牛取经后,发现若导师没有相关项目、或者没有来源的话,打比赛或许是提升实践的不错方法。比较知名的有国外的Kaggle,国内阿里天池大数据竞赛,有燃起了心中无限的比赛欲望。2.抱着重在参与、学习的态度,准备在天池大数据平台试试水。Ti
    2017-10-02 20:55:58
    阅读量:4875
    评论:1
  • 1、什么是数据泄露数据科学的中的数据泄露(DataLeakage)和其他场合涉及信息安全的数据泄漏不一样,是指一些feature不是在因果关系上顺利释预测值的‘因’,而是预测值的‘果’,存在和利用这种因果倒置的feature的现象,叫数据竞赛中的DataLeakage。DataLeakage基本都是竞赛主办方在准备数据或者数据采样的时候出了问题,误将与结果直接相关或存在颠倒因果关系...
    2018-12-18 10:58:40
    阅读量:1122
    评论:0
  • 1.为什么做特征工程       我们学习编程语言时被告知程序=数据结构+算法,那么对于机器学习,我认为也可以类比为机器学习=大数据+机器学习算法+运行平台。面对一个机器学习问题,一般有两种解题思路:传统机器学习算法或者深度学习算法。一般而言,传统机器学习需要的样本数量相对少、算法运行快、内存开销小、算法的运行和部署难度小,但困难是对数据的表示:特征工程,也可以形容为沙里淘金;而深度学习算法,可...
    2018-07-10 15:42:33
    阅读量:1440
    评论:0
  •  亚马逊AWS高级技术顾问WillBadr介绍了8种寻找机器学习数据集的方法1、Kaggle数据集 Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式。此外,你还可以在这里找到与每个数据集相关联的交互式笔记本Kernels,这些笔记本能够在浏览器中运行。在这里,每个数据集都是一个小的交流社区,可以讨论数据,寻找一些公开的代码,或者在Kern...
    2019-01-21 14:54:40
    阅读量:636
    评论:0
  • 第1章简介篇1.1机器学习综述机器学习系统具备如下特点:>许多机器学习系统所解决的都是无法直接使用固定规则或者流程代码完成的问题,通常这类问题对人类而言却很简单。比如,计算机和手机中的计算器程序就是不属于具备智能的系统,因为里面的计算方法都有很清楚而且固定的规程;但是,如果要求一台机器去辨别一张相片中都有那些人或者物体,这对我们人类来讲非常容易,然而机器却非常难做到。>所谓具备“
    2017-04-18 10:49:07
    阅读量:4951
    评论:0
  • 数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggetsCompetition全国高校云计算应用创新大赛ByteCup国际机器学习竞赛WID数据竞赛数据火车竞赛网站DrivenDataCompetition上海SODA大赛赛氪网TopCoder大赛网数据科学&机器学习的在线学习资源
    2017-02-26 11:55:34
    阅读量:4044
    评论:1
  • 前面几篇逻辑回归的例子有些是人造出来的,有些是比较正规的,但数据都比较完整,没有缺失的属性。虽然我们在很多数据上取到的非常好的效果,但总感觉好像不够味,不像实战。所有的数据下载地址:https://gitee.com/tianyalei/machine_learning,按对应章节查找。那么这里有个地方给带给你想要的实战——Kaggle数据分析建模的应用竞赛平台,企业或者研究者可以将问题背景、数据...
    2018-06-14 20:23:18
    阅读量:6387
    评论:2
  •       作为新兴起的、高度灵活的一种机器学习算法,随机森林(RandomForest,简称RF)拥有广泛的应用前景。我发现最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对随机森林的使用占有相当高的比例。此外,据我的了解来看,一大部分成功进入答辩的队伍也都选择了RandomForest或者GBDT算...
    2018-05-10 14:02:19
    阅读量:119
    评论:0
  • 问项目谈谈你最熟的或者做的时间最长的项目描述项目解决的问题描述数据挖掘竞赛解决的问题描述对问题的分析描述解决方案的流程,数据挖掘的流程怎么做特征工程的数据预处理的方法有哪些归一化标准化方法有哪些对缺失值处理方法有哪些对项目的数据做了哪些处理怎么提取特征的,提取特征的方法提取了多少特征,特征的维度,哪些特征比较好对特征的评估方法是什么,怎么判断其好坏用了什么模型...
    2018-03-23 19:21:40
    阅读量:227
    评论:2