• 天池大数据竞赛是由阿里巴巴集团主办,面向全球科研工作者的高端算法竞赛。通过开放海量数据和分布式计算资源,大赛让所有参与者有机会运用其设计的算法解决各类社会问题或业务问题。特别优秀的解决方案将有机会直接...

    天池大数据竞赛是由阿里巴巴集团主办,面向全球科研工作者的高端算法竞赛。通过开放海量数据和分布式计算资源,大赛让所有参与者有机会运用其设计的算法解决各类社会问题或业务问题。特别优秀的解决方案将有机会直接上线阿里巴巴旗下各电商网站(含淘宝、天猫等)或第三方合作伙伴平台,服务中国乃至世界数以亿计的用户。

    2014年3月,阿里巴巴集团董事局主席马云在北京大学发起“天池大数据竞赛”。首届大赛共有来自全球的7276支队伍参赛,海外参赛队伍超过148支。阿里巴巴集团为此开放了5.7亿条经过严格脱敏处理的数据。2014年赛季的数据提供方为贵阳市政府,参赛者根据交通数据模拟控制红绿灯时间,寻找减轻道路拥堵的方法。

    课程链接:天池大赛算法教程及获奖选手答辩

    本课程主要讲解天池新手入门赛的参赛技巧、常用算法,以及获奖选手答辩视频。

    应用意义:

    大数据专家、阿里巴巴集团副总裁涂子沛介绍,比赛中胜出的优秀数据模型,不仅可用于参赛者的学术研究成果,还有机会走出实验室,直接应用于淘宝、支付宝等真实的商业场景,影响中国乃至世界数以亿计的用户。在此前的“天猫推荐算法大赛”中,6名90后大学生研发的个性化推荐算法,在“双11”当天的实战效果超过天猫原有算法的16.9%,赢得100万元奖金。
    涂子沛说,数据经济的时代正在到来,中国2015年拥有的数据量占全球的14%,到2020年这一比例将上升至21%。但我们的数据利用率不到0.4%,更多的数据仍然沉睡在各个角落。中国需要有效的数据处理方法,更需要大数据人才。阿里云天池大赛将成为一个数据众智众创平台,吸引更多政府、公司开放数据资源,创新数据商业模式,引爆新生代力量和数据经济的能量。

    适合人群:

    •  大数据工程师

    更多精品课程:

    阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场

    展开全文
  • 天池大数据竞赛资料(代码和ppt)。 包含了天池大数据竞赛的移动推荐算法和资金流预测竞赛的实现源码和ppt讲解 大数据
  • 阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你! 天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛。通过开放海量数据和“天池”分布式计算平台,大赛让所有...

    阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你! 
      
         天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛。通过开放海量数据和“天池”分布式计算平台,大赛让所有参与者有机会运用其设计的算法解决各类社会生活问题和商业世界中的实际问题。特别优秀的解决方案将有机会直接上线阿里巴巴旗下各电商网站(含淘宝、天猫等)或第三方合作伙伴平台,服务中国乃至世界数以亿计的用户。 
      
         2015年天池大数据竞赛将全面升级为黄金联赛,包含三个不同场景的数据挖掘比赛。联赛采用独立赛制和联赛赛制相结合的形式,落地移动电商、互联网金融、大数据营销等真实业务场景,让数据引爆新生代力量。  
      
    赛题介绍  
      
    《阿里移动推荐算法》  
    2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%。相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息、用户访问的时间规律等。本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。 
       
    《资金流入流出预测》 
    蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群及资金管理压力,在既保证用户尽量高的收益又避免大量赎回挤兑风险的情况下,精准地预测资金的流入流出情况变得尤为重要。此届大赛以《资金流入流出预测》为题,期望参赛者能够通过对用户在历史上的理财产品的申购赎回的数据的把握,精准预测未来每日的申购赎回情况,以让蚂蚁金服拥有更强大的资金管理能力。申购即资金流入,赎回即资金流出。 
       
    《淘宝穿衣搭配算法》 
    淘宝是中国深受欢迎的网购零售平台,其中服饰鞋包行业占据市场的绝大部分份额,围绕着淘宝诞生了一大批优秀的服饰鞋包导购类的产品。穿衣搭配是服饰鞋包导购中非常重要的课题,它所延伸出的技术、算法能广泛应用到大数据营销几乎所有场景中,如搜索、推荐和广告。  
    淘宝穿衣搭配算法竞赛将为参赛者提供搭配专家和达人生成的搭配组合数据,千万级别的淘宝商品的文本和图像数据,同时还将提供用户的真实行为数据。期待参赛者能从以上行为、文本和图像数据中挖掘穿衣搭配模型,为用户提供个性化、优质的、专业的穿衣搭配方案。  
      
      
    大赛奖励  
      
    -独立赛激励(团队奖)  
    -冠军:1支队伍,奖金叁拾万,颁发获奖证书  
    -亚军:1支队伍,奖金伍万,颁发获奖证书  
    -季军:1支队伍,奖金贰万,颁发获奖证书  
    (上述奖项以总决赛答辩的最终名次决定,Top10主要参赛选手可直接入围阿里校招终面)  
    -极客奖:总决赛排名Top50选手获得极客奖证书,收获:1)入围阿里巴巴校园招聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶段) ,在校期间均有效;2)获得风投机构深度关注,有机会成为明星项目创业合伙人  
      
    -黄金联赛激励(个人奖) 
    -黄金奖,1人,奖金拾万,颁发获奖证书  
    -白银奖,1人,奖金伍万,颁发获奖证书  
    -青铜奖,1人,奖金贰万,颁发获奖证书  
    注:1. 如遇积分相同,奖项和奖金均增加,最终解释权归组委会; 2. 上述奖项获得者可直接入围“阿里星”计划;  
      
    083316dmxhilzidh2ihbmd.jpg.thumb.jpg 

    展开全文
  • 这篇文章记录2015阿里天池大数据竞赛中,CSDN博主@wphh 的一些代码,由于代码分享时比赛正在进行中,基于规则,仅分享一个naive solution,下面是代码的一些说明。有兴趣的请看代码注释。 阿里天池大数据竞赛网址...

    转自:http://sanwen8.cn/p/151ompp.html

    这篇文章记录2015阿里天池大数据竞赛中,CSDN博主@wphh 的一些代码,由于代码分享时比赛正在进行中,基于规则,仅分享一个naive solution,下面是代码的一些说明。有兴趣的请看代码注释。

    阿里天池大数据竞赛网址:http://tianchi.aliyun.com/competition/index.htm?spm=5176.100068.1234.3.QXawzL

    回复本公众号“天池源码”即可获取。


    代码使用说明

    • 解压后,将tianchi_mobile_recommend_train_user.csv以及tianchi_mobile_recommend_train_item.csv放入/data/目录下

    • 仅需两个步骤即可获得一份提交文件,F1可达到7.6%

      • 第一步,进入/preprocess/目录,运行data_preprocess.py

      • 第二步,进入/rule/目录,运行gen_submission_by_rule.py

    • 完成上面两个步骤后,在/rule/目录下会生成一份tianchi_mobile_recommendation_predict.csv文件,提交它。

    补充说明

    • 纯Python,无任何依赖项。

    • 关于代码实现的功能,在每份代码文件中均有注释,代码可能写得比较乱,也可能有bug,欢迎issues。

    • 如果你想获得更高的F1值,修改gen_submission_by_rule.py这份文件,加入一些规则,F1可以达到9%以上

    • 建议在Linux下运行;在我的PC上(8核),上面两个步骤总共花了不到20分钟。

    • 请在规则的基础上,做特征工程,训练模型,这才是参赛目的。



    2014天猫推荐算法大挑战参数分享


    1、我们要做的是什么

    根据官方描述,这次比赛要做的就是:根据用户4个月在天猫上对品牌的点击、收藏、购物车、购买等行为记录,预测第5个月哪些用户会购买哪些品牌。

    1.1分解问题

    再进一步细化,问题可以分为3个部分:在下一个月,哪些品牌可能被购买,哪些用户会进行购买,以及用户会购买的是哪些品牌。简而言之,就是找出决定“购买”这一行为是否会发生的3方面的因素:品牌特征,用户特征,用户-品牌特征。

    1.2 如何训练和预测

    以交叉验证为例,训练样本是取自第31-61天中的用户-品牌对集合A,而A中在第62-92天中存在购买的用户-品牌对为正样本,其余为负样本。然后预测第31-92天中的所有用户-品牌对有哪些可能会在第93-123天中发生购买。线上训练、预测类似。

    P.S.:一直到7月下旬,我才猛然惊醒,自己的训练集构建是有错误的。一直以来标记的训练样本都是以“天”为单位,比如,用户B在第12天对品牌C发生了购买,那么我提取的特征都是针对第12天,而且还把第12天的数据当作特征抽取来源,但是实际上,这和我们要预测的情况是不一样的(要预测的是下一个月)。由此导致前面几个月分数一直不高,好在后来来得及纠正。本总结技术部分只拣最后的模型来讲。

    2、数据清洗

    2.1购买后的点击

    根据@算者的提示,用户在购买之后的点击很可能只是为了查看是否已发货或者再次回味,而与新购买的发生并无直接关系,所以我选择了删除购买之后3天内的点击(且3天内并未有新的购买发生)。

    P.S. :后来听@nextrush说,在不能完全确定可删的情况下,最好是保留原始数据。现在想来,确实如此,毕竟在最后3天,我们无法得知购买后的点击是否为新购买的铺垫,这就造成了训练与预测上的差异。

    2.2 爬虫用户

    根据一些对用户的简单统计,可以明显看出某些用户的行为是极其异常的,在S2未换数据前,有一个用户的点击达到了千万级别,远远超过排第二的用户,访问的品牌也基本覆盖了整个品牌集合,而且无任何其他操作(购买等),基本可以认定是爬虫。因为爬虫的行为可以说毫无意义,只是单纯的抓取商品信息,但是对于商品特征的构建造成干扰,于是在构建特征前就删除(换数据后没有此类爬虫)。

    3、特征构建

    总而言之,特征的构建要从会否“购买”出发,既要考虑什么样的用户会买、什么样的品牌能卖,也要考虑哪些用户不会买、哪些品牌不好卖,更重要的是,要分析好用户与品牌之间的关系,找出已交互里用户会买的那些。

    3.1 品牌特征

    之所以先说品牌特征,是因为一开始重点研究是就是这个。一开始的时候,想着用户很大程度会受搜索排序的影响,为了启发思路特地去研究天猫的排序规则,可惜@樱木说这是机密不能外泄,于是只能到网上找些卖家自己研究出来的指标、以及一些可能借用过来的指标。

    于是,前前后后借用的、受启发而想到的特征,基本如下:

    3.1.1 基本统计类特征

    A. 销量(前3、7、15、30、124天,以下特征基本都是这么个周期,如无特别说明,谈论的各个指标均有特定周期)

    B. 成交订单数(以同一天同一用户为一个订单)

    C. 购买人数(周期内经过去重的购买人数)

    D. 上面的3类特征分别再针对点击、收藏、购物车等操作进行统计。

    3.2.2 转化率类特征

    A.销量/点击数

    B.成交订单数/点击订单数

    C.购买人数/访问人数(这里考虑到部分点击数据丢失,就没以点击人数为分母了)

    D.上面的3类特征分别再针对收藏、购物车等操作进行统计

    3.2.3 比值类特征

    A.返客率(某一周期内多次购买的用户数/总购买用户数)

    B.老客户率(3天【或其他周期7、15、30】前曾购买过且在前3天内再次购买的用户数/3天内总购买用户数)

    分别再针对收藏、购物车、点击等操作构建上述2个特征。

    P.S.:这里返客率和老客户率均不含124这个周期。

    C.跳出率(周期内只对品牌进行过1次点击操作的用户数/总用户数)

    D.活跃度(周期内有3次及以上点击的用户数/总用户数)

    E.人均点击数、人均购买量、人均收藏量、人均购物车量等

    F.不在初次访问品牌时进行购买的订单数/总订单数(以此获得品牌在下个月被购买的可能性)

    3.2 用户特征

    用户特征的主要出发点是找出什么样的客户才可能买,结合之前对爬虫类用户的分析、以及对品牌特征构建的经验,得出如下特征:

    3.2.1 基本统计类特征

    A.购买量

    B.成交订单数

    C.购买品牌数(周期内去重)

    D. 分别针对点击、收藏、购物车等操作再进行统计

    3.2.2 转化率类特征

    A.购买量/点击量

    B.成交订单数/总订单数(一天访问一品牌为一订单)

    C.购买品牌数/访问品牌数(品牌周期内去重)

    D.分别再针对收藏、购物车等操作进行统计

    3.2.3 比值类特征

    A.用户活跃天数/当前日期(一般来说,越活跃的用户越不会买,大多特征源于对爬虫特点的分析)

    B.发生购买的天数/总活跃天数

    C.用户购买总量/购买天数

    D.等等类似的一些可以反映用户购买可能性的特征

    E.不在初次访问品牌时进行购买的订单数/总订单数(以此获得用户在下个月购买的可能性)

    3.3 用户-品牌特征

    3.3.1 基本统计类特征

    A.截止到最后一天(比如交叉验证训练集的第61天)累计的点击(或衰减后点击)

    B.同样的特征分别再针对收藏、购物车、购买等操作进行统计

    C.截止到最后一天,用户对品牌进行过访问的次数、购买的次数、收藏的次数、购物车的次数(或经过时间衰减)

    D.截止到最后一天,用户对品牌进行第一次访问(收藏、购物车、购买)到最后一次访问的时间间隔(或经过时间衰减)

    E.用户最后一次访问(收藏、购物车、购买)距离下一个月第一天(如62)的时间间隔

    3.3.2 比值类特征

    A.购买该品牌次数/总购买次数

    B.对该品牌的总点击(购买、收藏、购物车)数/访问次数

    C.在对品牌A进行访问的那些天里,用户对A的点击数/那些天里的总点击数

    D.在对品牌A进行访问的那些天里,A的销量/那些天里的所有品牌的总销量(这个特征在实现思路上消耗内存太大,未能实现)

    4、模型选择

    4.1 单模型

    4.1.1 逻辑回归

    特征子集的确定比较麻烦,并且不能处理和target具有非线性关系的特征。

    4.1.2 随机森林

    随机森林的优点是对于特征的选取要求不高(当然,可以的话还是去掉弱特征和线性相关较强的特征里较弱的特征),并且能帮助找出特征的重要性,但是缺点也很明显——由于要建树,导致预测耗时非常久。

    4.1.3 GBRT

    最后一天,匆匆忙忙上阵GBRT,感觉优点是快,几乎20分钟一次交叉验证,调了一天参数,最终还是比RF低一点点,融合之后居然升了0.02.

    4.2 融合

    4.2.1概率加权融合

    由于之前模型思路上的错误,耽误了很多时间,最后其实只实现了一次融合,根据交叉验证中RF和GBRT的表现来对输出的概率加权。

    4.2.2 对rank进行加权

    对每个模型按概率输出的rank对用户-品牌对进行加权融合。这个方法来自@nextrush,还没来得及验证。

    5、未能完成的工作

    一直是想做未交互的,毕竟未交互的交易占了总量的近80%,奈何个人能力、精力有限,未能验证以下初步想法:

    A.首先最重要的是对品牌以共现率进行聚类

    B.找出容易被用户“迁移”的类别

    C.找出用户最近重点关心的类别

    D.然后以类似已交互的方法构建训练集、预测集

    6、总结与反思

    6.1 队友很重要

    没有队友会很累,肉体上、精神上都累,更重要的是,一个人思维容易受限,建模和代码的bug难以发现,idea更是难以创新。应了那句African proverb ——"If you want to go fast, go alone. If you want to go far, go together." 当然,这里的队友显然是指能真正和你一起前进的队友。

    6.2 交流很重要

    好在虽然没有队友,还有官方群,有各位大神的讨论,虽然建模上没有得到太多启发,但是算法的选择和融合上受益良多。

    6.3 思考最重要

    记得内部赛有位前辈@iching说过“没有队友的你,更多的是昨天的自己和今天的自己在交流”。一个人在思考的时候容易受限,但正因如此,更应该多问问自己为什么一直没有提升,只有多想想,才有可能找到自己之前未能发现的错误,也才能迸发新的创意。当然,实在思想僵化的时候可以试着找些别的事情做,放松一下大脑,说不定灵感就来了呢!

    6.4 永远不要放弃

    在比赛的中途,能看到有很多队伍都放弃了,可能因为忙其他的,也可能因为不适应真正的大数据,或者不适应阿里的平台。无论如何,放弃的那一刻就注定了失败。可我想,我们来比赛,难得碰到阿里提供这么一个好的机会,尤其是@一婷姐的部门预算超支@山水哥这些一线员工忙里忙外,这一切的一切那么不容易,而我们也曾在S1那增长速度无比恐怖的baseline下起早贪黑,我们怎么能轻言放弃。

    一开始参赛的目的无非学**、工作2个目的,可后来慢慢地随着自己一天天的投入,一次次的晚睡,一场场查分的欢喜或失落,比赛的意义早已超过最开始的动机。大概,只有真正为这场比赛付出过的人才懂得珍惜吧。

    Reference

    1、电子商务数据分析指标体系:

    http://news.iresearch.cn/Zt/123380.shtml

    这个链接里面讲到的东西基本上是我整个特征体系的主要灵感来源了。

    2、Treelink算法介绍:

    http://www.searchtb.com/2010/12/an-introduction-to-treelink.html

    GBDT(MART) 迭代决策树入门教程 | 简介:

    http://hi.baidu.com/hehehehello/item/96cc42e45c16e7265a2d64ee

    对于GBRT不是很了解,甚至到最后也就用了一天,不过感觉是神器,比RF快很多,如果有时间继续调模型,说不定会比我RF模型更好。

    3、随机森林算法:

    http://www.zilhua.com/629.html

    决策树建树算法:

    http://zhouyichu.com/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/Decision-Tree-2.html

    随机森林的了解,要从两方面,先了解决策树,再了解随机森林的思想和大概过程。

    4、支持向量机通俗导论(理解SVM的三层境界):

    http://blog.csdn.net/v_july_v/article/details/7624837

    虽然一直没用这个算法,但是为了做了解,感觉这篇文章还是讲得很好的。

    5、购买行为分析:

    http://wiki.mbalib.com/wiki/%E8%B4%AD%E4%B9%B0%E8%A1%8C%E4%B8%BA

    里面讲到的东西感觉很有用,可惜由于能力有限,很多理论未能建成数据模型。

    展开全文
  • 2015阿里天池大数据竞赛-Solution
                         

    竞赛介绍:链接

    这篇文章记录2015阿里天池大数据竞赛中,我的一些代码,由于目前还在比赛中,仅分享一个naive solution,基于规则,代码主页在我的github上:链接,下面是代码说明。有兴趣的请看代码注释,恕不详述。

    本repo目录说明

    • data  存放数据
    • preprocess    数据预处理
    • rule   根据规则生成提交文件
    • model   训练机器学习模型(暂时不分享)

    代码使用说明

    • fork本repo,非Github用户请点右下角的Downlown ZIP

    • 解压后,将tianchi_mobile_recommend_train_user.csv以及tianchi_mobile_recommend_train_item.csv放入/data/目录下

    • 仅需两个步骤即可获得一份提交文件,F1可达到7.6%

      • 第一步,进入/preprocess/目录,运行data_preprocess.py
      • 第二步,进入/rule/目录,运行gen_submission_by_rule.py
    • 完成上面两个步骤后,在/rule/目录下会生成一份tianchi_mobile_recommendation_predict.csv文件,提交它。

    补充说明

    • 纯Python,无任何依赖项。

    • 关于代码实现的功能,在每份代码文件中均有注释,代码可能写得比较乱,也可能有bug,欢迎issues。

    • 如果你想获得更高的F1值,修改gen_submission_by_rule.py这份文件,加入一些规则,F1可以达到9%以上

    • 建议在Linux下运行;在我的PC上(8核),上面两个步骤总共花了不到20分钟。

    • 请在规则的基础上,做特征工程,训练模型,这才是参赛目的。

    • 进入第二赛季后,请删了这些代码,不适合处理大数据。

               
    展开全文
  • 资源为今年八月份参加天池大数据竞赛a股公司营收预测使用的预处理后的数据和对应的算法文件
  • 后来我还是默默地报名的参加了,虽然已经不是第一次报名天池组织的大数据竞赛,但是之前都是因为各种各样的原因报了名也没真花时间去做,所以这次狠下心来要大干一场。现在回过来想想还是蛮有意思的,这个过程中学到...


             当我第一次听到这个比赛的时候,其实我是拒绝的。后来我还是默默地报名的参加了,虽然已经不是第一次报名天池组织的大数据竞赛,但是之前都是因为各种各样的原因报了名也没真花时间去做,所以这次狠下心来要大干一场。现在回过来想想还是蛮有意思的,这个过程中学到了很多,尤其是现学现卖的本领。

             这个题目本身还是很有意思的,根据提供的历史用户申购赎回数据预测14年9月每天的申购赎回总量。自己之前参加过数学建模竞赛,在这个预测方面有一些基础,但最后发现然并卵。

            初赛是在线下进行的,数据量也比较小,因此操作起来不是很麻烦。这个预测从总体上可以分为时间序列预测和回归两个大的方向。我们首先尝试的方法是概率模型,计算出每个用户在一周7天每一天产生申购或者赎回行为的概率,并计算出该用户在这一天申购或赎回的均值。最后需要预测的9月份就用每个用户在当天产生行为的概率乘以均值然后求和,最后测评的成绩是114分。第二天我们分析对这个模型进行了分析,我们用的概率模型存在几个问题。第一,用户的数量每天都在增加,我们的模型中没有考虑;用户每天的申购赎回金额用一个均值来表示误差比较大。我们又对题目进行了剖析,题目需要我们预测9月份每一天申购和赎回的总量,对于预测总量我们觉得对单个用户分析就不合适了,应该也要从总量来处理。然后我们查阅了一些资料,想从时间序列预测入手,时间序列预测比较经典的模型就是ARIMA模型,运用ARIMA模型需要原始序列是平稳的。而对于历史的每天的申购总量序列和赎回总量序列的平稳性也只能大概的判断,利用R语言的forecast包进行了自动ARIMA模型预测,没有其他的任何特征,最后的测评结果比概率模型高了一些。后来通过改进,加入季节性特征,并自己不断尝试p,d,q三个参数的值,因为初赛的测评机会比较多,所以尝试了很多次,选择了一个比较好的参数。如果ARIMA模型不加其他特征,是很难取得突破性的提高。在选取特征方面无从下手后,我们对历史的申购和赎回序列进行了其他的处理,尝试了指数平滑但是效果并不好。后来把这个序列类比成信号,对其利用emd经验模式动态分解,然后对分解后的每个信号进行预测并相加。尝试了无数的方法,但是并没有在某一种方法上进行很深的研究,因此成绩也不是很好。而原始的数据集的影响也是很大的,在换了数据集以后,原先的模型可能根本不适用了,原先的特征在新的数据集中也没有体现出来,因此在模型的鲁棒性上还是需要不断提高。初赛前500名进入复赛,相对来说还是比较容易,最后以156名进入复赛。

            复赛实在天池平台——御膳房上操作,这个一开始确实有点棘手,熟悉这个平台花了1、2天的时间,我们团队在这个ODPS平台上主要用的是ODPS_SQL和R脚本。首先还是依葫芦画瓢,实现了论坛上的baseline,这个中间也遇到了不少的问题,主要还是对平台不太了解,一些R脚本在本地可以运行但是放到平台上就各种报错,然后就去找阿里的平台工程师求救。后来渐渐熟悉了这个平台,也用的比较得心应手了,这次我们准备多模型结合来做,因为初赛的经验发现单模型再怎么都很难有很大的提高。也是从时间序列和回归两个方向入手,时间序列还是采用的ARIMA模型,加入了星期的特征。回归采用的是R中的lm——多元线性回归,把申购和赎回看作是星期的函数,星期是一个0-1变量,星期几对应的那个就是1,其他就是0。初次测评的成绩还算不错,但是渐渐大家都开始在baseline上改进,排名就蹭蹭蹭的掉了。考虑到申购中从支付宝余额和从银行卡购买是不一样的,因此我们将申购拆分为了这两个部分,分别用lm进行预测,同样的赎回分为了消费和转出两个部分来计算。由于lm模型中并未加入新的特征,因此提高的很有限。最后就把ARIMA预测的结果和lm预测的结果加权,不断进行调整权值,可能是原先的两个模型计算的结果并不是很好,因此怎么调整提高也不多。在和其他组交流以后,发现我们之前都没有考虑节假日的影响,其实9月有中秋节和国庆前,这些节假日用模型是很难预测。我们组的方法是借鉴历史数据的端午节等节日,假设节日相似,然后进行了一些单点调试。测评结果显示这些节假日确实影响挺大的,碍于方法上没有突破,最后虽然以100名进入part2但是最终的排名是110名。

             总结一下,通过这次比赛发现自己对数据的特征提取还是比较差,也就是说对数据的敏锐的嗅觉还不够。相信最后的前几名都是深挖了这些数据中的一些内在特征。同时也是第一次参加天池的大数据比赛,抱着试试看的心态,因为对自己最后的成绩也还算满意,总之收获还是很多的。

    展开全文
  • 刚好看到天池在举办ICPR MTWI 2018挑战赛,就鼓起勇气参加一下。这次的ICPR MTWI 2018,共有三个赛事,分别是网络图像的文本识别、网络图像的文本检测、网络图像的端到端文本检测和识别,属于场景文字识别领域。鉴于...
  • 天池大数据竞赛】“数智教育”2019数据可视化竞赛亚军方案总结   “数智教育”是我第二次参加天池的可视化的竞赛,对于我们来说,比赛最吸引人的地方在于天池的竞赛数据基于真实应用场景,在系统的设计与开发的...
  • 阿里天池大数据竞赛

    2015-08-23 20:32:47
    《阿里移动推荐算法》 2014年是阿里巴巴集团...本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推
  • 明明是移动推荐算法,非要搞成二分类问题。。 机器学习什么的不太懂,什么训练集测试集验证集,什么交叉验证,什么LR SVM,什么weka之类的,不管了。。 大神学姐说主要还是在找特征,模型什么的不是很重要。...
  • 对数据进行预处理,生成更多的训练样本。基于以上构建的训练集,训练了多个回归模型,包括:XGboost、GBDT、RandomForest、SVR(线性核与高斯核),训练时各个分仓是分别建模的。
  • 阿里天池大数据竞赛——口碑商家客流量预测A
  • 2015年的天池大数据竞赛PDF,有兴趣的可以下载。觉得在校学生可能需要。不喜勿喷哦~
  • 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100066.333.4.WhLsGZ&raceId=2315911、首先下载数据集,数据集中...
  • 先进行数据清洗得到2015~2016年商家每日销量。 格式: shopid: 2015-07-01:20 2015-07-02:30 …… 缺失值用均值填充。 用arima的预测模块进行预测。 结束后来补。loss低就不写啦~
  • 向AI转型的程序员都关注了这个号
1 2 3 4 5 ... 20
收藏数 1,145
精华内容 458