订阅云计算RSS CSDN首页> 云计算

学生强则国强,访天猫推荐算法大赛Top 9团队

发表于2014-08-29 08:35| 次阅读| 来源CSDN| 0 条评论| 作者仲浩

摘要:历时四个月,他们从全球14个国家和地区的7276支队伍中脱颖而出,以优秀的算法问鼎比赛Top 9。同时,如果不计模型调优周期,他们许多人的最后得分都高于阿里内部赛冠军。

历时四个多月的2014阿里巴巴大数据竞赛终于告一段落,在竞赛第三季即将开始之前,CSDN与排名前9的团队取得联系,并做了简要采访。而在领略天猫推荐算法大赛Top 9团队风采之前,我们首先对大赛背景进行一个简要的回顾。

天猫推荐算法大赛背景

首届竞赛以天猫推荐算法大挑战为主题,提供抽样后的1千多万天猫用户,2万多个天猫品牌,总计5.7亿条经脱敏后的天猫海量真实用户的行为记录数据。所有的数据经过严格的脱敏处理,切实保障消费者与品牌商的数据隐私。选手通过建立算法模型分析用户在天猫上的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。大赛平台基于阿里云的开放数据处理服务ODPS,为高校学子提供大数据实战机会。

此次“脚踏实地”的数据竞赛,获得了高校和科研机构的强烈反响——从大数据竞赛3月10日宣布报名以来,在短短的一个月内,就迅速吸引了全球14个国家和地区7276支队伍参赛,经过了4个月的多轮选拔,有几百只队伍坚持下来了,并且取得了非常不错的成绩。而更值得关注的是,选手的成绩已经超过了内部赛的阿里工程师(ps:内部赛的周期很短)。比赛接下来将进入第三赛季,第二赛季的TOP 3选手将受邀参加天猫双十一实战,与天猫算法团队正面交锋,使用真实的第一手数据,让其算法上线接受真实流量的考验。

9th:Give


Give,来自浙江大学计算机学院数字媒体与企业智能计算实验室,浙大直博生。7月29号的F1成绩是6.10%,结合评委打分,最后排名第9。

CSDN:请描述你的解题思路、算法亮点以及着重攻坚方向,并具体的谈一下特征抽取、训练模型的建立,以及模型的训练思想。

Give:

解题思路:从用户的历史行为中提取特征,下一个月有购买分为类别1,未购买分为类别0。

1. 数据预处理:通过对数据进行仔细观察,发现原始数据中有两天的点击数据全部丢失,其他日期内也有部分点击数据的丢失,推测原因可能是点击的时候用户未登录,或者是在手机等设备中点击导致数据丢失。我们根据用户以往的行为记录和品牌以往的行为记录,推测用户在购买前的点击次数,对这部分的缺失数据进行填充。此外还对点击狂魔(疑似爬虫)数据进行了平滑。由于我们是在特征提取前对原始数据进行的数据预处理,因此在特征提取阶段保证了数据的一致性。

2. 特征提取:提取的方式采用map-reduce编写的代码一次提取完成,避免频繁的使用SQL进行表连接。特征包括用户特征、品牌特征、用户-品牌特征和综合类特征。用户特征反应了用户的购买力和一些行为偏向;品牌特征反应了品牌的热门程度、周期性、季节性、购买趋势以及品牌整体的行为偏向;用户-品牌特征反应了用户对这个品牌喜爱程度、购买意向;复合类特征考虑了很多心理学和业务上的特点,建立行为转移、周期、偏好等复杂的特征。

3. 正负样本采样:所有的用户-品牌特征组中,在下一个月产生了购买的比例极小(1:300+),样本分布严重不均衡,因此对负样本进行了随机采样。不同模型的最佳采样比例会有区别,RF采样比在1:8左右,GBRT采样比在1:11~1:14左右。

4. 模型:最终采用的是GBRT模型,模型思想是Boosting,Boosting算法都是一个迭代的过程,每一次新的训练都是为了改进上一次的结果。

着重攻坚方向

    在这次比赛中,花费时间最多的是特征的提取,考虑什么样的用户会购买,什么样的品牌会被购买,什么样的行为预示用户会购买一个品牌。

    算法亮点

      1. 数据预处理步骤填充了缺失的点击数据,并且填充的值是根据用户和品牌的历史行为进行填充,尽可能还原了真实的行为。

      2. 由于本人是资深的网购爱好者,因此从自身的经验和用户心理出发,思考了一批结合业务的特征,包括行为转移、周期、偏好等。

      CSDN:谈谈比赛感想。

      Give对研究数据挖掘、信息检索等领域的很多研究者来说,数据是非常珍贵的,但是对于还在高校的人,数据是很难获得的,现有的一些公开数据集,规模上一般也都比较小。阿里巴巴拥有海量商品、卖家、用户、交易、评价的数据,这些数据是很多从事数据挖掘方面研究者梦寐以求的。经历了几个月的比赛,不论是在学术研究水平上还是心理上都有了巨大的成长。天池平台给我们这些在校的学生提供了一个很好的机会去真正接触大数据,使得我们的研究思路能够在真实的数据中进行检验。这次比赛也让我懂得了在逆境中的坚持:当第一赛季眼看要进不了第二赛季的时候,我坚持了下来;在第二赛季成绩半个多月没有进展的时候,我也坚持了下来;在换数据集前还徘徊在10名之外,但是在最后7天,一个人熬夜奋战,又冲回到了前10。

      CSDN:ODPS使用感受,优点及建议。

      Give优点:ODPS提供了丰富的机器学习算法,还有强大的计算能力。建议:(1)ODPS平台资源调度优化:小任务能保证在一定时间内可以分配到资源;大任务可以运行慢一些,但是保证不会报错中途停止;以团队为单位限制资源使用量。(2)错误提示信息可以更人性化。

      0
      0