订阅业界RSS CSDN首页> 业界

12小时决战!IBM Power极限挑战赛年度总决赛顺利落幕

发表于2015-12-14 16:16| 次阅读| 来源CSDN| 0 条评论| 作者子曰

摘要:今年以来,CSDN已经举办了多场旨在挖掘Linux on Power平台性能优势的算法大赛,作为本年度系列赛的收官之战,40余名大数据技术和算法高手一路过关斩将,杀入决赛。

12月12日,IBM联合CSDN在新云南皇冠假日酒店举办IBM Power极限挑战赛年度总决赛。今年以来,CSDN社区已经举办了多场旨在挖掘Linux on Power平台性能优势的算法大赛,作为本年度系列赛的收官之战,40余名大数据技术和算法高手一路过关斩将,历经重重筛选杀入决赛。IBM资深技术专家孙日波、IBM售前技术专家高辰阳、CSDN首席数据分析师左建平、CSDN数据挖掘技术专家黄崇远等专家在现场为选手们提供技术支持工作。

会前,主办方开放了自由组队时间。活动在早上9点半正式开始。


参赛者们在调试机器和熟悉比赛题目

IBM资深技术专家孙日波做了开场致辞,他表示,IBM Power服务器在全面拥抱开源系统,采取更加积极和开放的理念推动开发者生态系统的发展,并采取各种线上线下的活动支持开源社区开发者的创新。

随后,IBM售前技术专家高辰阳介绍今年大赛的竞赛规则。

总决赛的题目为《中文文本主题抽取》。比赛分为两个阶段,分别是训练阶段和测试阶段。其中,在训练阶段,主办方将提供5G左右的原始CSDN博文预料,参赛者们通过一定的数据挖掘算法,训练出主题抽取的模型。在测试阶段,参赛者们通过训练模型,针对于单独的博文集合输入,能够准确的分别提取对应博文的N个关键词。

在具体开发规则方面:本次大赛不限开发语言,不限分词方式,不限算法。但参赛者应注意以下四点:(1)在训练出模型的基础上,输入若干新的博文,能够准确的提取主题;关键词跟文章主题的符合性是评分的主要衡量点;(2))模型训练的时间尽可能的短,体现算法高效;(3)每个提取的主题词必须带有权重,按权重降序排列,并且权重要具有可解释性;(4)提供一个1000字左右的方案设计文档,说明方案和算法模型的使用。

Linux on Power特性利用程度也跟参赛者们的最终成绩紧密相关。如果选手采用了Power8 SMT8等特性提高多线程效率,用IBM的编译开发工具,如C语言使用IBM Advanced Toolchain,Java使用IBM JDK/JVM,关联Linux on Power有IBM对应的开发工具,都将获得加分项支持。

经过连续12小时的编程作战,到下午四点的时候,部分进度领先的选手们纷纷提交成绩。随后,选手们通过各种方法调优来挑战更快的运行时间和更准的精确度。


选手进入演示和互问阶段

晚上,IBM大中华区硬件系统部服务器解决方案副总裁施东峰来到现场。


施东峰认为,IBM长期以来为开源社区和Linux系统的发展持续贡献力量,包括各种服务器平台都会在Linux上面做支持。尤其是在大数据技术方面,IBM已大力投入到Hadoop、Spark技术研发上。在全新时代,IBM将持续投入,使ISV与合作伙伴得以在基于Power的开源环境里进行应用开发和技术创新,进一步推动大数据技术的发展与本地生态的蓬勃壮大。

为提升本地合作伙伴的能力,IBM还与合作伙伴联手积极推动本地开源技术生态系统的构建。在IBM“中国合伙人”战略的引领下,IBM与CSDN等伙伴联手启动Linux开源生态系统联盟,基于IBM多年来为开源领域提供的先进支持,携手国内ISV、开源技术社区、企业用户、创投公司等多方力量,共同打造一个基于Power技术的开源技术生态圈。


经大会评委核定,由张冠星、王瑞、黄平春组成的团队夺得第一名,施东峰现场给获奖者颁发10000元现金支票及合影。

近年以来,IBM持续通过对本地人才的培养推动大数据应用的创新。今年,IBM已联手CSDN成功举办了8期Power 8极限挑战赛,吸引了逾万人次参赛。IBM也成功举办了十余次培训沙龙,为开发者带来更多学习和交流的机会。在本次“12小时马拉松决赛”的年度总决赛中,共计40余名来自高校、研究院及互联网公司的选手同台竞技。选手们根据当前市场的实际需求,基于Power平台进行大数据应用与软件的开发与创新。

此以,IBM还以不同形式联合合作伙伴为本地开发者提供基于Power的开源技术创新环境,帮助开发者加速其创新进程。本地开发者除了可以在SuperVessel的若干个在线实验室中访问开源软件、创建和测试众多新兴应用,还能在极客地带体验社区中感受由Power支持的Linux开发环境,进行Linux应用的开发、构建、迁移与测试。

总决赛冠军团队成员张冠星表示:“随着智能手机的日渐普及,由终端用户产生的数据量日益庞大,这为互联网公司等企业带来了巨大的大数据处理压力。针对这些现实需求,我们在这次比赛中基于IBM Power 8同步开发了两套算法,并根据比赛在算法准确性、测试时间等方面的评判标准,提交了其中更具优势的一套算法。对于此次获奖,我们感到非常荣幸。我们也相信,随着更多同行加入到基于Power平台进行开发的阵营,我们将能更好地帮助本地企业针对大数据工作负载实现基础架构的优化。”

在谈到具体取胜经验时,张冠星认为本次大赛给定的数据集比较复杂,需要自己解析,而且没有标注好的Label,使得算法选择变少;另外,开发时间短,服务器无法联网,使得安装部署环境变得复杂。因此,他们果断采用了jieba分词和TF-IDF算法,且充分利用了Power8多线程与IO处理速度的优势,极大加快了训练时间,并最终取得了比赛的成功。

获奖名单:

冠军:张冠星、王瑞、黄平春

第二名:乔立勇、何晓宁

第三名:吕伟斌、黎健成

第四名:郑凌云

第五名:黄江、蔡叶荷


参赛者合影

0
0