订阅云计算RSS CSDN首页> 云计算

基于IBM Power 8平台的大数据算法探索与实践

发表于2016-01-21 18:50| 次阅读| 来源CSDN| 0 条评论| 作者唐小引

摘要:硬件与分布式技术的革新升级,让机器学习得到了高速发展,但在算法上却没有显著突破。而IBM以拥有强大内存带宽和超线程处理能力的Power平台使开发更加容易的同时,也以OpenPower开放计划联盟形成开放的Linux生态。

实时大数据处理时代的来临促使了诸多不可预见的新业务挑战与威胁的出现,2016年,“数字化转型相应扩大”成为了企业的首要主题。在此背景之下,除了决定结果准确性的数据以外,决定快慢的算法模型就显得尤为重要。然而,当前大数据所使用的算法绝大多数都是几十年前的老算法,而随着硬件与分布式技术的革新升级,机器学习得到了高速发展,但在算法上却没有显著突破。

由此,IBM在联合CSDN连续举办8期Power 8极限挑战赛后,火热发起“Linux on Power算法马拉松挑战赛”年度总决赛。以大数据算法为主题,提供丰厚的奖金、完全免费的IBM Power虚拟环境、丰富的工具链与文档、强大的后场资源管理团队,共襄这场程序员盛宴。让历经重重筛选杀入决赛的大数据技术和算法高手们尽情挥洒创意,一起切磋算法技术。


经过12小时的组队较量,最终,由张冠星、王瑞、黄平春组成的团队夺得总决赛冠军,IBM大中华区硬件系统部服务器解决方案副总裁施东峰莅临现场为其颁发了10000元现金支票。为此,CSDN特地采访了施东峰与获奖者,从他们的口中探知大数据算法的发展以及IBM对于大数据算法的深度研究与支持。

基于Power 8平台的大数据算法探索与实践

针对大数据处理压力等现实需求,总决赛冠军团队在比赛中基于IBM Power 8同步开发了两套算法,并根据比赛在算法准确性、测试时间等方面的评判标准,提交了其中更具优势的一套算法。当然,从算法到提交程序运行等整个开发过程中,他们的团队也遇到了许多问题,并在数据专家的帮助下得以解决,比如由于训练集主题相对集中,用LDA或PLSA效果并不理想,反而使用传统的TextRank、TF-IDF较好;对于语料的处理,更关注样本集特点,预处理中主要是去除HTML标签、标点符号、代码块等。

IBM在现场提供的专业支持也帮助他们快速熟悉Power 8的环境和编译工具,同时还有gcc-ppc64编译套件、jdk8-ibm、pypy等工具。张冠星表示,Power平台拥有着强大的内存带宽和超线程处理能力,并且配套了相关的优化工具,使开发更加容易。“以前主要是在x86平台下开发,没有遇到过交叉编译、性能调优等场景,而借助这个机会,在Power 8平台上针对自己的程序有目的地调优,并达到效果,收获很大。”

开放的Linux 开放的Power

在大赛过程中,IBM专门安排了技术专家为所有参赛选手做技术辅导,施东峰表示,举办此次大赛的初衷在于希望能够为开发者们建立一个良好的沟通平台,帮助开发者拓展编程思路,同时也提升他们对基于Linux平台进行大数据分析的能力。采访过程中,施东峰详谈了IBM对于支持Linux以及开源社区所做的种种努力。“IBM的发展离不开Linux,而IBM对于Linux的投入与支持也是最直接的,这种投入既包括公司对开发人员的培养,又包含在产品上的支持,所有服务器平台都支持Linux。同时,IBM在开源社区也做了很大的投入,包括大数据方面的智能运算解决方案、Hadoop、Spark等。”


IBM大中华区硬件系统部服务器解决方案副总裁 施东峰

那么,在云计算和开源软件风靡的今天,用户应如何选择IT架构?施东峰谈到,在一个私有云或数据中心中,由于机器数量的增加,硬件设备的损坏是不可避免的,这些能耗将会成为用户一个很大的开支,基于x86通用服务器进行集群和横向扩展等的IT云架构存在很多问题需要用户去面对。在这方面,IBM通过自己的技术来解决用户需求,以基于Power 8技术的产品让效能得到大幅提升,而针对用户的特定应用,IBM会提供特制的大内存机器,更好地支持Hadoop和Spark应用的运行。

施东峰讲道:“IBM对所有开源的软件都抱以开放的态度,并针对大数据做了一些硬件配置,让新的服务器产品在大数据应用性能方面得到了极大提升。而IBM也以OpenPower开放计划联盟的方式,与硬件、软件、处理器、数据库等厂商进行合作。随着OpenPower的持续深入,越来越多的国内公司参与进来,发展迅猛的Linux也将透过IBM迎来大的机遇!”

0
0
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章