订阅云计算RSS CSDN首页> 云计算

大数据基准测试专题论坛:基准测试是一把尚未完成的尺子

发表于2013-12-10 11:10| 次阅读| 来源CSDN| 0 条评论| 作者侯亭

摘要:在2013BDTC上,来自Cisco、俄亥俄州立大学、中科院计算所、西北工业大学、 清华大学、中国人民大学、 华东师范大学的专家们分享了自己这一年在大数据领域的实践结果。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会——2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。


图:中国人民大学信息学院院长、教授 杜小勇

在12月6日上午进行的大数据基准测试主题论坛中,中科院计算所研究员、博士生导师詹剑锋和中国人民大学信息学院院长、教授杜小勇担任主持。TPC联合主席、Cisco高级工程师Raghunath Nambiar,IEEE Fellow、俄亥俄州立大学计算机与工程系教授Dhabaleswar K.Panda,中科院计算所研究员、博士生导师詹剑锋,中国人民大学副教授陈跃国,华东师范大学教授钱卫宁针对大数据基准的制定标准分享了他们的经验。

TPC联合主席、Cisco高级工程师Raghunath Nambiar:工业大数据基准的过去、现在和未来


图:TPC联合主席、Cisco高级工程师Raghunath Nambiar

Raghunath Nambiar具体介绍了合成式基准、应用式基准和产业基准。在谈到产业基准时,他认为,在过去20年里,产业基准起到了很大的作用。在制定行业的标准时,性能、持有成本和能源效率是成功的三大关键。产业界标准的基准都扮演了非常重要的作用,进一步推动了计算机产业科学的发展。买方可能要选择购买一种系统的同时也会考虑别的系统,所以对他们来讲,良性的竞争是十分重要的。在谈到大数据正在如何改变世界的时候,Raghunath列举了四个角度:

  • 在所有垂直行业的IT生态中,大数据扮演的角色的作用正在逐渐完整;
  • 大数据是政府和研究机构谈论最多的话题之一;
  • 大数据的面临的挑战可以总结成5V:Volume(数据量),Velocity(速度),Varity(种类), Value(价值), Veracity(精确);
  • 大数据正在成为3I的核心:Investments(投资), Innovation(创新), Improvization(无固定搭配)。

俄亥俄州立大学教授Dhabaleswar K.Panda:社交网络技术和基准对于Hadoop的冲击


图:IEEE Fellow、俄亥俄州立大学计算机与工程系教授 Dhabaleswar K.Panda

Dhabaleswar K.Panda介绍了社交网络技术和基准对于Hadoop的冲击。同时还单独介绍了RDMA,既远程DMA,它可以把数据直接推到存储器,无需接受器,不用等待适配器,这也是RDMA中非常重要的部分。在提到大数据的未来,他提出了三个期望:

  • 在高层的设计改变问题仍然继续解决;
  • 加速器在大数据中的作用会带来额外的影响;
  • 为了更快速地做出扩展性更高的分析,设计阶段中要更多考虑流行的集群和Hadoop的中间设备。

中科院计算所研究员,博士生导师詹剑锋:系统和体系结构的大数据基准测试程序


图:中科院计算所研究员,博士生导师 詹剑锋

詹剑锋与大家分享了面向系统和体系结构的大数据基准测试程序的经验。他认为,大数据依赖于内存访问,成本的问题很重要。关于TPC,他总结到,TPC现在一半是技术,一半是政治。詹剑锋作为项目发起人在6个月之前进行的Benchmarking,初衷是为了将各种各样的英文术语进行统一。

西北工业大学副教授张晓:大数据存储与访问测试基准


图:西北工业大学副教授 张晓

张晓介绍了海量大数据从产生到大变革和面对变革所要具备的存储和管理方法。他认为,大数据在产生、保存、访问时都对存储系统有较高的要求,这其中包括了高并发、高吞吐量的聚合访问带宽以及高可扩展性。张晓还从四个方面介绍了他们的评测体系构成:

  • 评测指标:建立反映海量存储系统特性的,全面的评测指标;
  • 评测方法:根据指标的定义,确定采用何种方法对存储系统进行测试。包括通用和特有的评测方法;
  • 评测工具:采用国际通用或自行开发的工具进行评测,开发各自的评测工具;
  • 应用场景:包括trace采集结果,IO负载模型,故障和可管理事件模型。

清华大学教授、软件学院副院长王建民:工业大数据测试基准初探


图:清华大学教授、软件学院副院长 王建民

王建民介绍了工业大数据的特点、相应的测试基准并分享了自主研发的测试框架及实践结果。他指出,世界上95%的工业产品已经饱和,200多种工业产品是中国第一。在总结工业大数据的未来时,王建民提到:

  • 工业大数据有它独特的特点,需要具体到每一个问题中;
  • 工业大数据需要低成本的方案;
  • 作为制造业大国,中国应该更多地关注工业大数据。

中国人民大学副教授陈跃国:SQL-on-Hadoop系统的性能测试及比较研究


图:中国人民大学副教授 陈跃国

陈跃国介绍了关系型结构大数据的概念以及特点,并阐述了TPC-DS基准对于实时大数据分析应用的局限性。近期,陈跃国进行了一次大规模的测试,利用人民大学的云平台,使用50台物理机,虚拟出了100个节点,并用使用TPC-DS生成不同规模的关系型数据,测试了开源大数据分析系统。通过这次测试,他们得出的结论如下:

  • 列存储一般对查询性能提升明显,尤其大表是一个包含很多列的表;
  • 绕开MR计算模型,省去中间结果的持久化和MR任务调度的延迟,会带来性能提升;
  • 使用MPP数据库技术对连接查询有帮助;
  • 充分利用缓存的系统在内存充足的情况下性能优势明显;
  • 数据倾斜会严重影响一些系统的性能。

华东师范大学教授钱卫宁:在线社交媒体分析型查询基准评测初探


图:华东师范大学教授 钱卫宁

钱卫宁从基准评测架构、数据生成、负载生成、度量定义等不同角度介绍了名为BSMA的在线社交媒体分析型查询基准评测,并展示、分析了社交媒体数据分析处理在时间线查询、社交网络查询等方面的挑战。对于社交媒体上的分析型查询处理挑战,钱卫宁总结出以下几点:

  • 社交网络查询耗时、耗内存;
  • 数据分布偏斜,不同参数造成截然不同的查询性能;
  • 绕开MR计算模型,省去中间结果的持久化和MR任务调度的延迟,会带来性能提升。但是,这种优势随着数据量增加和查询变复杂而减弱。

本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)

更多精彩内容,请关注直播专题2013中国大数据技术大会(BDTC)  ,新浪微博@CSDN云计算

0
0
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章