订阅云计算RSS CSDN首页> 云计算

挑战和机遇并存:大数据时代机器学习与可视化

发表于2013-12-06 13:22| 次阅读| 来源CSDN| 0 条评论| 作者王殿进

摘要:在2013中国大数据技术大会第二天“大数据技术”专题论坛的上午时段,众多专家围绕大数据时代的机器学习、数据可视化、磁盘故障预测、DataMPI、Camaro等主题展开了分享与讨论。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。


主持人:百度大数据首席架构师林仕鼎

在2013中国大数据技术大会第二天的“大数据技术”专题论坛的上午会议时段,分别由百度系统部资深系统研发工程师胡殿明、浙江大学教授何晓飞、北京大学“百人计划”研究员袁晓如、俄亥俄州立大学博士后研究员鲁小亿、秒针技术经理刘诚忠为我们带来了精彩演讲。上午会议由百度大数据首席架构师林仕鼎主持,他看到现场火爆程度之后,表示对大数据技术推广的前景非常看好。

胡殿明:基于大数据的硬盘故障预测


 百度系统部资深系统研发工程师 胡殿明

在上午场的第一个演讲中,胡殿明指出MTTR在很大程度上决定了存储系统的可靠性,而硬件规格、置换数据放置策略、故障规模资源可用量等是MTTR的重要影响因素。接着,他分析了常见的故障源,指出大数据时代,硬盘在硬件中的比重增大,故障及恢复开销也更加严重,并重点对磁盘故障、三副本与纠删码之间的对比进行了详细讲解。

在磁盘故障预警背景分享中,他主要分享了提升系统可靠性、提升系统可用性及提升运维效率三点,并给出了应用磁盘故障预警的实验数据。他强调,磁盘故障预警在实际应用中,不仅要覆盖全部厂商和型号,还需要支持全部的IDC环境和业务集群,更要严格地标注样本、特征表示和稀疏化及在线自动迭代。最后,他指出基于磁盘故障预警的预修复编码和数据分级存储,可以有效提升集群的可用性与可靠性。

何晓飞:机器学习与大数据


浙江大学教授 何晓飞

第二个演讲者何晓飞带领大家一起回顾了传统机器学习的发展历程,并以人脸识别、社交网络的推荐系统等具体应用对比了传统机器学习与大数据时代机器学习的区别。在大数据时代,人脸识别可以提取更多网页信息,并可以给予结构化显示。他指出,大数据时代机器学习的主要特点——原先各种独立的技术领域将融合在一起。同时,他还分享了大数据时代会带来隐私安全问题。

期间,他分析了深度学习在大数据时代存在的问题:算法方面,面临训练耗时、调参复杂的困难;计算方面,遭遇分布式困难;硬件方面,面临GPU稳定性较差等问题。

他重点突出了大数据时代在线学习的重要性,分析了当前在线学习方法在大数据时代存在的缺点,针对非线性方法提出了具有上界的稀疏在线学习方法。最后,他针对大数据时代精确最近邻检索复杂度太高的问题,着重强调了近似最近邻检索的重要性,解释了传统哈希索引存在的问题及对应的解决方法。

袁晓如:大数据时代可视化和可视分析的机遇与挑战


北京大学“百人计划”研究员 袁晓如

随后进行分享的是袁晓如,演讲之初,他为大家介绍了“大数据”与“可视化”的内涵,特别指出信息图是与可视化不一样的,可视化是对事物建立心理模型或心理图像的过程,需要更多对数据的分析与处理。

他结合生动的案例带领大家一起分析了可视化在大数据时代面临的挑战,主要有:

  • 可感知性(以北京出租GPS和某地点周边交通为例)
  • 可扩展性
  • 交互性
  • 从用户角度出发的可扩展性
  • 可视化系统发展

他认为,可视化是一个数据总结、挖掘、返回原数据的过程,是一个从整体到局部的过程,可以帮助了解世界是如何运行的。最后,他重点强调,目前中国仍然缺乏大数据可视化方面的专家人才,与美国等国家的差距很大,虽然越来越多的公司关注数据可视化,但仍待深入。

鲁小亿:Extending MPI to Big Data Computing: Challenges and Benefits of DataMPI


俄亥俄州立大学博士后研究员、DataMPI开源项目负责人 鲁小亿

鲁小亿进行了上午场的第四个分享,首先对Hadoop中的通信协议进行了总结,接着对当前MPI的现状进行了介绍,指出高性能、可移植性对于大数据的必要性。他也总结了目前MPI扩展到大数据面临几大问题,如:相比Hadoop代码量很大,同时不具备较强的可扩展性;编程上如通信协议、核心数据结构等都面临着较大困难等。

接着,从DataMPI架构设计、MPIDrun、Profile、Core等方面对DataMPI的实现进行了详细讲解,并用实验数据介绍了DataMPI项目在排序、任务进程和GPU处理、扩展性、性能等方面来的效率提升,如在WordCount和排序方面,相对Hadoop约有40%的性能提升。

刘诚忠:Camaro DB–Yet another MPP Database hacking from Cloudera Impala


秒针技术经理 刘诚忠

他为我们解释了秒针关注大数据的原因,及其对大数据的探索。他介绍说,当初选择Cloudera Impala作为项目Camaro开发的基础时,主要考虑到了Cloudera Impala具备以下几个优势:较好的代码范、模块清晰、容易定制、比Hadoop的速度更快、分布式的执行树等。

接着,他从前端、后端等方面对Camaro进行了介绍,并给出了Camaro性能、索引、多用户查询等方面的数据。最后,他为大家带来了Camaro的未来功能展望,如Yarn集成、UDF等,值得期待。

更多精彩内容,请关注直播专题 2013中国大数据技术大会(BDTC)   ,新浪微博@CSDN云计算

0
0
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注