订阅移动开发RSS CSDN首页> 移动开发

百度开放云沙龙纪实:大数据存储、分析、智能运用缺一不可!

发表于2015-11-02 14:13| 次阅读| 来源CSDN| 0 条评论| 作者Banbury

摘要:10月29日下午,中关村Binggo Café,百度开放云携手CSDN共同举办云学府沙龙,围绕“大数据存储、分析、智能运用缺一不可”与大数据从业者们进行了深入的沟通与交流,共同探讨如何运用大数据技术提升企业业务能力等。

10月29日下午,中关村Binggo Café,百度开放云携手CSDN共同举办云学府技术沙龙,围绕“大数据存储、分析、智能运用缺一不可”与大数据从业者们进行了深入的沟通与交流,共同探讨如何运用大数据技术提升企业业务能力,以及选择合适的存储服务构建企业存储应用等。


百度开放云高级产品经理 张琪:如何运用大数据技术提升企业业务能力?

张琪首先以what happened、why it happened、what is happening、what will happen四问开启了企业用户对于大数据产品的普遍需求,分别为:在清理好的大量数据中即席查询出结果;找出已发生事件之间的关联性;对热数据进行实时分析;根据已知数据以及预测未来。


图:百度开放云高级产品经理 张琪

而处理大数据无非以下四个步骤:

  • 收集:原始数据种类多样,格式、位置、存储、时效性等迥异。数据收集从异构数据源中收集数据并转换成相应的格式方便处理。
  • 存储:收集好的数据需要根据成本、格式、查询、业务逻辑等需求,存放在合适的存储中,方便进一步的分析。
  • 变形:原始数据需要变形与增强之后才适合分析,比如网页日志中把IP地址替换成省市、传感器数据的纠错、用户行为统计等。
  • 分析:通过整理好的数据分析what happened、why it happened、what is happening和what will happen,帮助企业决策。


图:大数据处理的工作流

同时,张琪还结合百度开放云用户典型案例,以及百度外卖、百度糯米等使用开放云大数据产品为例,展现如何灵活运用MapReduce、Spark、机器学习以及数据仓库这些热门技术来设计大数据应用以提升企业的业务能力以及改善业务模式。

百度开放云高级产品经理 周烽:如何选择合适的存储服务来构建企业存储应用?

什么是云存储?它有着什么样的特性?如何选择云存储?选择时该注意哪些内容?周烽在现场从硬件形态、存储协议等出发对云存储进行了详细讲解,对比传统存储和云存储之间的区别,分享如何选择合适的存储服务及运用多种形态的产品搭配构建应用,实现降低成本,简化开发工作。


图:百度开放云高级产品经理 周烽

首先,如何定义云存储?可从以下三方面理解:

  • 用户自助服务:按需消费,按服务质量消费;
  • 策略驱动存储,提供SLA保障:可自由组合各种数据服务,以满足各种业务的需求。
  • 底层兼容各种硬件:X86,ARM,SSD,SAS,SATA。

那么,传统存储和云存储有哪些区别?如下图所示:


在选择云存储构建大数据解决方案时,需要从以下五点进行考量:

  • 数据格式:是结构化数据(关系型数据库)、半结构化数据(JSON/XML、NoSQL、DataBase)还是非结构化数据(文本、图片、视频);
  • 数据量和数据IO大小:KB、MB、GB、TB、PB;
  • 应用类型:IOPS、吞吐(MB/s)、延迟(ms);
  • 数据可用性和持久性的需求:可用性、高持久性(多副本、备份、快照等);
  • 成本:¥/GB。

百度开放云大数据分析平台BMR技术负责人 汪凯:云端的大数据分析“利刃”——BMR

从人类文明开始到2003年,地球共产生了5EB数据,而2015全年,全球预计产生数据8ZB,是2003年以前的1600倍。对于企业来讲,如何充分利用好这些数据,是一大难题。而大数据分析,作为大数据处理中至关重要的一环,如果有高可靠、易使用的云端数据分析产品,将大幅减轻企业在大数据分析上的压力。


图:百度开放云大数据分析平台BMR技术负责人 汪凯

在现场,百度开放云大数据分析平台BMR技术负责人 汪凯,详细讲解了百度开放云推出的大数据分析“利刃”——BMR,并现场演示了如何利用BMR,四步便可构建企业级数据分析平台。


图:四步构建企业级数据分析平台

百度基础架构部高级架构师 沈国龙:轻松实现基于海量数据的企业智能应用

如何定义企业智能应用?智能应用的方法有着怎样的演进?百度基础架构部高级架构师 沈国龙在现场为所有观众带来了如何利用百度机器学习BML轻松实现基于海量数据的企业智能应用的演讲,并分享了百度外卖应用是如何利用百度机器学习BML提升转化率,百度糯米运用BML实现精准营销和店铺推荐,百度地图在BML的帮助下推荐商家提升了CTR的秘密所在。


图:百度基础架构部高级架构师 沈国龙

数据是人工智能的燃料。——百度首席科学家Andrew Ng

在演讲中,沈国龙引用了百度首席科学家Andrew Ng的话,“数据是人工智能的燃料”,同样的,大数据是企业智能应用的燃料。大数据让智能应用变为可能,却也面对着数据收集、清洗、存储、统计、可视化、决策,传统报表、BI、关系型数据库逐渐乏力、大数据如何应用成行业新热点等诸多挑战。

而机器学习能够找到海量数据中隐含的关系,通过迭代训练得到的模型,进而对未来的数据进行预测。同时,靠机器学习来构建一个智能应用,可以让数据来进行决策,直接解决业务中的问题。

但是,机器学习的成功应用却少之又少,沈国龙分析主要有以下三点原因:

  • 机器学习不是一个标准化产品,专家非常稀缺;
  • 掌握机器学习技术非常困难,尤其是大规模并行的机器学习算法;
  • 将业务问题抽象成模型,模型部署到实际应用,需要消耗大量的时间和资金。

用机器学习来解决实际问题,如果不一行行代码追查到每一个细节,不对原始算法做大量engineering tuning,没有任何一个算法可以做到可用。为此,百度BML提供了完美的解决方案。基于高性能计算框架,拥有着包括预处理、主题模型、推荐算法、分类算法、树模型、序列模型、聚类算法、深度学习、在线学习等非常丰富的算法库,其逻辑回归算法支持数百T样本数据训练,千亿特征,千亿样本,支持连续值/离散值,支持L-BFGS和SGD两种算法求解。

在演讲及Q&A过程中,主办方还贴心地为参会者们准备了贴心的茶歇,暖心美味的点心和热腾腾的饮品,让大家能够边品尝下午茶边收获干货。而在活动结束后,参会的大数据粉丝们更是围着开放云的专家们,交流各自所遇到的问题。






此次活动圆满结束,如果有程序员们想了解更多,可关注百度开放云官网及官方微信。

链接:http://bce.baidu.com/index.html


0
0
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章