订阅云计算RSS CSDN首页> 云计算

BDTC PPT集萃(一):BAT、华为、网易等分享的大数据架构

发表于2014-09-17 08:48| 次阅读| 来源CSDN| 0 条评论| 作者CSDN

摘要:2014年12月12—14日,第八届中国大数据技术大会将在北京新云南皇冠假日酒店隆重举办。回顾以往七届的技术盛宴,CSDN特整理部分PPT精粹,分五期进行分享,一起回忆那些年曾经带动企业发展的技术热点和实战经验。

从2008年60人规模的“Hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。同时,2014年12月12至14日第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验。

为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。

大数据为企业的发展带来巨大商机的同时,也对大数据的架构提出了严峻的挑战,这里将为大家送上历届中国大数据技术大会PPT精粹的大数据架构与系统篇(上)。

腾讯数据中心资深专家翟艳堂:腾讯大规模Hadoop集群实践

PPT下载 ——2013年第七届BDTC

腾讯做大集群的主要原因一是为了数据共享,二是为了计算资源共享,三是为了减少运营负担。集群实践之初,腾讯面临着效率低、扩展性差以及风险大等诸多挑战,为了有效的解决这些问题,分别从分散化方案和扩展方案两方面进行了充分考虑,最终基于硬性、代码兼容性和复杂性等多种因素的考虑,选择了能在短时间内解决这些问题的Corona方案。除此之外,还有来自检测节点短板中存在的困扰,但是对于大规模Hadoop集群的未来,腾讯还是充满了信心。

Hortonworks高级技术成员Ted Yu:HBase and HOYA:HBase and HOYA

PPT下载 ——2013年第七届BDTC

Ted Yu在演讲中提到了压缩的例子,压缩虽好,但会导致速度变慢,提出了提高效率的措施;同时,他又分享了改进压缩的关键方法,比如从从较少的文件读取、不压缩不需要压缩的数据以及使压缩较小等;在Stripe compactions的写入方面,要从两点入手,第一是数据从MEMSTORE刷新成几个文件,第二则是每一个stripe 大部分的时间分开Compact;关于Stripe compactions其他方面的内容,要进行Level0主要是基于三个原因,第一方面是Bulk loaded 文件转至L0,第二方面是刷新也可以进入单个L0文件 (避免小文件) 第三则是几个L0的文件,压缩成striped文件。

阿里数据平台部杨少华:阿里开放数据处理服务

PPT下载——2013年第七届BDTC

他在演讲中称阿里开放数据处理服务主要是基于海量数据处理和分享需求、典型数据业务需求的背景,分别介绍了服务架构、关键技术和服务管理。其中ODPS关键技术主要是在跨集群(机房)数据共享、高效SQL引擎、Xlib算法库和图计算框架上。因为受到业务快速增长、单集群受机房和飞天规模的限制等因素的影响,阿里需要进行跨集群(机房)数据共享。但在具体实施的过程中,仍面临着四方面的阻力, 为了解决这些问题,他们引入了一个数据版本的概念。

VMware主管工程师堵俊平:Hadoop Virtualization Extensions 

PPT下载——2013年第七届BDTC

VMware主管工程师堵俊平分享了大数据五点趋势:Hadoop 2.0和YARN在大数据生态系统中扮演资源管理的核心角色;MR不够好,Tez,Spark可能是替代者;HDFS努力支持更多的业务场景;更多的基于Hadoop的SQL引擎,如Drill、 Impala、Stinger;企业级服务,安全、HA、QoS等。YARN和云作为全球化的基础设施管理平台,可以相互结合,但是又各自有着不同的出发点,可以将它们进行有效的结合,发挥各自的优势,使YARN感知和管理云基础设施的变化,云管理平台也能使用YARN的资源通知机制。

网易资深工程师顾费勇:海量数据搬运工Data Stream

PPT下载——2012年第六届BDTC

顾费勇探讨了Datastream产生的原因,结构和特征,关键技术点分享,应用场景和未来展望。Data Stream不是为了生产数据,而是做数据的搬运工。作为一个数据传输平台,连通了数据源和终端用户的桥梁,不仅能管理多样化的数据来源,还能进行远程控制,保证输出的数据格式统一。大数据最主要的两个关键技术,一个是数据搜集,一个是数据整合与分析。顾费勇介绍网易在数据搜集方面做了比较完整的平台,但没有跟后端的数据分析组成一个完整的大数据平台,这也是他们在未来的扩展中需要提升的功能。 

百川通联技术副总裁、联合创始人刘书良:基于公共云平台的DSP技术

PPT下载——2013年第七届BDTC

百川通联搭建了国内第一个基于公共云服务的DSP、DMP平台,但是对于DSP仍然存在着四个基本问题:一是第三方adexchange每日可向DSP发送超过50亿流量,数据量太大;二是Bidder的实时广告调度决策及出价算法;其次是Redis Proxy && Redis Cluster:redis数据库管理,支持对redis高并发的请求;最后是广告决策支撑数据运算。公司使用自建Hadoop集群进行离线计算,建立了自己的DSP,有效的加快了研发周期,降低了研发成本,实现了数据挖掘和精准营销。

华为Hadoop Committer Maheshwara Rao G:HDFS NameNode高可用性研究

PPT下载——2012年第六届BDTC

华为电信与核心网产品线BigData团队的架构师Uma Maheshwara Rao G,负责HDFS项目整体技术开发。对电信领域有深刻理解,从2010年起从事HDFS开发,是HDFS的核心设计人员。2011年,Uma Maheshwara Rao G所在的团队对Hadoop 0.20.1基于备份实施了HA。其中包括Namenode(BNN)和ZooKeeper;智能端可以主动连接NN(NNs);BNN的Streaming edits;连接NN和BNN发送分组报告;定期检查BNN;实现双机热备和自动转换等。但是,BNN并没有彻底达到既定目标。尤其是从NN1到NN2备份节点之间如何积极有效解决等问题一直困扰着他们。为此,Uma Maheshwara Rao G考虑了采用更多方案来彻底解决这些问题。

百度基础架构部高级研发工程师刘景龙:HDFC的透明压缩存储和压缩传输

PPT下载——2011年第五届BDTC

为节省更多的存储空间,避免压缩过程影响计算作业,并且使这一过程对用户透明,百度在HDFS下使用了透明压缩存储和压缩传输的技术。在实现的过程中,需要解决控制资源使用、确定冷数据以及处理特殊操作等关键问题;为了规避风险,尝试解压规避压缩算法bug、进行小流量上线避免透明压缩bug导致数据丢失、使用黑白名单规避风险等。在未来的规划中,要对开源、协处理器应用和透明压缩传输等进行有效的改进。

Facebook公司Jerry Chen/Liyin Tang:在HBase上构建关键业务通信系统

PPT下载——2011年第五届BDTC

Facebook选择了HBase,因为它具有高吞吐量,非常良好的随机读取性能,很不错的扩展性,也具有自动备缓功能,很强的兼容性和HDFS的优点。Facebook通常将Small Message,Message metadata和搜索索引存储在HBase中。HBase对于Facebook的数据模式具有很好的扩展能力和处理能力,能满足他们自动加载平衡和故障转移、压缩支持等多种功能。随着数据量的增加,Facebook仍需要继续扩展他们的技术应用,使HBase服务于更多的应用案例中。

普泽天玑技术总监刘佳:HBase 用例分析

PPT下载——2012年第六届BDTC

针对HBase的使用,刘佳主要分享了3个案例,分别介绍了它们的业务背景、原有架构和新架构设计实现及效果:第一个是数据魔方,他从新旧系统的原理对比入手,详细介绍了他们如何对流程进行重新规划;第二个是访客直播间,从系统架构的角度深度解析了HBase的应用;最后是广点通,面向对象是广告主,能根据用户组当前行为改变推荐策略,也能提高广告的点击率,改造系统大大提高了支撑流量。他还介绍了HBase资源管理和访问控制等工作。

201412月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会协办,中科院计算所与CSDN共同承办的第八届中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将在北京新云南皇冠假日酒店隆重举办。本届大会将围绕“大数据基础建设”、“大数据生态系统”、“大数据核心技术”、”大数据应用之互联网技术实践”、”大数据应用之传统企业技术实践”等议题展开,近百位专家将亲临现场,分享他们的技术实战。更多优惠,速来注册

中国大数据技术大会PPT集萃系列

BDTC PPT集萃(一):BAT、华为、网易等分享的大数据架构

BDTC PPT集萃(二):Facebook、LinkedIn等分享的大数据架构


免费订阅“CSDN云计算(左)CSDN大数据(右)”微信公众号,实时掌握第一手云中消息,了解最新的大数据进展!

CSDN发布虚拟化、Docker、OpenStack、CloudStack、数据中心等相关云计算资讯,     分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、内存计算、流计算、机器学习和智能算法等相关大数据观点,提供云计算和大数据技术、平台、实践和产业信息等服务。        

  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章