精华内容
下载资源
问答
  • 活动预告:基于云计算的大数据基础平台架构设计 本群嘉宾 —— 周小四 现任青云QingCloud大数据平台负责人,曾就职于美国FIU在线学习部门、IBM以及高德。在云计算、大数据领域有着丰富经验。拥有美国...
        

    活动预告:基于云计算的大数据基础平台架构设计

    本群嘉宾 —— 周小四

    现任青云QingCloud大数据平台负责人,曾就职于美国FIU在线学习部门、IBM以及高德。在云计算、大数据领域有着丰富的经验。拥有美国FloridaInternationalUniversity(FIU)计算机硕士、MBA学位,上海交通大学模式识别及智能系统硕士学位,以及哈尔滨工程大学学士学位。

    本期内容介绍

    大数据平台基础建设当前的趋势是云化与开放,这个平台需要可以提供各类大数据相关PaaS服务,也需要使各类服务间可以简单灵活的组合来满足多变及定制的需求。如何在云上提供弹性、敏捷,却不失稳定和高性能的大数据平台?如何高效的利用云计算的特点来开发大数据平台?

    本期的内容将会给大家带来基于云计算的大数据平台基础设施建设以及其架构特点的主题分享。

    时间:1月19日 20:30 —— 22:30

    活动直播群

    扫描下方二维码,完整备注“姓名-公司-职务”,工作人员将会拉您入群。

    展开全文
  • ;目录;云计算;...云架构设计商业优势;云架构设计商业优势;云建设例程;云建设例程;云建设例程;云建设例程;关于Linux;目录;移动云计算时代;移动终端和通信互联网融合;云管端中客户端;端千差
  • Time-Between-Failure平均故障间隔时间这一点也是由于使用了COTS硬件后做出改变 容量规划相对于第二平台架构设计中最差情形规划即最大负载规划导致大量资源浪费第三平台云&大数据的规划精细度要高得多多采用细...
  • 大数据平台基础建设当前趋势是云化与开放,这个平台需要可以提供...本期青云QingCloud 系统工程师周小四给大家带来基于云计算的大数据平台基础设施建设以及其架构特点主题分享。以下是分享原文。——————大...

    大数据平台基础建设当前的趋势是云化与开放,这个平台需要可以提供各类大数据相关 PaaS 服务,也需要使各类服务间可以简单灵活的组合来满足多变及定制的需求。如何在云上提供弹性、敏捷,却不失稳定和高性能的大数据平台?如何高效的利用云计算的特点来开发大数据平台?

    本期青云QingCloud 系统工程师周小四给大家带来基于云计算的大数据平台基础设施建设以及其架构特点的主题分享。

    以下是分享原文。

    ——————

    大家晚上好,我是周小四,英文名字 Ray ,江湖尊称“四爷”,现在负责青云QingCloud 大数据平台的开发。今天跟大家分享一下在云上建设大数据基础平台的问题,下面我提到的大数据是特指大数据基础平台,比如 Hadoop 、Spark 等,而不是指上层应用。

    我会从四个方面和大家交流一下:云计算与大数据,云上大数据平台建设的挑战,大数据基础平台,数据格式。

     一、云计算与大数据

    相信大家平时接触更多的是物理机方案的大数据,本来这个话题我并不想总讲,因为在我们看来大数据的发展方向是云化和开源,是一个顺理成章的事情,但是在实际实施中会遇到一些阻力,这是因为我们有相当一部分人还是物理机世界做大数据的思维,还有对云计算的不信任,稍微有风吹草动就怀疑云计算,这显然是不对的。怀疑大数据云化无外乎就是稳定性和性能,不过好消息是越来越多的人已经意识到也认可这个发展方向,相信以后这就不再是个话题了。

    我们还是从大数据本身出发。我们在准备做一个大数据项目的时候,首先是确定需求,然后就是平台的选型,平台的选型是一个最难、最重要的、也是大家最困惑的环节,我遇到的客户基本上都在这个问题上有不同程度的纠结,这个完全可以理解,因为东西太多了,并且还有更多的新东西源源地不断地出来。

    其实平台的选型完全取决于你的需求,你是实时计算还是离线计算,是处理结构化数据还是非结构化数据,你的应用有没有事务性要求等等。确定这些需求后就找相应的平台就行了,这就要求我们对每个平台的特点要了解。我们知道没有一个平台能解决所有的问题, Spark 再强大也没有存储,很多场景需要和 Hadoop / HBase / 对象存储等配合起来使用,更别说替换数据仓库了。

    选择平台或工具不能赶时髦,适用才是最正确的,有些东西并一定就只有 Hadoop 或 Spark 才能解决,比如 redis 提供了一个很好的数据结构 hyperloglogs 用来统计独立事件,而内存最多只会用到 12k 字节,跟多少个独立事件无关,误差不超过 1 % ,那么用这个来统计每个时段的独立事情比如 UV 还是很不错的选择。

    每个平台有自己特定的使用场景,我们不但要了解它,甚至很多时候我们还会对各个候选平台做个 POC 或 benchmark 测试,这个时候云计算就体现出优势了,你可以快速地、低成本地做试验。

    当然云计算的优势不仅仅这些,大数据时代有很多不确定性的东西,能够说出半年之后你的数据量一定会增加到多少的人不会太多,云计算的弹性能很好地解决这个问题,需要多少就增加多少资源,还能释放过剩资源给其它业务使用,上下左右任意地伸缩,这些都可以通过鼠标点击几分钟完成。你甚至可以通过调用 API 的方式来操控这些平台,比如说我的程序里接收到数据,我启动我的 Spark 集群来处理这些数据,处理完之后我可以关闭集群;也可以通过定时器或自动伸缩功能去完成这些事情,从而极大的节约成本。

    云计算不仅仅有弹性、敏捷性,还非常灵活,你可以任意搭配一些组件组成不同的解决方案。比如我们现在要做的一件事情就是基于数据任意切换计算引擎,因为我们知道大数据是计算跟着数据走,数据在那儿,计算跑到那儿,那么有的用户对 MapReduce 比较熟悉,他可能就是用的 Hadoop ,但过段时间他想用 Spark 了,这个时候不能让用户去拷贝数据到Spark集群,而应该是换掉上面的 MapReduce 变成 Spark ,数据还是原来的 HDFS 。所有的这些都能帮我们把时间和精力放在业务层面,而不是去倒腾复杂的大数据平台。

    二、云上大数据平台建设的挑战

    可以看出云上的大数据能给我们带来无与伦比的体验,但是云上大数据最关键的并不是这些东西,而是稳定性和性能,这也是怀疑大数据云化最主要的两点。而这两点所依赖的是 IaaS 的能力,考验你的是虚拟化的技术好不好,不能压力一上来就 kenel panic ,不过我们是从来没遇到过这个问题,所以我就不多说这个。

    性能这个问题确实需要花大力气说,性能分磁盘 I/O 性能和网络性能,磁盘性能如果从相同配置的单节点来说,虚机确实没有物理机性能好,这是因为虚拟化总是有损耗的,但是,如果你虚拟化技术足够好,损耗可以降到很低,同时云计算是靠横向扩展解决复杂问题的,而不是靠纵向扩展,一个节点不行我多加一个节点。并且我们现在想到了更好的办法解决这个问题,让磁盘性能得到更大的提升。

    网络性能在物理世界也存在,尤其是节点一多,如果一不小心网络配置不够好,性能一样会差。我们最近刚发布的 SDN 2.0 就帮我们的大数据解决了这个大问题,所有的主机之间网络通讯都是直连,跟节点多少没有关系,并且节点间带宽能达到 8 Gb ,已经接近物理网卡单口的上限了。况且现在 25 Gb 的网卡成本也越来越接近 10 Gb 的网卡,所以网络不应该是问题,当然前提是你的 SDN 技术足够牛。

    关于磁盘 I/O 的问题我再补充一点,我们知道 HDFS 默认的副本因子是 3 ,但是在云上就会变得不一样,你如果在一家云服务商上自己部署 Hadoop ,就不应该设定 3 个副本因子。这是因为 Hadoop 设计第三个副本的初衷是防止整个机架出问题而把第三个副本放在另外一个机架上,你在别人家部署的时候你肯定不知道这个信息的,所以第三个副本是没有意义的,同时任何一家 IaaS 服务商一定会提供资源层面的副本的,数据的安全性能得到保障,所以更应该去掉第三个副本,去掉这个副本可以节省 1/3 的空间,性能还能得到提升。

    但是,不能因为 IaaS 有副本就把 HDFS 降低到一个副本,原因是你需要业务层面的 HA , IaaS 的副本只能保证数据不丢,物理机出故障切换需要几分钟的时间,如果 HDFS 只有一个副本的话这个切换过程业务会受影响,所以 2 个副本还是必须的。即便这样其实还不是最优的方案,因为业务层 2 个副本加上 IaaS 层至少 2 个副本,加起来就至少 4 个副本了,比物理机方案的 3 个副本还是有差距。所以最好就是去掉底层的副本,在云上实现物理机世界的 3 个副本方案,然后加上 Rack awareness ,这个就跟物理机部署一样了,但是是以云的方式交付给大家。这个工作 IaaS 提供商是可以做的,因为这些信息是可以拿到的。

    三、大数据基础平台

    1.jpg

    接下来我们看看有哪些大数据平台以及它们的特点,从数据的生命周期来说分采集,传输,存储,分析计算以及展现几个阶段,上面这张图描述了这几个阶段现在比较流行的工具和平台。

    2.jpg

    首先讲讲计算,如 Spark 、Storm、MapReduce 等,他们的区别主要在实时计算和离线计算,进而影响着各自的吞吐量。 MapReduce 是老牌的大数据计算引擎,每个 Map 、 Reduce 阶段通过硬盘来进行数据的交互,对硬盘 I/O 要求比较高,速度也慢,所以适合离线计算,这就导致凡是跟 MapReduce 相关的东西都比较慢,比如 Hive 。

    Storm 实时性比较高,但吞吐量相对来说比较小,所以它适合实时小数据块分析计算场景。 Twitter 号称 Heron 比 Storm 延迟更低,吞吐量更高,去年年底会开源,但我好像至今并没有看到更多的新闻,耐心期待吧。

    Spark Streaming 更适合近实时较大数据块分析计算, Spark 是一个基于内存的分布式计算系统,官方上声称它比 Hadoop 的 MapReduce 要快 100 倍,其实 Spark 的核心是 RDD 计算模型以及基于全局最优的 DAG 有向无环图的编排方式,而 MapReduce 是一种着眼于局部的计算模型,直接导致了 Spark 即使基于硬盘也要比 MapReduce 快 10 倍。 Spark 是一个很值得研究的平台,相信大家都知道它有多么优秀。

    对于 SQL 分析来说现在主要分两大流派,基于 MPP 的数据仓库和 SQL-on-Hadoop 。

    现在看起来后者占了点上风,主要的原因之一是前者需要特定的硬件支持,不过 MPP 的数据仓库在传统行业还有很大市场,也很受传统行业的欢迎,因为它有 Hadoop 目前还没有的东西,比如真正意义上支持标准的 SQL ,支持分布式事物等,使得 MPP 数据仓库能很好的集成传统行业现有的 BI 工具。另外, MPP 数据仓库也在向 Hadoop 靠拢,支持普通的 X86 服务器,底层支持 Hadoop 的存储,比如 Apache HAWQ 。青云 3 月底的样子会提供 MPP 数据仓库服务,是由 HAWQ 的作者兼 GreenPlum 的研发人员和我们合作开发这个服务。 SQL-on-Hadoop 就比较多了,比如 Spark SQL 、 Hive 、 Phoenix 、 Kylin 等等,Hive 是把 SQL 转换为 MapReduce 任务,所以速度比较慢,如果对运行速度有要求,可以尝试 Spark SQL,学起来也很简单,Spark SQL 1.6.0 的性能有很大提升,大家感兴趣可以体验一下。

    还有基于 Hadoop 的 MPP 分析引擎 Impala 、 Presto 等等,我就不一一介绍了。需要注意的是有些项目还在 Apache 的孵化器里,如果想在生产环境中使用需加小心。这个地方有意思的是大家都跟 Hive 比,结论都是比 Hive 快多少倍,这个是肯定的,我们更想看到的这些新出来的 SQL 相互间比是怎么样的,别总拿 Hive 比,也许是小兄弟好欺负。

    3.jpg

    存储主要就是 Hadoop/HDFS 、HBase 、对象存储以及 MPP 数据仓库。 Hadoop 是适合大文件一次性写入、多次读取的场景,不能写很多小文件, NameNode 很容易垮掉,如果非要写小文件的话可以网上搜一些小技巧。 HBase 适合随机读写场景,它是一个 NoSQL 的分布式列式数据库,是一个 sparse 、 distributed 、 persistent、 multidimensional sorted map ,把每个单词理解透了就可以理解 HBase 是一个什么东西,它的底层用的还是 HDFS ,不过在分析场景如 scan 数据的时候它的性能是比不上 Hadoop 的,性能差 8 倍还要多。 HBase 强在随机读写, Hadoop 强在分析,现在 Apache 孵化器里有一个叫 Kudu 的“中庸”项目,就是兼顾随机读写和分析性能。 HBase 想强调的一点的是数据模型的设计,除了我们大家都知道的 rowkey 设计的重要性之外,不要用传统的关系型数据库思维建模,在大数据领域里更多的是尽量 denormalize 。

    传输现在主流就是 Kafka 和 Flume ,后者有加密功能, Kafka 需要在业务层做加密,如果有需求的话。 Kafka 是一个分布式、可分区、多副本的高吞吐量低延迟消息系统,对于活跃的流式数据处理比如日志分析是最好不过的选择。

    4.jpg

    上图是我从一个真实客户的 kafka 实时监控图截取过来的,能看出流入流出的两个曲线完全重叠了,我们能看出它的延迟非常低(毫秒级别)。

    但是我们不能滥用 Kafka ,我曾经遇到过有人想用 Kafka 做分布式事务性的业务如交易,但 Kafka 并没有宣称它支持消息的传递是 exact once ,它能做到是 at least once ,所以分布式事务性的业务应该是不适合的,需要业务层做一些工作。

    四、 数据格式

    最后一个我想强调的是数据格式,数据格式的正确选择对大数据怎么强调都不为过。选择错了会极大的浪费存储空间,大数据本来数据量就大,经不起成倍空间的浪费,性能也会因为格式选择错误急剧下降,甚至都无法进行。

    数据格式要记住两点,可分割和可块压缩。可分割的意思就是一个大文件从中间切割,分析器还能不能单独解析这两个文件,比如 XML ,它有 open tag 和 close tag ,如果中间来一刀, XML Parser 就不会认识。但 CSV 就不一样,它是一个个的记录,每一行单独拿出来还是有意义的。

    可块压缩指的是每个分割出来的块能否独自解压缩,这是因为前面说过的大数据是计算跟着数据走,所以每个节点的计算是分析本地的数据,从而做到并行计算。但有些压缩格式如 gzip , CSV 在解压的时候需要从第一分割块开始才能解压成功,这样就做不到真正的并行计算。

    五、 总结

    最后总结前面讲的几个观点:大数据的发展方向是云化,云计算才是大数据基础平台最好的部署方案;大数据解决方案中应该根据你的需求来选择平台;数据格式的选择很重要,通常情况记住要选择可分割和可块压缩的数据格式。

    更多内容community.qingcloud.com
    展开全文
  • 大数据是一系列技术...Hadoop是一个由Apache基金会所开发分布式系统基础架构,是用Java语言开发一个开源分布式计算平台,适合大数据的分布式存储和计算平台。 广义上讲,大数据是时代发展和技术进步产物...

    大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网、云计算也都有密切的联系。

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。

    广义上讲,大数据是时代发展和技术进步的产物。Hadoop只是一种处理大数据的技术手段。

    Hadoop是目前被广泛使用的大数据平台,本身就是大数据平台研发人员的工作成果,Hadoop是目前比较常见的大数据支撑性平台,Hadoop平台提供了分布式存储(HDFS)、分布式计算(MapReduce)、任务调度(YARN)、对象存储(Ozone)和组件支撑服务(Common)。

    强烈推荐阅读下列文章

    一篇文章告诉你优酷背后的大数据秘密!【大数据开发实战技术】戳我阅读

    从术语到Spark,10篇必读大数据学习资源戳我阅读

    想成为云计算大数据Spark高手,看这里!戳我阅读

    最全最新的大数据系统交流路径!!戳我阅读

    年薪百万的大数据开发工程师要如何入门?戳我阅读

    随着Hadoop的不断发展,基于Hadoop的大数据生态越发完善,目前包括Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Mahout、Pig、Spark、Tez、Zookeeper等组件陆续被开发出来,这些组件极大的丰富了Hadoop自身的应用。加米谷大数据培训,6月大数据开发零基础班、提高班,成都小班面授,预报名中!随着组件的增多,Hadoop自身也越来越重,因此目前很多大数据工程师更愿意使用Spark,因为Spark更轻,基于内存速度也更快。

    可以这样简单地理解:

    1、大数据是一个高层次的概念(相当于互联网的概念),而Hadoop只是承载大数据的一个平台框架一种实现方式而已(类似于各种物理电脑网络)。

    2、大数据包含的内涵广泛得多,而Hadoop只是其中一部分实现。

    我们平常所说的大数据包含:采集、传输、存储、分析、可视化等等;而Hadoop更多是用于提取、存储、分析的一个系统平台而已。

    3、实现大数据平台的框架除了Hadoop之外,还有其他更多的平台。

    由于Hadoop是一个开源的大数据系统平台,所以你们听得最多。除了Hadoop平台外,还有其他系统平台。

    所以,大数据不等于Hadoop,大数据与Hadoop也不是包含关系。

    大数据开发人员可以通过Hadoop提供的系统级服务支持从而帮助企业完成大数据改造,对于开发人员来说,只需要关注于具体的服务实现就可以了,系统级功能已经由Hadoop提供了实现。所以,Hadoop是大数据开发人员的重要基础

    学习大数据肯定需要学习Hadoop技术,Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。

    由于Hadoop对硬件的要求并不高,目前被行业使用多年,有健全的生态和大量的应用案例,非常适合初学者(有Java基础的人)

    Hadoop学习之后,还得学习Spark,它是一种与 Hadoop 相似的开源集群计算环境,拥有Hadoop MapReduce所具有的优点,Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。这是大数据技术学习的两大重点。



     

    展开全文
  • 华为云计算大数据华为云计算绿色高效云机房建设华为云计算提供系列化云硬件平台产品华为云计算提供云操作系统华为云计算华为桌面云即SingleCLOUD指1个平台+N种应用安全解决方案1个平台即SingleCLOUD将软件与某...
  • 在刚刚结束2016年中国云计算技术大会之云计算核心技术与架构论坛上,来自魅族Flyme大数据平台经理莫涵宇基于《魅族大数据平台架构实践》分享了魅族在人员变化、数据规模、业务支持等DT转型和大数据历程。...

    在刚刚结束的2016年中国云计算技术大会之云计算核心技术与架构论坛上,来自魅族Flyme大数据平台经理莫涵宇基于《魅族大数据平台架构实践》分享了魅族在人员变化、数据规模、业务支持等的DT转型和大数据历程。在演讲过程中,他提到由于魅族大数据总数据量超过2PB,数据各业务近500台主机,每日运行4000个调度任务,任务繁重下其他们团队进行了DW2.0的建设实践,构建适合解决业务痛点的数据产品,并进行了大数据上云的尝试。他还为大家展示了魅族大数据的架构图,并详细的讲解了每个层在架构中所起的作用。(PPT下载

    图片描述

    在大数据浪潮中,魅族虽然起步比较晚,但是发展极为迅速。魅族如今的用户已从百万级快速增长到了千万级别,面对如此业务量暴增的情况,魅族是如何通过大数据技术,来保证业务的稳定性的?在大会结束后,我们CSDN小编又特意专访了莫涵宇老师,请他具体谈谈魅族在构建大数据平台过程中背后所经历的故事,让大家更加深入了解魅族在大数据中的众多的探索。

    图片描述

    魅族Flyme大数据平台经理 莫涵宇

    莫涵宇,作为国内较早的数据仓库践行者之一,从电信业进入数据领域,最终跟随大数据的潮流走入互联网,十多年来参与了多个数据平台建设工作,开发过电信业系统和政府的数据系统,也建设过阿里B2B,YY等互联网业的数据仓库,始终相信数据能改变世界,希望能在魅族继续发掘数据的更大价值。

    以下为专访内容:

    CSDN:首先请介绍一下自己,及现在负责的事情。

    莫涵宇:我十多年前就开始做数据仓库领域的工作,先后在集成商,阿里,YY等不同领域的企业工作,对数据仓库和大数据领域都有较为丰富的经验,目前是魅族科技flyme数据平台的负责人,主要负责魅族大数据平台建设和大数据相关业务。今天,大数据渗入社会生活的方方面面,李总理都常提大数据,我也希望能在这么好的环境下与现在的团队依托公司的平台打造更好的数据生态,为公司发展和我们的用户提供更大的价值。

    CSDN:能否介绍下目前您所带领的魅族数据平台部技术团队的规模和结构是怎样的?

    莫涵宇:魅族数据平台部目前有近50人,包含了ETL/模型、算法、平台、数据产品、数据分析、前端、平台运维等角色。我们团队比较扁平,各成员按照角色划分,工作中会按照项目组成具体的团队,除了各种项目也包含大量的日常数据分析相关工作。

    CSDN:我们知道在大数据浪潮中,魅族虽然起步比较晚,但是发展很迅速,能简单介绍下魅族是在什么样的背景下构建大数据平台的?

    莫涵宇:魅族科技虽然成立于2003年,但过去一直是一家传统制造业企业,转型前企业内对数据运营的认识较浅,对数据的需求也非常有限。直到2014年公司才开始逐步向移动互联网企业转型,为了适应互联网企业竞争态势,大数据业务也随着转型的步伐开始起步,从13年底开始摸索,到14年初正式开始建设。数据平台经历了前期人员不足需求众多,到今天数据体系初步健全的阶段。这时,我们的工作逐渐体现出了价值,公司也越来越认识到了大数据的重要性。

    CSDN:能介绍下魅族目前的数据规模情况吗?

    莫涵宇:魅族大数据平台目前有500台物理机,其中Hadoop集群超过300台,存储裸设备6PB+,数据量大约在2.5PB+,目前支持公司里60个以上的业务,支撑数千万日活用户的行为数据分析,随着销量和新业务的增长,数据量的增长仍然保持非常高的速度。

    CSDN:可否详细介绍下目前魅族大数据整体架构的设计思路是什么?

    莫涵宇:从企业本身出发,大数据存在的价值必然是提升企业的收益,我们需要考虑到如何做好数据对业务运营的支撑,数据对产品体验的支撑,数据对领导决策的支撑和数据对生态发展的支撑四个方面。具体来说,我们希望明确数据是基础,应用是核心,生态是目的的宗旨;要发掘能为用户带来直接价值的数据产品,为用户提供更丰富的服务;利用数据服务和数据产品,结合业务理解,提供产品数据化运营解决方案;为公司的战略规划及数据化运营做好数据服务。

    CSDN:然而,在你们开发中又遇到了哪些技术难点,每个阶段又是如何克服的呢?采用了哪些技术手段来支撑整个平台的?

    莫涵宇:魅族大数据平台的建设遇到了非常多的问题,简单举几个踩坑的例子吧。比如Hadoop集群从个位数到百位数的发展过程中,由于早期经验不足对机房资源估算的偏差,运维同学在机房搬迁时候遇到了元数据同步,主机批量rename,动态扩容方面的问题,那个阶段几乎都是人肉加班和请教有经验的同行,比如一些过去的同事,后来去了一些大企业的,通过这些方式去解决这些问题。

    再比如随着销量和业务的增长带来数据量剧增,数据又是从全国各地上报,我们原有的数据采集服务一度出现性能瓶颈,那时候比较果断的采取了重构的策略,采用新的分布式采集架构替换了运行较久的旧方案,同时建立了多机房多线路的部署结构,减低运营商和地域造成的一些影响。

    魅族数据平台建设以来,计算平台主要采用的都是开源技术解决方案,Hadoop、Hive、 HBase、Spark、Storm、ELK、Kylin等;此外还会使用Ganglia做监控底层,使用 MetaQ 、Flume等作为采集和传输工具。基于这些计算平台之上,我们主要使用Java和部分C++封装了所有数据产品和服务。在数据仓库建模方面,主要采用传统数据仓库的主题建模和维度建模方法并遵循一定的范式;同时对于一些分析场景和算法部分的准备采用低范式的宽表建模方式。

    CSDN:以上是魅族大数据平台的架构,能不能和我们分享一些具体产品呢?

    莫涵宇:我们建设的数据平台有很多具体的应用产品,包括集成开发平台,监控系统,流计算平台,统计分析平台,自助分析平台,舆情分析系统等。

    这里简单介绍一下集成开发平台吧。在日常的数据开发过程和数据使用过程中,我们发现流程比较繁琐,很多开发的同学需要写脚本、上传、配置调度、配置监控等多项工作;此外基于数据安全考虑,一些做简单开发的同学无法直接登录我们的开发环境,导致开发效率比较低,使得大家工作量都很大,甚至导致大家都把9成的精力投入到临时需求开发上。后来,我们通过充分的调研,我们决定建设集成开发平台这个产品,用于支撑数据开发的日常需要。

    这个平台主要包含IDE模块、调度系统、元数据系统、统计分析模块

    IDE提供了Hhive、Spark、MySQL、Python,语法的支持,通过代码区输入代码,可以实时的执行获得返回结果集,没有结果集的将展现日志。IDE用于日常查询或者任务开发,每次代码都可以存储下来,并可以配置成调度任务。我们未来还计划增加R,Scala语法的支持。

    然后说说调度,它提供了我们所有任务调度的支持,我们对目前面临数据领域的各种任务链,各种依赖,资源调配都进行了梳理,按照我们已知和想到的功能去开发,调度系统属于集成开发平台的一个组件,可以和刚刚说的IDE无缝整合使用。

    元数据系统目前还在持续完善中,当然它也是一个提供服务的平台,我们规划的元数据系统中,除了专用的元数据查询和分析界面,还有对外的调用接口,例如可以对IDE提供服务,让用户在做类SQL编码过程中直接可以在左侧查询到库,表和字段的信息,简化开发难度。

    这里的统计分析模块其实主要是对任务和个人操作行为的一些分析,我们可以通过这个功能优化整体资源,发现瓶颈,指引个人开发工作。此外的配置这些功能这里就不赘述了,基本都差不多。对这个平台的规划,我们未来还希望和流计算平台整合,让我们的数据开发工作都能更加简单高效。

    CSDN:对于你们来说,目前面对的最大挑战又是什么?

    莫涵宇:挑战有很多方面,我觉得我们现在还处在数据平台发展的偏初级阶段,当然当务之急最大的挑战还是时间和资源的平衡,我们希望能快速的跟上业界先进的水准,这需要我们吸引优秀的人才同时自己更加努力的去追赶了。

    我们的定位始以支持公司内部的业务为基础,希望能逐步把我们的大数据能力开放给社会,让更多人分享我们提供的大数据服务,例如建立一些开放数据平台,一些深度基于数据分析的服务,做到什么程度,怎样做,这些都是未来要应对的巨大挑战。

    CSDN:你们在大数据上云的实践中,还做了哪些新的尝试呢?

    莫涵宇:大数据上云在业界也有不少优秀的案例,我们除了学习业界一些先进经验外,还尝试了一些论证较少的领域。例如技术层面,在容器云环境中尝试LBAAS,体系规划上,尝试DaaS,利用统一的DSL将常见的大数据分析服务场景在云环境中进行服务化,打造包含MOLAP、交互式查询、实时计算的大数据分析服务体系。另外我们也计划在完成基本的数据服务体系后,将数据在不同场景下的访问方式也做成云中服务,比如结合语义识别,用户直接说一句我要什么数据,就能拿到结果,或者图像场景的识别,用户只要把一个报表的模板框架发过来,就可以生成一个填好数据的真实报表页面,云是基础,支持我们更高效的完成数据支撑能力向业务中的深入。

    CSDN:最后,您在担任魅族数据平台部经理期间,给您留下最深刻的人或事有哪些呢?

    莫涵宇:其实个人来说目前我很满意现在的环境,这个团队很年轻,我属于拖了大家后腿的大龄青年,当然一方面是成员年轻,另一方面团队真正组建的时间都较短,超过一半的人入职不到半年,大家工作的热情和对未来的期待给我留下很深的印象,具体说某个人,我觉得不需要特别去说,因为很多人都非常优秀,大家都在往同一个目标努力,我也希望继续enjoy这种快速前进的感觉。


    编辑:孙思,关注数据库,欢迎加入CSDN 数据库讨论QQ群:123038767。寻求报道或投稿,请联系 sunsi@csdn.net

    展开全文
  • 大数据的热度在持续升温,继云计算之后大数据成为又一大众所追捧新星。我们暂不去讨论大数据到底是否适用于您公司或组织,至少在互联网上已经被吹嘘成无所不能超级战舰。好像一夜之间我们就从互联网时代跳跃...
  • 大数据平台融合云计算 摘自 恒生电子副总 张良友 云计算与大数据发展路线必将交接、碰撞,而这已经成为现实。为什么大家开始对大数据讳莫如深呢?大数据给人留下印象:花钱多,灵活度低,令人头疼运营管理...
  • 5.1 大数据应用实践 5.1.1 基于开源架构的股票行情分析与预测 股票市场行情分析与预测一直是数据分析领域里面重头戏确切地说IT行业每一次重大发展幕后推动者以及新产品特别是高端产品最先尝试者都包含金融...
  • 关于数据中心、云计算大数据的详细综述,可以作为企业内部培训材料。包括:数据中心与云计算架构基础、重点关注的云计算系统平台、国内行业云计算推广与应用、云计算技术与大数据时代
  • 大数据总体架构的特点有统一、开发、集成的大数据平台、低成本可拓展性、实时地分析执行、可靠性。 2、大数据总体框架   企业级大数据应用框架 参考文献 [1] 陶皖.云计算与大数据[M].陕西:西安电子科技...
  • 真正的云计算平台,它有五层架构: 运维管理层:clouDil 计算层:MapReduce+TaskMaster 数据管理层:DataCube 虚拟化层:cCloud 存储层:cStor
  • Openstack、Cloudstack等云架构平台孰优孰劣,hadoop各发行版业纷争不断,如何选择最合适的云计算大数据解决方案?不妨听听技术达人实践分享。 上海市信息技术培训中心(SITTC)举办专家级云计算大数据讲座,...
  • 提供“2014年云计算大数据讲座ppt(详细).part1”免费资料下载,主要包括数据中心与云计算架构基础、重点关注的云计算系统平台 、国内行业云计算推广与应用 、云计算技术与大数据时代 等内容,可供学习使用。
  • 提供“2014年云计算大数据讲座ppt(详细).part5”免费资料下载,主要包括数据中心与云计算架构基础、重点关注的云计算系统平台 、国内行业云计算推广与应用 、云计算技术与大数据时代 等内容,可供学习使用。
  • 提供“2014年云计算大数据讲座ppt(详细).part2”免费资料下载,主要包括数据中心与云计算架构基础、重点关注的云计算系统平台 、国内行业云计算推广与应用 、云计算技术与大数据时代 等内容,可供学习使用。
  • 提供“2014年云计算大数据讲座ppt(详细).part3”免费资料下载,主要包括数据中心与云计算架构基础、重点关注的云计算系统平台 、国内行业云计算推广与应用 、云计算技术与大数据时代 等内容,可供学习使用。
  • 提供“2014年云计算大数据讲座ppt(详细).part4”免费资料下载,主要包括数据中心与云计算架构基础、重点关注的云计算系统平台 、国内行业云计算推广与应用 、云计算技术与大数据时代 等内容,可供学习使用。
  • Hadoop是开源的分布式存储+分布式计算平台的框架 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的...
  • “ Apache Kylin是首个完全由中国团队设计开发,并...魅族大数据平台架构师赵天烁在8月13日【创客168】第7期:大数据平台架构及应用实践 和 9月22日第三届互联网应用技术峰会上 进行了“大数据多维分析引擎在魅族
  • 该文档来自CCTC 2016中国云计算技术大会。魅族flyme大数据平台经理莫涵宇发表题为“魅族大数据平台架构实践”主题演讲,欢迎下载!
  • 大数据技术之电商推荐系统源码:https://github.com/2462612540/Big_Data_Spark_Scala_hadoop.git 1 项目体系架构设计 ...提供了从前端应用、后台服务、算法设计实现、平台部署等多方位闭环业务实
  • 云计算大数据技术为理论基础,构建了一个具有"产学研"功能的网络信息协同创新平台,对该平台的"云"架构和功能模块进行了叙述,重点阐述了Hadoop云平台的工作模式。针对大数据环境下数据的稀疏性及扩展性等问题,提出...
  • 云计算大数据入门

    千次阅读 2013-09-30 16:36:49
    云服务模式 是一些方法,组织可以通过这些方法根据需要使用云计算,这些模式包括基础架构即服务 (IaaS)、平台即服务 (PaaS) 或软件即服务 (SaaS)。请注意,云计算用户使用 IaaS 获得灵活性最大,使用 SaaS 获得...
  • 首先从国内主要的云计算厂商系统比较和理解云计算架构等入手,然后细致剖析: Google的云计算 亚马逊AWS 微软云计算平台WindowsAzure VMware云计算 最后以实战技术:云计算动手实战---Hadoop结束; 让您理解...
  • 教育行业(某省交通厅大数据建设),税务行业(某省税务大数据平台应用建设),信息管理(某省人口库建设)等等方面都有很多建树,本文以智慧交通为主题介绍下主流大数据应用总体架构设计 云服务 首先了解下基于...
  • ... 一大数据技术分类大数据技术是在传统数据处理手段无法应对海量数据实时需求情况下,采用新信息技术来应对大数据爆发进行数据处理技术。大数据技术一般可以包括基础架构支持...
  • 随着大数据云计算技术发展,数据中心虚拟化成为了互联网发展主流趋势,然而当前互联网模型无法满足大规模虚拟化需求,主要表现为硬件上无法满足云计算庞大业务体量以及软件上无法满足网络SDN化需求。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 582
精华内容 232
关键字:

云计算大数据平台的架构