2019-03-25 23:50:07 u013411339 阅读数 187
  • Spark快速大数据处理

    课程的主要内容包括: 1.ZooKeeper-分布式过程协同组件 2.Hadoop3-大数据基础组件 3.Tez-Yarn底层计算引擎 4.Hive3-大数据仓库 5.Spark2实时大数据处理 6.Oozie5-大数据流程引擎 课程特点: 1.最新API: Hadoop3/Spark2/Hive3/Oozie5 2.手工搭建集群环境:编译+搭建 3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等 4.案例为主:分模块案例+天池数据分析竞赛 5.故障教学 6.完整实战项目:天池数据分析

    12349 人正在学习 去看看 余海峰

Spark大æ°æ®å¤ç

Spark大数据处理:

 

2018-12-31 21:15:57 xiaohuanglv 阅读数 327
  • Spark快速大数据处理

    课程的主要内容包括: 1.ZooKeeper-分布式过程协同组件 2.Hadoop3-大数据基础组件 3.Tez-Yarn底层计算引擎 4.Hive3-大数据仓库 5.Spark2实时大数据处理 6.Oozie5-大数据流程引擎 课程特点: 1.最新API: Hadoop3/Spark2/Hive3/Oozie5 2.手工搭建集群环境:编译+搭建 3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等 4.案例为主:分模块案例+天池数据分析竞赛 5.故障教学 6.完整实战项目:天池数据分析

    12349 人正在学习 去看看 余海峰

Spark大数据处理:技术、应用与性能优化 (大数据技术丛书)-高彦杰 著

            在线阅读                   百度网盘下载(jvme)


image.png

书名:Spark大数据处理:技术、应用与性能优化 (大数据技术丛书)

作者:高彦杰 著

格式:EPUB, HTMLZ, PDF

路径:点击打开

出版:机械工业出版社

排序作者:著, 高彦杰

排序书名:Spark大数据处理:技术、应用与性能优化 (大数据技术丛书)

日期:08 12月 2018

uuid:123a7f13-df31-46b3-acd4-c5aa399cf144

id:496

出版日期:11月 2014

修改日期:08 12月 2018

大小:7.13MB

语言:中文


1.6 本章小结

本章首先介绍了Spark分布式计算平台和BDAS。BDAS的核心框架Spark为用户提供了系统底层细节透明、编程接口简洁的分布式计算平台。Spark具有计算速度快、实时性高、容错性好等突出特点。基于Spark的应用已经逐步落地,尤其是在互联网领域,如淘宝、腾讯、网易等公司的发展已经成熟。同时电信、银行等传统行也开始逐步试水Spark并取得了较好效果。本章也对Spark的基本情况、架构、运行逻辑等进行了介绍。最后介绍了Spark在工业界的应用,读者可以看到Spark的蓬勃发展以及在大数据分析平台中所处的位置及重要性。

读者通过本章可以初步认识和理解Spark,更为底层的细节将在后续章节详细阐述。

相信读者已经想搭建自己的Spark集群环境一探究竟了,接下来将介绍Spark的安装与配置。

2.3 本章小结

本章主要介绍了如何在Linux和Windows环境下安装部署Spark集群。

由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop。通过本章介绍,读者就可以开启Spark的实战之旅了。

下一章将介绍Spark的计算模型,Spark将分布式的内存数据抽象为弹性分布式数据集(RDD),并在其上实现了丰富的算子,从而对RDD进行计算,最后将算子序列转化为有向无环图进行执行和调度。

3.4 本章小结

本章主要介绍了Spark的计算模型,Spark将应用程序整体翻译为一个有向无环图进行调度和执行。相比MapReduce,Spark提供了更加优化和复杂的执行流。

读者还可以深入了解Spark的运行机制与Spark算子,这样能更加直观地了解API的使用。Spark提供了更加丰富的函数式算子,这样就为Spark上层组件的开发奠定了坚实的基础。

通过阅读本章,读者可以对Spark计算模型进行更为宏观的把握。相信读者还想对Spark内部执行机制进行更深入的了解,下面章节就对Spark的内核进行更深入的剖析。

4.7 本章小结

本章介绍了Spark的内部运行机制。主要介绍了Spark的执行机制和调度机制,包括调度与任务分配机制、I/O机制、通信机制、容错机制和Shuffle机制。Spark在执行过程中由Driver控制应用生命周期。调度中,Spark采用了经典的FIFO和FAIR等调度算法对内部的资源实现不同级别的调度。在Spark的I/O中,将数据抽象以块为单位进行管理,RDD中的一个分区就是需要处理的一个块。集群中的通信对于命令和状态的传递极为重要,Spark通过AKKA框架进行集群消息通信。Spark通过Lineage和Checkpoint机制进行容错性保证,Lineage进行重算操作,Checkpoint进行数据冗余备份。最后介绍了Spark中的Shuffle机制,Spark也借鉴了MapReduce模型,但是其Shuffle机制进行了创新与优化。通过阅读本章,读者可以深入了解Spark的内部原理,这对上层应用开发与性能调优是十分重要的。

介绍完Spark内部的执行执行机制,相信读者已经跃跃欲试,希望开发自己的Spark程序,下面章节将引导读者配置Spark开发环境,然后介绍Spark的编程实战。

5.5 本章小结

本章主要介绍了Spark应用程序的开发流程以及如何编译和调试Spark程序。用户可以选用能够很好支持Scala项目的Intellij IDE。如果之前经常使用Eclipse开发Java程序,也可以在Eclipse中安装Scala IDE插件,开发与调试Spark程序。由于Spark项目基于SBT构建,用户可以创建SBT项目,开发应用。在应用的开发过程中,需要进行调试诊断问题。在本章最后部分介绍的远程调试方法可以很好地帮助用户调试Spark程序。

通过本章的介绍,读者可以搭建Spark开发环境,下面将通过Spark编程实战进入Spark程序的开发之旅。

6.8 本章小结

通过本章的介绍,相信读者已经可以独立编写Spark用例了。Spark使用Scala书写,不熟悉的读者可以预先学习Scala语法,这样编写Spark程序才会游刃有余。

WordCount是大数据程序的入门程序,程序虽然简单,但其中的程序并行化思想很值得借鉴。连接示例,让读者可以进一步了解如何进行数据统计,Top K,倒排索引,查找中位数、倾斜连接。最后介绍的股票趋势预测应用较为复杂,但是通过整个架构可以体会Spark是如何处理实际问题的。

读者对Spark编程有了一定的基础之后,需要使用Benchmark对应用进行基准测试,进而调整算法。需要进行系统选型时,也需要使用Benchmark进行性能评测。下面将对大数据领域的Benchmark进行全景介绍,读者可以通过大数据Benchmark进行Spark系统或应用的基准测试。

7.4 本章小结

本章主要介绍了大数据Benchmark,包括Benchmark的原理和常用Benchmark的使用。

Benchmark标准尚未形成统一,但一些Benchmark已经崭露头角。用户可以根据系统需求有针对性地选用。Benchmark包含三大组件,读者通过了解三大组件可以理解Benchmark的原理和作用。

最后本章介绍了Hibench、BigDataBench、TPC-DS这三个广泛使用的Benchmark的使用方法,读者可以采用需要的Benchmark进行实践。

相信通过之前几章的介绍,读者已经对Spark有了一定程度的了解。Spark发展得如火如荼发展的一个重要原因就是生态系统的完善,下面通过介绍BDAS的主要组件,使读者全面了解Spark生态系统。

8.5 本章小结

本章主要介绍了BDAS中广泛应用的几个数据分析组件。SQL on Spark提供在Spark上的SQL查询功能,让用户可以基于内存计算和SQL进行大数据分析。通过Spark Streaming,用户可以构建实时流处理应用,高吞吐量,以及适合历史和实时数据混合分析的特性,使Spark Streaming在流数据处理框架中突出重围。GraphX充当Spark生态系统中图计算的角色,其简洁的API使图处理算法的书写更加便捷。最后介绍了MLlib,Spark上的机器学习库。它充分利用Spark内存计算和适合迭代的特性,使分布式系统与并行机器学习算法完美结合。相信随着Spark生态系统的日臻完善,这些组件还会长足发展。

最后一章将介绍Spark的性能调优,在实战中如何让Spark运行得更快,更节省资源,是系统开发者追求的目标9.3 本章小结

本章主要介绍了Spark程序的性能调优。在应用开发中首先应该是能够让程序运行,第二步才是在静态代码或者运行程序中诊断性能瓶颈,查找造成性能问题的代码或配置项,然后通过性能调优的原则指导Spark的调优,优化改进代码和配置项。过早的优化是万恶之源,在不恰当的时间进行优化会增加程序复杂性以及延缓开发周期。同时我们也看到大数据系统软件栈多,集群环境复杂,需要考虑更多的因素进行性能调优,这是挑战,同时也是机遇。

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1137

'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();
2017-08-15 18:33:09 qq_33813365 阅读数 4210
  • Spark快速大数据处理

    课程的主要内容包括: 1.ZooKeeper-分布式过程协同组件 2.Hadoop3-大数据基础组件 3.Tez-Yarn底层计算引擎 4.Hive3-大数据仓库 5.Spark2实时大数据处理 6.Oozie5-大数据流程引擎 课程特点: 1.最新API: Hadoop3/Spark2/Hive3/Oozie5 2.手工搭建集群环境:编译+搭建 3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等 4.案例为主:分模块案例+天池数据分析竞赛 5.故障教学 6.完整实战项目:天池数据分析

    12349 人正在学习 去看看 余海峰

大礼包内含书目:

Apache Spark源码剖析.pdf
深入理解Spark:核心思想与源码分析.pdf
Spark快速大数据分析.pdf
Spark高级数据分析.pdf
数据算法--Hadoop-Spark大数据处理技巧
Spark大数据处理:技术、应用与性能优化(全).pdf
Spark技术内幕  深入解析Spark内核架构设计与实现原理.pdf

下载地址:
http://pan.baidu.com/s/1c1GB56K

2017-12-03 11:14:02 chaoren499 阅读数 391
  • Spark快速大数据处理

    课程的主要内容包括: 1.ZooKeeper-分布式过程协同组件 2.Hadoop3-大数据基础组件 3.Tez-Yarn底层计算引擎 4.Hive3-大数据仓库 5.Spark2实时大数据处理 6.Oozie5-大数据流程引擎 课程特点: 1.最新API: Hadoop3/Spark2/Hive3/Oozie5 2.手工搭建集群环境:编译+搭建 3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等 4.案例为主:分模块案例+天池数据分析竞赛 5.故障教学 6.完整实战项目:天池数据分析

    12349 人正在学习 去看看 余海峰

内容简介

《Spark大数据处理:技术、应用与性能优化》根据最新技术版本,系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化,以及BDAS生态系统的相关技术。

作为一个基于内存计算的大数据并行计算框架,Spark不仅很好地解决了数据的实时处理问题,而且保证了高容错性和高可伸缩性。具体来讲,它有如下优势:

打造全栈多计算范式的高效数据流水线

轻量级快速处理

易于使用,支持多语言

与HDFS等存储层兼容

社区活跃度高

……

Spark已经在全球范围内广泛使用,无论是Intel、Yahoo!、Twitter、阿里巴巴、百度、腾讯等国际互联网巨头,还是一些尚处于成长期的小公司,都在使用Spark。本书作者结合自己在微软和IBM实践Spark的经历和经验,编写了这本书。站着初学者的角度,不仅系统、全面地讲解了Spark的各项功能及其使用方法,而且较深入地探讨了Spark的工作机制、运行原理以及BDAS生态系统中的其他技术,同时还有一些可供操作的案例,能让没有经验的读者迅速掌握Spark。更为重要的是,本书还对Spark的性能优化进行了探讨。

    作者简介

高彦杰

毕业于中国人民大学,就职于IBM,精通Hadoop相关技术,较早接触并使用Spark,对Spark应用开发、Spark系统的运维和测试比较熟悉,深度阅读了Spark的源代码,了解Spark的运行机制,擅长Spark的查询优化。

    目录

前 言
第1章 Spark简介
1
1.1 Spark是什么
1
1.2 Spark生态系统BDAS
4
1.3 Spark架构
6
1.4 Spark分布式架构与单机多核架构的异同
9
1.5 Spark的企业级应用
10
1.5.1 Spark在Amazon中的应用
11
1.5.2 Spark在Yahoo!的应用
15
1.5.3 Spark在西班牙电信的应用
17
1.5.4 Spark在淘宝的应用
18
1.6 本章小结
20
第2章 Spark集群的安装与部署
21
2.1 Spark的安装与部署
21
2.1.1 在Linux集群上安装与配置Spark
21
2.1.2 在Windows上安装与配置Spark
30
2.2 Spark集群初试
33
2.3 本章小结
35
第3章 Spark计算模型
36
3.1 Spark程序模型
36
3.2 弹性分布式数据集
37
3.2.1 RDD简介
38
3.2.2 RDD与分布式共享内存的异同
38
3.2.3 Spark的数据存储
39
3.3 Spark算子分类及功能
41
3.3.1 Value型Transformation算子
42
3.3.2 Key-Value型Transformation算子
49
3.3.3 Actions算子
53
3.4 本章小结
59
第4章 Spark工作机制详解
60
4.1 Spark应用执行机制
60
4.1.1 Spark执行机制总览
60
4.1.2 Spark应用的概念
62
4.1.3 应用提交与执行方式
63
4.2 Spark调度与任务分配模块
65
4.2.1 Spark应用程序之间的调度
66
4.2.2 Spark应用程序内Job的调度
67
4.2.3 Stage和TaskSetManager调度方式
72
4.2.4 Task调度
74
4.3 Spark
I/O机制 77
4.3.1 序列化
77
4.3.2 压缩
78
4.3.3 Spark块管理
80
4.4 Spark通信模块
93
4.4.1 通信框架AKKA
94
4.4.2 Client、Master和Worker间的通信
95
4.5 容错机制
104
4.5.1 Lineage机制
104
4.5.2 Checkpoint机制
108
4.6 Shuffle机制
110
4.7 本章小结
119
第5章 Spark开发环境配置及流程
120
5.1 Spark应用开发环境配置
120
5.1.1 使用Intellij开发Spark程序
120
5.1.2 使用Eclipse开发Spark程序
125
5.1.3 使用SBT构建Spark程序
129
5.1.4 使用Spark
Shell开发运行Spark程序 130
5.2 远程调试Spark程序
130
5.3 Spark编译
132
5.4 配置Spark源码阅读环境
135
5.5 本章小结
135
第6章 Spark编程实战
136
6.1 WordCount
136
6.2 Top
K 138
6.3 中位数
140
6.4 倒排索引
141
6.5 CountOnce
143
6.6 倾斜连接
144
6.7 股票趋势预测
146
6.8 本章小结
153
第7章 Benchmark使用详解
154
7.1 Benchmark简介
154
7.1.1 Intel
Hibench与Berkeley
BigDataBench 155
7.1.2 Hadoop
GridMix 157
7.1.3 Bigbench、BigDataBenchmark与TPC-DS
158
7.1.4 其他Benchmark
161
7.2 Benchmark的组成
162
7.2.1 数据集
162
7.2.2 工作负载
163
7.2.3 度量指标
167
7.3 Benchmark的使用
168
7.3.1 使用Hibench
168
7.3.2 使用TPC-DS
170
7.3.3 使用BigDataBench
172
7.4 本章小结
176
第8章 BDAS简介
177
8.1 SQL
on Spark 177
8.1.1 使用Spark
SQL的原因 178
8.1.2 Spark
SQL架构分析 179
8.1.3 Shark简介
182
8.1.4 Hive
on Spark 184
8.1.5 未来展望
185
8.2 Spark
Streaming 185
8.2.1 Spark
Streaming简介 186
8.2.2 Spark
Streaming架构 188
8.2.3 Spark
Streaming原理剖析 189
8.2.4 Spark
Streaming调优 198
8.2.5 Spark
Streaming 实例 198
8.3 GraphX
205
8.3.1 GraphX简介
205
8.3.2 GraphX的使用
206
8.3.3 GraphX架构
209
8.3.4 运行实例
211
8.4 MLlib
215
8.4.1 MLlib简介
217
8.4.2 MLlib的数据存储
219
8.4.3 数据转换为向量(向量空间模型VSM)
222
8.4.4 MLlib中的聚类和分类
223
8.4.5 算法应用实例
228
8.4.6 利用MLlib进行电影推荐
230
8.5 本章小结
237
第9章 Spark性能调优
238
9.1 配置参数
238
9.2 调优技巧
239
9.2.1 调度与分区优化
240
9.2.2 内存存储优化
243
9.2.3 网络传输优化
249
9.2.4 序列化与压缩
251
9.2.5 其他优化方法
253
9.3 本章小结
255

 

 

《Spark大数据处理:技术、应用与性能优化》【PDF】下载链接:  https://u253469.pipipan.com/fs/253469-230062536

2015-11-08 08:54:40 dragon_hsl 阅读数 2600
  • Spark快速大数据处理

    课程的主要内容包括: 1.ZooKeeper-分布式过程协同组件 2.Hadoop3-大数据基础组件 3.Tez-Yarn底层计算引擎 4.Hive3-大数据仓库 5.Spark2实时大数据处理 6.Oozie5-大数据流程引擎 课程特点: 1.最新API: Hadoop3/Spark2/Hive3/Oozie5 2.手工搭建集群环境:编译+搭建 3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等 4.案例为主:分模块案例+天池数据分析竞赛 5.故障教学 6.完整实战项目:天池数据分析

    12349 人正在学习 去看看 余海峰
Spark大数据处理:技术、应用与性能优化

大规模数据处理实战--Spark

博文 来自: hixiaoxiaoniao
没有更多推荐了,返回首页