2018-07-03 09:31:10 qq_26238425 阅读数 217
  • 大数据Spark实战视频教程

    大数据Spark实战视频培训教程:本课程内容涉及,Spark虚拟机安装、Spark表配置、平台搭建、快学Scala入门、Spark集群通信、任务调度、持久化等实战内容。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    34966 人正在学习 去看看 张长志

cdh5.14.2中自带的Spark版本是1.6,而mvn中央仓库中cdh版的Spark版本最高是1.6

如果将cdh中的spark升级到2.x版本,那在idea中开发用原生的spark依赖,提交到集群中运行会不会报版本兼容问题?


2016-10-17 15:22:40 suhanjiao4897 阅读数 2501
  • 大数据Spark实战视频教程

    大数据Spark实战视频培训教程:本课程内容涉及,Spark虚拟机安装、Spark表配置、平台搭建、快学Scala入门、Spark集群通信、任务调度、持久化等实战内容。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    34966 人正在学习 去看看 张长志

Spark升级2.0.1版本安装部署教程

 


 

 

0.集群当前环境

Hadoop版本:2.7.1

JDK版本:jdk1.7.0_79

Hbase版本:1.1.2

Spark版本:1.5.0

Scala版本:2.10.4

1.Spark安装

a)   在官网(http://spark.apache.org/downloads.html)上下载与当前hadoop版本适合的Spark版本包。


b)   下载后解压到你要放置的安装目录。我是先解压再重命名移动到指定的文件夹下面。



c)   修改Spark配置文件。由于spark1.5.0版本和spark2.0.1版本的配置文件基本相同,故拷贝了原来的配置文件。


具体其中配置如下:

slaves文件配置子节点hostname(我这边在etc/hosts/中针对每个子节点的ip地址做了解析,所以只写域名)。


spark-defaults.conf配置一些jar包的引用。(注意:spark2.0.1版本不再有lib文件夹,只有jars文件夹,所以需要加上这个jars文件路径)


spark-env.sh配置spark的运行环境(注意,JAK版本至少要是1.7以上,SCALA版本也要控制2.11版本以上,scala路径就是后面你要安装的路径)


至此,Spark安装完成

2.Scala安装

a)   由于spark2.0.1版本只支持2.11版本以上的scala版本,所以需要重装新版本的Scala。在Scala官网下载2.11版本以上的scala安装包。(我安装的是2.11.8版本,http://www.scala-lang.org/download/2.11.8.html)


根据集群的操作系统选择对应的jar包。

下载到指定文件夹后,进行解压缩。


此时注意!要放到/usr/local/文件夹下,必须使用root账号。再拷贝到对应文件夹下。


至此Scala安装完成。

3.修改配置文件

a)   若此时Spark服务正在运行,建议先关闭Spark服务。再修改配置文件。


b)   修改每个账号下面的.bashrc文件


c)   修改完毕之后,source 下.bashrc文件,使之生效。

4.同步文件到子节点

a)   Spark文件夹,Scala文件夹及.bashrc文件到各个子节点,注意:source下.bashrc文件,使之生效。

5.验证是否安装成功

a)   验证scala是否安装成功

输入scala -version


b)   启动Spark服务。进入sbin文件夹下,执行bash -x start-all.sh

c)   使用jps查看进程是否启动成功。


d)   查看Spark页面


e)   执行Spark样例(./bin/run-example SparkPi | grep "Pi is roughly")


f)   测试Spark-shell能否正常使用(spark-shell --executor-memory 1G --total-executor-cores 10)


g)   查看8080页面


至此,Spark新版本升级完成

 

2017-10-31 16:52:02 zylove2010 阅读数 5650
  • 大数据Spark实战视频教程

    大数据Spark实战视频培训教程:本课程内容涉及,Spark虚拟机安装、Spark表配置、平台搭建、快学Scala入门、Spark集群通信、任务调度、持久化等实战内容。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    34966 人正在学习 去看看 张长志

编写好的Spark程序一般通过Spark-submit指令的方式提交给Spark集群进行具体的任务计算,Spark-submit指令可以指定一些向集群申请资源的参数(也可直接在Spark程序代码中指定,参数生效的优先级最高),在Linux环境下,可通过spark-submit –help 了解spark-submit指令的各种参数说明,截图如下:
这里写图片描述

案例(Python任务提交):
spark-submit –master spark://192.168.1.10:7077 –name router_app –total-executor-cores 8 –executor-memory 4g router_inout.py

常用的重要参数详解:
1) –master MASTER_URL: 指定要连接的集群模式(集群资源管理器)
standalone模式: spark://host:port, 如:spark://192.168.1.10:7077
Spark On Mesos模式 : mesos://host:port
Spark On YARN模式: yarn://host:port
本地模式:local

2) – deploy-mode DEPLOY_MODE : 指定任务的提交方式(client 和cluster)
client: 本地客户端模式(默认方式),一般会在集群主节点安装客户端
cluster: 集群工作节点模式
任务最终都会提交给主节点处理,所以在指定任务提交方式时,考虑本地客户端和集群工作节点对主节点的网络开销问题即可。

3)–name appName :设置任务的名称,方便在webUI查看

4)–py-files PY_FILES :加载Python外部依赖文件

5)–driver-memory MEM:设置driver的运行内存(占用客户端内存,用于通信及调度开销,默认为1G)

6)–executor-memory MEM:设置每一个executor的运行内存(占用工作节点内存,主要用于执行任务的内存开销),executor代表work节点上的一个进程。

7)–total-executor-cores NUM:设置任务占用的总CPU核数(即任务的并发量),由主节点指定各个工作节点CPU的使用数。
注意:该参数选项只在Spark standalone and Mesos 模式下有效

8)–executor-cores NUM:设置执行任务的每一个executor的CPU核数(yarn模式有效,默认为1)或者工作节点的总CPU核数(standalone模式有效)

9)–num-executors NUM:设置任务的executor进程数(yarn模式下有效)

10)–conf PROP=VALUE:设置Spark的属性参数
–conf spark.default.parallelism=1000 设置RDD分区大小,系统默认为200
–conf spark.storage.memoryFraction=0.5 设置内存分配大小(存储),系统默认为0.6
–conf spark.shuffle.memoryFraction=0.3 设置shuffle上限内存空间,系统默认为0.2

2015-11-16 20:46:08 sparkexpert 阅读数 2147
  • 大数据Spark实战视频教程

    大数据Spark实战视频培训教程:本课程内容涉及,Spark虚拟机安装、Spark表配置、平台搭建、快学Scala入门、Spark集群通信、任务调度、持久化等实战内容。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    34966 人正在学习 去看看 张长志

Spark于11月9号又将几个BUG解决之后,release一个较新的版本。作为spark的追随者,于是开始重新进行spark的编译。


有了前面的编译经验和之前下载好的java类包,花了大概一分钟就编译妥当,于是重新部署配置一下,马上OK。简直是高效率。


对于scala的编译,还是只需要一条语句。build/sbt -Dscala=2.11 -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver assembly。



然后复制到各台电脑上。sudo scp -r spark-1.5.2 ndscbigdata@ubuntu-bigdata-8:/home/ndscbigdata/soft/


开启spark,进入spark 监控页面,1.5.2的版本马上就显现出来!


2018-05-08 11:51:08 yangchunlu0101 阅读数 153
  • 大数据Spark实战视频教程

    大数据Spark实战视频培训教程:本课程内容涉及,Spark虚拟机安装、Spark表配置、平台搭建、快学Scala入门、Spark集群通信、任务调度、持久化等实战内容。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    34966 人正在学习 去看看 张长志


通过SparkConf 对象配置的属性优先级最高;其次是对spark-submit 或 spark-shell通过flags配置;最后是spark-defaults.conf文件中的配置。


链接:Spark三种属性配置方式详细说明 – 过往记忆 https://www.iteblog.com/archives/1140.html

spark vs hadoop

阅读数 944

Spark基础案例

阅读数 257

没有更多推荐了,返回首页