-
Spark 测试程序计算圆周率
2018-03-06 14:27:22Spark 测试程序计算圆周率1. 普通模式提交任务该算法是利用蒙特·卡罗算法求圆周率PI,通过计算机模拟大量的随机数,最终会计算出比较精确的π。bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --...Spark 测试程序计算圆周率
1. 普通模式提交任务
该算法是利用蒙特·卡罗算法求圆周率PI,通过计算机模拟大量的随机数,最终会计算出比较精确的π。
bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://node-1:7077 \ --executor-memory 1G \ --total-executor-cores 2 \ examples/jars/spark-examples_2.11-2.0.2.jar \ 20
2. 高可用模式提交任务
在高可用模式下,因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单,只需要在SparkContext指向一个Master列表就可以了,
如spark://host1:port1,host2:port2,host3:port3,应用程序会轮询列表,找到活着的Master。bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://node-1:7077,node-2:7077,node-3:7077 \ --executor-memory 1G \ --total-executor-cores 2 \ examples/jars/spark-examples_2.11-2.0.2.jar \ 10
喜欢就点赞评论+关注吧
感谢阅读,希望能帮助到大家,谢谢大家的支持!
-
spark测试题
2017-07-05 10:36:271. Spark 的四大组件下面哪个不是 ( ) A.Spark Streaming B Mlib C Graphx D Spark R 2.下面哪个端口不是 spark 自带服务的端口 ( ) ...A.8080 B.4040 C.8090 D.18080 ...A spark sql Release 版本 B 引入 Spark R1. Spark 的四大组件下面哪个不是 ( )
A.Spark Streaming B Mlib C Graphx D Spark R
2.下面哪个端口不是 spark 自带服务的端口 ( )
A.8080 B.4040 C.8090 D.18080
3.spark 1.4 版本的最大变化 ( )
A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配
4. Spark Job 默认的调度模式 ( )
A FIFO B FAIR C 无 D 运行时指定
5.哪个不是本地模式运行的个条件 ( )
A spark.localExecution.enabled=true B 显式指定本地运行 C finalStage 无父 Stage D partition默认值
6.下面哪个不是 RDD 的特点 ( )
A. 可分区 B 可序列化 C 可修改 D 可持久化
7. 关于广播变量,下面哪个是错误的 ( )
A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS
8. 关于累加器,下面哪个是错误的 ( )
A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型
9.Spark 支持的分布式部署方式中哪个是错误的 ( )
A standalone B spark on mesos C spark on YARN D Spark on local
10.Stage 的 Task 的数量由什么决定 ( )A Partition B JobC Stage D TaskScheduler
11.下面哪个操作是窄依赖 ( )
A join B filter C group D sort
12.下面哪个操作肯定是宽依赖 ( )
A map B flatMap C reduceByKey D sample
13.spark 的 master 和 worker 通过什么方式进行通信的? ( )
A http B nio C nettyD Akka
14 默认的存储级别 ( )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER
15 spark.deploy.recoveryMode 不支持那种 ( )
A.ZooKeeper B. FileSystem D NONE D Hadoop
16.下列哪个不是 RDD 的缓存方法 ( )
A persist() B Cache() C Memory()
17.Task 运行在下来哪里个选项中 Executor 上的工作单元 ( )
A Driver program B. spark master C.worker node D Cluster manager
18.Hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( )
A.没区别 B.多会话 C.支持网络环境D数据库的区别
19.DataFrame 和 RDD 最大的区别 ( )
A.科学统计支持 B.多了 schema C.存储方式不一样 D.外部数据源支持
20.Master 的 ElectedLeader 事件后做了哪些操作 ( )
A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE答案:
DCBAD CDDDA
BCDAD CCBBD
-
spark 测试题
2016-05-22 21:43:341. spark 的四大组件下面哪个不是 ( ) A.Spark Streaming B Mlib C Graphx D Spark R 2.下面哪个端口不是 spark 自带服务的端口 ( ) A.8080 B.4040 C.8090 D.18080 3.spark 1.4 版本的最大变化 ( ) A ...1. spark 的四大组件下面哪个不是 ( )
A.Spark Streaming B Mlib C Graphx D Spark R
2.下面哪个端口不是 spark 自带服务的端口 ( )
A.8080 B.4040 C.8090 D.18080
3.spark 1.4 版本的最大变化 ( )
A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配
4. Spark Job 默认的调度模式 ( )
A FIFO B FAIR C 无 D 运行时指定
5.哪个不是本地模式运行的个条件 ( )
A spark.localExecution.enabled=true B 显式指定本地运行 C finalStage 无父 Stage D partition默认值
6.下面哪个不是 RDD 的特点 ( )
A. 可分区 B 可序列化 C 可修改 D 可持久化
7. 关于广播变量,下面哪个是错误的 ( )
A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS
8. 关于累加器,下面哪个是错误的 ( )
A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型
9.Spark 支持的分布式部署方式中哪个是错误的 ( )
A standalone B spark on mesos C spark on YARN D Spark on local
10.Stage 的 Task 的数量由什么决定 ( )A Partition B Job C Stage D TaskScheduler
11.下面哪个操作是窄依赖 ( )
A join B filter C group D sort
12.下面哪个操作肯定是宽依赖 ( )
A map B flatMap C reduceByKey D sample
13.spark 的 master 和 worker 通过什么方式进行通信的? ( )
A http B nio C netty D Akka
14 默认的存储级别 ( )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER
15 spark.deploy.recoveryMode 不支持那种 ( )
A.ZooKeeper B. FileSystem D NONE D hadoop
16.下列哪个不是 RDD 的缓存方法 ( )
A persist() B Cache() C Memory()
17.Task 运行在下来哪里个选项中 Executor 上的工作单元 ( )
A Driver program B. spark master C.worker node D Cluster manager
18.hive 的元数据存储在 derby 和 mysql 中有什么区别 ( )
A.没区别 B.多会话 C.支持网络环境 D数据库的区别
19.DataFrame 和 RDD 最大的区别 ( )
A.科学统计支持 B.多了 schema C.存储方式不一样 D.外部数据源支持
20.Master 的 ElectedLeader 事件后做了哪些操作 ( )
A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE答案:
DCBAD CDDDA
BCDAD CCBBD
-
编写Spark测试用例
2016-08-31 16:09:40scalaTest的使用代码src/test/tool/LocalSparkContext.scalaimport org.apache.spark.{SparkConf, SparkContext} import org.scalatest._trait LocalSparkContext extends BeforeAndAfterAll { sel使用scalaTest工具,用法参考:
scalaTest的使用代码
src/test/tool/LocalSparkContext.scala
import org.apache.spark.{SparkConf, SparkContext} import org.scalatest._ trait LocalSparkContext extends BeforeAndAfterAll { self: Suite => @transient var sc: SparkContext = _ override def beforeAll() { val conf = new SparkConf() .setMaster("local[2]") .setAppName("test") sc = new SparkContext(conf) } override def afterAll() { if (sc != null) { sc.stop() } } }
src/test/SparkWCSuit
import org.apache.spark.sql.{Row, SQLContext} import org.scalatest.FunSuite import tool.LocalSparkContext class SparkWCSuit extends FunSuite with LocalSparkContext { //rdd wordCount test("test rdd wc") { sc.setLogLevel("ERROR") val rdd = sc.makeRDD(Seq("a", "b", "b")) val res = rdd.map((_, 1)).reduceByKey(_ + _).collect().sorted assert(res === Array(("a", 1), ("b", 2))) } //df wordCount test("test df wc") { val sqlContext = SQLContext.getOrCreate(sc) import sqlContext.implicits._ val df = sc.makeRDD(Seq("a", "b", "b")).toDF("word") val res = df.groupBy("word").count().collect() assert(res === Array(Row("a",1),Row("b",2))) } }
结果
-
Flume结合Spark测试
2015-05-18 20:56:30近日,在测试Flume结合Kafka结合Spark Streaming的实验。今天把Flume与Spark的简单结合做出来了,这里记录一下,避免网友走弯路。有不周到的地方还希望路过的大神多多指教。实验比较简单,分为两部分:一、使用avro-... -
CentOs7 单节点spark测试环境配置
2020-09-22 23:10:37CentOs7 单节点配置spark2.4.7测试环境 需要首先安装 jdk 和 Scala 参考jdk安装与scala安装 做好准备工作后开始spark安装配置 二.spark安装 1.spark下载 使用wget下载spark源码 可以使用国内镜像源 hadoop版本... -
windows下搭建Spark,Pycharm配置Spark测试
2017-10-20 20:57:32windows下搭建Spark需要分3步:JDK、Spark、Hadoop的安装及配置 (一)JDK的安装及环境配置 JDK下载地址:JDK下载 点一下accept License Agreement出现下面的图片,然后选择合适的版本下载。 JDK的安装十分... -
spark测试集群搭建
2015-11-04 06:45:51集群环境:centos6.5+hadoop2.7.1+spark1.5.1 集群规模:3个节点 Master Slave1 Slave2 软件下载:centos6.5 下载地址 scala-2.10.4.rpm jdk-7u79-linux-x64.rpm spark-1.5.1-bin-hadoop2.6.tgz ha -
基于cdh5的spark测试
2020-05-26 23:40:37备注: 基于CDH进行Spark开发时,使用高版本的apache原生包即可;不需要使用CDH中的spark开发包,另外,其它生态项目也如此。在IDEA开发的时候用原生包,实际往生产环境部署时默认就使用CDH的包了。 2.pom.xml配置 &... -
spark-使用cloudera manager部署的spark测试运行mllib的例子
2018-10-29 14:35:381.测试cdh集群中spark是否正常运行 [root@cdh01 ~]# spark-submit --master local --class org.apache.spark.examples.SparkPi /opt/cloudera/parcels/CDH-5.11.1-1.cdh5.11.1.p0.4/lib/spark/lib/spark-examples.... -
hive on spark 测试
2016-01-18 18:06:31[size=medium] 基础环境: Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 ...Apache Spark1.6.0 Cloudr... -
spark测试脚本-笔记
2018-10-15 11:17:001)Spark配置&启动脚本分析 http://www.cnblogs.com/riordon/p/5732208.html 转载于:https://www.cnblogs.com/moonlightml/p/9789952.html -
window本地搭建spark测试环境!
2019-07-04 17:42:11本篇文章也是我参照着... 首先我们安装一个软件我们肯定要有它的安装包,我给个网站Apache的一个资源库:http://archive.apache.org/dist/spark/spark-2.2.2/ 这个是下载spark2.2.2版本的,这个版本需要jdk1.8 和 ... -
Intel Hibench 完成 HDP-Spark 测试
2020-09-18 16:23:22修改配置文件3.1 conf/spark.conf3.2 conf/hadoop.conf3.3 conf/hibench.conf4.运行5.report结果查询 1.综述 环境 版本 虚拟操作系统 Centos7.5 Ambari 2.7.3 HDP 3.1.0.0 项目GitHub地址:... -
LDA in spark测试备忘
2016-07-08 19:55:50LDA是什么? 我也不懂.. 大概就是, 一堆article, 每个都是由word们组成, 想给它们聚类成K(超参数)个topic, 还能求出一个p(word|topic). 计算过程大概就是玩{article, word, topic}之间的各种概率, 迭代计算, 细节玄机... -
基于hadoop搭建spark 测试demo
2017-07-27 17:38:48http://www.powerxing.com/install-hadoop/我利用两台机器搭建测试。为了解决hdfs地址绑定127.0.0.1,修改和hostname。 分别修改/etc/sysconfig/network;/etc/hosts;hostname testdata; 重新登录,搞定。 te -
使用Docker快速搭建Hadoop,Spark测试环境
2018-08-27 06:46:25Docker 安装参考:... 合适的hadoop,Spark镜像:git clone https://github.com/big-data-europe/docker-hadoop-spark-workbench.git 进入下载后的目录 docker-hadoop-spark-work... -
Spark测试代码时,去掉无用的日志
2020-03-31 17:07:10废话不多说 import org.apache.log4j.{...import org.apache.spark.internal.Logging object SomeTest extends App with Logging { Logger.getRootLogger.setLevel(Level.WARN) } 继承Logging 这样打印的就是我...
-
Qt登录注册与数据库操作.zip
-
朱有鹏老师嵌入式linux核心课程2期介绍
-
云计算可以从事哪些岗位 学完能做运维工程师吗
-
(四十九)页面单跳转化率:模块介绍
-
java socket 聊天系统
-
numpy-1.19.5+mkl-cp39-cp39-win_amd64.whl
-
求三个数中的最小数。
-
现代文到文言文翻译器
-
Halcon 算子 Orientation_region
-
(四十)troubleshooting之解决yarn-cluster模式的JVM内存溢出无法执行问题
-
2021年中国物流地产行业发展报告.pdf
-
【数据分析-随到随学】量化交易策略模型
-
智联万物,京东IoT技术创新与实践
-
C/C++编程全家桶(Daozy极限编程)
-
(新)备战2021软考网络工程师顺利通关培训套餐
-
df.apply, df.duplicated和df各种drop再归纳
-
【2021】Python3+Selenium3自动化测试(不含框架)
-
(四十六)数据倾斜解决方案之将reduce join转换为map join
-
备战2021软考网络规划设计师历年真题套餐
-
SQL2016企业版64位