精华内容
参与话题
问答
  • Spark 测试程序计算圆周率

    千次阅读 2018-03-06 14:27:22
    Spark 测试程序计算圆周率1. 普通模式提交任务该算法是利用蒙特·卡罗算法求圆周率PI,通过计算机模拟大量的随机数,最终会计算出比较精确的π。bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --...

    Spark 测试程序计算圆周率

    1. 普通模式提交任务

    该算法是利用蒙特·卡罗算法求圆周率PI,通过计算机模拟大量的随机数,最终会计算出比较精确的π。

    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master spark://node-1:7077 \
    --executor-memory 1G \
    --total-executor-cores 2 \
    examples/jars/spark-examples_2.11-2.0.2.jar \
    20

    这里写图片描述

    2. 高可用模式提交任务

    在高可用模式下,因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单,只需要在SparkContext指向一个Master列表就可以了,
    如spark://host1:port1,host2:port2,host3:port3,应用程序会轮询列表,找到活着的Master。

    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master spark://node-1:7077,node-2:7077,node-3:7077 \
    --executor-memory 1G \
    --total-executor-cores 2 \
    examples/jars/spark-examples_2.11-2.0.2.jar \
    10

    喜欢就点赞评论+关注吧

    这里写图片描述

    感谢阅读,希望能帮助到大家,谢谢大家的支持!

    展开全文
  • spark测试

    千次阅读 2017-07-05 10:36:27
    1. Spark 的四大组件下面哪个不是 ( ) A.Spark Streaming B Mlib C Graphx D Spark R 2.下面哪个端口不是 spark 自带服务的端口 ( ) ...A.8080 B.4040 C.8090 D.18080 ...A spark sql Release 版本 B 引入 Spark R

    1. Spark 的四大组件下面哪个不是 ( )
    A.Spark Streaming B Mlib C Graphx D Spark R


    2.下面哪个端口不是 spark 自带服务的端口 ( )
    A.8080 B.4040 C.8090 D.18080


    3.spark 1.4 版本的最大变化 ( )
    A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配


    4. Spark Job 默认的调度模式 ( )
    A FIFO   B FAIR   C 无   D 运行时指定


    5.哪个不是本地模式运行的个条件 ( )
    A spark.localExecution.enabled=true   B 显式指定本地运行 C finalStage 无父 Stage D partition默认值


    6.下面哪个不是 RDD 的特点 ( )
    A. 可分区   B 可序列化   C 可修改   D 可持久化


    7. 关于广播变量,下面哪个是错误的 ( )
    A 任何函数调用    B 是只读的   C 存储在各个节点    D 存储在磁盘或 HDFS


    8. 关于累加器,下面哪个是错误的 ( )
    A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型


    9.Spark 支持的分布式部署方式中哪个是错误的 ( )
    A standalone B spark on mesos  C spark on YARN D Spark on local


    10.Stage 的 Task 的数量由什么决定 ( )

    A Partition B JobC Stage D TaskScheduler


    11.下面哪个操作是窄依赖 ( )
    A join B filter C group D sort


    12.下面哪个操作肯定是宽依赖 ( )
    A map B flatMap C reduceByKey D sample


    13.spark 的 master 和 worker 通过什么方式进行通信的? ( )
    A http B nio C nettyD Akka


    14 默认的存储级别 ( )
    A MEMORY_ONLY B MEMORY_ONLY_SER
    C MEMORY_AND_DISK D MEMORY_AND_DISK_SER


    15 spark.deploy.recoveryMode 不支持那种 ( )
    A.ZooKeeper B. FileSystem D NONE D Hadoop


    16.下列哪个不是 RDD 的缓存方法 ( )
    A persist() B Cache() C Memory()


    17.Task 运行在下来哪里个选项中 Executor 上的工作单元 ( )
    A Driver program B. spark master C.worker node D Cluster manager


    18.Hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( )
    A.没区别 B.多会话 C.支持网络环境D数据库的区别


    19.DataFrame 和 RDD 最大的区别 ( )
    A.科学统计支持 B.多了 schema C.存储方式不一样 D.外部数据源支持


    20.Master 的 ElectedLeader 事件后做了哪些操作 ( )
    A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE


    答案:

    DCBAD   CDDDA

    BCDAD   CCBBD

    展开全文
  • spark 测试

    千次阅读 2016-05-22 21:43:34
    1. spark 的四大组件下面哪个不是 ( ) A.Spark Streaming B Mlib C Graphx D Spark R 2.下面哪个端口不是 spark 自带服务的端口 ( ) A.8080 B.4040 C.8090 D.18080 3.spark 1.4 版本的最大变化 ( ) A ...

    1. spark 的四大组件下面哪个不是 ( )
    A.Spark Streaming B Mlib C Graphx D Spark R


    2.下面哪个端口不是 spark 自带服务的端口 ( )
    A.8080 B.4040 C.8090 D.18080


    3.spark 1.4 版本的最大变化 ( )
    A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配


    4. Spark Job 默认的调度模式 ( )
    A FIFO   B FAIR   C 无   D 运行时指定


    5.哪个不是本地模式运行的个条件 ( )
    A spark.localExecution.enabled=true   B 显式指定本地运行 C finalStage 无父 Stage D partition默认值


    6.下面哪个不是 RDD 的特点 ( )
    A. 可分区   B 可序列化   C 可修改   D 可持久化


    7. 关于广播变量,下面哪个是错误的 ( )
    A 任何函数调用    B 是只读的   C 存储在各个节点    D 存储在磁盘或 HDFS


    8. 关于累加器,下面哪个是错误的 ( )
    A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型


    9.Spark 支持的分布式部署方式中哪个是错误的 ( )
    A standalone B spark on mesos   C spark on YARN D Spark on local


    10.Stage 的 Task 的数量由什么决定 ( )

    A Partition B Job C Stage D TaskScheduler


    11.下面哪个操作是窄依赖 ( )
    A join B filter C group D sort


    12.下面哪个操作肯定是宽依赖 ( )
    A map B flatMap C reduceByKey D sample


    13.spark 的 master 和 worker 通过什么方式进行通信的? ( )
    A http B nio C netty D Akka


    14 默认的存储级别 ( )
    A MEMORY_ONLY B MEMORY_ONLY_SER
    C MEMORY_AND_DISK D MEMORY_AND_DISK_SER


    15 spark.deploy.recoveryMode 不支持那种 ( )
    A.ZooKeeper B. FileSystem D NONE D hadoop


    16.下列哪个不是 RDD 的缓存方法 ( )
    A persist() B Cache() C Memory()


    17.Task 运行在下来哪里个选项中 Executor 上的工作单元 ( )
    A Driver program B. spark master C.worker node D Cluster manager


    18.hive 的元数据存储在 derby 和 mysql 中有什么区别 ( )
    A.没区别 B.多会话 C.支持网络环境 D数据库的区别


    19.DataFrame 和 RDD 最大的区别 ( )
    A.科学统计支持 B.多了 schema C.存储方式不一样 D.外部数据源支持


    20.Master 的 ElectedLeader 事件后做了哪些操作 ( )
    A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE


    答案:

    DCBAD   CDDDA

    BCDAD   CCBBD












    展开全文
  • 编写Spark测试用例

    千次阅读 2016-08-31 16:09:40
    scalaTest的使用代码src/test/tool/LocalSparkContext.scalaimport org.apache.spark.{SparkConf, SparkContext} import org.scalatest._trait LocalSparkContext extends BeforeAndAfterAll { sel

    使用scalaTest工具,用法参考:
    scalaTest的使用

    代码

    src/test/tool/LocalSparkContext.scala

    import org.apache.spark.{SparkConf, SparkContext}
    import org.scalatest._
    
    trait LocalSparkContext extends BeforeAndAfterAll {
      self: Suite =>
    
      @transient var sc: SparkContext = _
    
      override def beforeAll() {
        val conf = new SparkConf()
          .setMaster("local[2]")
          .setAppName("test")
        sc = new SparkContext(conf)
      }
    
      override def afterAll() {
        if (sc != null) {
          sc.stop()
        }
      }
    }

    src/test/SparkWCSuit

    import org.apache.spark.sql.{Row, SQLContext}
    import org.scalatest.FunSuite
    import tool.LocalSparkContext
    
    class SparkWCSuit extends FunSuite
      with LocalSparkContext {
    
    //rdd wordCount
      test("test rdd wc") {
        sc.setLogLevel("ERROR")
        val rdd = sc.makeRDD(Seq("a", "b", "b"))
        val res = rdd.map((_, 1)).reduceByKey(_ + _).collect().sorted
        assert(res === Array(("a", 1), ("b", 2)))
      }
    
    //df wordCount
      test("test df wc") {
        val sqlContext = SQLContext.getOrCreate(sc)
        import sqlContext.implicits._
        val df = sc.makeRDD(Seq("a", "b", "b")).toDF("word")
        val res = df.groupBy("word").count().collect()
        assert(res === Array(Row("a",1),Row("b",2)))
      }
    }

    结果

    这里写图片描述

    展开全文
  • Flume结合Spark测试

    2015-05-18 20:56:30
    近日,在测试Flume结合Kafka结合Spark Streaming的实验。今天把Flume与Spark的简单结合做出来了,这里记录一下,避免网友走弯路。有不周到的地方还希望路过的大神多多指教。实验比较简单,分为两部分:一、使用avro-...
  • CentOs7 单节点配置spark2.4.7测试环境 需要首先安装 jdk 和 Scala 参考jdk安装与scala安装 做好准备工作后开始spark安装配置 二.spark安装 1.spark下载 使用wget下载spark源码 可以使用国内镜像源 hadoop版本...
  • windows下搭建Spark需要分3步:JDK、Spark、Hadoop的安装及配置 (一)JDK的安装及环境配置 JDK下载地址:JDK下载 点一下accept License Agreement出现下面的图片,然后选择合适的版本下载。 JDK的安装十分...
  • spark测试集群搭建

    2015-11-04 06:45:51
    集群环境:centos6.5+hadoop2.7.1+spark1.5.1 集群规模:3个节点  Master  Slave1  Slave2 软件下载:centos6.5 下载地址  scala-2.10.4.rpm  jdk-7u79-linux-x64.rpm  spark-1.5.1-bin-hadoop2.6.tgz  ha
  • 基于cdh5的spark测试

    2020-05-26 23:40:37
    备注: 基于CDH进行Spark开发时,使用高版本的apache原生包即可;不需要使用CDH中的spark开发包,另外,其它生态项目也如此。在IDEA开发的时候用原生包,实际往生产环境部署时默认就使用CDH的包了。 2.pom.xml配置 &...
  • 1.测试cdh集群中spark是否正常运行 [root@cdh01 ~]# spark-submit --master local --class org.apache.spark.examples.SparkPi /opt/cloudera/parcels/CDH-5.11.1-1.cdh5.11.1.p0.4/lib/spark/lib/spark-examples....
  • hive on spark 测试

    2016-01-18 18:06:31
    [size=medium] 基础环境: Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 ...Apache Spark1.6.0 Cloudr...
  • spark测试脚本-笔记

    2018-10-15 11:17:00
    1)Spark配置&启动脚本分析 http://www.cnblogs.com/riordon/p/5732208.html 转载于:https://www.cnblogs.com/moonlightml/p/9789952.html
  • 本篇文章也是我参照着... 首先我们安装一个软件我们肯定要有它的安装包,我给个网站Apache的一个资源库:http://archive.apache.org/dist/spark/spark-2.2.2/ 这个是下载spark2.2.2版本的,这个版本需要jdk1.8 和 ...
  • 修改配置文件3.1 conf/spark.conf3.2 conf/hadoop.conf3.3 conf/hibench.conf4.运行5.report结果查询 1.综述 环境 版本 虚拟操作系统 Centos7.5 Ambari 2.7.3 HDP 3.1.0.0 项目GitHub地址:...
  • LDA in spark测试备忘

    2016-07-08 19:55:50
    LDA是什么? 我也不懂.. 大概就是, 一堆article, 每个都是由word们组成, 想给它们聚类成K(超参数)个topic, 还能求出一个p(word|topic). 计算过程大概就是玩{article, word, topic}之间的各种概率, 迭代计算, 细节玄机...
  • http://www.powerxing.com/install-hadoop/我利用两台机器搭建测试。为了解决hdfs地址绑定127.0.0.1,修改和hostname。 分别修改/etc/sysconfig/network;/etc/hosts;hostname testdata; 重新登录,搞定。 te
  • Docker 安装参考:... 合适的hadoop,Spark镜像:git clone https://github.com/big-data-europe/docker-hadoop-spark-workbench.git  进入下载后的目录 docker-hadoop-spark-work...
  • 废话不多说 import org.apache.log4j.{...import org.apache.spark.internal.Logging object SomeTest extends App with Logging { Logger.getRootLogger.setLevel(Level.WARN) } 继承Logging 这样打印的就是我...

空空如也

1 2 3 4 5 ... 20
收藏数 4,650
精华内容 1,860
关键字:

spark测试