精华内容
下载资源
问答
  • Spark学习一:搭建基于Gradle和Scale的Spark工程
    千次阅读
    2019-03-12 21:12:10

    现代软件开发中必须使用的一个开发工具是自动化构建工具,可以方便的划分软件的目录结构、编译、执行测试以及生成测试报告等,因此一开始学习Spark时也是按照标准的开发过程。

    不管学习什么语言还是框架,第一个程序都是HelloWorld,因此我第的一个Spark程序是HelloSpark。接下来一步一步介绍基于gradle和scala的HelloSpark工程的建立过程。

    详细步骤

    • 下载Spark安装包,请参考http://spark.apache.org/docs/latest/
    • 使用IntelliJ IDEA工具构建一个空的gradle工程,构建的结果如下:
      在这里插入图片描述
    • 在空的gradle工程中添加src/main/scala和src/test/scala目录
    • 修改build.gradle如下:
    plugins {
        id 'idea'
        id 'scala'
    }
    
    group 'com.learning.spark'
    version '1.0-SNAPSHOT'
    
    sourceCompatibility = 1.8
    
    repositories {
        mavenCentral()
    }
    
    sourceSets {
        main {
            scala {
                srcDirs = ['src/main/scala']
            }
        }
    
        test {
            scala {
                srcDirs = ['src/test/scala']
            }
        }
    }
    
    dependencies {
        implementation 'org.scala-lang:scala-library:2.11.12'
    
        //saprk dependencies
        implementation 'org.apache.spark:spark-core_2.11:2.4.0'
    
        testImplementation 'org.scalatest:scalatest_2.11:3.0.0'
        testImplementation 'junit:junit:4.12'
        testCompile group: 'junit', name: 'junit', version: '4.12'
    }
    
    • 用gradle命令将工程打包成jar,如下:
    ./gradlew jar
    
    • 将jar包考到Spark环境中,执行如下命令执行jar包:
    spark-submit --class com.selflearning.spark.HelloSpark HelloSpark-1.0-SNAPSHOT.jar ./README.md  ./output
    

    源代码

    请从HelloSpark下载源代码。

    更多相关内容
  • Spark 工程

    2019-07-02 14:11:20
    Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑, 由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码 只有63个Scala文件...
  • 工程创建好了 5.打开IDEA界面后,将默认创建的src模块删除 6.创建自己的module 点击该工程,右键点击new–>module 7.选择maven,选择Next 8.做好相关的命名,点击next 9.填写对应的,随后点击finish, 10.一个spa

    1.选择File-Project
    在这里插入图片描述
    2.选择Maven,选用的是JDK1.8,点击Next
    在这里插入图片描述
    3.定义Maven_project的GAV.点击Next
    在这里插入图片描述
    4.命名好自己的Project name ,选择对应的路径,点击finish
    工程创建好了
    在这里插入图片描述
    5.打开IDEA界面后,将默认创建的src模块删除
    在这里插入图片描述
    6.创建自己的module
    点击该工程,右键点击new–>module
    在这里插入图片描述
    7.选择maven,选择Next
    在这里插入图片描述
    8.做好相关的命名,点击next
    在这里插入图片描述
    9.填写对应的,随后点击finish,
    在这里插入图片描述
    10.一个spark maven project创建成功了
    以后可以在module的pom添加相关的依赖并打jar包运行在本地或者集群上了
    在这里插入图片描述
    11.创建完工程和module之后,需要创建对应的包package
    点击File->project Structure
    在这里插入图片描述
    12.点击module,点击对应的module,创建对应的package
    在这里插入图片描述
    13.点击main,选择new folder,
    在这里插入图片描述
    14.创建名为scala的文件夹,点击ok
    在这里插入图片描述
    15.创建好后,选中对应的文件,再选择上方的Mark as将其标记为对应的文件类型
    比如main中的java和scala文件是Sources,resources是Resources文件
    在这里插入图片描述
    16.同理,test文件也类似,最后的包结构如下
    这里的包结构要注意,main和test都是普通的文件,多注意颜色,
    main下的java和scala与test下的java和scala是文件标签是不一样的
    (之后遇到创建包遇到问题,第一时间检查这里的问题
    在这里插入图片描述
    17,这里还需要注意一点
    language-level要选用8
    在这里插入图片描述
    哦啦
    觉得好的点个赞噢
    友情推广:小伙伴创建的微信公众平台offerNeed,大量的公司内推信息

    展开全文
  • 文章目录Spark创建工程安装scala插件scala sdk配置spark代码 Spark创建工程 安装scala插件 Idea默认是不能创建Scala工程的。需要安装idea的scala插件 方法一:利用系统在线下载 方法二:方法一失效的情况下,可以在...

    Spark创建工程

    Spark简介

    Spark是一个通用的分布式数据处理引擎。
    上面这句话听起来或许很抽象,我们一个词一个词的来解释
    **通用:**通用指的是Spark可以做很多事情。刚刚我们提到过的,包括机器学习,数据流传输,交互分析,ETL,批处理,图计算等等等等都是Spark可以做到的。甚至可以说,你需要用数据实现的任何事情,你都可以用Spark试试看。

    **分布式:**指的是Spark处理数据的能力是建立在许多机器上的,是可以和分布式的存储系统对接的,是可以做横向扩展的(简单点说就是电脑越多,能力越大)

    **引擎:**所谓引擎,说的就是Spark自己不会存储数据,它就像实体的机械引擎一样,会将燃料(对Spark来说是数据)转化成使用者需要的那种形式——例如驱动汽车,再例如得到一个需要的目标结论。但无论如何,巧妇难为无米之炊,没数据是万万不行的。

    在这里插入图片描述

    安装scala插件

    Idea默认是不能创建Scala工程的。需要安装idea的scala插件

    方法一:利用系统在线下载
    在这里插入图片描述
    方法二:方法一失效的情况下,可以在官网下载好后选择手动上传
    在这里插入图片描述
    注意:加载后需要重启Idea才能生效

    scala sdk配置

    利用maven下载对应的jar包

    <dependency>
          <groupId>org.scala-lang</groupId>
          <artifactId>scala-library</artifactId>
          <version>2.11.12</version>
        </dependency>
        <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.1.1</version>
      </dependency>
        <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-sql_2.11</artifactId>
          <version>2.1.1</version>
        </dependency>
    

    然后加载对应的jar包
    在main文件夹内创建一个新的文件夹scala
    在这里插入图片描述
    设置为资源文件夹
    在这里插入图片描述
    加载jar包
    在这里插入图片描述
    在这里插入图片描述

    spark代码

    def main(args: Array[String]): Unit = {
      val conf = new SparkConf().setMaster("local[*]").setAppName("sparkDemo")
      val sc = SparkContext.getOrCreate(conf)
      println(sc)
      var spark:SparkSession =   SparkSession.builder().master("local[*]").appName("sparksession").getOrCreate()
      println(spark)
    
        //sc读取HDFS上的文件
        val wcfile = sc.textFile("hdfs://192.168.XXX.100:9000/sparkfile/hello.txt")
        wcfile.collect.foreach(println)
        //sc读取本地文件
        sc.textFile("file:///opt/soft/hello.txt")
    
        //通过内存创建RDD
    //    val rdd:RDD[Int] = sc.parallelize(1 to 10,3)
    //        rdd.collect()foreach(println)
    
        // wordcount
    //    var wcrdd = sc.parallelize(Array("hello java","hello scala","hello python","java is good"))
    //        wcrdd.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).collect()foreach(println)
    }
    
    
    展开全文
  • 利用idea创建spark工程

    千次阅读 2018-07-11 20:41:03
    本文记录了win7环境下怎样创建本地spark工程,并传递给spark。1.spark环境搭建Win7 系统下用IDEA创建Spark工程,由于版本之间相互依赖,下载时要看清楚版本。Jdk:1.8.0_171Spark:2.3.0Hadoop:2.7IDEA支持的Scala工程...

            实际项目中,我们可以再本地调试程序,再在spark集群上运行。本文记录了win7环境下怎样创建本地spark工程,并传递给spark。

    1.spark环境搭建

    Win7 系统下用IDEA创建Spark工程,由于版本之间相互依赖,下载时要看清楚版本。

    Jdk:1.8.0_171

    Spark:2.3.0

    Hadoop:2.7

    IDEA支持的Scala工程插件

    Scala:2.11.8

     1 Spark下载

    http://spark.apache.org/downloads.html

       先进入spark官网的下载页,选择要下载的Spark版本,hadoop版本相应推荐出来。

    下载spark2.3.0-bin-hadoop2.7.tgz,同时记住Hadoop的版本。



    2 hadoop下载

    再进入hadoop下载页。选择相应的版本。

    http://hadoop.apache.org/releases.html



    3 win7环境下的Spark环境配置

    Spark不支持win7,因此需要下载一个hadooponwindos-master的包。原始下载的hadoop2.7.6的bin在win7下编译会缺少dll文件,此包加入了这些文件。最后的安装工具如图:

    用hadooponwindos-master的bin文件复制到D:\software\spark\hadoop-2.7.6\bin,替换hadoop-2.7.6的bin文件。

    4环境配置


    Jdk配置:

    JAVA_HOME:

    Path:

    %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;

    ClassPath:

    .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

    HadoopSpark环境配置:

    HADOOP_HOME:D:\software\spark\spark-2.3.0-bin-hadoop2.7

    Path:%HADOOP_HOME%\bin

    SPARK_HOME:D:\software\spark\spark-2.3.0-bin-hadoop2.7

    Path:%SPARK_HOME%\bin

     

    测试一下:



    完成配置!在这里要注意一下,scala的支持版本号:2.11.8一定要下载对应的版本,否则后面用idea创建Spark工程会出现下面的错误:

    Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps;  

     

    Jvm抛出异常:本质是版本不匹配。


    5 scala安装

    在官网上下载scala 2.11.8,配置%SCALA_HOME%\bin。之后,测试一下:

     


    2 用Intellij IDEA创建Spark工程

    2.1准备工作

    安装ideascala-2.11.8

    2.2安装scala插件

    Idea默认是不能创建Scala工程的。需要安装ideascala插件,如何判断idea需要安装哪个版本?安装此插件有两种方法:

    File--->Setting--->Plugins

    联网状态下:搜索scala,查看的版本是scala Version 2017.3.15

    方法一:点击install,idea会安装对应的scala插件。



    方法二:如果未下载成功,可以直接到官网上下载对应版本的插件。如上文所示,scala-intellij-bin-2017.3.15.zip为下载对应的插件。注意下,此插件不需要解压。选择Install plugin from disk,之后选择此插件即可。



    注意:安装完后,要重启Idea

    2.3创建Spark工程

    1scala sdk配置

    File->New Project->Java

    选择JavaSDK,选择Scala.

    选择Create,将2.1.5一节中下载的scala添加进来

    选择create ---》Browse,选中scala2.11.8的安装目录,将scala sdk配好。

    2)创建工程目录

     


    2.4 添加Sparkjar

    File->Project Structure->Libraries

    spark-2.3.0-bin-hadoop2.7中的jars添加进来。

     

    在此操作之后,External Libraries中会出现jdk 1.8,jars,scala-sdk三个lib

     


    2.5 scala工程测试

    创建一个SparkDemoObject,并运行。

    package demo
    import org.apache.spark._
    object SparkDemo{
    
    
      def main(args: Array[String]): Unit={
        val masterUrl = "local[1]"
        val conf = new SparkConf().setAppName("helenApp").setMaster(masterUrl)
        val sc = new SparkContext(conf)
    
    
    
        val rdd=sc.parallelize(List(1,2,3,4,5,6)).map(_*3)
    
        rdd.filter(_>10).collect().foreach(println)
        println(rdd.reduce(_+_))
    
       println("hello world")
    
       }
    }

    查看运行结果:

    rdd.filter(_>10).collect().foreach(println)




    println(rdd.reduce(_+_))
    println("hello world")


    参考:http://spark.apache.org/developer-tools.html

    附:错误汇总:

     

    运行官方example/sparksql example

    报错:Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configuration

    解决:

    传递给sparkmaster url可以有如下几种:

    local 本地单线程
    local[K] 本地多线程(指定K个内核)
    local[*] 本地多线程(指定所有可用内核)
    spark://HOST:PORT 连接到指定的 Spark standalone cluster master,需要指定端口。
    mesos://HOST:PORT 连接到指定的 Mesos 集群,需要指定端口。
    yarn-client客户端模式 连接到 YARN 集群。需要配置 HADOOP_CONF_DIR

    yarn-cluster集群模式 连接到 YARN 集群。需要配置 HADOOP_CONF_DIR

    若是本地调试状态可以默认为local,设置如下:

    Run->Edit Configuration

    编辑VM option  输入: “-Dspark.master=local”指示本程序本地单线程运行,再次运行即可。






    展开全文
  • 数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划(physical plan)阶段,Spark 的 JoinSelection 类会根据 Join h...
  • sbt构造spark项目实在是太慢了,终于构造好了,拿出来和大家分享,直接导入到intellij里就可以研究spark了,定义跳转非常方便。基于当前最新版本的spark构造的工程
  • 现在可以用spark来做大数据上的数据处理,比如数据工程、监督学习、无监督学习模型的构建,只要计算资源够就OK。【大数据底层做分布式处理】 注意:spark基于RDD形态、DataFrame形态两种形态的工具库,其中基于RDD...
  • 《windows下IDEA创建Spark工程并提交执行》IDEA创建Spark工程 IDEA创建Spark工程   1、创建时在Scala中选择IDEA项目            2、设置JAVA JDK 和Scala的JDK,其中Project SDK需要通过“New…”...
  • 选择Maven工程,Next 自定义项目名称,及项目存储的位置,Finish即可完成新项目的创建 返回顶部 二、配置Maven环境 File下找到setting,在搜索栏中查找maven 修改Maven home path、User settings file、Local ...
  • idea中 spark 工程项目单元测试

    千次阅读 2021-11-12 10:27:50
    StringType, true), StructField("label", StringType, true) )) val rdd = spark.sparkContext.parallelize(Seq( Row.fromSeq(Seq("1", 20.0, "F", "c1")), Row.fromSeq(Seq("2", Double.NaN, "F", "c1")), Row....
  • Intellij idea 创建Maven Spark工程

    千次阅读 2018-09-19 17:23:16
     Intellij idea开发Spark工程,本地依赖使用Maven进行管理,打包也是用Maven命令,依赖包需要和编译后的源代码同时包含到结果Jar包中。   正文 创建Maven工程 截图如下,就是用原生的Maven工程,不要选择下面...
  • spark项目代码以及数据 spark项目代码以及数据 spark项目代码以及数据
  • maven-scala-plugin:未知 解决方案: 首先:IDEA插件自动生成的pom文件中scala的版本是 2.7,需要修改成与本地scala一致的版本号,我的是2.12.10 4.0.0 cn.example sparkrdd 1.0 2008 2.12.10 3.1.2 然后...
  • 基于maven创建spark工程、调试并运行

    千次阅读 2016-05-12 12:13:04
    建立spark工程有两种方式:java工程、maven工程。 由于maven管理jar包很方便,本篇基于maven构建spark工程。 spark支持四种语言:scala、java、python、R。 其中scala是基于java的语言,必须有JDK支持。 ...
  • spark 工程导入

    2017-10-26 15:52:17
    输入项目工程spark,选中spark文件目录; 导入成功后,会出现很多错误,删除多余的文件,只保留如下source 2、  b) Run/Debug Settings -> Main: Main class: org.jivesoftware.launcher.Startu
  • 目录一、IDEA Maven工程创建与配置二、开发Spark Application程序并进行本地测试三、 一、IDEA Maven工程创建与配置 二、开发Spark Application程序并进行本地测试 三、
  • 工程目录概览 代码 package com.zxl.spark.atguigu import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object L01_WordCount { def main(args: Array[String]): Unit = { //...
  • Spark特征工程

    千次阅读 2018-11-17 18:45:06
    按照惯例,先附上业界那句名言“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。特征工程是指用一系列工程化的方式从原始数据中筛选出更好的数据特征...一般的,python的sklearn、spark的mll...
  • spark:3.1.2 一、Idea创建scala项目 Idea新建一个新的项目,选择通过maven创建: 给项目起个名字,设置版本: maven选项,如果有本地maven的话用本地的,没有的话建议下一个,不行用这个默认的也可以: 设置...
  • Spark集群模式&Spark程序提交1. 集群管理器Spark当前支持三种集群管理方式Standalone—Spark自带的一种集群管理方式,易于构建集群。Apache Mesos—通用的集群管理,可以在其上运行Hadoop MapReduce和一些服务...
  • 创建Maven Project工程【bigdata-spark_2.11】,设置GAV三要素的值如下: 创建Maven Module模块【spark-chapter01_2.11】,对应的GAV三要素值如下: 至此,将Maven Module模块创建完成,可以开始编写第一个Spark...
  • spark版本:3.0.3 scala版本:2.12.11 一.创建Maven项目,增加scala插件: 新建一个Maven项目,版本号1.0.0,然后下一步中的项目名和Artifactid中名称一样。 然后在main.java下新建包com.sparkcore: 为...
  • 目前Spark官方提供的最新版本3.2.0,是2021年10月份发布,但是该版本搭建Windows下环境,在使用spark-shell时,会报以下错误,尚无解决方案。 退而求其次,使用Spark3.1.2,则完全正常。 本次搭建环境,所使用到的...
  • Intelli IDEA开发Spark工程关联Spark源码!一、关联什么?一般关联zip、jar等,但是Spark的源码是tgz格式的,没法关联,没关系,下载tgz的,解压缩成目录。二、怎么关联?第1步先选中工程。选择Project structure。...
  • 小白必看,用maven构建spark项目 首先,我们需要下载maven maven下载地址 1.解压安装即可 2.进入conf目录,修改配置文件settings.xml文件,配置阿里云镜像 -<mirror> <id>nexus-aliyun</id> <...
  • Spark MLlib简介

    2021-01-07 03:36:16
    MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。 MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 ...
  • spark所需依赖

    2020-12-21 15:58:50
    spark-parent <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=...
  • Spark ML 特征工程之 One-Hot Encoding-附件资源

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,645
精华内容 16,258
关键字:

spark工程