精华内容
下载资源
问答
  • xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">4.0.0...

    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    4.0.0

    com.baidukt

    spark

    1.0-SNAPSHOT

    jar

    1.8

    1.8

    2.11.12

    2.3.1

    2.7.6

    2.0.1

    2.0.1

    UTF-8

    org.scala-lang

    scala-library

    ${scala.version}

    org.apache.spark

    spark-core_2.11

    ${spark.version}

    org.apache.spark

    spark-sql_2.11

    ${spark.version}

    org.apache.spark

    spark-graphx_2.11

    ${spark.version}

    org.apache.spark

    spark-streaming_2.11

    ${spark.version}

    org.apache.spark

    spark-streaming-kafka-0-10_2.11

    ${spark.version}

    org.apache.kafka

    kafka-clients

    ${kafka-clients.version}

    org.apache.kafka

    kafka-streams

    ${kafka-streams.version}

    org.apache.spark

    spark-hive_2.11

    ${spark.version}

    org.apache.hbase

    hbase-common

    2.0.1

    org.apache.hbase

    hbase-client

    2.0.1

    org.apache.hbase

    hbase-server

    1.2.3

    org.apache.hbase

    hbase

    2.0.1

    pom

    org.apache.hadoop

    hadoop-client

    ${hadoop.version}

    org.apache.hadoop

    hadoop-hdfs

    ${hadoop.version}

    org.apache.zookeeper

    zookeeper

    3.4.10

    redis.clients

    jedis

    2.9.0

    log4j

    log4j

    1.2.17

    com.typesafe

    config

    1.3.0

    commons-httpclient

    commons-httpclient

    3.1

    com.alibaba

    fastjson

    1.2.35

    ch.hsr

    geohash

    1.3.0

    mysql

    mysql-connector-java

    5.1.47

    org.apache.maven.plugins

    maven-compiler-plugin

    3.8.0

    1.8

    1.8

    org.apache.maven.plugins

    maven-compiler-plugin

    3.8.0

    compile

    compile

    org.apache.maven.plugins

    maven-shade-plugin

    3.2.1

    package

    shade

    *:*

    META-INF/*.SF

    META-INF/*.DSA

    META-INF/*.RSA

    展开全文
  • 由于IDEA的SBT框架建立过程特别缓慢...所以下面介绍一种基于IDEA的Maven框架搭建Spark开发环境,只需要建立添加Maven模块并导入该XML配置文件即可,注意其中的Spark版本和Scala版本要相互匹配。如有任何问题可以留言。
  • 主要介绍了IDEA创建maven项目引入相关依赖无法下载jar问题及解决方案,本文通过图文并茂的形式给大家分享解决方案,需要的朋友可以参考下
  • sparkmaven依赖

    千次阅读 2019-07-02 18:59:18
    <properties> <spark.version>2.4.3</spark.version> <scala.version>2.11</scala.version> </properties> <dependencies> <de...
        <properties>
            <spark.version>2.4.3</spark.version>
            <scala.version>2.11</scala.version>
        </properties>
    
        <dependencies>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-core_${scala.version}</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-streaming_${scala.version}</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-sql_${scala.version}</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-hive_${scala.version}</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-mllib_${scala.version}</artifactId>
                <version>${spark.version}</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hbase</groupId>
                <artifactId>hbase-client</artifactId>
                <version>0.98.12-hadoop2</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hbase</groupId>
                <artifactId>hbase-server</artifactId>
                <version>0.98.12-hadoop2</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-mapreduce-client-core</artifactId>
                <version>2.6.5</version>
            </dependency>
    
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-client</artifactId>
                <version>2.6.5</version>
            </dependency>
    
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-common</artifactId>
                <version>2.6.5</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hbase</groupId>
                <artifactId>hbase-protocol</artifactId>
                <version>1.2.6</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hbase</groupId>
                <artifactId>hbase-shaded-client</artifactId>
                <version>1.2.6</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-hdfs</artifactId>
                <version>2.6.5</version>
            </dependency>
    
        </dependencies>
    
    展开全文
  • Maven 配置Spark + hadoop

    2018-01-22 14:36:36
    如果遇到版本冲突,用以下命令查看maven 依赖关系,排除错误依赖版本,配置所缺依赖版本 一 查看依赖 mvn生成依赖解析树,用于查看版本冲突,哪个版本被使用 mvn dependency:tree mvn dependency:tree >>...

            工程基于Spark  2.0.0 + hadoop 2.8.0 构建,数据裤使用MongoDB,以下为配置详情.如果遇到版本冲突,用以下命令查看maven 依赖关系,排除错误依赖版本,配置所缺依赖版本

    一   查看依赖

    mvn生成依赖解析树,用于查看版本冲突,哪个版本被使用
    mvn dependency:tree
    mvn dependency:tree >>dependency.log


    二  pom.xml配置


    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
      <modelVersion>4.0.0</modelVersion>
      <groupId>工程目录</groupId>
      <artifactId>工程名</artifactId>
      <version>1.0-SNAPSHOT</version>
      <inceptionYear>2008</inceptionYear>
    
    
      <properties>
        <scala.version>2.12.3</scala.version>
        <spark.artifactID.suffix>2.11</spark.artifactID.suffix>
        <spark.version>2.2.0</spark.version>
        <hadoop.version>2.7.4</hadoop.version>
     
      </properties>
    
      <repositories>
        <repository>
          <id>scala-tools.org</id>
          <name>Scala-Tools Maven2 Repository</name>
          <url>http://scala-tools.org/repo-releases</url>
        </repository>
      </repositories>
    
      <pluginRepositories>
        <pluginRepository>
          <id>scala-tools.org</id>
          <name>Scala-Tools Maven2 Repository</name>
          <url>http://scala-tools.org/repo-releases</url>
        </pluginRepository>
      </pluginRepositories>
    
      <dependencies>
    
    
                
    
        <!--scala 依赖,如果报scala xml错误,可释放以下部分-->
    
    
        <!--  <dependency>
              <groupId>org.scala-lang</groupId>
              <artifactId>scala-xml</artifactId>
              <version>2.11.0-M4</version>
          </dependency>
    
    
          <dependency>
              <groupId>org.scala-lang</groupId>
              <artifactId>scala-library</artifactId>
              <version>${scala.version}</version>
          </dependency>-->
          -->
    
        <!--测试-->
        <dependency>
          <groupId>junit</groupId>
          <artifactId>junit</artifactId>
          <version>4.4</version>
          <scope>test</scope>
        </dependency>
        <dependency>
          <groupId>org.specs</groupId>
          <artifactId>specs</artifactId>
          <version>1.2.5</version>
          <scope>test</scope>
        </dependency>
    
    
    
    
    
        <!-- spark -->
        <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-core_${spark.artifactID.suffix}</artifactId>
          <version>${spark.version}</version>
        </dependency>
    
        <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-streaming_${spark.artifactID.suffix}</artifactId>
          <version>${spark.version}</version>
    
        </dependency>
    
    
        <!-- spark-sql spark-hive -->
        <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-sql_${spark.artifactID.suffix}</artifactId>
          <version>${spark.version}</version>
    
        </dependency>
    
        <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-hive_${spark.artifactID.suffix}</artifactId>
          <version>${spark.version}</version>
    
        </dependency>
        <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-mllib_${spark.artifactID.suffix}</artifactId>
          <version>${spark.version}</version>
    
        </dependency>
    
    
        <!-- hadoop  hadoop 2.x 后无hadoop-core,分散在hdfs,common,mapreduce-client -->
    
        <dependency>
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-common</artifactId>
          <version>${hadoop.version}</version>
        </dependency>
        <dependency>
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-client</artifactId>
          <version>${hadoop.version}</version>
        </dependency>
    
    
        <dependency>
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-hdfs</artifactId>
          <version>${hadoop.version}</version>
        </dependency>
    
    
    
    
        <dependency>
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-mapreduce-client-core</artifactId>
          <version>${hadoop.version}</version>
          <exclusions>
            <exclusion>
              <artifactId>org.apache.hadoop</artifactId>
              <groupId>hadoop-core</groupId>
            </exclusion>
          </exclusions>
        </dependency>
    
        <dependency>
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-annotations</artifactId>
          <version>${hadoop.version}</version>
        </dependency>
    
        <dependency>
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-minicluster</artifactId>
          <version>${hadoop.version}</version>
          <scope>test</scope>
        </dependency>
    
    
        <!-- mongodb的支持 -->
    
     
    
        <dependency>
          <groupId>org.mongodb</groupId>
          <artifactId>mongo-java-driver</artifactId>
          <version>3.4.2</version>
        </dependency>
    
    
    
        <dependency>
          <groupId>org.mongodb.spark</groupId>
          <artifactId>mongo-spark-connector_2.11</artifactId>
          <version>2.2.0</version>
        </dependency>
     
    
    
        <dependency>
          <groupId>com.alibaba</groupId>
          <artifactId>fastjson</artifactId>
          <version>1.2.44</version>
        </dependency>
    
    
      </dependencies>
    
      <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <testSourceDirectory>src/test/scala</testSourceDirectory>
        <plugins>
          <plugin>
            <groupId>org.scala-tools</groupId>
            <artifactId>maven-scala-plugin</artifactId>
            <executions>
              <execution>
                <goals>
                  <goal>compile</goal>
                  <goal>testCompile</goal>
                </goals>
              </execution>
            </executions>
            <configuration>
              <scalaVersion>${scala.version}</scalaVersion>
              <args>
                <arg>-target:jvm-1.5</arg>
              </args>
            </configuration>
          </plugin>
          <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-eclipse-plugin</artifactId>
            <configuration>
              <downloadSources>true</downloadSources>
              <buildcommands>
                <buildcommand>ch.epfl.lamp.sdt.core.scalabuilder</buildcommand>
              </buildcommands>
              <additionalProjectnatures>
                <projectnature>ch.epfl.lamp.sdt.core.scalanature</projectnature>
              </additionalProjectnatures>
              <classpathContainers>
                <classpathContainer>org.eclipse.jdt.launching.JRE_CONTAINER</classpathContainer>
                <classpathContainer>ch.epfl.lamp.sdt.launching.SCALA_CONTAINER</classpathContainer>
              </classpathContainers>
            </configuration>
          </plugin>
    
    
    
          <!--将依赖包打入-->
          
    <!--将依赖包打入-->
    <plugin>
      <artifactId>maven-compiler-plugin</artifactId>
      <configuration>
        <source>1.7</source>
        <target>1.7</target>
        <encoding>${project.build.sourceEncoding}</encoding>
      </configuration>
    </plugin>
    <plugin>
      <artifactId>maven-assembly-plugin</artifactId>
      <configuration>
        <descriptorRefs>
          <descriptorRef>jar-with-dependencies</descriptorRef>
        </descriptorRefs>
        <!--<archive>
          <manifest>
            <mainClass>com.shentu.cn.LitchiMarketCleanProcess</mainClass>
          </manifest>
        </archive>-->
      </configuration>
      <executions>
        <execution>
          <id>make-assembly</id> <!-- this is used for inheritance merges -->
          <phase>package</phase> <!-- bind to the packaging phase -->
          <goals>
            <goal>single</goal>
          </goals>
        </execution>
      </executions>
    </plugin>
    
    <!--将依赖包打入-->
     <!--排除一些程序无关文件-->
    <plugin>
      <artifactId>maven-shade-plugin</artifactId>
      <version>2.4.3</version>
      <executions>
        <execution>
          <phase>package</phase>
          <goals>
            <goal>shade</goal>
          </goals>
          <configuration>
            <filters>
              <filter>
                <artifact>*:*</artifact>
                <excludes>
                  <exclude>META-INF/*.SF</exclude>
                  <exclude>META-INF/*.DSA</exclude>
                  <exclude>META-INF/*.RSA</exclude>
                </excludes>
              </filter>
            </filters>
          </configuration>
        </execution>
      </executions>
    </plugin>
    <!--排除一些程序无关文件-->
    </plugins> </build> <reporting> <plugins> <plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId> <configuration> <scalaVersion>${scala.version}</scalaVersion> </configuration> </plugin> </plugins> </reporting></project>

    展开全文
  • IDEA使用Maven开发Spark应用程序

    千次阅读 2018-04-27 20:17:05
    1.1 使用maven创建spark项目 如上图所示点击next创建自己的spark项目; 对maven进行修改 1.2 修改pom.xml &amp;lt;!--依赖的版本--&amp;gt; &amp;lt;properties&amp;gt; ...

    1 环境搭建

    1.1 使用maven创建spark项目

    这里写图片描述
    如上图所示点击next创建自己的spark项目;
    这里写图片描述
    对maven进行修改

    1.2 修改pom.xml
    <!--依赖的版本-->
    <properties>
          <scala.version>2.11.8</scala.version>
          <spark.version>2.2.0</spark.version>
          <hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
    </properties>
    
    <!--jar包下载的创库-->
    <repositories>
        <repository>
          <id>cloudera</id>
          <name>cloudera</name>
          <url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
        </repository>
    </repositories>
    
    <!--scala depedency-->
        <dependency>
          <groupId>org.scala-lang</groupId>
          <artifactId>scala-library</artifactId>
          <version>${scala.version}</version>
        </dependency>
    
        <!--spark core depedency-->
        <dependency>
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-core_2.11</artifactId>
          <version>${spark.version}</version>
        </dependency>
    
    <!--hadoop-client depedency-->
        <dependency>
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-client</artifactId>
          <version>${hadoop.version}</version>
        </dependency>
    

    2 词频统计代码开发

    import org.apache.spark.{SparkConf, SparkContext}
    /**
      * Created by grace on 2018/4/27.
      */
    object WordCountApp {
      def main(args: Array[String]): Unit = {
        //创建一个SparkConf
        val conf=new SparkConf();
        //sparkContext中传递一个SparkConf
        val sc=new SparkContext(conf);
        //接受一个文件
        val textFile=sc.textFile(args(0));
    
        //词频统计
        // (这里注意了,自己的文件是按照什么切分的,
        //作者就因为文件中的单词按照空格切分,代码中按照“\t”切分了,一直得不到想要的结果)
        val wc=textFile.flatMap(line =>line.split(" ")).map(x=>(x,1)).reduceByKey(_+_);
    
        //控制台输出结果
        wc.collect().foreach(println)
    
        //把结果存入到hdfs上
        //saveAsTextFile这个方法可以传递codec选择压缩方式进行存储
        wc.saveAsTextFile(args(1))
        //关闭
        sc.stop();
      }
    }
    
    

    注意: saveAsTextFile这个方法

    /**
       * Save this RDD as a compressed text file, using string representations of elements.
       */
      def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit = withScope {
        // https://issues.apache.org/jira/browse/SPARK-2075
        val nullWritableClassTag = implicitly[ClassTag[NullWritable]]
        val textClassTag = implicitly[ClassTag[Text]]
        val r = this.mapPartitions { iter =>
          val text = new Text()
          iter.map { x =>
            text.set(x.toString)
            (NullWritable.get(), text)
          }
        }
        RDD.rddToPairRDDFunctions(r)(nullWritableClassTag, textClassTag, null)
          .saveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path, codec)
      }
    

    通过源码我们可以看出saveAsTextFile这个方法可以传递codec选择压缩方式进行存储def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]) 可以传递两个参数:保存路径和压缩格式,大家可以自己测试下。

    3 打包上传

    这里写图片描述
    这里写图片描述
    点击package运行打包成功可以再target陌路下找到该jar包,这时候就可以上传了

    这里写图片描述

    4 提交应用程序(spark-submit)

    **注意:**这里作者出现了几个错误,详见该博客

    • 输入文件
    [hadoop@hadoop data]$ cat input.txt 
    hello java
    hello hadoop
    hello hive
    hello sqoop
    hello hdfs
    hello spark
    
    • 任务提交
    如果没有配置`SPARK_HOME`需要再bin目录下提交
    spark-submit \
    --class cn.zhangyu.WordCountApp \
    --master local[2] \
    /home/hadoop/lib/wordcount-1.0-SNAPSHOT.jar \
    /input	/output 
    
    其中/input为输入文件的目录(hdfs上),不存在会报错
    /output为输出文件的目录
    如果不行修改成:
    ./spark-submit \
    --class cn.zhangyu.WordCountApp \
    /home/hadoop/lib/spark_test-1.0.jar \
    hdfs://主机名或者ip:端口号/输入文件目录 hdfs://主机名或者ip:端口号/输出文件目录	  
    这个端口号是配置再core-site.xml中的。	  
    
    • 控制台输出结果
    (hive,1)
    (hello,6)
    (java,1)
    (sqoop,1)
    (spark,1)
    (hadoop,1)
    (hdfs,1)
    
    • hdfs输出结果
    [hadoop@hadoop data]$ hdfs dfs -ls /output
    Found 3 items
    -rw-r--r--   3 hadoop supergroup          0 2018-04-21 03:54 /output/_SUCCESS
    -rw-r--r--   3 hadoop supergroup         39 2018-04-21 03:54 /output/part-00000.deflate
    -rw-r--r--   3 hadoop supergroup         31 2018-04-21 03:54 /output/part-00001.deflate
    [hadoop@hadoop data]$ hdfs dfs -text /output/part-00000.deflate 
    18/04/21 03:57:17 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
    18/04/21 03:57:17 INFO compress.CodecPool: Got brand-new decompressor [.deflate]
    (hive,1)
    (hello,6)
    (java,1)
    (sqoop,1)
    

    注意:

    18/04/21 03:54:07 INFO FileInputFormat: Total input paths to process : 1
    

    大家在日志中会发现这句话,先猜测下是什么意思呢?

    5处理多个文件

    这里又上传了四个文件
    [hadoop@hadoop data]$ hdfs dfs -put input.txt  /input/1
    [hadoop@hadoop data]$ hdfs dfs -put input.txt  /input/2
    [hadoop@hadoop data]$ hdfs dfs -put input.txt  /input/3
    [hadoop@hadoop data]$ hdfs dfs -ls  /input             
    Found 4 items
    -rw-r--r--   3 hadoop supergroup         70 2018-04-21 04:06 /input/1
    -rw-r--r--   3 hadoop supergroup         70 2018-04-21 04:06 /input/2
    -rw-r--r--   3 hadoop supergroup         70 2018-04-21 04:06 /input/3
    -rw-r--r--   3 hadoop supergroup         70 2018-04-20 19:27 /input/input.txt
    
    • 提交任务
    spark-submit \
    --class cn.zhangyu.WordCountApp \
    --master local[2] \
    /home/hadoop/lib/wordcount-1.0-SNAPSHOT.jar \
    /input	/output1
    
    • 结果
    查看结果没毛病都乘了4
    (hive,4)
    (spark,4)
    (hadoop,4)
    (hdfs,4)
    (hello,24)
    (java,4)
    (sqoop,4)
    

    这时候大家再看日志,有没有发现这样一句话:

    18/04/21 04:07:37 INFO FileInputFormat: Total input paths to process : 4
    

    熟悉吗,应该知道什么意思了把,也就是split数量,为什么这样说呢,因为我们测试用的文件很小(小于128MB)如果文件大于128,这里个数就需要和128进行比较了。

    6 文件匹配规则

    spark-submit \
    --class cn.zhangyu.WordCountApp \
    --master local[2] \
    /home/hadoop/lib/wordcount-1.0-SNAPSHOT.jar \
    /input/*.txt	 /output2
    

    这里输入文件只会带有.txt结尾的。

    • 结果
    (hive,1)
    (hello,6)
    (java,1)
    (sqoop,1)
    (spark,1)
    (hadoop,1)
    (hdfs,1)
    

    7 wordcount进行排序

    import org.apache.spark.{SparkConf, SparkContext}
    /**
      * Created by grace on 2018/4/27.
      */
    object WordCountApp {
      def main(args: Array[String]): Unit = {
        //创建一个SparkConf
        val conf=new SparkConf();
        //sparkContext中传递一个SparkConf
        val sc=new SparkContext(conf);
        //接受一个文件
        val textFile=sc.textFile(args(0));
    
        //词频统计
        // (这里注意了,自己的文件是按照什么切分的,作者就因为文件中的单词按照空格切分,代码中按照“\t”切分了,一直得不到想要的结果)
        val wc=textFile.flatMap(line =>line.split(" ")).map(x=>(x,1)).reduceByKey(_+_);
    
        //根据value进行排序
        // 1 map(x=>(x._2,x._1)) 这里相当于把key和value位置互换
        // 2 sortByKey(false) 因为sortByKey()默认是按照升序排列的,所以传递一个false
        /*
        源码:sortByKey默认是ascending=true
        def sortByKey(ascending : scala.Boolean = { /* compiled code */ }, numPartitions : scala.Int = { /* compiled code */ })
         */
        // 3 .map(x=>(x._2,x._1)) 在进行反转一次,得到我们想要的结果
        val sort=wc.map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1))
        //控制台输出结果
        wc.collect().foreach(println)
    
        //把结果存入到hdfs上
        //saveAsTextFile这个方法可以传递codec选择压缩方式进行存储
        wc.saveAsTextFile(args(1))
        //关闭
        sc.stop();
      }
    }
    
    

    提示: 这样每次改变代码都要打包上传,比较麻烦,可以使用spark-shell进行测试。

    展开全文
  • 现在学习个新技术,虽然网上资料多得很,但是质量参差不齐!恕在下愚昧,实在想不懂那些都不验证帖子里技术的正确性就直接转载的那些人,心里是怎么想的!你要是感觉帖子好,请默默的收藏到你的收藏夹里,等你确定...
  • 1. 根据项目需要添加依赖;服务器上已经有大数据组件的依赖都无需打包依赖,所以可以在依赖加上<scope>provided</scope> 2. 如果使用IDEA,在本地运行项目时要在运行配置勾选【Include dependencies ...
  • IDEA 中maven 工程 ----Spark依赖管理

    千次阅读 2017-09-19 13:41:34
    在IEDA 使用maven工程管理spark依赖
  • 小白必看,用maven构建spark项目 首先,我们需要下载maven maven下载地址 1.解压安装即可 2.进入conf目录,修改配置文件settings.xml文件,配置阿里云镜像 -<mirror> <id>nexus-aliyun</id> <...
  • <!--mysql驱动包--> <dependency> <groupId>mysql...-- 导入spark依赖 --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> ${spark.version}</version> </dependency>
  • Spark源码提供了全面的Mllib使用案例,其实我们可以很简单的利用Idea和Maven修改打包这些示例,上传到Spark客户端执行。
  • 1、file--new project 进入如下页面 ... 2、进入如下页面 ...3、进入如下页面,需要配置pom文件,添加依赖 4、pom文件增加代码 <inceptionYear>2008</inceptionYear> <pr.
  •   最近有个spark集群压测时小任务,因为习惯了用maven,所以打算用maven的scala依赖来写spark程序。很久没写scala代码有些生疏,代码写好了,打包一直运行不起来,网上搜了很多材料发现没用,有的用ide打包,体验...
  • spark streaming消费kafka maven依赖选择

    千次阅读 2019-01-03 13:42:04
    当我们的spark streaming程序需要消费kafka数据,我们需要根据自己的spark版本和kafka broker版本选择合适的maven依赖   spark-streaming-kafka-0-8 spark-streaming-kafka-0-10 支持的kafka版本 0.8+ ...
  • 一、Pom文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=...项目依赖仓库--> <repository> <id>aliyun</id> <url>...
  • Intellij idea 创建Maven Spark工程

    千次阅读 2018-09-19 17:23:16
     Intellij idea开发Spark工程,本地依赖使用Maven进行管理,打包也是用Maven命令,依赖包需要和编译后的源代码同时包含到结果Jar包中。   正文 创建Maven工程 截图如下,就是用原生的Maven工程,不要选择下面...
  • 使用Maven编译Spark源码

    千次阅读 2017-11-24 23:35:19
    linux和windows下超详细spark源码编译。包括Maven安装,spark源码编译,导入idea,遇到的问题及解决办法。
  • 一、开发环境需要安装和配置如下 安装JDK,配置JDK环境变量(jdk1.8) 安装Scala,配置JDK环境变量(scala2.11.8) 最好安装一个Maven,虽然Idea已经集成自带的有Maven ... 测试环境已经安装有Spark集群(2.1.2...
  • spark的rdd dataset dataframe转换(附maven依赖) import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession} import org.apache....
  • Maven方式建立Spark项目

    千次阅读 2019-05-06 22:33:36
    建立maven项目 porn.xml <?xml version="1.0" encoding="UTF-8"?> <project xsi:schemaLocation=...
  • Intellij IDEA使用Maven构建spark开发环境

    千次阅读 2017-05-12 11:34:33
    如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例。
  • 搭建maven项目的spark的pom依赖

    千次阅读 2019-01-24 21:30:03
    &lt;?xml version="1.0" encoding="...http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://
  • maven 3.6.1 ## 一开始使用3.6.2版本的,配置完出了问题,换回3.6.1 https://archive.apache.org/dist/maven/maven-3/3.6.1/binaries/apache-maven-3.6.1-bin.zip jdk 1.8.0_192 scala 2.12.10 #...
  • 依赖冲突:NoSuchMethodError,ClassNotFoundException当用户应用于Spark本身依赖同一个库时可能会发生依赖冲突,导致程序奔溃。依赖冲突表现为在运行出现NoSuchMethodError或者ClassNotFoundException的异常或者...
  • HiveonSpark配置 Maven+spark编译+Hive配置

    千次阅读 2020-06-25 21:50:10
    一 实验说明 ...编译spark建议使用maven3环境,下载连接为http://maven.apache.org/download.cgi,点击图红框的内容即可下载。 第二步、安装 下载完成后将maven安装包上传到Linux系统,我这里上传到了
  • 因为在日常测试和生产因为某些问题,需要配置很多不同包的依赖来对应不同的环境,java的maven的profile可以很好地帮我们解决这一问题 以spark 的kafka包为例 这里有两个环境,一个local,一个product.我这里需要将...
  • 1 编写pom.xml&lt;?xml version="1.0"...http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="
  • idea中用maven打包spark程序的pom

    千次阅读 2018-05-04 15:14:37
    首先要安装scala,并且在idea安装scala插件。依赖关系:&lt;?xml version="1.0" encoding="UTF-8"?&gt; &lt;project xmlns="http://maven.apache.org/POM/4.0.0" xmlns...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,946
精华内容 4,378
关键字:

maven中的spark依赖