精华内容
下载资源
问答
  • Spark平台搭建配置 步骤详细-过程完整
  • 大数据技术的快速发展尤其是内存式计算平台如Spark的出现为集中处理大规模NetFlow数据提供了可能,本文提出了基于Spark的NetFlow分析系统,验证了核心算法(如流量应用构成统计)在Spark平台的性能。实验表明,基于...
  • 基于Spark平台的混合推荐系统研究.pdf
  • Spark平台下电影推荐系统的设计.pdf
  • Spark平台下聚类算法的性能比较.pdf
  • 亚信科技大数据平台研发部门经理田毅在OpenCloud 2015大会Spark专场的演讲PPT:Spark平台在电信运营商的应用实践,重点分享了多个项目的实践,包括基于Spark改造用户标签分析查询平台和基于Spark Streaming改造内容...
  • Spark平台下KNN-ALS模型推荐算法.pdf
  • Spark-Kafka-RDD是一个scala库,让Kafka成为Spark平台的数据源。 请注意,Spark-Kafka-RDD 从 Kafka 主题和分区中获取给定的偏移范围作为单个 RDD ( KafkaRDD ) 返回给 Spark 驱动程序,而不是生成 Spark 流框架所...
  • 基于Spark平台的大数据挖掘技术研究.pdf
  • 基于Spark平台的大数据挖掘技术分析.pdf
  • 基于Spark平台的聚类算法的研究和实现.pdf
  • 基于Spark平台ALS模型推荐算法的研究与优化.pdf
  • K-means聚类算法在Spark平台上的应用.pdf
  • 针对微震监测海量震动波数据实时处理难题,提出了在Spark大数据处理平台...试验证明了在Spark平台上做海量震动波数据处理的可行性,并且证明了与单机震源定位计算相比,此方法可以有效加快最优解的收敛速度,提高处理效率。
  • 在windows上使用eclipse提交Spark任务到Spark平台上平台环境: 本地win7系统 本地spark和集群spark都是2.0.0 eclipse(luna) 运行模式: local Spark Standalone 程序代码如下:package sparkproject1;import scala...

    在windows上使用eclipse提交Spark任务到Spark平台上

    平台环境:

    • 本地win7系统
    • 本地spark和集群spark都是2.0.0
    • eclipse(luna)

    运行模式:

    • local
    • Spark Standalone
    • YARN

    程序代码如下:

    package sparkproject1;
    
    import scala.Tuple2;
    
    import org.apache.spark.SparkConf;
    import org.apache.spark.api.java.JavaPairRDD;
    import org.apache.spark.api.java.JavaRDD;
    import org.apache.spark.api.java.JavaSparkContext;
    import org.apache.spark.api.java.function.FlatMapFunction;
    import org.apache.spark.api.java.function.Function2;
    import org.apache.spark.api.java.function.PairFunction;
    import org.apache.spark.sql.SparkSession;
    
    import java.util.Arrays;
    import java.util.Iterator;
    import java.util.List;
    import java.util.regex.Pattern;
    
    public final class wordcount {
      private static final Pattern SPACE = Pattern.compile(" ");
    
      public static void main(String[] args) throws Exception {
        SparkConf conf = new SparkConf().setAppName("JavaWordCount").setMaster("spark://**.**.*.*:7077");
        JavaSparkContext sc = new JavaSparkContext(conf);
        sc.addJar("F:\\大数据\\jar包\\wordcount.jar");
    
        JavaRDD<String> lines = sc.textFile("hdfs://****:9000/input/input.txt");
    
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
          @Override
          public Iterator<String> call(String s) {
            return Arrays.asList(SPACE.split(s)).iterator();
          }
        });
    
        JavaPairRDD<String, Integer> ones = words.mapToPair(
          new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) {
              return new Tuple2<>(s, 1);
            }
          });
    
        JavaPairRDD<String, Integer> counts = ones.reduceByKey(
          new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer i1, Integer i2) {
              return i1 + i2;
            }
          });
    
        List<Tuple2<String, Integer>> output = counts.collect();
        for (Tuple2<?,?> tuple : output) {
          System.out.println(tuple._1() + ": " + tuple._2());
        }
      }
    }
    

    local模式

    local模式只需要将程序中的setMaster(“local”)就可以了,一般不会出现什么问题。

    Spark Standalone模式

    在没有加sc.addJar(“F:\大数据\jar包\wordcount.jar”);这条语句之前报如下错误:

    ava.lang.ClassCastException: cannot assign instance of scala.collection.immutable.List$SerializationProxy to field 
    
    org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of 
    
    org.apache.spark.rdd.MapPartitionsRDD
    

    设置之后,所有工作节点报错:

    java.lang.RuntimeException: Stream '/jars/wordcount.jar' was not found.

    显然是因为jar包未能传给工作节点,将生成的jar包放在上面路径中,运行成功。

    YARN模式

    修改的代码如下:

    SparkConf conf = new SparkConf().setAppName("JavaWordCount").setMaster("yarn-client");
    conf.set("spark.yarn.dist.files", "src\\yarn-site.xml");

    将core-site.xml、hdfs-site.xml、yarn-site.xml三个文件放在项目src文件夹下,这三个文件从hadoop集群配置文件夹中复制下来,直接run java application就可以了。
    有些教程还会有如下代码:

    sparkConf.set("spark.yarn.jar", "hdfs://192.168.0.1:9000/user/bigdatagfts/spark-assembly-1.5.2-hadoop2.6.0.jar");

    设置spark jar包地址,我并没有设置,但是日志显示,也会有jar包的上传过程。具体原理还不是很清楚,为什么需要上传这样的jar包。上面设置的yarn-client,如果你的电脑是在集群里面的,应该是设置为yarn-cluster的。

    展开全文
  • Hadoop与Spark平台搭建心得

    千次阅读 2017-06-15 18:23:47
    近来学习Spark,作为Linux小白,在Hadoop与Spark平台搭建过程中,产生了许多之前未预料的错误。经过锲而不舍的网上查找文章和不断尝试,终于解决了所有的错误,成功将Spark平台运行起来。为了防止今后的遗忘,也为了...

    近来学习Spark,作为Linux小白,在Hadoop与Spark平台搭建过程中,产生了许多之前未预料的错误。经过锲而不舍的网上查找文章和不断尝试,终于解决了所有的错误,成功将Spark平台运行起来。为了防止今后的遗忘,也为了给像我一样的小白提供搭建Hadoop与Spark平台的经验心得,特结合网上相关文章写下此文章。

    本文采用系统和软件版本如下:

    Ubuntu16.04 64位

    JDK 8u131

    Hadoop2.8.0

    Scala2.11.0

    Spark 2.1.1

    一、Hadoop与spark平台简介

    1.Hadoop:

    Hadoop是由Apache基金会所开发的分布式系统基础架构,实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS;Hadoop框架最核心设计就是HDFS和MapReduce,HDFS为海量数据提供了存储,MapReduce为海量数据提供了计算。

    Hadoop要解决的问题:海量数据的存储(HDFS)、海量数据的分析(MapReduce)和资源管理调度(YARN)。

    Hadoop主要作用于分布式。

    2.Spark:

    Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。从各方面报道来看Spark抱负并非池鱼,而是希望替代Hadoop在大数据中的地位,成为大数据处理的主流标准,不过Spark还没有太多大项目的检验,离这个目标还有很大路要走。

    Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集(Scala 提供一个称为 Actor 的并行模型,其中Actor通过它的收件箱来发送和接收非同步信息而不是共享数据,该方式被称为:Shared Nothing 模型)。在Spark官网上介绍,它具有运行速度快、易用性好、通用性强和随处运行等特点。

    二、Hadoop平台搭建

    1.下载

    首先在Hadoop官网下载Hadoop安装包http://hadoop.apache.org/,下载的文件为tar压缩包形式。

    *Spark对于Hadoop的版本有一定要求,若要同时搭建Spark平台,需参照Spark要求下载对应的Hadoop版本。

    2.创建Hadoop用户

    如果你安装Ubuntu的时候不是用的”Hadoop”用户,那么需要增加一个名为Hadoop的用户

    首先按ctrl+alt+t打开终端窗口,输入如下命令创建新用户:

    sudo useradd –m Hadoop –s /bin/bash

    这条命令创建了可以登录的hadoop用户,并使用/bin/bash作为shell。

    接着使用如下命令设置密码,可简单设置为hadoop,按提示输入两次密码:

    sudo passwd hadoop

    为hadoop用户增加管理员权限,方便部署。

    sudo adduser hadoop sudo

    最后注销当前用户,返回登录界面。在登录界面中选择刚创建的hadoop用户进行登录。

    3.更新apt+安装ssh

    首先更新apt,执行如下命令:

    sudo apt-get update

    后续需要更改一些配置文件,建议安装vim

    sudo apt-get install vim

    安装软件时若需要确认,在提示处输入y即可。

     

    集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server:

    sudo apt-get install openssh-server

    然后将密钥加入到授权中,配置成SSH无密码登录

    cd ~/.ssh/                      # 若没有该目录,请先执行一次ssh localhost

    ssh-keygen -t rsa                # 会有提示,都按回车就可以

    cat./id_rsa.pub >> ./authorized_keys # 加入授权

    此时再用ssh localhost命令,无需输入密码就可以直接登录

    4.安装JAVA环境

    JAVA安装环境还是推荐安装OracleJDK,网上有教程说可以直接通过apt来安装OpenJDK。经过实际操作,OpenJDK-9-jdk的安装错误迭出,至今我尚未找到完美的解决方案,本意是为了图方便,结果反倒造成了不必要的麻烦。

    JDK的安装也并不是十分麻烦,首先还是要到ORACLE官网进行下载,注意下载系统对应的版本。

    在usr目录下建立java安装目录

    cd /usr

    sudo mkdir java

    解压jdk至目标安装目录

    sudo tar –zxvfjdk-8u131-linux-x64.tar.gz –C /usr/java

    为了方便设置JAVA_HOME,将文件夹进行重命名

    cd/usr/java

    sudo mv jdk1.8.0_131jdk

    接下来编辑配置文件,配置环境变量,配置文件为/etc/profile,我们采用vim编辑器进行编辑

    sudo vim/etc/profile

    添加如下内容:

    export JAVA_HOME=/usr/java/jdk

    export CLASSPATH=$JAVA_HOME/lib/

    export PATH=$PATH:$JAVA_HOME/bin

    这里需要注意,PATH路径中的分隔符为英文冒号:

    最后,重启机器或执行命令:source /etc/profile

    source /etc/profile

    可用java –version查看安装情况

    5.安装Hadoop

    将Hadoop安装包解压到/usr/local文件夹下

    sudo tar –zxvfhadoop-2.8.0.tar.gz –C /usr/local

    同样为了配置环境变量的方便,对解压后的文件夹进行重命名

    sudo /usr/local

    sudo mv hadoop-2.8.0hadoop

    接下来编辑配置文件,配置环境变量

    sudo vim/etc/profile

    添加如下内容:

    export HADOOP_HOME=/usr/local/hadoop

    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

    最后,重启机器或执行命令:source /etc/profile

    可用hadoop version查看安装情况

    hadoop version

    Hadoop 2.8.0

    Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git-r 91f2b7a13d1e97be65db92ddabc627cc29ac0009

    Compiled by jdu on 2017-03-17T04:12Z

    Compiled with protoc 2.5.0

    From source with checksum60125541c2b3e266cbf3becc5bda666

    This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-2.8.0.jar

    6.配置hadoop文件

    hadoop的配置文件方案,网上的教程版本不一,因而在这里走了许多弯路,经过多次尝试,终于找到了适用于hadoop 2.8.0的配置文件方案

    进入配置文件目录:

    cd/usr/local/hadoop/etc/hadoop

    修改core-site.xml:

    <configuration>

    <property>

      <name>fs.defaultFS</name>

        <value>hdfs://127.0.0.1:9000</value>

    </property>

    <property>

      <name>hadoop.tmp.dir</name>

      <value>/home/hadoop/tmp/</value>

    </property>

    </configuration>

    修改hdfs-site.xml:

    <configuration>

    <property>

    <name>dfs.replication</name>

     <value>1</value>

    </property>

    </configuration>

    这里指定dfs的备份目录,单机用1份就行

    修改mapred-site.xml

    <configuration>

     <property>

     <name>mapreduce.framework.name</name>

       <value>yarn</value>

     </property>

    </configuration>

    修改yarn-site.xml

    <configuration>

    <property>

      <name>yarn.resourcemanager.hostname</name>

        <value>localhost</value>

    </property>

    <property>

     <name>yarn.nodemanager.aux-services</name>

       <value>mapreduce_shuffle</value>

    </property>

    </configuration>

    *7.权限调整

    这是很关键的一步,在按照网上其他教程安装并配置后,启动Spark各种报错,经过艰难的挣扎,终于发现是权限捣的鬼,而这一步网上教程居然一句也没提,真是……

    所以要记住,尤其是Linux新手,权限的问题一定要打起十二分的注意,留心留心再留心

    首先,将Hadoop与Spark的安装目录赋予读写权限,我采取直接一步到位的方式,赋予全部权限

    sudochmod -R 777 /usr/local/hadoop

    sudochmod -R 777 /usr/local/spark

    接下来,由于Spark会利用HDFS进行读写操作,因而对HDFS也同样需要赋予权限,能提到这个事情的文章就更少了,也是困扰我时间最长的地方

    不同版本Hadoop的命令格式不一样,实测2.8.0如下命令可用:

    hdfs dfs-chmod -R 777 /

    8.启动Hadoop

    首先对hdfs进行格式化操作

    hdfs namenode –format

    启动Hadoop,网上许多教程写的是执行start-all.sh,但目前Hadoop推荐执行start-dfs.sh

    sudo $HADOOP_HOME/sbin/start-dfs.sh

    停止Hadoop可执行stop-dfs.sh

    sudo $HADOOP_HOME/sbin/stop-dfs.sh

    Hadoop运行后可使用jps命令查看,得到结果:

    6577NameNode

    27002 Jps

    6927SecondaryNameNode

    6735DataNode

    注:如果开启了root用户,namenode等节点默认在root用户下启动,因而需在root用户下查看,输入su root切换

    如果提示jps未安装,可输入source /etc/profile重新设置环境变量

    三、Spark平台搭建

    1.安装Scala

    网上有的教程并没有安装Scala这一步骤,但由于Spark编程最契合的语言莫过于Scala,因而还是推荐安装Scala并采用Scala进行Spark的操作

    将Scala安装包解压到/usr/local

    sudo tar –zxvfscala-2.11.0.tgz –C /usr/local

    同样,为了方便配置环境变量,将解压后的目录进行重命名

    cd/usr/local

    sudo mv scala-2.11.0 scala

    类似的,也要配置环境变量sudo vim /etc/profile

    export SCALA_HOME=/usr/local/scala

    export PATH=$PATH:$SCALA_HOME/bin

    保存并更新/etc/profile

    source/etc/profile

    运行scala –version查看是否配置成功

    Scala code runner version 2.11.0 -- Copyright 2002-2013, LAMP/EPFL

    2.安装Spark

    解压Spark安装包到/usr/local

    sudo tar –zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /usr/local

    将解压目录重命名

    cd/usr/local

    sudo mvspark-2.1.1-bin-hadoop2.7 spark

    配置环境变量,最终总体环境变量如下:

    export JAVA_HOME=/usr/java/jdk

    export CLASSPATH=$JAVA_HOME/lib/

    export SCALA_HOME=/usr/local/scala

    export HADOOP_HOME=/usr/local/hadoop

    export SPARK_HOME=/usr/local/spark

    export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin

    保存并更新/etc/profile

    source /etc/profile

    3.配置Spark

    在spark安装目录的conf子目录下复制并重命名spark-env.sh.template为spark-env.sh

    cd$SPARK_HOME/conf

    sudo cp spark-env.sh.template spark-env.sh

    sudo vim spark-env.sh

    在spark-env.sh中添加:

    export JAVA_HOME=/usr/java/jdk

    export SCALA_HOME=/usr/local/scala

    export SPARK_MASTER_IP=localhost

    export SPARK_WORKER_MEMORY=1G  #内存大小可根据自己电脑配置进行设置

    export  HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/

    export SPARK_LOCAL_DIRS=/home/hadoop/data/sparktmp

    4.启动Spark-Shell

    cd $SPARK_HOME/bin

    sudo./spark-shell

    出现如下界面,表示Spark-Shell已成功启动


     


    展开全文
  • 基于Spark平台的电子商务实时推荐系统建设和应用.pdf
  • 基于Spark平台的K均值聚类算法的人力资源推荐.pdf
  • 基于Spark平台的大数据挖掘技术分析 (1).pdf
  • Spark SQL 数据源 API:Spark平台的统一数据接入 自从Spark 1.0版本的Spark SQL问世以来,它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。到了Spark 1.2 版本,我们已经迈出了下一步,让Spark的...

    Spark SQL 数据源 API:Spark平台的统一数据接入

    自从 Spark 1.0版本的Spark SQL问世以来,它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。到了Spark 1.2 版本,我们已经迈出了下一步,让Spark的原生资源和更多的输入源进行整合集成。

    自从Spark 1.0版本的Spark SQL问世以来,它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。

    早期用户比较喜爱Spark SQL提供的从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据的支持。之后,Spark SQL还增加了对其他格式的支持,比如说JSON到了Spark 1.2 版本,我们已经迈出了下一步,让Spark的原生资源和更多的输入源进行整合集成。这些新的整合将随着纳入新的Spark SQL数据源API而成为可能。

    数据源API通过Spark SQL提供了访问结构化数据的可插拔机制。数据源不仅仅有了简便的途径去进行数据转换并加入到Spark 平台。由API提供的密集的优化器集合意味着过滤和列修剪在很多情况下都会被运用于数据源。这些综合的优化极大地减少了需要处理的数据量,因此能够显著提高Spark的工作效率。

    使用数据源和通过SQL访问他们一样简单(或者你喜爱的Spark语言)

    CREATE TEMPORARY TABLE episodes
    USING com.databricks.spark.avro
    OPTIONS (path "episodes.avro")

    数据源API的另外一个优点就是不管数据的来源如何,用户都能够通过Spark支持的所有语言来操作这些数据 。例如,那些用Scala实现的数据源,pySpark用户不需要其他的库开发者做任何额外的工作就可以使用。此外,Spark SQL可以很容易的使用单一接口访问不同数据源的数据。

    总之,Spark 1.2 提供的这些功能进一步统一了大数据分析的解决方案。

    尽管这个API刚开发出来不久,在此之上已经建立了好几个库,其中包括Apache AvroComma Separated Values(csv),甚至还有dBASE Table File Format (dbf)

    现在Spark 1.2 已经正式发布了,我们期望这个版本能够得到快速的发展。我们正在不断的努力,让Spark能够支持HBase,JDBC等。

    访问Spark Packages 来获取最新的可用库列表。

    对于有兴趣编写他们喜爱格式的库开发者,我们建议你参阅Apache Avro,学习示例源码或者观看聚会视频

    此外,敬请期待这个API的扩展。在Spark 1.3 版本中,我们希望增加对数据分区,持久化表以及可选用户指定模式的支持。

    英文原文:databricks.com  作者:Michael Armbrust

    展开全文
  • 研究基于内存的分布式计算框架Spark下的凸包问题,给出基于Spark平台的凸包查询整体框架,框架从查询接口、语法解析和物理执行等多方面结合SparkSQL引擎。随后,给出基于Andrew单调链算法的单机算法CHStand,分析...
  • DBSCAN算法参数自适应研究及其在Spark平台上的应用.pdf
  • 行业分类-设备装置-Spark平台下基于GPS数据的出租车调配方法.zip
  • 教育科研-学习工具-Spark平台下基于GPS数据的出租车调配方法.zip
  • Spark平台上的JavaWordCount示例

    千次阅读 2016-01-17 21:33:40
    Spark平台上的JavaWordCount示例

    WorldCount目录结构如下:

    [root@master WordCount]# find .
    .
    ./src
    ./src/main
    ./src/main/java
    ./src/main/java/JavaWordCount.java
    ./pom.xml
    

    其中./pom.xml内容如下:
    (注意对应以后生成的jar包,本例中最后生成word-count-1.0.jar)

    <project>
      <groupId>edu.berkeley</groupId>
      <artifactId>word-count</artifactId>
      <modelVersion>4.0.0</modelVersion>
      <name>JavaWordCount</name>
      <packaging>jar</packaging>
      <version>1.0</version>
      <dependencies>
        <dependency> <!-- Spark dependency -->
          <groupId>org.apache.spark</groupId>
          <artifactId>spark-core_2.10</artifactId>
          <version>1.2.0</version>
        </dependency>
        <dependency> <!-- Hadoop dependency -->
          <groupId>org.apache.hadoop</groupId>
          <artifactId>hadoop-client</artifactId>
          <version>2.6.0</version>
        </dependency>
      </dependencies>
    </project>
    

    ./src/main/java/JavaWordCount.java内容如下:

    import scala.Tuple2;
    import org.apache.spark.SparkConf;
    import org.apache.spark.api.java.JavaPairRDD;
    import org.apache.spark.api.java.JavaRDD;
    import org.apache.spark.api.java.JavaSparkContext;
    import org.apache.spark.api.java.function.FlatMapFunction;
    import org.apache.spark.api.java.function.Function2;
    import org.apache.spark.api.java.function.PairFunction;
    import java.util.Arrays;
    import java.util.List;
    import java.util.regex.Pattern;
    
    public final class JavaWordCount {
      private static final Pattern SPACE = Pattern.compile(" ");
      public static void main(String[] args) throws Exception {
        if (args.length < 1) {
          System.err.println("Usage: JavaWordCount <file>");
          System.exit(1);
        }
    
        SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");
        JavaSparkContext ctx = new JavaSparkContext(sparkConf);
        JavaRDD<String> lines = ctx.textFile(args[0], 1);
    
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
          @Override
          public Iterable<String> call(String s) {
            return Arrays.asList(SPACE.split(s));
          }
        });
    
        JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {
          @Override
          public Tuple2<String, Integer> call(String s) {
            return new Tuple2<String, Integer>(s, 1);
          }
        });
    
        JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
          @Override
          public Integer call(Integer i1, Integer i2) {
            return i1 + i2;
          }
        });
    
        List<Tuple2<String, Integer>> output = counts.collect();
        for (Tuple2<?,?> tuple : output) {
          System.out.println(tuple._1() + ": " + tuple._2());
        }
        ctx.stop();
      }
    }
    

    进入WorldCount目录,并编译程序并打包:

    [root@master WordCount]# mvn package
    

    然后往集群上发布:

    [root@master WordCount]#spark-submit \
      --class JavaWordCount \
      --master yarn-cluster \
      --num-executors 2 \
      --executor-memory 6g \
      --executor-cores 4  \
      target/word-count-1.0.jar \
      /user/root/random0.data
    

    若–master 后用的是yarn-cluster,则在log日志中(从WebUI进入)查看结果

    package: 1
    For: 2
    processing.: 1
    Programs: 1
    Because: 1
    The: 1
    cluster.: 1
    its: 1
    ……
    

    若–master 后用的是yarn-client,则在控制台查看结果

    展开全文
  • 在ubuntu 16.04上搭建spark平台

    千次阅读 2017-01-02 18:53:34
    在ubuntu16.04上搭建单机版的spark平台
  • Spark平台上利用网络加权Voronoi图的分散迭代社区聚类并行化研究.pdf
  • spark平台搭建

    2017-12-20 21:09:12
    Spark是用Scala程序设计语言编写而成,运行于Java虚拟机(JVM)环境之上。目前支持如下程序设计语言编写Spark应用: Scala Java Python Clojure R前提条件: 为了让Spark能够在本机正常工作,你需要安装Java开发工具...
  • 基于spark平台的K-means改进算法,闫萌,邹俊伟,K-means算法是较为经典的聚类算法。针对经典的K-means算法存在的K值个数和初始聚类中心需要人为指定的缺陷,以及经典的串行K-means算法��

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 57,472
精华内容 22,988
关键字:

spark平台