精华内容
下载资源
问答
  • spark学习

    千次阅读 2016-01-19 13:37:17
    1.cloudera如何在spark-shell命令行执行spark hql http://www.aboutyun.com/thread-12031-1-1.html   2.如何在CDH5上运行Spark应用 http://itindex.net/detail/52731-cdh5-spark-%E5%BA%94%E7%94%A8   3....

    1.cloudera如何在spark-shell命令行执行spark hql

    http://www.aboutyun.com/thread-12031-1-1.html

     

    2.如何在CDH5上运行Spark应用

    http://itindex.net/detail/52731-cdh5-spark-%E5%BA%94%E7%94%A8

     

    3.Spark 入门(Python、Scala 版)

    http://www.open-open.com/lib/view/open1430959545695.html

     

    4.python程序写spark

    提交命令:./spark-submit  test.py  或者 python test.py

    http://www.tuicool.com/articles/Ajuyqan

     

    5.不同job之间共享数据需要使用第三方框架:redis或者tachyon技术

    关于tachyon的介绍:http://www.csdn.net/article/2015-06-25/2825056

     

    6.spark安装scala环境

    http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/

     

    7.将编写的java spark程序打包放到spark集群中测试

    /opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/bin/spark-submit  --class com.infohold.Demo /tmp/sparkJar/b.jar

    简单测试代码:
        public static void main(String[] args) {
            // TODO Auto-generated method stub
            
            JavaSparkContext sc= new JavaSparkContext(new SparkConf().setAppName("sparkApp"));
            JavaRDD lines = sc.textFile("hdfs://cdh5Namenode.hadoop.com:8020/test/input/file", 1);
            lines.saveAsTextFile("hdfs://cdh5Namenode.hadoop.com:8020/test/output");
        }

     

     

    8.使用maven对scala程序进行打包

    maven eclipse插件:http://www.cnblogs.com/adolfmc/p/3765583.html

    Scala + Spark +Maven:

    http://wenku.baidu.com/link?url=ZC4s2RPU1oi92xpMf4B2rjsNILL_SgG48M4g3DvtVaB3FfbTHSxrcZP5vgl-rS2ps2Gta-NUPu0meeZAxBDzyZFkvueqLN4__NItP6tdGhG

     

    9.基于用户spark标签查询设计

    http://www.docin.com/p-1203437608.html

     

    10.使用 Spark SQL 对结构化数据进行统计分析

    http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/

     

    11.Spark Streaming 图片处理案例介绍

    http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming-picture/

     

    12.我使用DSL编写SQL的一个Java实现

    http://www.blogjava.net/heis/archive/2010/03/21/316103.html

     

    13.使用Spark SQL读取Hive上的数据

    http://www.iteblog.com/archives/1491

     

    14.Hive sql语法详解

    http://blog.csdn.net/jamesjxin/article/details/46917225

     

    15.spark 中的jdbc-server使用

    http://blog.csdn.net/javastart/article/details/42392963

     

    16.spark-sql代码错误解决

    reflect.runtime.universe.TypeTag[Person])org.apache.spark.sql.SchemaRDD

    http://www.oschina.net/question/2350186_232940

     

    17.spark on yarn提交任务时一直显示ACCEPTED

    http://my.oschina.net/mkh/blog/310158

     

    18.测试 cdh5.3.0 版本中的 spark 的 sql/hive-thriftserver 模块存在编译错误,最后无法编译成功,故需要等到 cloudera 官方更新源代码或者等待下一个 cdh 版本集成 spark-sql

    http://dataunion.org/10345.html

     

    19.Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介

    http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool

     

    20.spark源码编译

    www.codesec.net/view/181887.html

     

    21.合并rdd

    http://www.linuxidc.com/Linux/2016-01/127901.htm

     

    22.spark运行在yarn-client和yarn-cluster的选型

    http://www.iteblog.com/archives/1223

    yarn-client运行在本地应用程序交互式情景:http://www.dataguru.cn/article-6807-1.html

    23.spark on yarn模式开发者需要做的事情

    http://dongxicheng.org/framework-on-yarn/spark-on-yarn-challenge/

    http://www.iteblog.com/archives/1353

    http://www.tuicool.com/articles/2EvyEr

    http://dongxicheng.org/recommend/

    日志存放设计:http://www.iteblog.com/archives/1353

    log4j.properties配置:http://blog.csdn.net/stark_summer/article/details/46929481

    应用程序中添加log4j:http://www.ibm.com/developerworks/cn/java/l-log4j/

    scala程序参考:http://blog.chinaunix.net/uid-25885064-id-3430852.html

    log4j的使用步骤:http://blog.sina.com.cn/s/blog_61cc0b1e0101eezx.html

    commons-logging和log4j结合使用:http://blog.csdn.net/jimmee/article/details/2168452

     

    23.java.io.NotSerializableException: com.infohold.spark.SparkSql

    http://www.sjsjw.com/103/005844MYM031811/

     

    24.spark-sql on yarn 自动调整exeutor数量

    http://blog.chinaunix.net/uid-22570852-id-5182664.html

    spark调优参数学习:http://database.51cto.com/art/201407/445881.htm

    spark基本概念:http://database.51cto.com/art/201404/435697.htm

     

    25.spark中文手册

     

    http://www.aboutyun.com/thread-11484-1-1.html

     

    26.错误解决

     

    SparkOnYarn执行中executor内存限制问题

    http://www.sjsjw.com/107/001051MYM028913/

    Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

    http://my.oschina.net/laigous/blog/478438#OSC_h4_10

    修改spark-env.sh文件

    添加:

    export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.5.2-1.cdh5.5.2.p0.4/lib/hadoop/etc/hadoop


    export SPARK_DIST_CLASSPATH=$(hadoop classpath)

     

    27.spark性能测试

    http://www.iteblog.com/archives/1090

    sparksql华为现状分析:http://bbs.csdn.net/topics/391830076

     

    Spark&Spark性能调优实战

    http://itindex.net/detail/50670-spark-spark-%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98

     

     

    我们经过一系列对Spark的优化,使得单次查询的用时从最开始的40秒,优化到了2秒。

     

    28.spark性能优化

    这部分的优化工作包括:

     

    1数据和task分布不均,跨节点访问造成部分task慢
     

    办法:尽量增加hdfs上的备份数,减少数据跨节点访问

     

    2 Spark没有创建足够多的Task并发执行
     

    办法:增加HDFS文件block数, 增加文件数

     

    3 磁盘IO耗时较长
     

    办法:使用RCFile格式+GZ压缩存储

     

    4 并发查询较多时,查询耗时变长
     

    办法:需要增加ThriftServer的内存, 避免大量GC

     

    5 序列化的CPU消耗较大
     

    办法:选用kyro序列化方式

     

    29.函数分析

    创建并行集合的一个重要参数,是slices的数目,它指定了将数据集切分为几份。在集群模式中,Spark将会在一份slice上起一个Task。典型的,你可以在集群中的每个cpu上,起2-4个Slice (也就是每个cpu分配2-4个Task)。一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目。然而,你也可以手动的设置它,通过parallelize方法的第二个参数(例如:sc.parallelize(data, 10)).

     

    30.spark RDD中foreachPartition和foreach说明

    https://blog.csdn.net/high2011/article/details/52128412

     

    展开全文
  • Spark学习资料

    2014-11-29 20:32:29
  • Spark学习

    千次阅读 2016-04-16 00:16:57
    Spark学习一标签(空格分隔): SparkSpark学习一 一概述 二spark的安装 三spark的初步使用 四spark的standalone模式的配置 一,概述 列表项 和mapreduce计算的比较 what is spark Apache Spark™ is a fast and ...

    Spark学习一

    标签(空格分隔): Spark


    一,概述

    • 列表项

    和mapreduce计算的比较
    001.png-11.2kB

    001.png-13.5kB

    • what is spark
      Apache Spark™ is a fast and general engine for large-scale data processing.
      1,Speed:Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk
      2,Ease of Use:Write applications quickly in Java, Scala, Python,Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python and R shells.
      3,Generality:Combine SQL, streaming, and complex analytics.
      4,Runs Everywhere:Spark runs on Hadoop, Mesos, standalone, or in the cloud. It can access diverse data sources including HDFS, Cassandra, HBase, and S3

    001.png-43kB

    学好spark的路径:
    *,http://spark.apache.org/
    *,spark源码:https://github.com/apache/spark
    *,https://databricks.com/blog

    二,spark的安装

    • 解压scala安装包
    [hadoop001@xingyunfei001 app]$ chmod u+x scala-2.10.4.tgz
    [hadoop001@xingyunfei001 app]$ tar -zxf scala-2.10.4.tgz -C /opt/app
    • 修改/etc/profile配置文件
    export SCALA_HOME=/opt/app/scala-2.10.4
    export PATH=$PATH:$SCALA_HOME/bin
    [hadoop001@xingyunfei001 app]$ scala -version

    001.png-14.2kB

    [hadoop001@xingyunfei001 scala-2.10.4]$ source /etc/profile
    • 解压spark安装包
    [hadoop001@xingyunfei001 app]$ chmod u+x spark-1.3.0-bin-2.5.tar.gz
    [hadoop001@xingyunfei001 app]$ tar -zxf spark-1.3.0-bin-2.5.tar.gz -C /opt/app
    • 配置spark的配置文件(spark-env.sh.template—>spark-env.sh)
    JAVA_HOME=/opt/app/jdk1.7.0_67
    SCALA_HOME=/opt/app/scala-2.10.4
    HADOOP_CONF_DIR=/opt/app/hadoop_2.5.0_cdh
    • 启动spark
    bin/spark-shell

    001.png-46.7kB

    三,spark的初步使用

    • 第一个案例
    var rdd=sc.textFile("/opt/datas/beifeng.log")

    001.png-46.2kB

    rdd.count    //显示总条数

    001.png-146.5kB

    rdd.first  //显示第一条数据

    001.png-130.9kB

    rdd.take(2)  //获取头2条数据

    001.png-132.8kB

    rdd.filter(x=>x.contains("yarn")).collect
    rdd.filter(_.contains("yarn")).collect

    001.png-111.3kB

    rdd.cache     //将数据放到内存中
    rdd.count

    001.png-24.9kB

    rdd.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey((x,y)=>(x+y)).collect

    001.png-24.7kB

    四,spark的standalone模式的配置

    001.png-27.4kB

    sparkcpntext:
    1,application申请资源
    2,读取数据,创建rdd

    • 修改配置文件spark-env.sh
    SPARK_MASTER_IP=xingyunfei001.com.cn
    SPARK_MASTER_PORT=7077
    SPARK_MASTER_WEBUI_PORT=8080
    SPARK_WORKER_CORES=2
    SPARK_WORKER_MEMORY=2g
    SPARK_WORKER_PORT=7078
    SPARK_WORKER_WEBUI_PORT=8081
    SPARK_WORKER_INSTANCES=1
    • 修改配置文件slaves
    # A Spark Worker will be started on each of the machines listed below.
    xingyunfei001.com.cn
    • 启动standalone模式
    [hadoop001@xingyunfei001 spark-1.3.0-bin-2.5.0]$ sbin/start-master.sh 

    001.png-24.6kB

    [hadoop001@xingyunfei001 spark-1.3.0-bin-2.5.0]$ sbin/start-slaves.sh

    001.png-20.3kB

    001.png-52.3kB

    • 提交应用
    bin/spark-shell --master spark://xingyunfei001.com.cn:7070
    var rdd=sc.textFile("/opt/datas/input.txt")
    val wordcount=rdd.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey((x,y)=>(x+y)).collect
    sc.stop
    

    001.png-26.9kB
    001.png-50.1kB

    [hadoop001@xingyunfei001 spark-1.3.0-bin-2.5.0]$ bin/spark-shell local[2]  //本地模式启动2个线程
    
    [hadoop001@xingyunfei001 spark-1.3.0-bin-2.5.0]$ bin/spark-shell local[*]  //根据本地配置自动设置线程数目
    展开全文
  • Spark学习五:spark sql

    千次阅读 2016-05-09 00:29:59
    Spark学习五:spark sql标签(空格分隔): SparkSpark学习五spark sql 一概述 二Spark的发展历史 三Spark sql和hive对比 四spark sql 架构 五sprk sql访问hive数据 六catalyst 七thriftserver 八Dataframe 九加载...

    Spark学习五:spark sql

    标签(空格分隔): Spark


    一,概述:

    001.PNG-100.9kB

    002.PNG-25.9kB

    001.PNG-139.3kB

    二,Spark的发展历史

    001.PNG-95.3kB

    003.PNG-106.6kB

    002.PNG-93kB

    005.PNG-370.8kB

    004.PNG-197kB

    三,Spark sql和hive对比

    001.PNG-158.8kB

    002.PNG-139.7kB

    003.PNG-109.7kB

    四,spark sql 架构

    004.PNG-90.6kB

    五,sprk sql访问hive数据

    001.PNG-315.7kB

    002.PNG-14.4kB

    hive-site.xml需要拷贝到spark的conf目录下面

    启动方式一:

    //启动应用
    bin/spark-shell --driver-class-path jars/mysql-connector-java-5.1.27-bin.jar --master local[2]
    sqlContext.sql("show databases").show()
    

    002.PNG-14.4kB

    sqlContext.sql("use default").show()
    
    sqlContext.sql("show tables").show()

    启动方式二:

    //启动应用
    bin/spark-sql --driver-class-path jars/mysql-connector-java-5.1.27-bin.jar --master local[2]
    show databases;

    002.PNG-78.8kB

    //缓存
    cache table emp;
    //取消缓存
    uncache table emp;

    003.PNG-47.8kB

    六,catalyst

    001.PNG-542.5kB

    002.PNG-61.1kB

    003.PNG-74.3kB

    七,thriftserver

    启动服务

    sbin/start-thriftserver.sh --master local[2] --driver-class-path jars/mysql-connector-java-5.1.27-bin.jar

    启动beeline客户端

    bin/beeline
    beeline> !connect jdbc:hive2://localhost:10000

    001.PNG-99kB

    八,Dataframe

    001.PNG-97.9kB

    002.PNG-255.6kB

    003.PNG-215kB

    004.PNG-233.3kB

    005.PNG-257.1kB

    006.PNG-239.5kB

    007.PNG-270.6kB

    008.PNG-238.5kB

    009.PNG-161.6kB

    截图06.png-143.5kB

    截图07.png-299.2kB

    001.PNG-157.3kB

    002.PNG-66.7kB

    九,加载外部数据源

    1,加载json数据

    val json_df=sqlContext.jsonFile("hdfs://study.com.cn:8020/spark/people.json")
    
    json_df.show()

    2,加载hive数据

    sqlContext.table("default").show()

    3,加载parquet格式数据

    val parquet_df=sqlContext.jsonFile("hdfs://study.com.cn:8020/spark/users.parquet")
    parquet_df.show()

    4,jdbc方式获取数据

    val df = sqlContext.jdbc("jdbc:mysql://localhost:3306/db_0306?user=root&password=123456", "my_user")
    
    val mysql_df = sqlContext.load("jdbc", Map("url" -> "jdbc:mysql://localhost:3306/db_0306?user=root&password=123456","dbtable" -> "my_user"))
    

    5,读取text file
    第一种方式:

    case class Person(name:String,age:Int)
    val people_rdd = sc.textFile("spark/sql/people.txt")
    val rowRdd = people_rdd.map(x => x.split(",")).map(x => Person(x(0), x(1).trim.toInt))
    val people_df=rowRdd.toDF()

    第二种方式:

    val people_rdd = sc.textFile("spark/sql/people.txt")
    import org.apache.spark.sql._
    val rowRdd = people_rdd.map(x => x.split(",")).map(x => Row(x(0), x(1).trim.toInt))
    
    import org.apache.spark.sql.types._
    val schema = StructType(Array(StructField("name",StringType, true), StructField("age", IntegerType, false)))
    
    val rdd2df = sqlContext.createDataFrame(rowRdd, schema)

    测试:

    Spark SQL强大诞生了,

    Hive Table
    emp
    MySQL Table
    dept

    针对上述两个表进行join,

    val hive_emp_df = sqlContext.table("db_0228.emp")
    val mysql_dept_df = sqlContext.jdbc("jdbc:mysql://localhost:3306/db_0306?user=root&password=123456", "tb_dept")
    val join_df = hive_emp_df.join(mysql_dept_df, hive_emp_df("deptno") === mysql_dept_df("deptno"))
    join_df.show

    案例分析

    SQLLogAnalyzer.scala

    package com.ibeifeng.bigdata.spark.app
    
    import org.apache.spark.sql.SQLContext
    import org.apache.spark.{SparkConf, SparkContext}
    
    
    /**
     * Created by XuanYu on 2016/4/17.
     */
    
    object SQLLogAnalyzer {
      def main(args: Array[String]) {
    
        // create SparkConf instance
        val sparkConf = new SparkConf()
          .setAppName("SQLLogAnalyzer")
          .setMaster("local[2]")
        // create SparkContext instance
        val sc = new SparkContext(sparkConf)
    
        // create SQLcontext instance
        val sqlContext = new SQLContext(sc)
        import sqlContext.implicits._
    
        // ==============================================================
        // input files
        val logFile = "hdfs://bigdata-senior01.ibeifeng.com:8020/user/beifeng/apache.access.log" //
    
        //create rdd
        val accessLogs_df = sc.textFile(logFile)
          /**
           *  filter log datas
           */
          .filter(ApacheAccessLog.isValidateLogLine)
          /**
           * parse log
           */
          .map(log => ApacheAccessLog.parseLogLine(log))
          .toDF()
    
        accessLogs_df.registerTempTable("accessLogs")
    
        // cache
        accessLogs_df.cache()
    
    // =======================================================================================
    
        // compute
        val avgContentSize = sqlContext.sql("select avg(contentSize) from accessLogs").first().get(0)
        val minContentSize = sqlContext.sql("select min(contentSize) from accessLogs").first().get(0)
        val maxcontentSize = sqlContext.sql("select max(contentSize) from accessLogs").first().get(0)
    
        // println
        println("Content Size Avg: %s, Min: %s , Max: %s".format(
          avgContentSize, minContentSize, maxcontentSize
        ))
    
        //
        accessLogs_df.unpersist()
    
        val avg_df = accessLogs_df.agg("contentSize" -> "avg")
        val min_df = accessLogs_df.agg("contentSize" -> "min")
        val max_df = accessLogs_df.agg("contentSize" -> "max")
    
        // println
        println(" === Content Size Avg: %s, Min: %s , Max: %s".format(
          avg_df.first().get(0),min_df.first().get(0),max_df.first().get(0)
        ))
    
        // ==============================================================
    
        // stop SparkContext
        sc.stop()
      }
    
    }
    展开全文
  • Spark学习六:spark streaming

    千次阅读 2016-05-09 00:30:43
    Spark学习六:spark streaming标签(空格分隔): SparkSpark学习六spark streaming 一概述 二企业案例分析 三Spark streaming的工作原理 四textFileStreaming的应用 四企业中的开发方式 五总结 一,概述一个简单的...
  • Spark 学习: spark 原理简述与 shuffle 过程介绍

    万次阅读 多人点赞 2016-11-03 17:55:40
    Spark学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Spark学习 简述总结 引言 1 Hadoop 和 Spark 的关系 Spark 系统架构 1 spark...
  • spark学习过程

    千次阅读 2014-12-29 21:15:52
    spark学习之路,这里就用来记录spark学习及实践过程中遇到的问题,算是自己的记错本,如果对别人有所帮助就更好了
  • Spark学习之Spark SQL(8)

    千次阅读 2016-01-19 14:57:07
    Spark学习之Spark SQL(8)1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、2. Spark SQL的三大功能2.1 Spark SQL可以从各种结构化数据(例如JSON、Hive、Parquet等)中读取数据。 2.2 Spark SQL不仅支持...
  • Spark学习之基于MLlib的机器学习

    千次阅读 2016-01-19 15:55:19
    Spark学习之基于MLlib的机器学习1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定。2. MLlib完成文本分类任务步骤:(1)首先用字符串RDD来表示你的...
  • Spark学习三:Spark Schedule以及idea的安装和导入源码标签(空格分隔): SparkSpark学习三Spark Schedule以及idea的安装和导入源码 一RDD操作过程中的数据位置 二Spark Schedule 三Idea导入spark源码 一,RDD操作...
  • spark学习-58-Spark的EventLoggingListener

    千次阅读 2017-12-12 15:36:02
    本次调试查看源代码采用 spark学习-57-Spark下Scala版HBase下的根据权重获取最真实数据http://blog.csdn.net/qq_21383435/article/details/78772206里面的代码,略微修改了 只是修改了sparkSession的创建,代码如下...
  • Spark学习八:spark streaming与flume和kafka集成标签(空格分隔): SparkSpark学习八spark streaming与flume和kafka集成 一Kafka 二flume和kafka的集成 三kafka和spark streaming的集成方式一kafka推送 四kafka和...
  • Spark学习资料汇总

    千次阅读 2016-05-13 14:52:00
    以上是楼主自己收集的spark学习的一些资料,希望对大家有所帮助 1. 书籍 Learning SparkMastering Apache Spark 2. 网站 official siteuser mailing listspark channel on youtubespark ...
  • Spark学习之在集群上运行Spark(6)

    千次阅读 2016-01-19 12:26:26
    Spark学习之在集群上运行Spark(6)1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。3. Spark在分布式环境中的...
  • scala与spark学习心得

    千次阅读 2018-04-06 20:50:13
    scala与spark学习心得一 .为什么要学习scala? spark是处理大数据的开源框架,底层是使用scala脚本语言开发,对scala支持最好,同时支持java、python、r语言等;且同样的能够实现,使用scala写出的代码长度是使用...
  • Spark学习笔记

    千次阅读 2014-10-27 14:00:52
    spark学习笔记 join跟union方法测试效果 join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, (V, W)) 测试过如果 没有join到的key,就没有数据,也就是两个RDD没有共同的K,则没有相应的数据 如:...
  • Spark学习笔记 --- spark RDD加载文件

    千次阅读 2017-03-15 09:59:13
    Spark学习笔记 --- spark RDD加载文件
  • Spark学习七:spark streaming与flume集成

    千次阅读 2016-05-09 00:31:16
    Spark学习七:spark streaming与flume集成标签(空格分隔): Spark一,启动flumeflume-conf.properties文件agent002.sources = sources002 agent002.channels = channels002 agent002.sinks = sinks002 ## define ...
  • Spark学习笔记 --- Spark中的Shuffle
  • Spark学习——利用Scala语言开发Spark应用程序Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java ...
  • Spark学习笔记 --- Spark Streaming 与 Stom 比较
  • Spark学习路线

    千次阅读 2018-12-29 17:48:18
    scala、java、python、R都有spark对应的api,但如果想深入理解spark还是需要学习scala的。(scala中隐式转换特性可以很大程度提高spark开发效率); Scala(FP+OP面向对象和函数式编程混合语言)优势在于函数式编程...
  • Spark学习笔记:Spark基础

    千次阅读 多人点赞 2018-09-03 23:39:57
    Spark基础以及WordCount实现
  • Spark学习笔记 --- SparkStreaming 中基本概念
  • Spark学习笔记 --- scala实现Spark wordcount例子
  • Spark学习——Spark Streaming:大规模流式数据处理 转自:http://www.csdn.net/article/2014-01-27/2818282-Spark-Streaming-big-data 摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解...
  • 前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。不建议大家...
  • Spark学习笔记:Spark进阶

    千次阅读 2018-09-11 16:45:02
    Spark使用不同的数据源,Spark SQL开发,性能调优

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 91,604
精华内容 36,641
关键字:

spark学习