精华内容
下载资源
问答
  • Apache Spark

    千次阅读 2018-11-02 21:55:52
    Apache Spark Apache Spark现在已经成为一种统一化的大数据处理引擎,它通过数据共享抽象Resilient Distributed Datasets (RDDs),来支持各种各样的数据处理工作,像SQL查询,batch处理,streaming,machine ...

    Apache Spark

    Apache Spark现在已经成为一种统一化的大数据处理引擎,它通过数据共享抽象Resilient Distributed Datasets (RDDs),来支持各种各样的数据处理工作,像SQL查询,batch处理,streaming,machine learning以及graph处理。

    Spark编程模型

    RDD抽象

    最关键的数据抽象是RDDs,它是一堆对象的集合,并被partition到cluster下的多个机器中,并保证数据不丢失。那么问题来了:

    1. 如何创建一个RDD

      spark提供了很多称之为transformations的函数,用来创建RDDs,例如map,filter,groupby等。

    2. 如何操纵RDD

      RDD对外暴露了各种函数式编程API,支持多种语言如Java,Python,R以及Scala。用户只需要向RDD传递一个local function,就可以操纵cluster中的RDDs。

    举例如下:

    lines = spark.textFile(“hdfs://...”)
    errors = lines.filter(s => s.startsWith(“ERROR”))
    println(“Totalerrors:“+errors.count())
    

    上面首先通过HDFS的一个文件创建一个RDD,然后调用filter函数来过滤包含ERROR的行,并将行数打印输出。其中比较特别的地方是filter传入的参数,是一个closure(闭包)。在Spark编程中,用户可以向Spark传入各种lib function,user-define functions甚至于外部引用的变量,这些会将这些变量以read-only的方式copy到cluster中的worker节点上。

    lazily computed RDDs

    不像传统的MR处理程序,需要首先load数据,然后process,再输出。Spark采用了延迟加载RDDs的方式,也就是说只有在真正需要RDD的时候,才会计算RDD,这就为计算优化提供了可能。事实上,用户提交的一个job可看做是对于RDD的数据执行流图,Spark通过分析数据流图,可生成更efficient的数据执行计划。例如如果有多个filter函数集合在一起对某个RDD操作,那么Spark就可以将这几个操作融合成一个。

    shared RDDs

    RDDs本身作为一种临时对象存在,其也支持persist到内存的操作。对于需要交互式查询的场景,可以首先将RDD persist到memroy中,然后在其上执行各种各样的数据filter操作。

    fault-tolerant RDDs

    传统的分布式计算系统常使用副本来保证可靠性,而Spark采用了再计算的方式,称之为lineage。每个RDDs都知晓从base RDDs到达当前状态的这一系列的transformations路径图。当发生故障时,RDDs使用这个图重新计算。例如对于上面代码中提到的RDDs,就可以重新执行filter操作来恢复某个parition。
    但是有一种shuffle操作(例如reduceByKey),不适用重新计算,因为目标的任何一个partition都是由原始的全部partition经过reduce操作得到,重新计算代价太大。为了应对这种情况,数据生产者会将数据持久化。

    无缝对接storage systems

    Spark可以使用多种dfs作为persist存储后端,例如HDFS,Hive,S3等。Spark在将数据载入后统一为RDDs,从而提供了组合多种数据源进行数据分析的能力

    上层libraries

    RDD编程模型提供了分布式的对象collections以及操纵数据的functions API,从而可以在这些基本属性之上构建各种high-level库,下面讨论四种库。

    Spark SQL及DataFrames

    分析型数据库一般都支持列存,cost-based优化以及query code generations。Spark SQL通过使用与这些数据库相似的数据布局,来利用现有数据库的研究成果,从而创建了Spark的SQL engine以支持SQL查询。另外,Spark进一步利用SQL engine构建了更高层的数据抽象-DataFrames。它在python和R语言很常见,相比RDDs多了数据的scheme,并支持更丰富的操作(如增加列,aggragation等)。所有的这些操作会被翻译到下层的SQL engine,并利用它的各种优化策略。

    Spark流处理

    Spark原生支持batch processing,通过将batch划分成更小的batches(例如200ms),从而方便的支持流处理。

    GraphX

    图形处理框架

    MLlib

    机器学习框架

    组合Tasks

    所有的这里lib都操纵同一种数据格式:RDDs,因此可将多个task无缝衔接起来,例如使用Spark SQL读取数据到RDD中,然后使用MLLib训练一个model,并将model应用到一个新的stream中,一个tweet的例子如下:

    外部Applications

    Spark最常见的应用是batch processing,此外还有interactive query,streaming processing,scientific computing等。

    Spark的通用性

    下面的内容才是Spark的经典,它之所以通用,一定有其内在的通用本质,这篇论文介绍了两种观点:

    1. 模型表达角度

      RDDs是一个通用的模型,可用来emulate任意的分布式计算,并且在很多场合下都是highly efficient。不适用的地方是计算对网络延迟很敏感的场景。

    2. 系统角度

      RDDs将控制权交给外部应用程序,来控制cluster中的瓶颈资源,也就是网络和存储I/O。
      上面的话过于抽象了,后面再仔细说明这两点。

    模型表达角度

    首先我们知道MapReduce可以模拟任意形式的computation,这是因为任何分布式的computation从本质上来说就是local computation加上occasionally data exchanging。 MapReduce提供了map函数用于local computation,以及reduce函数适用于all-to-all communication。虽然MapReduce是generall,但是在某些情况下它并不高效。这主要来源于两种情况:

    1. 跨时间段的数据共享

      当系统中的A和B需要在不同的时间段共享数据(A->B)时,A需要首先将数据序列化storage中,以供后面的B使用。这种A write and B read操作无疑会拖慢job的运行。针对于此,Spark采用了in-memory 的RDD来获取fast data sharing,从而避免了中间结果的落盘操作,达到类似于"in-memory"的数据共享。

    2. MR自身延迟

      传统的一个MR step的延迟很大,因为它从设计初定位于batch processing。而Spark的MR step的延迟很小,约100ms。当有些应用需要细粒度的迭代步的时候,100ms的延迟是足够应对很多data-intensive的数据应用。

    系统角度

    典型的Hadoop系统特征

    1. Local Storage

      内存50GB/s, 10-20块硬盘,1GB/s到2GB/s的磁盘带宽

    2. Links

      10Gbps(1.3GB/s)的网络链路,40X慢于内存带宽,2X慢于磁盘带宽

    3. Racks

      一个机架包含20-40台机器,40Gbps-80Gbps跨机架传输,2X-5X慢于机架内传输。

    网络和磁盘I/O是瓶颈,也就是说分布式计算最重要的concern是data placement以及跨网络的计算。
    RDD提供了一种机制使得Application能够将计算放到接近数据的地方,也就是preferred locations
    除了网络和磁盘I/O,CPU在某些情况下成为瓶颈,Spark在local computation的时候,使用的是native的高度优化的local lib。


    • [1] Zaharia M, Xin R S, Wendell P, et al. Apache spark: a unified engine for big data processing[J]. Communications of the ACM, 2016, 59(11): 56-65.
    展开全文
  • apache spark Apache软件基金会 (ASF)高兴地宣布, Apache Spark已从Apache Incubator毕业,成为一个顶级项目(TLP) ,这表明该项目的稳定性。 Apache Spark是一个开放源代码群集计算框架,用于快速,灵活地...

    apache spark

    Apache软件基金会 (ASF)高兴地宣布, Apache Spark已从Apache Incubator毕业,成为一个顶级项目(TLP) ,这表明该项目的稳定性。

    Apache Spark是一个开放源代码群集计算框架,用于快速,灵活地进行大规模数据分析。 Spark一直是大数据之乡的话题,预计2014年将是Spark的一年。

    根据Spark网站主页,引擎在内存中运行程序的速度比Hadoop MapReduce快100倍,在磁盘上的速度快10倍。 这就是Cloudera 将其集成到其Hadoop发行版 CDH(包括Apache Hadoop的Cloudera发行版)中的原因。 Spark的巨大成功不仅在于它是一个快速的引擎,还在于它自6月进入Apache孵化器以来的快速发展,其贡献来自25个组织的120多名开发人员。

    来自加利福尼亚大学伯克利分校的Spark创造者创建了一家名为Databricks的公司,以将该技术商业化。 根据Databricks首席执行官兼UC Berkeley教授Ion Stoica的说法,通过Spark项目,组织从大数据中获取见解变得更加容易。 现在,创建了一个开源社区,这可以帮助加速Apache Spark的开发和采用。

    根据“ Apache Spark成为顶级项目”一文,Sparks的功能之一是它可以在Hadoop 2.0 YARN上运行。 此外, Shark的配套项目可以实现与Apache Hive语法兼容SQL-on-Hadoop引擎,但是声称与Spark相比原始MapReduce的性能提高了10x / 100x。

    Spark的另一个功能是,它允许开发人员使用Java,Python或Scala编写应用程序。 与Apache Hadoop集成后,Spark非常适合机器学习,交互式查询和流处理,并且可以从HDFS,HBase,Cassandra和任何Hadoop数据源读取。

    雅虎通过Yahoo杰出架构师Andrew Feng祝贺Spark成为Apache顶级项目。 Feng解释了Yahoo如何帮助发展Hadoop和包括Spark在内的相关大数据技术。 由于Apache Hadoop是Yahoo大数据平台的基础,因此Yahoo为Spark的发展做出了重大贡献。

    Apache Spark软件是根据Apache License v2.0发布的,并由该项目的积极参与者的自选团队监督。 项目管理委员会(PMC)指导项目的日常运营,包括社区开发和产品发布。 这里提供文档和参与Apache Spark的方式。

    就MapReduce而言, Spark似乎准备将the绳作为新Hadoop工作负载的主要处理框架,而MapReduce则逐渐淡出 Spark似乎非常适合可能需要较低延迟查询,实时处理或对同一数据进行迭代计算的下一代大数据应用程序。 从技术上讲,Spark是一个独立的项目,但始终设计为可与Hadoop分布式文件系统一起使用。

    但是,仍然有许多Spark尚未使用的MapReduce工具(例如Pig和Cascading),并且MapReduce对于某些批处理作业仍然相当不错。 Cloudera联合创始人兼首席战略官Mike Olson解释说,即使Spark起飞,很多旧版MapReduce工作负载也不会很快消失。

    实际上,3月19日至20日在纽约举行了一次结构数据会议 ,Ion Stoica将在该会议上发言,这是“结构数据奖”演讲的一部分,而Cloudera,Hortonworks和Pivotal的首席执行官将讨论大型产品的未来数据平台以及如何计划利用它们。

    翻译自: https://www.javacodegeeks.com/2014/03/apache-spark-is-now-a-top-level-project.html

    apache spark

    展开全文
  • Apache Spark Machine Learning Blueprints
  • Apache Spark 概述

    2020-01-11 12:49:19
    Apache Spark是一个快速的通用集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持常规执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括星火SQL用于SQL和结构化数据的处理,MLlib机器学习,...

    Spark概述

    Apache Spark是一个快速的通用集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持常规执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括星火SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX用于图形处理和星火流

    安全

    默认情况下,Spark中的安全性处于关闭状态。这可能意味着您默认情况下容易受到攻击。下载并运行Spark之前,请参阅Spark Security

    正在下载

    从项目网站的下载页面获取Spark 。本文档适用于Spark版本2.4.4。Spark将Hadoop的客户端库用于HDFS和YARN。下载已预先打包为少数流行的Hadoop版本。用户还可以下载“免费的Hadoop”二进制文件,并通过扩展Sp​​ark的classpath在任何Hadoop版本上运行Spark 。Scala和Java用户可以使用其Maven坐标将Spark包含在其项目中,并且将来Python用户还可以从PyPI安装Spark。

    如果您想从源代码构建Spark,请访问Building Spark

    Spark可在Windows和类似UNIX的系统(例如Linux,Mac OS)上运行。在一台机器上本地运行很容易-您所需要的只是java在系统上安装PATHJAVA_HOME指向Java安装的环境变量。

    Spark在Java 8,Python 2.7 + / 3.4 +和R 3.1+上运行。对于Scala API,Spark 2.4.4使用Scala 2.12。您将需要使用兼容的Scala版本(2.12.x)。

    请注意,自Spark 2.2.0起已删除了对Java 7,Python 2.6和2.6.5之前的旧Hadoop版本的支持。从2.3.0版本开始,不再支持Scala 2.10。从Spark 2.4.1开始不支持Scala 2.11,它将在Spark 3.0中删除。

    运行示例和外壳

    Spark附带了几个示例程序。目录中有Scala,Java,Python和R示例 examples/src/main。要运行Java或Scala示例程序之一,请 bin/run-example <class> [params]在顶级Spark目录中使用。(在后台,这将调用更通用的 spark-submit脚本来启动应用程序)。例如,

    ./bin/run-example SparkPi 10
    

    您还可以通过修改后的Scala shell版本以交互方式运行Spark。这是学习框架的好方法。

    ./bin/spark-shell --master local[2]
    

    --master选项指定分布式集群的 主URL,或local使用一个线程local[N]在本地运行,或使用N个线程在本地运行。您应该先从local进行测试开始 。有关选项的完整列表,请运行带有该--help选项的Spark shell 。

    Spark还提供了Python API。要在Python解释器中交互式运行Spark,请使用 bin/pyspark

    ./bin/pyspark --master local[2]
    

    Python中还提供了示例应用程序。例如,

    ./bin/spark-submit examples/src/main/python/pi.py 10
    

    从1.4开始,Spark还提供了实验性R API(仅包含DataFrames API)。要在R解释器中交互式运行Spark,请使用bin/sparkR

    ./bin/sparkR --master local[2]
    

    R中还提供了示例应用程序。例如,

    ./bin/spark-submit examples/src/main/r/dataframe.R
    

    在集群上启动

    Spark 集群模式概述介绍了在集群上运行的关键概念。Spark既可以单独运行,也可以在多个现有集群管理器上运行。当前,它提供了几个部署选项:

    从这往哪儿走

    编程指南:

    API文件:

    部署指南:

    其他文件:

    外部资源:

    展开全文
  • 本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。 需要注意两点: (1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5...

    本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。

    需要注意两点

    (1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,资源调度要依托于第三方系统,比如YARN或Mesos等

    (2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。

    将Spark部署到Hadoop 2.2.0上需要经过以下几步:

    步骤1:准备基础软件

    步骤2:在Ubuntu12.04上安装与配置Spark

    步骤3:运行Spark实例

    接下来详细介绍这几个步骤。

    步骤1:准备基础软件

    包括linux操作系统Ubuntu12.04、Hadoop 2.2.0或者更高版本,其中,Hadoop 2.2.0只需采用最简单的方式安装即可,具体可参考这篇文章:Hadoop YARN安装部署

    ·        Ubuntu12.04

    ·        JDK1.6

    ·        Haddoop2.2.0(伪分布式安装)

    ·        Scala2.3.9

    ·        Spark1.0.2(伪分布式安装)

    注意,0.8.1之前的版本不支持hadoop 2.2.0,从0.8.1版本开始支持。

    步骤2:在Linux上安装与配置Spark

    1、Hadoop2.2.0伪分布式的安装请参见安装文档

    下面讲解Hadoop的安装过程和步骤。

    1)下载hadoop-2.2.0(官网地址为http://hadoop.apache.org/

    选取一个Hadoop镜像网址,下载Hadoop并解压tar包。

    1. $ sudo tar-vxzf hadoop-2.2.0.tar.gz 
    2. $ sudo mv hadoop-2.2.0 hadoop  
    3. $ sudo chown -R hadoop:hadoop hadoop 

    2)配置Hadoop环境变量

    a编辑profile文件。

    1. Sudo gedit  /etc/profile 

    b在profile文件中增加以下内容。

    1. export JAVA_HOME=/usr/lib/jvm/jdk/  
    2. export HADOOP_INSTALL=/usr/local/hadoop  
    3. export PATH=$PATH:$HADOOP_INSTALL/bin  
    4. export PATH=$PATH:$HADOOP_INSTALL/sbin  
    5. export HADOOP_MAPRED_HOME=$HADOOP_INSTALL  
    6. export HADOOP_COMMON_HOME=$HADOOP_INSTALL  
    7. export HADOOP_HDFS_HOME=$HADOOP_INSTALL  
    8. export YARN_HOME=$HADOOP_INSTALL 

    通过如上配置就可以让系统找到JDK和Hadoop的安装路径。

    3)编辑配置文件

    a进入Hadoop所在目录/usr/local/hadoop/etc/hadoop。

    b配置hadoop-env.sh文件。

    1. export JAVA_HOME=/usr/lib/jvm/jdk/ 

    c配置core-site.xml文件。

    d配置yarn-site.xml文件。

    e配置mapred-site.xml文件,加入如下内容。

    f配置hdfs-site.xml 文件,在文件中添加如下内容。

    g配置Master和Slave文件

    如:localhost

    4)格式化Namenode(在Hadoop根目录下)

    如:bin/hadoop namenode -format 

    5)启动Hadoop

    如:sbin/start-all.sh 

    6)查看是否配置和启动成功

    如果在x86机器上运行,则通过jps命令,查看相应的JVM进程

    如:

    2 Scala安装

    1) 下载Scala,本文以Scala-2.9.3为例

    2) 下载后,拷到指定目录并在指定目录解压,命令为:

    如:tar –xzvf scala-2.9.3.tgz

    3) 配置环境变量,在/etc/profile增加以下代码

    如:export SCALA_HOME=/usr/local/scala-2.9.3

        export PATH=$ SCALA_HOME/bin:$PATH

    4)使profile文件更新生效

    如:source /etc/profile

    5)验证安装

    如: scala –version


    能够正常显示版本说明则安装成功。

    3 Spark安装

    spark版本:spark-1.0.2-bin-hadoop2 

    下载地址http://spark.apache.org/downloads.html
    这里的spark有三个版本:

    For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download
        For CDH4: find an Apache mirror or direct file download
        For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download
    我的hadoop版本是hadoop2.2.0.的,所以下载的是for hadoop2。(Hadoop2同理,只需要换成Spark的Hadoop2版本即可)

    1)下载Spark(注意要下载对应Hadoop版本的Spark程序包,本文以Spark1.0.2为例)

    2)下载后,拷到指定目录并在指定目录解压,命令为:

    如:tar –xzvf spark-1.0.2-bin-hadoop2.tgz

    3) 将解压出的文件夹改名为spark,并将该spark文件夹的属主用户设为hadoop

    4)配置环境变量,在/etc/profile增加以下代码

    如:export SPARK_HOME=/usr/local/spark

    export PATH=$ SPARK_HOME /bin:$PATH

    source/etc/profile使profile文件更新生效。

    5)配置conf/spark-env.sh文件

    如:

    6)配置Master和Slaves文件,编辑/conf/Master、Slaves

    如:localhost(Master)

        Localhost(Slave1、Slave2….)

    7)Spark启动与关闭

    如:sbin/start-all.sh

        Sbin/stop-all.sh

    通过jps查看启动是否成功:

    8)Hadoop启动与关闭

    如:bin/start-all.sh

        bin/stop-all.sh

    9)检测是否安装成功


    至此,在Linux上安装与配置Spark伪分布式告一段落。

    测试Spark是否安装成功:


    可以通过http://localhost:8080/查看spark集群状况。

    可以通过http://localhost:50070/可以查看hdfs状态信息:

    步骤3:运行Spark实例

    请参考文档Spark下如何运行Java版本的WordCount

    http://blog.csdn.net/leijie0322/article/details/44281241

    参考文献

    1 http://book.51cto.com/art/201502/466010.htm

    2 http://blog.csdn.net/gaoyanjie55/article/details/34420933

    3http://blog.csdn.net/freedomboy319/article/details/43953731

    4 http://blog.csdn.net/u012480384/article/details/40988181

    5 http://blog.csdn.net/anycom/article/details/38943837

    6 http://blog.csdn.net/sunflower_cao/article/details/26458189

    展开全文
  • Apache SparkApache Flink的区别 Apache SparkApache软件基金会开发的开源集群计算框架。Apache Spark非常快,可以用于大规模数据处理。它是大数据技术领域现有大型数据处理工具的替代。Apache Flink是一个...
  • Apache Spark机器学习

    千次阅读 2019-03-11 18:51:46
    推荐电子书:Apache Spark 2.x入门 - 从入门到制作 前言: 使用Apache Spark 2.0及更高版本,实现了很大的改进,使Spark更容易编程和执行更快: Spark SQL和Dataset / DataFrame API通过Spark SQL优化的执行引擎...
  • 2.关于Apache Spark

    2017-07-31 13:32:44
    关于Apache Spark 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 6 RDD持久性 7 spark共享变量 8 Spark SQL 9 Spark Streaming ...
  • Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apache flink。 Apache Spark简介 Apache Spark是为快速计算而设计的开源,闪电般...
  • Apache Spark的工作原理 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 6 RDD持久性 7 spark共享变量 8 Spark SQL 9...
  • What Is Apache Spark

    2017-09-27 10:11:34
    What Is Apache Spark?Apache Spark is a cluster computing platform designed to be fast and general-purpose. One of the main features Spark offers for speed is the ability to run computations in memory.
  • 3.如何安装Apache Spark

    2017-07-31 14:32:45
    如何安装Apache Spark 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 6 RDD持久性 7 spark共享变量 8 Spark SQL 9 Spark Streaming ...
  • Mastering Apache Spark 2.x - Second Edition by Romeo Kienzler English | 26 July 2017 | ISBN: 1786462745 | ASIN: B01MR4YF5G | 354 Pages | AZW3 | 13.74 MB Advanced analytics on your Big Data with ...
  • Apache 基金会宣布旗下的 Apache Spark 项目成为基金会的顶级项目,拥有顶级域名 http://spark.apache.org/ 基金会称 Spark 的用户包括:阿里巴巴、Cloudera、Databricks、IBM、英特尔和雅虎。 Apache Spark 是一种...
  • Apache Spark开发介绍

    2018-10-10 11:31:21
    Databricks的工程师,Apache Spark Committer介绍了Databricks和Spark的历史,包括了Spark 1.4中的重要特性和进展,涵盖了Spark早期版本的主要功能和使用方法,讲了大数据领域近些年的发展,也介绍了Spark从这些年...
  • Apache Spark 2.0 for Beginners English | ISBN: 1785885006 | 2016 | Key Features This book offers an easy introduction to the Spark framework published on the latest version of Apache Spark 2 Perform ...
  • Apache Spark中的有向无环图DAG 由DATAFLAIR TEAM·更新·2018年11月21日 1.目的 在本Apache Spark教程中,我们将了解Apache Spark中的DAG,DAG Scheduler是什么,Spark中对有向无环图的需求,如何在Spark中...
  • Apache Spark Jobs 性能调优

    千次阅读 2016-07-06 20:15:34
    Apache Spark Jobs 性能调优
  • Google宣布为Apache Spark推出Kubernetes Operator “Spark Operator”测试版允许在Kubernetes集群上执行原生Spark应用程序——不需要Hadoop或Mesos。   Apache Spark是一个非常流行的执行框架,通常用在数据...
  • 在Ubuntu环境部署Apache Spark集群

    千次阅读 2015-12-03 22:03:58
    在Ubuntu环境部署Apache Spark集群作者:chszs,未经博主允许不得转载。经许可的转载需注明作者和博客主页:http://blog.csdn.net/chszs1、软件环境本文主要讲述怎样在Ubuntu系统上部署Apache Spark独立集群...
  • 最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache SparkApache Hadoop的Google趋势可以证明这一点: 上图已经明显展示出最近五年,Apache Spark越来越受...
  • 14.1 Apache Spark 简介快速入门 “卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新 本节主要内容: 速度 简单易用 Spark架构 到处运行 多种数据源 14.1.1 速度 百倍的运行速度。 Spark...
  • 1.2 在机器学习中应用Spark计算 基于RDD和内存处理的创新...Apache Spark团队表示:Apache Spark基于Mesos 集群管理器运行,使其可以与Hadoop以及其他应用共享资源。因此,Apache Spark可以从任何Hadoop输入源(...
  • 首先祝大家端午节快乐,幸福安康。就在上周五, Apache Spark 3.0全新发布,此版本给我们带来了许多重要的特性,感兴趣的同学可以看下这篇文章:Apache Spark 3....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,899
精华内容 10,759
关键字:

ApacheSpark