精华内容
下载资源
问答
  • spark源码

    2019-02-27 10:55:20
    对于spark源码的目录结构  1、编译相关 : sbt 、assembly、project  2、spark核心 :core  3、Spark Lib : streaming 、 sql 、graphx 、mllib  4、运行脚本和配置 ...

    https://www.jianshu.com/p/0bf807929d9b     简书上的spark streaming源码

    对于spark源码的目录结构

      1、编译相关    : sbt 、assembly、project

      2、spark核心  :core

      3、Spark Lib  : streaming 、 sql 、graphx 、mllib

      4、运行脚本和配置 : bin  、sbin 、conf

      5、虚拟化 : ec2 、docker 、dev

      6、式例  : examples 、data

      7、部署相关: yarn

      8、python支持 : python

      9、repl : repl

      10、 3pp : externals

     

    mllib和ml的区别:

    https://www.zhihu.com/question/35225203
    spark.mllib中的算法接口是基于RDDs的;
    spark.ml中的算法接口是基于DataFrames的。
    实际使用中推荐ml,建立在DataFrames基础上的ml中一系列算法更适合创建包含从数据清洗到特征工程再到模型训练等一系列工作的ML pipeline;而且未来mllib也会被弃用。
     ML是比Mllib更高抽象的库,它解决如果简洁的设计一个机器学习工作流的问题,而不是具体的某种机器学习算法。
    RDD和DataSet的关系
    DataSet是RDD更高级的抽象

     

    搭建spark源码环境:

    http://www.aboutyun.com/forum.php?mod=viewthread&tid=22491
    想研读下spark的源码,怎么搭阅读和调试的环境呢?

     

     

    展开全文
  • Spark源码剖析

    2018-05-22 21:39:40
    Apache Spark源码剖析,Apache Spark源码剖析,Apache Spark源码剖析
  • spark源码阅读笔记

    2017-11-16 10:53:30
    spark源码阅读笔记 spark源码阅读笔记 spark源码阅读笔记 spark源码阅读笔记
  • spark源码编译 首先去Apache官网,http://spark.apache.org/downloads.html ,下载相应的spark源码如下图所示

    1. spark源码编译

    1.1 下载源码 

    首先去Apache官网,http://spark.apache.org/downloads.html ,可以根据自己需要的版本下载相应的spark源码,如下图所示


    编译spark源码推荐在linux环境中进行,在windows编译可能有一些问题,将下载过的spark源码上传到Linux机器进行解压即可


    1.2 sbt编译spark源码

    spark源码编译可以通过两种方法,一种是maven编译,另一种是sbt编译,这次用的是sbt。

    需要提前安装sbt环境,sbt的下载网址为http://www.scala-sbt.org/download.html,下载解压后我们需要设置的选项如下

    1.2.1 安装sbt

    打开/etc/pfofile文件,加入sbt的环境变量

    export sbt_home=/usr/local/sbt

    export PATH=.:$ZOOKEEPER_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$HBASE_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$sbt_home/bin:$MVN_HOME/bin:$PATH

    如果不对sbt配置文件进行更改,sbt默认的编译内存是1G,如果编译时报内存不足堆栈溢出的错误,可以调大sbt的编译内存,需要调整的文件是在sbt/bin目录下的sbt-launch-lib.bash文件,我编译时调到了2G,脚本修改如下

     local mem=${1:-2048}

    存储jar包和插件的路径默认在根目录下,如果要更改的话,需要配置/sbt/conf/sbtopts文件,配置选项如下

    -sbt-dir  /home/soft/sbt/.sbt

    -sbt-boot /home/soft/sbt/.sbt/

    boot-ivy /home/soft/sbt/.ivy2

    所有配置文件完成后,可以输入sbt命令,看看是否有错误。第一次执行sbt命令,会下载sbt需要的插件和jar包,并存放在我们设置的目录下边,所以我们有相应的目录生成,证证明我们的配置已经生效,否则未生效,如下图所示


    1.2.3 编译spark源码

    进入/home/soft/spark/spark-1.2.0目录,如果需要指定hadoop版本的话,需要设置环境变量

    export SPARK_HADOOP_VERSION=2.3.0-cdh5.1.0

    export SPARK_YARN=true

    然后执行命令

     sbt assembly

    开始对spark源码进行编译,第一次编译spark源码需要下载非常多的jar包,需要的时间也很长,一般需要1-2个小时,所以此时一定要保证网络良好,编译成功后,会在

    spark-1.2.0/assembly/target/scala-2.10目录下生成我们合并过的jar包,spark-assembly-1.2.0-hadoop2.3.0-cdh5.1.0.jar





    展开全文
  • Apache Spark源码剖析

    2017-11-21 16:45:38
    Apache Spark 源码剖析 Apache Spark 源码剖析 Apache Spark 源码剖析
  • spark 源码分析

    2019-01-25 11:07:32
    《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。 《Apache Spark源码剖析》第3~5章详细介绍了...
  • 搭建Spark源码阅读环境——Spark源码编译及本地调试

    搭建Spark源码阅读环境——Spark源码编译及本地调试

    展开全文
  • spark-sourcecodes-analysis Spark源码剖析
  • spark源码结构,spark官方源码详细说明,各个包是干什么用的
  • 大数据Spark源码

    2017-06-15 16:20:02
    spark源码,学习大数据的必备资料
  • windows + Intellij IDEA打造Spark源码阅读环境 1.Spark源码阅读环境的准备 Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发...

    windows + Intellij IDEA打造Spark源码阅读环境



    1.Spark源码阅读环境的准备

    Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。

    本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。

    下面列举搭建此环境需要的各个组件:

    • IDEA,有两个版本:Ultimate Edition & Community Edition,后者是free的,而且完全能满足学习者所有的需求
    • Scala,Spark是用Scala语言写成的,在本地编译执行需要这个包
    • SBT,scala工程构建的工具
    • Git,IDEA自动下载SBT插件时可能会用到的工具
    • Spark Source Code,Spark源码

    下载各个安装包。

    2.Spark源码阅读环境的安装


    安装Scala

    完成后,在windows命令行中输入scala,检查是否识别此命令。
    如果不识别,查看环境变量Path中是否有....\scala\bin(我的电脑右键,属性 -> 高级系统设置 -> 环境变量),没有的手动将Scala文件夹下的bin目录的路径(不具体细说)

    安装SBT

    运行SBT的安装程序,运行完成后,重新打开windows命令行,输入sbt,检查是否识别此命令。没有的话,手动配置环境变量,添加...\sbt\bin

    运行完SBT的安装程序之后,并不意味着完成了sbt的安装,在windows命令放下输入sbt后,SBT会自动的下载安装它所需要的程序包,请耐心等待全部下载成功。

    安装Git

    运行Git的安装程序,安装完成后,重新打开windows命令行,检查时候识别git命令。

    3.在IDEA的Scala插件安装

    选择File Setting

    选择右侧的 Install Jetbrains Plugin, 在弹出窗口的左侧输入scala,然后点击安装

    scala插件安装结束,需要重启idea生效

    4.在IDEA中导入Spark源码

    从 Github 导入 Spark 工程

    打开IntelliJ IDEA 后,在菜单栏中选择 VCS→Check out from Version Control→Git,之后在 Git Repository URL 中填入 Spark 项目的地址,并指定好本地路径,如下图所示。

    从 Github 导入 Spark 工程

    打开IntelliJ IDEA 后,在菜单栏中选择 VCS→Check out from Version Control→Git,之后在 Git Repository URL 中填入 Spark 项目的地址,并指定好本地路径,如下图所示。


    点击该窗口中的的 Clone 后,开始从 Github 中 clone 该项目,该过程试你网速而定,大概需要3-10分钟。

    编译 Spark

    当 clone 完毕后,IntelliJ IDEA 会自动提示你该项目有对应的 pom.xml 文件,是否打开。这里直接选择 Open 该 pom.xml 文件,然后系统会自动解析项目的相关依赖,该步骤也会因你的网络和系统相关环境,所需时间不同。

    该步骤完成之后,请手动编辑 Spark 根目录下的 pom.xml 文件,找到其中指定 java 版本的那一行(java.version),根据你的系统环境,如果使用的是 jdk1.7 ,那么或许需要你将其值改成1.7(默认是1.6)。

    之后打开 shell 终端,在命令行中进入刚才导入的 spark 项目根目录,执行

    sbt/sbt assembly

    该编译命令将全部采用默认的配置来编译 Spark,若想指定相关组件的版本,可以查看 Spark 官网中的 Build-Spark(http://spark.apache.org/docs/latest/building-spark.html),查看所有常用的编译选项。该过程目前不需要 VPN 即可完成,为了预估编译所需的时间,你可以在新开一个 shell 终端,不断查看 spark 项目目录的大小,我最终采用默认配置,编译成功后的 spark 目录大小为2.0G。

    结束语

    至此,为了检验你的编译结果,可以在命令行中进入 spark/bin 目录,运行 spark-shell,若一切都正常启动,则编译成功。若你修改了 Spark 的源码,可以重新使用 sbt 来进行编译,并且编译的时间不会像第一次编译那么长。 


    后续继续学习更新




    展开全文
  • 构建spark源码阅读环境 在idea中找类的快捷键:两下shift spark源码地址:https://github.com/apache/spark 先下载下来,找一个目录,执行命令: git clone http://github.com/apache/spark 说白了就是下...
  • Spark源码编译

    2018-12-15 15:18:40
    Spark源码编译 解决工作中避免出现的Bug ● 在线安装git(root 用户下) yum install git ● 创建一个目录克隆spark源代码 mkdir -p /projects/opensource cd /projects/opensource git clone ...
  • spark源码分析系列

    2018-01-20 11:40:59
    个人对spark源码的一些分析,在个人学习和使用spark过程中,结合spark源码和实践进行全方位的分析,希望对大家有所帮助
  • Spark源码深度解读

    2018-11-29 17:14:26
    Spark源码解读迷你 RDD、Spark Submit、Job、Runtime、Scheduler、Spark Storage、Shuffle、Standlone算法、Spark On yarn。。。
  • spark源码下载安装启动,包括遇到的问题,下载地址,.编译spark源码
  • Spark 源码修改

    2019-08-04 22:57:03
    Spark源码编译
  • Spark源码调试

    2019-04-09 19:39:55
    在学习Spark源码或者开发过程中,往往需要远程调试Spark。下面将介绍如何在IDEA下对Spark源码进行远程调试。 调试前准备工作 下载需要调试的Spark对应的版本源码,并用make-distribution.sh编译方式对Spark源码...
  • spark源码解析目录

    2019-11-28 15:01:20
    spark版本: 2.0.0 ...1. spark源码解析-master流程分析 2. spark源码解析-rpc原理 3.spark源码解析-worker启动 4.spark源码解析-分析一次完整的远程请求过程 5.spark源码解析-sparkSubmit分析 ...
  • Spark源码分析

    2018-07-02 11:25:54
    Spark源码分析
  • 【Spark内核源码】Spark源码环境搭建

    千次阅读 2018-10-09 23:34:43
    下载spark源码,并解压 打开spark源码下的pom.xml文件,修改对应的java和intellij里的maven版本 打开intellij,Inport Project,将源码导入intellij中 问题总结(十分重要) Maven编译打包前的准备 Maven编译...
  • Spark源码学习——在linux环境下用IDEA看Spark源码本篇文章主要解决的问题 1.Spark在Linux下实验环境的搭建一、Spark源码阅读环境的准备本文介绍的是Centos下的各项配置方法下面列举搭建此环境需要的各个组件: JDK...
  • 在Spark开发学习中,我们需要有一套自己精心备注学习研究的Spark源代码,但是如果是通过maven自动导入Spark源码的话,我们是不可以对Spark源代码进行备注、注解等修改的操作的。   因此,我们可以到官网下载一套...
  • Spark 源码分析系列

    2019-07-28 16:58:00
    如下,是 spark 源码分析系列的一些文章汇总,持续更新中...... Spark RPC spark 源码分析之五--Spark RPC剖析之创建NettyRpcEnv spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析 spark 源码...
  • 本文档详细介绍了搭建SPARK源码阅读环境的步骤及方法。SPARK源码的阅读有助于了解SPARK运行的内部机制,便于优化,对有志于大数据学习及科研的人员都是很重要的。
  • 《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。
  • spark源码分析.pdf

    2018-09-01 16:13:59
    spark源码分析,RDD、Iterator、Job、DAG、Stage、Taskset、task等
  • Spark 源码剖析

    2016-05-20 16:15:10
    Spark 源码剖析
  • 即时通讯最新版spark源码,openfire+spark即时通讯开发必备。spark官网下载最新版源码

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,270
精华内容 6,508
关键字:

spark源码