精华内容
下载资源
问答
  • 学习过程中,网上搜了各种资料,参考了很多优秀的博客,发现虚拟机上搭建 spark 集群主要有两种方法。第一种是充分利用 VMWare 的虚拟机克隆功能,只需要配置好一台主机,直接克隆生成其他主机并修改少量配置...
    一、概述
           对于想学习 spark 集群搭建及应用的人来说,专门买多台物理主机往往成本太高,其实我们只需要利用虚拟机(我用的是 VMWare)搭建多台虚拟主机即可。在学习过程中,在网上搜了各种资料,参考了很多优秀的博客,发现在虚拟机上搭建 spark 集群主要有两种方法。第一种是充分利用 VMWare 的虚拟机克隆功能,只需要配置好一台主机,直接克隆生成 其他主机 并修改少量配置即可。第二种与在实际物理主机上部署类似,该方法可以直接应用到实际部署中。首先创建多台新的虚拟机,然后在每台主机上分别进行配置。当然,该方法也不是每一台机器都重新配置,下面将会具体讲到,对于 hadoop 和 spark 安装文件,只需要在一台机器上配置好然后复制到其他主机即可。为了让这篇文章更具通用性,我们以介绍第二种搭建方法为主线,毕竟实际的集群是布置在物理主机上的。对于想在虚拟机上快速搭建 spark 集群的读者,我们也会在叙述过程中提到克隆虚拟机后需要修改的地方。另外,由于 spark 需要用到 hadoop 的文件管理系统 HDFS 和任务调度系统 YARN,所以在搭建 spark 之前需要先搭建好 hadoop。
            下面的叙述将会以西面的思路展开。在介绍集群搭建之前,分别介绍 hadoop 和 spark 单机搭建方法,因为上面提到的两种方法的单机搭建与配置方法是相同的。介绍完单机搭建及配置方法,我们将会介绍如何将单机的配置应用到集群里面。

    下面是本文用到的各个软件的版本:
    虚拟机:VMWare
    操作系统:Ubuntu-14.04.1-desktop-amd64
    Hadoop 版本:hadoop-2.7.2
    Spark 版本:spark-1.6.1-bin-without-hadoop

            为了避免权限问题,建议下面下载的所有文件都放在 home 目录下,比如 ~/spark。这里就是在 home 目录下新建一个 spark 目录,下面的所有文件都放在里面。实际上下面提到的所有软件都不需要安装,直接在官网上下载安装包并解压就行了。

    二、单机 hadoop 搭建
    1、准备工作
            在正式搭建 hadoop 之前,需要对系统及环境进行一些配置,主要有以下几点,命令详细解释参考[1]:
            (1)创建 hadoop 用户。一般情况下,我们安装 Ubuntu 时都不会直接用 hadoop 作为用户名。为了方便后面搭建集群,我们需要重新创建一个叫做 hadoop 的用户。另外,在 Ubuntu 终端黏贴命令需要用 ctrl+shift+v。完成以下命令后,注销当前用户,进入 hadoop 用户后再进行之后的操作。
    命令:
    sudo useradd -m hadoop -s /bin/bash    //添加 hadoop 用户
    sudo passwd hadoop    //修改 hadoop 用户密码,一般也用 hadoop 就行了
    sudo adduser hadoop sudo    //为 hadoop 用户增加管理员权限,防止之后产生权限问题 
            (2)更新 apt。这一步不是必须的,做这一步的目的是更新所有的依赖软件,以防后面某些软件安装不成功。如果所有主机 Ubuntu 的软件都是最新的,就不需要这一步了。
    命令:
    sudo apt-get update       
            (3)安装 Java 环境。由于 hadoop 依赖于 Java 运行环境,所以在安装 hadoop 之前,需要先安装 Java 环境 JDK。在官网下载最新版 Java,并解压到 ~/spark 目录,解压后的 Java 文件夹可以直接更名为 java。
    命令:
    sudo tar -zxvf download.gz    //download 就是你下载的 Java 安装包名字,tar 是解压命令
    sudo mv ./download ./java    //将原来的文件夹名字修改为 java
    sudo gedit /etc/profile    //修改环境变量,需要修改的东西比较多,可以参考[5] 

    2、安装 hadoop
            Hadoop 的安装非常简单,只需要在网上下载相应的编译好的 hadoop 包,解压到 ~/spark 文件夹就大功告成了。当然,如果有时间可以试一试下载源码自己编译,方法参考[3]。
    命令:
    sudo tar -zxvf download.gz    //download 就是你下载的 hadoop 安装包名字,tar 是解压命令
    sudo mv ./download ./hadoop    //将原来的文件夹名字修改为 hadoop
            我们发现,打开 hadoop 文件夹以后,里面有很多子文件夹,下面介绍几个重要的文件夹及其作用,因为之后的 hadoop 配置和运行都需要用到。
            (1)./etc/hadoop:这个文件夹主要存放 hadoop 的配置文件。hadoop 的运行模式都是通过改变这些配置文件来实现的。Hadoop 配置文件一般以 .xml 为后缀,每一条配置都是以声明 property 的 name 和 value 来实现的。具体的配置方法需要参考 hadoop 官方手册。
            (2)./bin:这个文件夹主要存放一些可执行文件。是 hadoop 功能实现的主要载体,可以看成是一个一个小的应用程序。
            (3)./sbin:这个文件夹主要存放一些批处理文件。主要用于实现一些相对复杂的任务,比如开启和关闭 namenode 和 datanode 守护程序,开启和关闭 yarn 等。

    3、配置 hadoop
            用以下命令进入 hadoop 配置文件夹。
    命令:
    sudo cd ~/spark/hadoop/etc/hadoop    //进入 hadoop 配置文件夹
            Hadoop 的配置主要有以下几个步骤(具体配置参数参考[5]):
    (1)在hadoop-env.sh中配置JAVA_HOME
    (2)在yarn-env.sh中配置JAVA_HOME
    (3)在slaves中配置slave节点的ip或者host
    (4)修改core-site.xml
    (5)修改hdfs-site.xml
    (6)修改mapred-site.xml
    (7)修改yarn-site.xml
    (8)格式化 namenode

    三、单机 spark 搭建
    1、准备工作
            (1)安装好 hadoop。这一步上面已经做好了。
            (2)安装 Scala。Scala 是 spark 的主要编程语言,所以在搭建安装 spark 之前需要安装该语言环境。在官网下载最新 Scala 安装包然后解压。
    命令:
    sudo tar -zxvf download.tgz
    sudo mv ./download ./scala    //将原来的文件夹名字修改为 scala
    sudo gedit /etc/profile    //修改环境变量,需要修改的东西比较多,可以参考[5] 
    2、安装 spark
            跟 hadoop 一样,spark 的安装也非常简单, 也是在网上下载相应的编译好的 spark 包,解压到 ~/spark 就行了。
    命令:
    sudo tar -zxvf download.gz    
    sudo mv ./download ./spark    //将原来的文件夹名字修改为 spark
    3、配置 spark
    用以下命令进入 spark 配置文件夹。
    命令:
    sudo cd ~/spark/spark/conf    //进入 spark 配置文件夹
            spark 配置文件放在 ~/spark/spark/conf 这个文件夹中,这里我们只需要配置两个文件就可以了(具体配置参数参考[5])。
    (1)配置 spark-env.sh 文件
    (2) 在 slaves 中配置 slave 节点的 ip 或者 host

            到此为止,单机 spark 就安装并配置完成了,接下来将会介绍集群搭建方法。

    四、集群搭建
            如果想在虚拟机上快速搭建 spark 集群,先跳到本章的第三步,也就是建立 ssh 无密码登陆环境,设置好一台机器的 ssh 环境后直接克隆其他虚拟机即可。如果想按第二种方法搭建集群,只需要按步骤设置即可。
    1、修改机器名。克隆完虚拟机也需要对克隆后的每一台虚拟机进行这一步操作,否则所以主机的机器名都是一样的。
    命令:
    sudo gedit /etc/hostname    //对每一台电脑用 gedit 打开主机名文件,修改成不同的机器名,一般集群主机取名 master,从机取名 slave1,slave2 ... 修改完机器名必须重启!!!否则执行其他命令时会报错。

    2、设置 host 映射。克隆完虚拟机也需要对克隆后的每一台虚拟机进行这一步操作。
    命令:
    sudo gedit /etc/hosts    //打开 hosts 文件
            Host 文件本质上是一个 IP 地址与机器名对应关系的文件,跟 windows 的 host 文件差不多,其格式一般如下所示:
    192.168.86.128 master
    192.168.86.132 slave1
    192.168.86.133 slave1
            前面是每台机器的 IP 地址,后面是机器名。在 Linux 下查看本机 IP 地址一般用 ifconfig 命令。需要注意的是,有些博客说虚拟机需要设置桥接连接方式,但经过我的测试,用 NAT 模式也是可以的,这样就可以免去使用路由器的麻烦。所以为了方便部署,建议采用 NAT 模式。

    3、建立 ssh 无密码登陆环境
            安装 ssh,并配置 SSH 为无密码登录。SSH 是一个远程登录功能,比传统的 Telnet 安全。为了之后搭建的集群相互访问时不需要反复输密码,我们需要配置 SSH 为无密码登录。第一种搭建方法和第二种搭建方法有点不太一样,下面分别介绍。
            对于第一种搭建方法,在克隆前的主机执行下面命令即可。
    命令:
    sudo apt-get install openssh-server    //安装  SSH server
    cd ~/.ssh/    //打开 .ssh 文件
    ssh-keygen -t rsa    //生成秘钥,一路回车
    cat ./id_rsa.pub >> ./authorized_keys    //将秘钥加入授权
            对于第二种搭建方法,稍微复杂一点。其基本步骤跟第一种方法差不多,只不过需要多重复几次。每一台主机都需要先安装 ssh server,然后各自生成自己的秘钥,所有 slave 把自己的秘钥全部传给 master,master 把所有秘钥都加入授权文件 authorized_keys,最后把授权文件 authorized_keys 分发给所有 slave。具体可以参考[5]。

    4、把 master 上配置好的 hadoop 和 spark 分发到各个 slave 节点。注意,如果是使用克隆虚拟机的方法,可以直接忽略这一步。
    命令:
    scp -r ~/spark/hadoop hadoop@slave1:~/spark/    //这个命令都是在 master 上执行的,把 master 上配置好的 spark 安装文件分发给每一个 slave, hadoop@slave1 代表 slave1 上的 hadoop 用户。事实上,这种方法是通过网络的方式传输文件。如果在实际部署中,所有机器都在一个地方,那么用 U 盘拷贝可能速度会快一些。如果在 VMWare 上实现那就更容易了,从一台机器复制粘贴到另一台机器就行了,前提是安装了 VMTools。
    scp -r ~/spark/spark hadoop@slave1:~/spark/     //功能同上。

    5、验证安装是否成功
    命令:
    ~/spark/hadoop/sbin/start-dfs.sh    //启动 hadoop 文件管理系统 HDFS
    ~/spark/hadoop/sbin/start-yarn.sh    //启动 hadoop 任务管理器 YARN
    ~/spark/spark/sbin/start-all.sh    //启动 spark
    以上命令都是在 master 上执行的,在每一台机器上通过下面命令查看启动的进程
    jps    //查看进程
    如果集群安装成功,在 master 上将会有下面几个进程:
    7949 Jps
    7328 SecondaryNameNode
    7805 Master
    7137 NameNode
    7475 ResourceManager
    在 slave 上将会有下面几个进程:
    3132 DataNode
    3759 Worker
    3858 Jps
    3231 NodeManager
    注意,如果集群设置成功,master 能直接启动 slave 上的进程,不需要在 slave 上进行任何操作了

    5、启动集群
            Sparkshell 是 spark 自带的编译环境。如果集群安装成功,以后每次想要启动 spark 编译环境 sparkshell 时,只需要依次输入以下命令。
    ~/spark/hadoop/sbin/start-dfs.sh    //启动 hadoop 文件管理系统 HDFS
    ~/spark/hadoop/sbin/start-yarn.sh    //启动 hadoop 任务管理器 YARN
    ~/spark/spark/sbin/start-all.sh    //启动 spark
    ~/spark/spark/bin/spark-shell    //启动 sparkshell
            启动完会有类似于下列的界面出现,接下来就可以进行 scala 编程了。关于 scala 编程方法将会在后续的博客中进行介绍。


    Reference
    [1] Hadoop 安装教程_单机/伪分布式配置:  http://www.powerxing.com/install-hadoop/ (这篇博客的介绍非常详细,包括每一步的作用以及一些 Linux 的概念都解释得非常清楚)
    [2] Spark快速入门指南 – Spark安装与基础使用:  http://www.powerxing.com/spark-quick-start-guide/
    [3] 倾情大奉送--Spark入门实战系列:  http://blog.csdn.net/yirenboy/article/details/47291765 (这篇博客用的是 CentOS 操作系统,有些操作跟 Ubuntu 不一样,仅供参考)
    [4] Ubuntu 12.04下Hadoop 2.2.0 集群搭建:  http://www.cnblogs.com/tec-vegetables/p/3778358.html
    [5] Spark On YARN 集群安装部署: http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/ (这篇博客对 Ubuntu 上安装 spark 集群的方法讲解的也比较详细,可以和本文参考着一起看)
    展开全文
  • 本博客中,总结了如何前一篇博客在Windows 7利用Vmware Workstation搭建Ubuntu kylin 14.04的hadoop集群成功的基础,安装Scala,部署Spark,配置Spark搭建Spark集群的详细步骤。

            前一篇博客总结了如何在Windows 7上利用Vmware Workstation搭建Ubuntu kylin 14.04的hadoop集群。Hadoop集群搭建成功,距离Spark集群就只有一步之遥了。因为Spark框架本身就可以建立在Hadoop的hdfs基础之上。

            搭建Spark集群,首先要安装Scala,因为Spark本身就是使用Scala语言开发的。不同的Spark 包,使用的Scala语言版本可能有所差异。而同一个Spark版本,可能因为打包时基于的hadoop版本不同,而又有不同的版本,例如在Spark的Apache官网上,当选择Spark 1.6.3版本时,打包的Hadoop版本有2.3,2.4和2.6三个:

                选择最新的Spark2.2版本,使用的Hadoop版本有2.7及以后和2.6两种:

               

                所以前面搭建hadoop集群时,选择的hadoop版本是2.7.4,而不是其它更新的版本,就是为了与这个Spark的package中的hadoop版本相兼容。

                同样,不同Spark版本使用的Scala语言版本有有所差异,可以在Spark package下载后从其jars目录中包含的scala的相关包的版本看出来,也可以根据Spark官网的指示,如上图所说,从Spark 2.0开始,Spark is built with Scala 2.11 by default:

             

             所以,选择安装的Scala版本为2.11.11。

             首先,在SparkMaster完成Scala语言的安装。下载Scala-2.11.11.tgz,解压后部署到/usr/lib/scala目录,并修改~/.bashrc配置文件,添加SCALA_HOME变量,并把${SCALA_HOME}/bin加入到PATH中。安装完成之后,命令终端输入scala -version,应正确显示scala的版本:

           

            接下来安装Spark,下载Spark-2.2.0-bin-hadoop2.7.tgz,解压后部署安装到/usr/local/scala目录,并修改~/.bashrc配置文件,增加SPARK_HOME环境变量,并把

    ${SPARK_HOME}/bin加入到PATH中。然后配置Spark,进入 ${SPARK_HOME}/conf  目录:

          

           修改spark-env.sh.template,加入JAVA_HOME,SPARK_HOME,SPARK_MASTER_IP,SPARK_WORKER_MEMORY和HADOOP_CONF_DIR五个环境变量,另存为spark-env.sh:

          

          然后修改slaves.template,加入SparkMaster,SparkWorker1和SparkWorker2,配置集群总共有三个worker节点,另存为slaves:

         

          SparkMaster配置完成后,可以用scp命令把Scala和Spark的安装部署文件直接传输到SparkWorker1和SparkWorker2:

          scp -r /usr/lib/scala root@SparkWorker1:/usr/lib/scala

          scp -r /usr/local/spark root@SparkWorker2:/usr/local/spark

          传输完成后,登录SparkWorker1检查,Scala和Spark文件夹都已成功复制过去:

         

          同样修改SparkWorker1的配置文件~/.bashrc,增加环境变量及修改PATH,然后命令行输入scala -version,验证Scala 版本,输入Scala,进入scala REPL,输入5*5,检查Scala及Spark复制安装正确:

         

          同样可以用scp命令从SparkMaster复制Scala和Spark的安装部署到SparkWorker2,并修改配置文件,验证Scala及Spark安装配置正确。

          接下来就可以启动Spark集群了。首先要启动Hadoop集群。到${HADOOP_HOME}/sbin目录下,,/start-all.sh即可启动Hadoop集群。

          hadoop集群启动完成后,在SparkMaster上,jps可以查看到启动的进程,有NameNode和DataNode: 

             

             而在SparkWorker1和SparkWorker2上,则只有DataNode的进程:

             

              Hadoop集群成功启动后,转到${SPARK_HOME}/sbin目录,执行./start-all.sh,启动Spark集群。启动成功后,在SparkMaster上,会多了一个Worker进程:

             

              同样,在SparkWorker1和SparkWorker2上,也出现了Spark的Worker进程,表明Spark集群启动成功:

              

              也可以到Spark集群的Web界面去查看相应的Spark集群信息,网址为http://SparkMaster:8080:

             

              可以看到,Spark集群成功启动,共有三个Worker。

              还可以在SparkMaster上启动Spark Shell,转到${SPARK_HOME}/bin,执行spark-shell:

    这时可以从Spark Shell的Web UI中获取更多Spark Job和Spark Environment的信息,访问地址为:http://SparkMaster:4040

            

         

         


    
    
    
    
    展开全文
  • spark集群在windows搭建

    千次阅读 2019-11-15 14:35:24
    我用三台windows电脑,主机名 和 ip对应如下: (右键我的计算机 属性 修改计算机名分别为:win-master,win-salver1,win-salver2) win-master 192.168.0.1 win-salve1 192.168.0.2 win-salve2 192.168.0.3 每台电脑...

    我用三台windows电脑,主机名 和 ip对应如下:
    (右键我的计算机 属性 修改计算机名分别为:win-master,win-salver1,win-salver2)
    win-master 192.168.0.1
    win-salve1 192.168.0.2
    win-salve2 192.168.0.3
    每台电脑安装好对应的软件,建议安装目录保持一致
    1.下载java:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
    我下载的是jdk8,根据自己电脑系统选择对应的版本,需要登录后下载。安装好之后,设置系统环境变量JAVA_HOME指向java安装目录,比如我的是D:/spark/Java/jdk1.8.0_231,同时把%JAVA_HOME%\bin目录添加到系统变量path里
    2.下载scala:https://www.scala-lang.org/download/2.12.10.html 选择msi格式,然后安装
    3.下载spark:http://spark.apache.org/downloads.html
    我选择的spark版本为2.4.4 pre-build for apache hadoop 2.7
    安装spark 然后设置环境变量SPARK_HOME=d:/spark (我的spark安装目录) ,同样把%SPARK_HOME%\bin目录添加到系统变量path里
    4.下载Hadoop:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/ 下载后直接加压就可以,然后设置系统环境变量HADOOP_HOME=你的hadoop目录,同样把%HADOOP_HOME%\bin目录添加到系统变量path里。下载winutils.exe 把它复制到hadoop\bin目录下
    5.安装pyspark:将spark目录下python子目录里的pyspark文件夹复制到python安装目录\Python35\Lib\site-packages里
    软件安装好后,启动spark就可以了,linux下有自动脚本start-all.sh可以直接启动,在windows下不能用,所以只能手动启动(D:/hadoop2.7,D:/spark是我的hadoop和spark目录)。
    先启动master,打开CMD输入启动命令:java -cp “D:/hadoop2.7/conf;D:/spark/jars/" -Xmx1g org.apache.spark.deploy.master.Master --host win-master --port 7077 --webui-port 8080
    然后启动master机器的worker,重新打开一个CMD输入:java -cp "D:/hadoop2.7/conf/;D:/spark/jars/
    ” -Xmx1g org.apache.spark.deploy.worker.Worker spark://win-master:7077
    然后启动win-salve1和win-salve2的worker命令和master电脑的一样:java -cp “D:/hadoop2.7/conf/;D:/spark/jars/*” -Xmx1g org.apache.spark.deploy.worker.Worker spark://win-master:7077

    集群启动起来后,就可以用spark-submit了,在master电脑新开一个CMD,运行d:/spark/bin/spark-submit --master spark://win-master:7077 test.py
    然后可以在master电脑中打开浏览器访问localhost:8080 查看状态

    展开全文
  • Spark集群搭建

    2019-01-11 21:14:26
    文章目录Spark集群搭建 Spark集群搭建 sprak完全分布式搭建: spark安装包下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz scala安装包下载地址:...

    文章目录

    Spark集群搭建

    1. sprak完全分布式搭建:
    1. spark安装包解压移动到 /opt/hadoop/下  更名为spark-2.4.0
    2. scala安装包解压到/opt/scala_env/下 更名为scala2.1
    3. mysql驱动包拷贝到spark的jars下 cp /opt/hadoop/hive-2.1.1/lib/mysql-connector-java-8.0.13.jar /opt/hadoop/spark-2.4.0/jars
    4. 尝试spark-shell启动,看能否成功
    ./bin/spark-shell ./jars/mysql-connector-java-8.0.13.jar --driver-class-path ./jars/mysql-connector-java-8.0.13.jar 	
    5. 把spark拷贝到其他节点	scp	-r /opt/hadoop/spark-2.4.0 root@(其他节点的ip):/opt/hadoop/
    6. 	vim /etc/profile  #增加spark的环境变量
    export SPARK_HOME=/opt/hadoop/spark-2.4.0
    export PATH=$PATH:$SPARK_HOME/bin
    7. cd /spark-2.4.0/conf
       cp slaves.template slaves
       vim /slaves  删除原来的localhost增加以下内容
    master
    slave1
    slave2
    8. cp spark-env.sh.template spark-env.sh
       vim spark-env.sh #添加以下内容(根据你们自己的安装目录填哦)
    export JAVA_HOME=/opt/java_env/jdk1.8
    export SCALA_HOME=/opt/scala_env/scala2.1
    export HADOOP_HOME=/opt/hadoop/hadoop-2.7.3
    export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.3/etc/hadoop
    export SPARK_MASTER_IP=192.168.50.129
    export SPARK_MASTER_HOST=192.168.50.129
    export SPARK_LOCAL_IP=192.168.50.129
    export SPARK_WORKER_MEMORY=1g
    export SPARK_WORKER_CORES=2
    export SPARK_HOME=/opt/hadoop/spark-2.4.0	
    
    依次修改slave节点$SPARK_HOME/conf/spark-env.sh,将export SPARK_LOCAL_IP=192.168.50.129改成Slave1和Slave2对应节点的IP。
    source spark-env.sh使其生效
    
    9. 启动master 	
    /sbin/start-master.sh	#启动master		
    /sbin/start-slaves.sh	#启动所有slave
    查看进程  master worker...
    
    展开全文
  • Linux下搭建spark集群开发环境

    千次阅读 2017-05-17 11:02:04
    之前在windows搭建了一个spark的开发环境,但是后来发现如果想要搞spark streaming的例子的话Linux下使用更方便,于是centos7下面搭建一下spark开发环境,记录以做备忘之用。1 .首先去spark官网下载相关软件,...
  • 配置spark集群 安装虚拟机和ubuntu环境 点击此链接下载VirtualBox虚拟机,按照提示正常安装。 打开VirtualBox软件,点击管理的全局设定;点击常规,更改默认虚拟电脑位置即把虚拟环境放在哪。具体图示如下: ...
  • Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
  • pyspark:连接spark集群Windows环境搭建

    千次阅读 多人点赞 2019-05-23 13:52:38
    2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样) 3、JDK1.8 python环境配置 pip install pyspark 这里如果遇到安装超时的情况采用以下命令 pip --default-timeout=100 installpyspark 或 pip --...
  • Ubuntu下搭建spark集群开发环境

    千次阅读 2017-10-23 12:10:24
    之前在windows搭建了一个spark的开发环境,但是后来发现如果想要搞spark streaming的例子的话Linux下使用更方便,于是Ubuntu下面搭建一下spark开发环境,记录以做备忘之用。 1 .首先去spark官网下载相关软件,...
  • (之所以在windows本地用spark001可以连接数据库,是因为本地spark001配置的是公网ip)   5)启动kafka时报错cannot allocate memory 是指内存不足,是因为kafka启动命令中默认分配内存1G,我们进行修改...
  • Linux下搭建spark集群开发环境【转】

    千次阅读 2018-09-06 22:16:03
    之前在windows搭建了一个spark的开发环境,但是后来发现如果想要搞spark streaming的例子的话Linux下使用更方便,于是centos7下面搭建一下spark开发环境,记录以做备忘之用。 1 .首先去spark官网下载相关软件...
  • windows下基于Docker的Spark集群搭建 目录windows下基于Docker的Spark集群搭建1、实验目的2、实验平台3、实验内容和要求3.1 docker环境安装3.1.1 开启Hyper-V3.2 根据已有的docker文件创建镜像3.3 基于docker创建...
  • 请参考大数据环境搭建(六)之安装Spark Windows安装 下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.0/ 解压后: 添加环境变量 Path追加 打开cmd 输入 spark-shell 检测 spark-submit...
  • Hadoop+Spark集群搭建

    千次阅读 2016-07-23 00:36:23
    搭建Hadoop+Spark集群的方法这篇文章主要是介绍了怎么Linux平台下搭建Hadoop与Spark集群,得声明一点的是Spark并不依赖于Hadoop。
  • 创建bigdata-spark网络3. 启动容器0x03 检验Hadoop与Spark1. 启动Hadoop与Spark2. Web UI界面查看2. 停止并删除容器指令0xFF 总结 0x00 教程内容 环境及资源准备 生成容器 检验Hadoop 0x01 环境及资...
  • Spark集群环境搭建

    2016-04-06 09:51:45
    继上次的hadoop环境搭建,现追加安装spark集群
  • 原文链接:... 1.软件 1、anaconda(python3.6) 2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样) 3、JDK1.8 2.python环境配置 pip install pyspark 这里如果遇到安装超时的情况采用...
  • 参考大佬文章 ... 说前面 以下实验过程都是使用docker搭建spark集群的前提条件下进行,如果你的spark集群还没有搭建成功,可以参考我的一篇博客 https://blog.csdn.net/weixin_45548774/article/d
  • Windowsspark源码环境搭建
  • windows下 eclipse搭建spark java编译环境

    万次阅读 2018-04-20 23:37:32
    之前有虚拟机或者集群上安装spark安装包的,解压到你想要放spark的本地目录下,比如我的目录就是D:\Hadoop\spark-1.6.0-bin-hadoop2.6 /** *注意: 之前linux环境下安装的spark的版本是spark-2.2.0-bin-...
  • 篇博客写了下在Windows下安装Spark本地应用的方法,虽然如此,但其实我最想做的是Linux下的Spark集群环境的搭建,如今实际使用的时候基本都是Linux运行的,搭建一个Windows下的本地应用实在是不熟悉Linux...
  • 利用docker搭建hadoop和spark集群 一、安装Docker(DockerToolbox-18.03.0-ce.exe) 1.双击安装包,安装界面勾选Git(如果你已经有了Git就不用勾选) 成功提示:
  • 本文的目的:利用Intellij Idea在windows搭建spark 开发环境 环境:windows 10, intellij idea2016.1.1, spark 1.6.2(HDP),hadoop2.7.3(HDP),scala 2.10.5(编译环境), sbt管理依赖 背景:spark单点运算不能解决...
  • Spark集群Win10本地开发环境搭建

    千次阅读 2020-06-16 09:09:08
    Win10 Spark集群本地开发环境搭建一、安装Java1.下载java2.安装java3.配置环境变量二、下载scala、安装Scala IDE1.下载Scala IDE2.解压zip包 这里附上WIN10利用docker toolbox搭建hadoop和spark集群的方法 一、安装...
  • Spark集群搭建与测试

    2016-05-05 18:13:55
    1.虚拟机与Linux Spark+Tachyon+HDFS(HDFS擅长迭代运算,Tachyon基于内存分布式系统) ...3.Tychyon(业界越来越多使用) Spark+Tachyon+HDFS,将来是黄金组合 Tychyon是基于内存的分布式存储(分布式内存
  • 目录 虚拟机要点 GET点 遗留点 1.虚拟机要点 网卡连接方式 语言 虚拟机内存 磁盘空间 防火墙:iptables DNS服务器:/etc/resolv.conf ...JDK 的安装 ./.bashrc ... Windows 的 hosts 配置集群之间的免密 SS...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,511
精华内容 1,404
关键字:

在windows上搭建spark集群