精华内容
下载资源
问答
  • pyspark windows10安装

    2021-06-09 20:55:22
    pyspark安装指南 https://mp.weixin.qq.com/s/Bt6qrE3sGUSCm_BaA33C6A pyspark学习指南 https://edu.hellobi.com/course/309/overview

    pyspark安装指南
    https://mp.weixin.qq.com/s/Bt6qrE3sGUSCm_BaA33C6A
    pyspark学习指南
    https://edu.hellobi.com/course/309/overview
    aconda历史版本下载
    https://repo.anaconda.com/archive/

    展开全文
  • 0、安装python,我用的是python2.7.13 1、安装jdk 一定要安装1.7以上的版本,安装低版本会报下面的错误 java.lang.NoclassDefFoundError 安装后不用手动设置环境变量,安装完成之后用“java -version”测试是否...

     

    0、安装python,我用的是python2.7.13

    1、安装jdk

    一定要安装1.7以上的版本,安装低版本会报下面的错误

    java.lang.NoclassDefFoundError

    安装后不用手动设置环境变量,安装完成之后用“java -version”测试是否安装成功

    安装成功之后要添加一个“JAVA_HOME”的环境变量,因为在hadoop的\libexec\hadoop-config.sh中定义了一个JAVA_HOME的环境变量,如果找不到该变量,后面运行“sc = SparkContext(appName="PythonPi")”时就会出现虚拟机初始化错误,不能分配内存

     

    2、下载并安装spark

    下载地址:http://spark.apache.org/downloads.html

    注意spark与hadoop的版本是严格对应的,文件名中也有体现,如果要安装hadoop,一定要安装对应的版本

    spark-1.6.3-bin-hadoop2.6.tgz就要安装2.6版本的hadoop。

    下载之后,将其解压到某文件夹,例解压到“C:\spark\spark-1.6.3-bin-hadoop2.6”

    添加环境变量

      1、将“C:\spark\spark-1.6.3-bin-hadoop2.6\bin”添加到系统变量Path中,这里面都是一些cmd文件

      2、新建一个系统变量SPARK_HOME,然后将路径C:\spark\spark-1.6.3-bin-hadoop2.6添加进去

      3、运行pyspark检查是否安装成功,虽有有错误,但可以把环境打开,安装下面的东西才能解决这些错误

     

    3、下载并安装hadoop

    下载地址:https://archive.apache.org/dist/hadoop/common/

    根据上面这里要安装2.6版本的hadoop,然后将压缩包解压到指定文件夹,例如“C:\spark\hadoop-2.6.5”

    添加环境变量

      1、将“C:\spark\hadoop-2.6.5\bin”添加到系统变量Path中,这里面都是一些cmd文件

      2、新建一个系统变量HADOOP_HOME,然后将路径C:\spark\hadoop-2.6.5添加进去

      3、运行pyspark检查看错误是否消息

     

    4、上面安装完成之后还是会有一个错误

    主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是:
      
    - 去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号,然后进入到bin目录下,找到winutils.exe文件,下载方法是点击winutils.exe文件,进入之后在页面的右上方部分有一个Download按钮,点击下载即可。
    - 下载好winutils.exe后,将这个文件放入到Hadoop的bin目录下

     

    5、输入pyspark,运行正常

    Spark开始启动,并且输出了一些日志信息,大多数都可以忽略,需要注意的是两句话:

    Spark context available as sc.
    SQL context available as sqlContext

    只有看到这两个语句了,才说明Spark真正的成功启动了。

    6、在编译环境使用时,还要把C:\spark\spark-1.6.3-bin-hadoop2.6\python中的pyspark文件夹拷贝到对应的\Lib\site-packages

    7、运行pip install py4j安装包

    8、运行一个例子检测是否成功,这个例子在运行这个文件时,需要输入命令行参数
    import sys
    from random import random
    from operator import add
    
    from pyspark import SparkContext
    
    
    if __name__ == "__main__":
        """
            Usage: pi [partitions]
        """
        sc = SparkContext(appName="PythonPi")
        partitions = int(sys.argv[1]) if len(sys.argv) > 1 else 2
        print("partitions is %f" % partitions)
        n = 100000 * partitions
    
        def f(_):
            x = random() * 2 - 1
            y = random() * 2 - 1
            return 1 if x ** 2 + y ** 2 < 1 else 0
    
        count = sc.parallelize(range(1, n + 1), partitions).map(f).reduce(add)
        print("Pi is roughly %f" % (4.0 * count / n))
    
        sc.stop()
    • 1
    • 2Spark contextSQL context分别是什么,后续再讲,现在只需要记住,只有看到这两个语句了,才说明Spark真正的成功

     

    转载于:https://www.cnblogs.com/suntp/p/7477826.html

    展开全文
  • PySpark NoteBook配置 修改spark\bin\pyspark2.cmd(修改前备份),我的文件路径如下:D:\opt\spark-3.0.0-bin-hadoop2.7\bin\pyspark2.cmd 红框处内容修改前如上图所示,修改后如下: 修改完成后,右键单击...

    Spark大数据开发实战课程连接:
    Spark大数据开发实战之一 PySpark环境配置
    Spark大数据开发实战之二 PySpark NoteBook配置
    Spark大数据开发实战之三 RDD基本转换操作
    Spark大数据开发实战之四 多RDD转换&基本动作
    Spark大数据开发实战之五 SparkRDD-KV类型值转换
    Spark大数据开发实战之六 多个RDD-KV转换运算
    Spark大数据开发实战之七 Key-Value动作运算
    Spark大数据开发实战之八 分布式广播变量与累加器
    Spark大数据开发实战之九 RDD持久化缓存
    Spark大数据开发实战之十 大数据版本HelloWorld WordCount
    Spark大数据开发实战之十一 Spark环境准备 RDD转DataFrame
    Spark大数据开发实战之十二 Spark SQL临时表
    Spark大数据开发实战之十三 Spark 获取部分列
    Spark大数据开发实战之十四 增加列 过滤列
    Spark大数据开发实战之十五 单个字段排序
    Spark大数据开发实战之十六 按多字段排序
    Spark大数据开发实战之十七 SparkSQL 显示不重复数据
    Spark大数据开发实战之十八 预处理邮编数据集
    Spark大数据开发实战之十九 连接Spark临时表
    Spark大数据开发实战之二十 PySpark 转化成Pandas做可视化
    Spark大数据开发实战之二十一,Linux环境,安装VirtualBox&Ubuntu
    Spark大数据开发实战之二十二,Linux环境,安装Ubuntu2
    Spark大数据开发实战之二十三,Linux环境,配置Ubuntu
    Spark大数据开发实战之二十四,Linux环境,安装Anconda3
    Spark大数据开发实战之二十五,Linux环境,配置Anaconda3

    PySpark NoteBook配置

    1. 修改spark\bin\pyspark2.cmd(修改前备份),我的文件路径如下:D:\opt\spark-3.0.0-bin-hadoop2.7\bin\pyspark2.cmd
      在这里插入图片描述
      红框处内容修改前如上图所示,修改后如下:
      在这里插入图片描述
    2. 修改完成后,右键单击pyspark2.cmd,发送到->桌面快捷方式
      在这里插入图片描述
    3. 修改起始位置:右键单击桌面快捷方式,点击属性,修改起始位置,我是将其修改为与jupyter notebook的一样,然后双击快捷方式就是用jupyter打开的
      在这里插入图片描述

    报错解决

    1. Exception: Java gateway process exited before sending its port number
      解决方法:缺少环境变量,添加如下环境变量,参考
      在这里插入图片描述
    展开全文
  • pyspark安装文档

    2021-04-13 10:44:44
    参考文档:pyspark安装 1、下载安装包 生产环境下的python安装包,tgz格式,C语言,没有编译过的。Java可以跨平台,只能针对当前计算机 https://www.python.org/ftp/python/3.6.4/ 也可以使用wget命令接上面的网址...

    pyspark环境安装

    一、python3环境安装

    参考文档:pyspark安装

    1、下载安装包
    查看windows环境下python环境的版本,然后去官网下载对应的版本,tgz格式
    在这里插入图片描述

    生产环境下的python安装包,tgz格式,底层是C语言,没有编译过的。只能针对当前计算机,不能多台计算机互相拷贝。

    https://www.python.org/ftp/python/3.6.4/

    也可以使用wget命令接上面的网址直接下载

    2、安装python可能用到的依赖:

    yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel
    

    3、解压和编译:

    #如果遇到:configure: error: no acceptable C compiler found in $PATH
    yum install gcc
    
    # 解压到本地路径
    tar -zxvf  Python-3.6.4.tgz 
    # 进入目录
    cd Python-3.6.4
    # 编译
    ./configure --prefix=/opt/software/python364
    # 3.7版本以上需要引入一个新的包libffi-devel,安装此包之后再次进行编译安装
    yum install libffi-devel -y
    # 安装,需要在Python目录中才能安装
    make && make install
    

    4、配置python3和pip3的软连接(快捷方式)

    ln -s /opt/software/python3/bin/python3 /usr/bin/python3
    ln -s /opt/software/python3/bin/pip3 /usr/bin/pip3
    

    二、安装pyspark

    1、更换pip源为豆瓣源

    [root@single bin]# cd 
    [root@single ~]# mkdir .pip/
    [root@single ~]# cd .pip/
    
    vi pip.conf
    =====================================================
    [global]
    index-url=https://pypi.douban.com/simple
    trusted-host = pypi.douban.com
    =====================================================
    

    2、pip安装pyspark

    pip3 install pyspark
    
    展开全文
  • How to Install pyspark on Windows 10 现在是2021年6月,我在网上能搜到的教程或博客都是离现在有一段时间了的,老教程最让人头疼的就是版本选择问题,我前前后后大概花了10个小时才把pyspark装好,中间还去翻了翻...
  • Pyspark-windows环境构建

    2019-12-13 17:05:48
    Pyspark windows开发环境构建 windows开发环境构建 windows安装C:\hadoop-2.6.0 windows安装spark的版本:spark-2.3.2-bin-hadoop2.6.tgz注意spark的版本,更高版本的Spark需要resource模块的支持,2.3.2不需要: ...
  • 安装步骤 注意:本篇的所有资源可通过百度网盘提供,减少寻找和下载时间 链接:https://pan.baidu.com/s/1v53Vt5NZEPZigCXE6rjDGQ  提取码:64pi  1.安装java 这里选择version 1.8.,配置环境变量JAVA_HOME,PATH,...
  • 其实我很不理解Hadoop与pyspark的关系,网上也看了很多相关教程,但是感觉对自己没多少用处,先不管了,先学pyspark吧,之后吧自然语言处理学好之后再说吧,还要学pytorch与tensorflow,好多东西,慢慢学呗 安装 ...
  • PySpark安装教程

    2021-09-11 19:20:29
    一、JAVA SDK 1.8 最好重新选择安装目录 尽量安装在没有空格、中文的目录下 ...Windows环境下执行hadoop命令出现Error: JAVA_HOME is incorrectly set Please update D:\SoftWare\hadoop-2.6.0\con 参考
  • 默认你已经安装好了python 一、 Java配置 首先去官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载Java SE Development Kit 8u172,安装之后。进行以下步骤: 1....
  • windows安装pyspark

    2021-08-04 10:27:22
    pip install pyspark
  • pySparkwindows下环境搭建

    万次阅读 2017-09-02 17:40:23
    本人系统是windows,64位 要想在windows下搭建Spark(python版本)主要分为: JDK安装配置 Scala安装配置 Spark安装配置 Hadoop安装配置 Python安装配置 PyCharm运行 JDK安装配置JDK 版本需要在 1.8 下载地址:...
  • pyspark安装和使用

    2020-03-11 17:19:01
    PySpark笔记 PySpark:Python on Spark 基于python语言,使用spark提供的pythonAPI库,进行spark应用程序的编程 ========================================...1.windows上进行pyspark环境配置 步骤: -1.在windows上搭...
  • pyspark 安装配置

    2020-03-03 10:11:17
    windows安装spark并配置环境变量 问题: 解决:  1.直接卸载重新安1.8的版本  2.  Windows JDK 降级方法   问题: Exception: Java gateway process exited before sending the driver ...
  • windows安装pyspark

    千次阅读 2019-09-04 09:55:30
    官网下载Java,这里我下的是8u121-windows-x64版本 下载JDK 安装完设置环境变量,添加JAVA_HOME和CLASSPATH 并在Path中添加 %JAVA_HOME%\bin 配置完毕,打开cmd,执行 java -version Scala安装配置 Scala ...
  • anaconda的安装与环境配置 java的安装与环境配置 scala的安装与环境配置 hadoop的安装与环境配置 spark的安装与环境配置 py4j的安装 下载winutils.exe和hadoop.dll Python下Spark开发环境搭建 一、Anaconda的...
  • Win7 pySpark安装

    2017-01-03 14:22:25
    安装pyCharm wordCount示例pySpark学习地址 1.序 由于笔者目前用Python比较多,所以想安装pySpark,并且在pyCharm中调用。 (1)jdk-8u91-windows-x64.exe (2)spark-1.3.0-bin-hadoop2.4.tgz 2....
  • 首先电脑中安装有java8和python. (注意配置好java的环境变量,自行搜索即可,不然后面在pycharm中运行会报错)安装spark2. 设置环境变量:HADOOP_HOME=C:\winutils\hadoop-2.7.1SPARK_HOME=C:\Spark\spark-2.2.0-bin-...
  • pyspark开发指南 1、pyspark 本地开发环境搭建 python版本最好与集群环境一致,我这里是 python 3.5.2 ...windows 64位的Java安装在C:\Program Files\下,导致最终的PATH中包含了空格, 需将环境变量
  • Windows安装Pyspark

    千次阅读 2019-04-23 16:54:51
    又重新装一遍真开心,装的版本太新了spark...一种是pip install pyspark==版本号安装 另一种是直接将spark\python\pyspark复制到D:\Python37\Lib\site-packages下(我是选择这种方式装的) hadoop的安装和配置 在 ...
  • 总结pysparkwindows7环境下的搭建方法,pycharm的配置方法 windows7 spark单机环境搭建及pycharm访问spark windows7 spark单机环境搭建 follow this link how to run apache spark on windows7...
  • 【1】 windows 10 版本的 Anaconda3 安装 后 目录下是没有bin 目录的,(虽然网上很多帖子写到了要把 anaconda 下的 3个目录加入环境变量,如下图,但是 对于IDEA来说 ,没有一个管用! 也就是说是只能用 ...
  • 一、windows 安装 1、下载spark http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 环境变量 set SPARK_HOME=d:\spark2.3.1 set PATH=%SPARK_HOME%\bin...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,611
精华内容 644
关键字:

pyspark安装windows