-
windows运行spark word count报错
2020-05-20 14:50:29win10环境运行spark报错(本机Hadoop版本hadoop2.7.1) 报错信息: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V at ...win10环境运行spark报错(本机Hadoop版本hadoop2.7.1)
报错信息:
java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V at org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(Native Method) at org.apache.hadoop.util.NativeCrc32.calculateChunkedSumsByteArray(NativeCrc32.java:86) at org.apache.hadoop.util.DataChecksum.calculateChunkedSums(DataChecksum.java:430) at org.apache.hadoop.fs.FSOutputSummer.writeChecksumChunks(FSOutputSummer.java:202) at org.apache.hadoop.fs.FSOutputSummer.flushBuffer(FSOutputSummer.java:163) at org.apache.hadoop.fs.FSOutputSummer.flushBuffer(FSOutputSummer.java:144) at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSOutputSummer.close(ChecksumFileSystem.java:405) at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.close(FSDataOutputStream.java:72) at org.apache.hadoop.fs.FSDataOutputStream.close(FSDataOutputStream.java:106) at org.apache.hadoop.mapred.TextOutputFormat$LineRecordWriter.close(TextOutputFormat.java:108) at org.apache.spark.internal.io.SparkHadoopWriter.close(SparkHadoopWriter.scala:101) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$12$$anonfun$apply$5.apply$mcV$sp(PairRDDFunctions.scala:1145) at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1393) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1145) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1125) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) at org.apache.spark.scheduler.Task.run(Task.scala:108) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) 20/05/20 14:43:55 WARN TaskSetManager: Lost task 0.0 in stage 2.0 (TID 2, localhost, executor driver): java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V at org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(Native Method) at org.apache.hadoop.util.NativeCrc32.calculateChunkedSumsByteArray(NativeCrc32.java:86) at org.apache.hadoop.util.DataChecksum.calculateChunkedSums(DataChecksum.java:430) at org.apache.hadoop.fs.FSOutputSummer.writeChecksumChunks(FSOutputSummer.java:202) at org.apache.hadoop.fs.FSOutputSummer.flushBuffer(FSOutputSummer.java:163) at org.apache.hadoop.fs.FSOutputSummer.flushBuffer(FSOutputSummer.java:144) at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSOutputSummer.close(ChecksumFileSystem.java:405) at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.close(FSDataOutputStream.java:72) at org.apache.hadoop.fs.FSDataOutputStream.close(FSDataOutputStream.java:106) at org.apache.hadoop.mapred.TextOutputFormat$LineRecordWriter.close(TextOutputFormat.java:108) at org.apache.spark.internal.io.SparkHadoopWriter.close(SparkHadoopWriter.scala:101) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$12$$anonfun$apply$5.apply$mcV$sp(PairRDDFunctions.scala:1145) at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1393) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1145) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1125) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) at org.apache.spark.scheduler.Task.run(Task.scala:108) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)
查阅资料发现问题为缺少hadoop.dll文件
解决方案 下载hadoopd对应版本hadoop.dll放入 C:\Windows\System32下即可
(网上另一种解决方案为放在C:\Windows\System32与HADOOP_HOME/bin下或是因为下载的spark与hadoop版本不相对应) -
Windows运行SparkStreaming,报异常
2019-06-22 23:58:05异常信息为: ERROR Shell: Failed to locate the winutils binary in the hadoop binary Java.io.IOException: Could not locate ...虽然放着不管,也可以正常运行SparkStreaming程序,但要追求极致。异常信息为:
ERROR Shell: Failed to locate the winutils binary in the hadoop binary Java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
解决方法:
1、到官网下载需要的hadoop版本的gz的压缩包,这里以hadoop2.6.1为例子,
2、解压之后,配置环境变量:
添加HADOOP_HOME,
配置CLASSPATH和PATH:
验证配置是否成功,打开cmd,输入hadoop version:
3、下载winutils.exe
到网上搜一下,就可以下载,然后将它放到hadoop解压后的bin目录下:
4、重启IDEA(这一步很重要)
完成上面4步,就可以解决问题。虽然放着不管,也可以正常运行SparkStreaming程序,但要追求极致。
-
windows运行spark-shell.cmd 问题 NOCLASSFOUND
2020-03-07 21:01:00一、spark-shell.cmd 启动出错 NoClassDefFoundError 在load-spark-env.cmd 文件中增加以下设置环境变量内容,hadoop后面先在系统环境变量里设置,或者直接使用路径 @echo off rem ################### SET ENV ##...一、spark-shell.cmd 启动出错 NoClassDefFoundError
在load-spark-env.cmd 文件中增加以下设置环境变量内容,hadoop后面先在系统环境变量里设置,或者直接使用路径
@echo off
rem ################### SET ENV ##################
rem set SPARK_MASTER_IP=localhost
rem set SPARK_WORKER_CORES=1
set SPARK_WORKER_MEMORY=1gecho HADOOP_HOME: %HADOOP_HOME%
set HADOOP_CONF_DIR=”%HADOOP_HOME%\hadoop\etc\hadoop”
echo HADOOP_CONF_DIR: %HADOOP_CONF_DIR%for /f %%i in (‘hadoop classpath’) do set SPARK_DIST_CLASSPATH=%%i
echo SPARK_DIST_CLASSPATH: %SPARK_DIST_CLASSPATH%
mkdir -p %SPARK_HOME%\temp
SET temp=%SPARK_HOME%\tempecho %temp%
二、 Could not initialize class scala.tools.fusesource_embedded.jansi.internal.Kernel32
把scala的jline-2.11.jar 放到spark 的jars目录下
-
windows 运行spark或者hadoop程序报winutils.exe错误
2016-07-10 21:00:221.下载 winutils.exe:...2.将此文件放置在某个目录下,比如C:\winutils\bin\中。 3.在程序的一开始声明:System.setProperty("hadoop.home.dir", "c:\\winutil\\") ...1.下载 winutils.exe:http://download.csdn.net/download/ypsong2011/9109143或者https://github.com/srccodes/hadoop-common-2.2.0-bin
2.将此文件放置在某个目录下,比如C:\winutils\bin\中。
3.在程序的一开始声明:System.setProperty("hadoop.home.dir", "c:\\winutil\\")
参考:https://social.msdn.microsoft.com/forums/azure/en-US/28a57efb-082b-424b-8d9e-731b1fe135de/please-read-if-experiencing-job-failures?forum=hdinsight
-
windows下运行spark程序
2016-02-04 18:10:26linux普通用户开发spark程序时,由于无法使用IDEA的图形化操作界面,所以只能大包围jar,用spark-submit提交,...或是在spark-shell中逐行运行,下面是在windows上运行sparkPi的代码及结果package comimport scala.ma -
在windows上运行spark
2020-05-12 18:24:37在windows上打开spark G:\Windows\System32>pyspark Python 3.7.4 (tags/v3.7.4:e09359112e, Jul 8 2019, 20:34:20) [MSC v.1916 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" ... -
windows环境运行spark部署说明文档
2016-06-30 18:01:25在windows环境下部署spark运行环境。intelliji idea+spark1.6 +scala 2.10+java 1.8,包含需要的hadoop文件。 -
在windows下运行spark
2016-10-11 09:59:001.下载spark:spark-2.0.0-bin-hadoop2.7.tgz 2.解压至D:\bigdata\spark-2.0.0-bin-hadoop2.7 3.配置环境变量 HADOOP_HOME:D:\bigdata\hadoop-2.7.2 SPARK_HOME:D:\bigdata\spark-2.0.0-bin-hadoop2.7 ... -
【Spark109】Windows上运行spark-shell
2016-10-13 18:13:22如何在Windows上运行spark-shell 1. 下载winutils.exe,加入放置到d:/software/Hadoop/bin/winutils.exe目录下,注意,winutils.exe文件的上级目录一定是bin 2. 开启一个windows命令行窗口,在d:/software/... -
【Spark】Windows运行本地spark程序——JAVA版本
2019-02-23 23:58:33为了运行spark程序我搭建了一个虚拟机的集群,但是我8G的内存被吃满了。。。别说跑个程序,就是基本运行都卡的不行。。。。。最后,我突然知道的本地也是可以运行spark的,,,,,唉 费虚拟机呢么大劲干嘛。。。。 ... -
在Windows上运行Spark程序
2019-09-26 21:09:39一、下载Saprk程序 ... 解压到d:\spark-2.1.1-bin-hadoop2.7 二、下载winutil.exe https://github.com/steveloughran/winutils/blob/master/hadoop... -
windows下运行spark遇到的奇葩坑:
2019-07-30 21:05:49今天配置windows下的spark运行环境,java,hadoop,spark,python环境配置一点问题都没有,但是总是显示错误,没有文件夹创建删除的权限,修改了一下午,简直要崩溃了。错误忘记截图了,只把解决办法截图了一下。 ... -
在windows上运行Spark Driver
2015-01-23 09:46:311 安装Scala IDE ... 2 安装Hadoop windows...要在windows上运行hadoop需要从新编译。 https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip 该地址提供了一个编译好的hadoop2.2.0的版本。 用 -
Windows上安装运行Spark
2019-09-29 08:01:57Windows上安装运行Hadoop 》。 ③出现下面的WARN可以不用理会,正常使用。 如果实在受不了WARN的话,则在spark-2.3.3-bin-hadoop2.7\conf\log4j.properties(默认是有template后缀的,直接去掉这个后缀)中... -
windows配置spark运行环境
2017-10-09 23:24:371.java配置 使用jdk1.8 配置略 2.下载、配置scala ...官网下载scala,解压放到自己的目录下。...把Scala的bin文件夹所在目录配置到环境变量的path中(过程和jdk配置一样) ...3.下载、配置spark 官网下载sapark, -
windows搭建spark运行环境(windows scala,hadoop,spark安装,idea使用配置等)
2017-04-04 00:50:38**关键字**: spark windows安装,spark运行环境,idea普通模式构建spark程序,idea maven构建spark程序,idea运行wordcount -
windows上运行spark上报Constructor org.apache.spark.api.python.PythonRDD does not exist
2020-07-23 15:42:00windows上运行spark上报Constructor org.apache.spark.api.python.PythonRDD does not exist 在代码第一行加上() import findspark findspark.init() -
【Spark】Windows环境下在IDEA中运行Spark程序报错及解决方案
2019-01-24 21:56:29Windows环境下在IDEA中运行Spark程序报错及解决方案汇总。 -
windows+spark本地运行环境搭建
2018-04-04 21:47:12windows下可以通过简单设置,搭建本地运行环境。1、下载spark预编译版本,spark运行环境依赖jdk,scala,这里下载的最新spark版本是2.3,对应jdk1.8+scala2.11.8。java -version java version "1.8.0_151" ... -
windows本地安装spark 运行spark-shell出现系统找不到指定路径
2019-04-25 12:12:33然而运行spark-shell命令后,会提示系统找不到指定路径 按照网上说的新建tmp/hive目录然后修改权限什么的都试过了,还是不行。 我的环境变量也没有问题,和网上的一样。 最后发现是因为安装java时,... -
windows 下运行spark on yarn (非submit方式)
2018-09-14 11:08:44本地操作系统: windows 10. 1709 教育版 本地hadoop版本:hadoop-2.6.5 本地winutils版本:hadoop2.6.4-2.6.7 本地spark版本: spark-2.2.0-bin-hadoop2.6 本地scala版本:scala-2.11.11 本地java版本:jdk-1.8.0_... -
spark踩坑记——windows环境下spark安装和运行
2018-08-10 17:08:10本文主要记录windows系统上安装spark,scala,和intelj IDEA,并实现本地spark运行。同时介绍了利用maven构建工具对spark工程构建的方法。本地运行需要本地安装scala,spark,hadoop。而如果利用maven构建工具则只... -
windows环境下本地运行spark程序
2017-05-25 08:59:02在eclipse中调试spark程序需要注意两点,第一是要配置config('spark.sql.warehouse.dir', 'file:///C:/path/to/my/')不然会报错: IllegalArgumentException: 'java.net.URISyntaxException: Relative path in ... -
在WIndows环境中本地运行spark程序,报以下错误
2020-09-10 10:02:26在WIndows环境本地运行spark程序,报以下错误: …(null) entry in command string: null chmod 0644 …(后面是你的路径) 下面是错误样例 Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$... -
Windows本地maven项目运行Spark程序
2019-06-18 11:04:12val lines = spark.sparkContext.textFile("D:\\status\\file\\wordcount.txt") val counts = lines.flatMap(_.split(" ")) .map((_,1)) .reduceByKey(_+_) counts.foreach(print(_)) spark.stop() } } ... -
超简单,windows配置Spark环境实现IDEA运行spark代码(解决为何不能新建scala.class文件问题)
2019-09-22 14:56:55大家将配置代码输入pom.xml的 《project 》《 /project》之内,这次的不用修改它的配置版本,因为scala和spark一定要适配的版本才会在运行的时候没有乱七八糟的bug或者 错误,这里的代码是我自己测试可以使用的,...