精华内容
下载资源
问答
  • kafka Partition offset kafka分区和消费组之间的关系 Kafka安装和集群搭建 常用kafka命令行 创建一个Topic 查看主题命令 生产者生产数据 消费者消费数据 运行describe topics命令 修改topic分区数 增加和删除配置 ...

    消息系统

    kafka企业级消息系统

    了解为什么要使用消息系统

    在没有使用消息系统以前,我们对于传统许多业务,以及跨服务器传递消息的时候,会采用串行方式或者并行方法;

    • 串行方式:
      用户注册实例:将注册信息写入数据库成功后,发送注册邮件,在发送注册短信。
      在这里插入图片描述

    • 并行方式:
      将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完成之后,响应给客户端,与串行的差别是并行的方式可以缩短程序整体处理的时间。
      在这里插入图片描述

    消息系统

    • 消息系统负责将数据从一个应用程序传送到另一个应用程序,因此应用程序可以专注于数据,但是不必担心 如何共享它。分布式消息系统基于可靠的消息队列的概念。消息在客户端应用程序和消息传递系统之间的异步排队。
    • 有两种类型的消息模式可用:点对点;发布-订阅消息系统。
      点对点消息系统中,消息被保留在队列中,一个或者多个消费者可以消费队列中的消息,但是特定的消 息只能有最多的一个消费者消费。一旦消费者读取队列中的消息,他就从该队列中消失。该系统的典型应用就是订单处理系统,其中每个订单将有一个订单处理器处理,但多个订单处理器可以同时工作。
    • 大多数的消息系统是基于发布-订阅消息系统。
      在这里插入图片描述

    了解消息系统的分类

    点对点

    主要采用的队列的方式,如A->B 当B消费的队列中的数据,那么队列的数据就会被删除掉【如果B不消费那么就会存在队列中有很多的脏数据】。

    发布-订阅

    发布与订阅主要三大组件
    主题:一个消息的分类 ;
    发布者:将消息通过主动推送的方式推送给消息系统;
    订阅者:可以采用拉、推的方式从消息系统中获取数据。

    消息系统的应用场景

    应用解耦

    将一个大型的任务系统分成若干个小模块,将所有的消息进行统一的管理和存储,因此为了解耦,就会涉及到kafka企业级消息平台

    流量控制

    秒杀活动当中,一般会因为流量过大,应用服务器挂掉,为了解决这个问题,一般需要在应用前端加上消息队列以控制访问流量。
    1、 可以控制活动的人数 可以缓解短时间内流量大使得服务器崩掉
    2、 可以通过队列进行数据缓存,后续再进行消费处理

    日志处理

    日志处理指将消息队列用在日志处理中,比如kafka的应用中,解决大量的日志传输问题;
    日志采集工具采集 数据写入kafka中;kafka消息队列负责日志数据的接收,存储,转发功能;
    日志处理应用程序:订阅并消费 kafka队列中的数据,进行数据分析。

    消息通讯

    消息队列一般都内置了高效的通信机制,因此也可以用在纯的消息通讯,比如点对点的消息队列,或者聊天室等。

    kafka简介

    简介

    kafka是最初由linkedin公司开发的,使用scala语言编写,kafka是一个分布式,分区的,多副本的,多订阅者的日志系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等。

    支持的语言

    kafka目前支持多种客户端的语言:java、python、c++、php等

    apache kafka是一个分布式发布-订阅消息系统

    apache kafka是一个分布式发布-订阅消息系统和一个强大的队列,可以处理大量的数据,并使能够将消息从一个端点传递到另一个端点,kafka适合离线和在线消息消费。kafka消息保留在磁盘上,并在集群内复制以防止数据丢失。kafka构建在zookeeper同步服务之上。它与apache和spark非常好的集成,应用于实时流式数据分析。

    其他的消息队列

    RabbitMQ
    Redis
    ZeroMQ
    ActiveMQ

    kafka的好处

    可靠性:分布式的,分区,复制和容错的。
    可扩展性:kafka消息传递系统轻松缩放,无需停机。
    耐用性:kafka使用分布式提交日志,这意味着消息会尽可能快速的保存在磁盘上,因此它是持久的。
    性能:kafka对于发布和定于消息都具有高吞吐量。即使存储了许多TB的消息,他也爆出稳定的性能。
    kafka非常快:保证零停机和零数据丢失。

    kafka应用场景

    • 指标分析
      kafka 通常用于操作监控数据。这设计聚合来自分布式应用程序的统计信息, 以产生操作的数据集中反馈
    • 日志聚合解决方法
      kafka可用于跨组织从多个服务器收集日志,并使他们以标准的合适提供给多个服务器。
    • 流式处理
      流式处理框架(spark,storm,flink)重主题中读取数据,对齐进行处理,并将处理后的数据写入新的主题,供 用户和应用程序使用,kafka的强耐久性在流处理的上下文中也非常的有用。

    kafka架构

    官方文档架构图

    在这里插入图片描述

    kafka四大核心

    • 生产者API
      允许应用程序发布记录流至一个或者多个kafka的主题(topics)。
    • 消费者API
      允许应用程序订阅一个或者多个主题,并处理这些主题接收到的记录流。
    • StreamsAPI
      允许应用程序充当流处理器(stream processor),从一个或者多个主题获取输入流,并生产一个输出流到一个或 者多个主题,能够有效的变化输入流为输出流。
    • ConnectorAPI
      允许构建和运行可重用的生产者或者消费者,能够把kafka主题连接到现有的应用程序或数据系统。例如:一个连 接到关系数据库的连接器可能会获取每个表的变化。

    kafka架构说明

    在这里插入图片描述
    在这里插入图片描述
    一个典型的kafka集群中包含若干个Producer,若干个Broker,若干个Consumer,以及一个zookeeper集群; kafka通过zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行Rebalance(负载均 衡);Producer使用push模式将消息发布到Broker;Consumer使用pull模式从Broker中订阅并消费消息。

    kafka术语

    Broker:kafka集群中包含一个或者多个服务实例,这种服务实例被称为Broker。
    Topic:每条发布到kafka集群的消息都有一个类别,这个类别就叫做Topic 。
    Partition:Partition是一个物理上的概念,每个Topic包含一个或者多个Partition 。
    Producer:负责发布消息到kafka的Broker中。 Consumer:消息消费者,向kafka的broker中读取消息的客户端。
    Consumer Group:每一个Consumer属于一个特定的Consumer Group(可以为每个Consumer指定
    groupName)

    kafka中topic说明

    kafka将消息以topic为单位进行归类。
    topic特指kafka处理的消息源(feeds of messages)的不同分类。
    topic是一种分类或者发布的一些列记录的名义上的名字。kafka主题始终是支持多用户订阅的;也就是说,一 个主题可以有零个,一个或者多个消费者订阅写入的数据。
    在kafka集群中,可以有无数的主题。
    生产者和消费者消费数据一般以主题为单位。更细粒度可以到分区级别。

    kafka中分区数(Partitions)

    Partitions:分区数
    一个broker服务下,可以创建多个分区,broker数与分区数没有关系; 在kafka中,每一个分区会有一个编号,编号从0开始,某一个分区的数据是有序的。
    在这里插入图片描述

    • topic的Partition数量在创建topic时配置。
    • Partition数量决定了每个Consumer group中并发消费者的最大数量。
    • Consumer group A 有两个消费者来读取4个partition中数据;Consumer group B有四个消费者来读取4个 partition中的数据

    在这里插入图片描述

    kafka中副本数( Partition Replication)

    副本数(replication-factor):控制消息保存在几个broker(服务器)上,一般情况下等于(可小于不可大于)broker的个数。
    副本因子的作用:让kafka读取数据和写入数据时的可靠性。
    lsr表示:当前可用的副本

    kafka Partition offset

    任何发布到此partition的消息都会被直接追加到log文件的尾部,每条消息在文件中的位置称为offset(偏移量),offset是一个long类型数字,它唯一标识了一条消息,消费者通过(offset,partition,topic)跟踪记录。

    kafka分区和消费组之间的关系

    消费组: 由一个或者多个消费者组成,同一个组中的消费者对于同一条消息只消费一次。
    某一个主题下的分区数,对于消费组来说,应该小于等于该主题下的分区数。如下所示:

    如:某一个主题有4个分区,那么消费组中的消费者应该小于4,而且最好与分区数成整数倍 1 2 4,因为同一个分区下的数据,在同一时刻,不能同一个消费组的不同消费者消费。

    总结:分区数越多,同一时间可以有越多的消费者来进行消费,消费数据的速度就会越快,提高消费的性能。

    Kafka安装和集群搭建

    1、准备三台机器

    IP地址主机名
    192.168.100.100node01
    192.168.100.110node02
    192.168.100.120node03

    2、初始化环境
    ①安装jdk、安装zookeeper
    安装jdk,参考hadoop离线阶段(第二节)shell编程和3台虚拟机同步配置中的“通过Shell脚本对3台机器安装jdk”。
    安装zookeeper,参考hadoop离线阶段(第三节)zookeeper概念、安装和基本使用
    ②安装用户
    安装hadoop,会创建一个hadoop用户
    安装kafka,创建一个kafka用户
    或者 创建bigdata用户,用来安装所有的大数据软件
    本文使用root用户来进行安装,故不再创建用户。
    ③开启集群中所有机器的zookeeper。
    3、下载并解压安装包
    本文使用kafka_2.11-0.10.0.0,安装包下载地址
    下载完毕后上传到node01的/export/softwares目录下,解压到/export/servers目录下。
    4、修改配置文件

    cd /export/servers/kafka_2.11-0.10.0.0/config
    vim server.properties
    

    修改以下属性的值

    broker.id=0 #注意不同机器的broker.id需要不同,且都是整型数字
    log.dirs=/export/servers/kafka_2.11-0.10.0.0/logs
    zookeeper.connect=node01:2181,node02:2181,node03:2181

    添加以下属性和值

    delete.topic.enable=true
    host.name=node01 #注意host.name需要根据安装的机器而更改

    完成server.properties文件的修改后,在kafka的安装目录下创建/export/servers/kafka_2.11-0.10.0.0/logs目录,作为日志管理目录。
    5、分发安装文件

    cd /export/servers/
    scp -r kafka_2.11-0.10.0.0/ node02://export/servers/
    scp -r kafka_2.11-0.10.0.0/ node03://export/servers/
    

    6、node02与node03服务器修改配置文件
    修改node02与node03的server.properties文件。
    node02

    broker.id=1 #注意不同机器的broker.id需要不同,且都是整型数字
    host.name=node02 #注意host.name需要根据安装的机器而更改

    node03

    broker.id=2 #注意不同机器的broker.id需要不同,且都是整型数字
    host.name=node03 #注意host.name需要根据安装的机器而更改

    7、启动集群
    ①前台启动
    在node01执行

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-server-start.sh config/server.properties
    

    ②后台启动
    在node01执行

    cd /export/servers/kafka_2.11-0.10.0.0
    nohup bin/kafka-server-start.sh config/server.properties 2>&1 &
    

    ③停止kafka服务
    在node01执行

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-server-stop.sh
    

    使用jps可以查看kafka进程,进程名是kafka。

    常用kafka命令行

    由于kafka是集群的,所以在集群中任意机器执行命令行,效果都一样。

    创建一个Topic

    创建了一个名字为test的主题, 有三个分区,有两个副本

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-topics.sh --create --zookeeper node01:2181,node02:2181,node03:2181 \
    --replication-factor 2 -- partitions 3 --topic test
    

    在指定zookeeper时,由于zookeeper的特性,其实指定集群所有机器和指定其中一台的效果是一样的。

    查看主题命令

    使用以下命令来查看kafka当中存在的topic主题

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-topics.sh  --list --zookeeper node01:2181,node02:2181,node03:2181
    

    生产者生产数据

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-console-producer.sh --broker-list node01:9092 --topic test
    

    输入以上命令后,程序进入阻塞状态,可以在shell界面数据任何内容作为测试数据,换行即是输入新的一条数据。

    消费者消费数据

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/ kafka-console-consumer.sh --from-beginning --topic test  --zookeeper node01:2181
    

    运行describe topics命令

    命令运行describe查看topic的相关信息

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-topics.sh --describe --zookeeper node01:2181 --topic test
    

    修改topic分区数

    将原来3个分区改为8个

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-topics.sh --zookeeper node01:2181 --alter --topic test --partitions 8
    

    增加和删除配置

    以flush.messages配置为例
    增加配置

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-topics.sh --zookeeper node01:2181 --alter --topic test --config flush.messages=1
    

    删除配置

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-topics.sh --zookeeper node01:2181 --alter --topic test --delete-config flush.messages
    

    删除topic

    cd /export/servers/kafka_2.11-0.10.0.0
    bin/kafka-topics.sh --zookeeper zkhost:port --delete --topic topicName
    

    注意,要删除topic,需要事先在kafka的配置文件server.properties中设置:delete.topic.enable=true。本文已设置过。

    展开全文
  • SparkSQL是spark用来处理结构化... 注:本文所有操作是基于ambari工具,搭建好了 hdfs yarn hive spark mapReduce等大数据常用的组件 一、进入spark命令窗口 输入命令 spark-shell 以上是各种报错的部分...

      SparkSQL是spark用来处理结构化的一个模块,它提供一个抽象的数据集DataFrame,并且是作为分布式SQL查询引擎的应用

       注:本文所有操作是基于ambari工具,搭建好了 hdfs yarn hive spark mapReduce 等大数据常用的组件

    一、进入spark命令窗口

        输入命令   spark-shell 

     

      以上是各种报错的部分截图,原因是spark操文件时,用的是hdfs系统,使用hdfs系统必须hdfs账号来操作,

      为了解决上述问题,切换用户到hdfs用户即可

    退出重新进入

     切换hdfs用户

     su hdfs

    重新进入spark-shell

    spark-shell

     

    现在完全正常了,

    二、创建DataFrames

         2.1、创建了一个数据集,实现了并行化

          val seq= Seq(("1","xiaoming",15),("2","xiaohong",20),("3","xiaobi",10))

          var rdd1 = sc.parallelize(seq)

     

     2.2、将当前的rdd对象转换为DataFrame对象(数据信息和数据结构信息存储到DataFrame)

    val df = rdd1.toDF("id","name","age")

       

    三、查询数据操作

     3.1、DSL 风格语法

    df.select("name").show
    df.select("name","age").show
    //条件过滤
    df.select("name","age").filter("age >10").show
    //参数必须是一个字符串,filter中的表达式也需要时一个字符串

     

     

        3.1.1、参数是类名col (“列名”)

        df.select(“name”,“age”).filter(col(“age”) >10).show

        3.1.2、分组统计个数

        df.groupBy("age").count().show()

       3.1.3、打印DataFrame结构信息

        df.printSchema

     

       3.2、SQL风格语法

       DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表,然后可以通过在程序中使用spark.sql() 来执行SQL查询,结果将作为一个DataFrame返回。

    如果想使用SQL风格的语法,需要将DataFrame注册成表,注册方式如下

         df.registerTempTable("t_person")

           表示 将DataFrame成t_person表

            3.2.1 、查询年龄最大的前两名

                  spark.sql("select * from t_person order by age desc limit 2").show

       3.2.2、显示表的Schema信息

           spark.sql("desc t_person").show

    3.2.3 、查询年龄大于30的人的信息

     spark.sql("select * from t_person where age > 10 ").show

    3.3、DataSet 风格

        3.3.1. 、 什么是DataSet

        DataSet是分布式的数据集合。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map/flatmap/filter)进行多种操作

      3.3.2  、 DataFrame、DataSet、RDD的区别

        同样一组数据,分别形式如下

            RDD中的长像:

        DataFrame中的长像

    Dataset中的长像

    DataSet包含了DataFrame的功能,Spark2.0中两者统一,DataFrame表示为DataSet[Row],即DataSet的子集。

    (1)DataSet可以在编译时检查类型

    (2)并且是面向对象的编程接口

    相比DataFrame,Dataset提供了编译时类型检查,对于分布式程序来讲,提交一次作业太费劲了(要编译、打包、上传、运行),到提交到集群运行时才发现错误,这会浪费大量的时间,这也是引入Dataset的一个重要原因。

       3.3.3  DataFrame与DataSet的互转

    DataFrame和DataSet可以相互转化。

    (1)DataFrame转为 DataSet

    df.as[ElementType]这样可以把DataFrame转化为DataSet。

    (2)DataSet转为DataFrame 

    ds.toDF()这样可以把DataSet转化为DataFrame。


      3.3.4.  创建DataSet

        3.3.4.1 、通过spark.createDataset创建

         val ds = spark.createDataset(1 to 10)

        

      3.3.4.2、通toDS方法生成DataSet

        定义一个类

         case class Person(name:String,age:Long)

         定义一个类的集合

         val data = List(Person("zhangsan",20),Person("lisi",30))

       转成DS

        val ds = data.toDS

      

     查看DS

       ds.show 

      

     

    展开全文
  • 总结命令行06:Spark

    2017-08-30 16:47:20
    启动命令行:spark-shell 启动spark:sbin/start-all.sh -> start-master.sh -> start-slaves.sh spark提交任务的过程 bin/spark-submit --class ...
    启动命令行:spark-shell

    启动spark:sbin/start-all.sh -> start-master.sh -> start-slaves.sh

    spark提交任务的过程

    bin/spark-submit --class cn.itcast.spark.WordCount --master spark://server:7077 --executor-memory 2g --total-executor-cores 4

    spark-sql:启动命令---- ./spark-sql --master spark://server:7077 --driver-class-path /home/hadoop/apps/hive/lib/mysql-connector-java-5.1.34.jar

    备注:spark-sql里不能创建table,其他都可以。出现字符集问题。hive中字符集没问题都可以操作。估计是同一种字符集不能同时被两种软件兼容

    启动spark-shell:

    apps/spark/bin/spark-shell



    RDD中两种算子:
    transformation转换,是延迟加载的

    常用的Transformation

    转换

    含义

    map(func)

    返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成

    filter(func)

    返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成

    flatMap(func)

    类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)

    mapPartitions(func)

    类似于map,但独立地在RDD的每一个分片上运行,因此在类型为TRDD上运行时,func的函数类型必须是Iterator[T] => Iterator[U]

    mapPartitionsWithIndex(func)

    类似于mapPartitions,但func带有一个整数参数表示分片的索引值,因此在类型为TRDD上运行时,func的函数类型必须是

    (Int, Interator[T]) => Iterator[U]

    sample(withReplacement, fraction, seed)

    根据fraction指定的比例对数据进行采样,可以选择是否使用随机数进行替换,seed用于指定随机数生成器种子

    union(otherDataset)

    对源RDD和参数RDD求并集后返回一个新的RDD

    intersection(otherDataset)

    对源RDD和参数RDD求交集后返回一个新的RDD

    distinct([numTasks]))

    对源RDD进行去重后返回一个新的RDD

    groupByKey([numTasks])

    在一个(K,V)RDD上调用,返回一个(K, Iterator[V])RDD

    reduceByKey(func, [numTasks])

    在一个(K,V)RDD上调用,返回一个(K,V)RDD,使用指定的reduce函数,将相同key的值聚合到一起,与groupByKey类似,reduce任务的个数可以通过第二个可选的参数来设置

    aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])

    sortByKey([ascending], [numTasks])

    在一个(K,V)RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)RDD

    sortBy(func,[ascending], [numTasks])

    与sortByKey类似,但是更灵活

    join(otherDataset, [numTasks])

    在类型为(K,V)(K,W)RDD上调用,返回一个相同key对应的所有元素对在一起的(K,(V,W))RDD

    cogroup(otherDataset, [numTasks])

    在类型为(K,V)(K,W)RDD上调用,返回一个(K,(Iterable<V>,Iterable<W>))类型的RDD

    cartesian(otherDataset)

    笛卡尔积

    pipe(command, [envVars])

    coalesce(numPartitions)

    repartition(numPartitions)

    repartitionAndSortWithinPartitions(partitioner)

    常用的Action

    动作

    含义

    reduce(func)

    通过func函数聚集RDD中的所有元素,这个功能必须是课交换且可并联的

    collect()

    在驱动程序中,以数组的形式返回数据集的所有元素

    count()

    返回RDD的元素个数

    first()

    返回RDD的第一个元素(类似于take(1)

    take(n)

    返回一个由数据集的前n个元素组成的数组

    takeSample(withReplacement,num, [seed])

    返回一个数组,该数组由从数据集中随机采样的num个元素组成,可以选择是否用随机数替换不足的部分,seed用于指定随机数生成器种子

    takeOrdered(n[ordering])

    saveAsTextFile(path)

    将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统,对于每个元素,Spark将会调用toString方法,将它装换为文件中的文本

    saveAsSequenceFile(path)

    将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下,可以使HDFS或者其他Hadoop支持的文件系统。

    saveAsObjectFile(path)

    countByKey()

    针对(K,V)类型的RDD,返回一个(K,Int)map,表示每一个key对应的元素个数。

    foreach(func)

    在数据集的每一个元素上,运行函数func进行更新。


    熟悉以上的所有算子!

    展开全文
  • spark python脚本在命令行的执行方法

    千次阅读 2018-01-02 20:01:25
    有时候我们的pyspark代码需要在服务器上运行,那么具体的运行方法是什么呢? 》 pysprk aa.py  只需要在pyspark后面写上自己想要运行的python文件即可,是不是很简单,哈哈哈 ...这个能够执行成功的前提是,在...


    有时候我们的pyspark代码需要在服务器上运行,那么具体的运行方法是什么呢?


    》 pysprk  aa.py    

    只需要在pyspark后面写上自己想要运行的python文件即可,是不是很简单,哈哈哈


    这个能够执行成功的前提是,在你的服务器上直接执行 pyspark 会执行成功才可以的情况下哦




    展开全文
  • 1、spark所在目录cd usr/local/spark 2、启动spark/usr/local/spark/sbin/start-all.sh 启动Hadoop以及Spark:htmlbash ./starths.sh 浏览器查看:python172.16.31.17:8080 中止Hadoop以及Sparksqlbash ./stophs.sh3...
  • MySQL命令行常用命令

    2020-07-21 12:49:31
    //进入mysql客户端之后 新建一个数据库 mysql > create database spark; 建表 mysql > create table customer(id varchar(30),age int, name varchar(30),birthday date); 查看表结构 mysql > desc customer; 查看...
  • Spark常用三种运行模式

    万次阅读 2018-05-23 22:37:11
    Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上),Mesos以及K8s等常用模式,本文介绍前三种模式。 Spark-shell 参数 Spark-shell 是以一种交互式命令行方式...
  • spark常用知识

    2020-02-03 21:40:35
    1.什么sparkspark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器...
  • Spark常用工具类Utils的简明介绍

    千次阅读 2016-03-16 14:34:14
    Utils是Spark中最常用的工具类之一,如果不关心其实现,也不会对理解Spark有太多影响。但是对于Scala或者Spark的初学者来说,通过了解Utils工具类的实现,也是个不错的入门途径。下面将逐个介绍Utils工具类提供的...
  • Spark RDD 常用算子解析一、转换算子 Transformation(lazy)二、动作算子 Actions(non-lazy) 一、转换算子 Transformation(lazy) 二、动作算子 Actions(non-lazy) 对于转换操作,RDD的所有转换都不会直接计算...
  • Spark 常用配置项与优化配置项

    万次阅读 2015-03-12 22:01:38
    Spark 常用配置项与优化配置项 1、配置加载顺序: SparkConf方式 > 命令行参数方式 >文件配置方式。 应用程序SparkConf 优先级高 2.spark 常用配置详解 1 节点说明 IP Role 192.168.1.111...
  • 本文针对在YARN上运行Spark常用配置参数进行讲解 1. 在yarn上启动spark application 确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群(客户端)配置文件的目录。 这些configs用于写入HDFS并连接YARN ...
  • Spark

    2021-06-24 09:42:26
    一、Spark Core 二、Spark SQL 三、Spark Streaming
  • 常用的命令  1、打包  mvn package --生成压缩文件:java项目#jar包;web项目#war包,放在target目录下     2、清理  mvn clean --删除target目录  3、安装  mvn install --将压缩文件(jar或者war...
  • --spark启动 spark-sql --退出 spark-sql> quit; --退出spark-sql or spark-sql> exit; 1、查看已有的database show databases; --切换数据库 use databaseName; 2...
  • Spark-Shell 及 Spark-Submit

    2021-08-17 15:16:14
    Spark-Shell 及 Spark-SubmitSpark-Shell说明操作命令Spark-Submit说明操作命令常用参数示例 Spark-Shell 说明 spark-shell 是 Spark 自带的交互式 Shell 程序,方便用户进行交互式编程,用户可以在该命令行下可以用...
  • 1.启动Spark Shellspark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。要注意的是要启动Spark-Shell需要先启动Spark-ha集群,Spark集群安装和部署参考:...
  • Spark REPL

    2020-11-22 14:53:09
    文章目录一.Scala REPL二.Spark REPL三.总结 一.Scala REPL scala repl(“Read-Evaluate-Print-Loop”) 是一个交互式命令行解释器,它提供了一个测试scala代码的环境。ILoop和IMain是其核心实现。 属性 有用的REPL...
  • Hive--HiveServer2 命令行代码连接、Hive常用命令、自定义UDF函数、排序 以下所说的都是针对 Hive 为 1.1.0-cdh5.16.2版本 1 Hive--HiveServer2 命令行代码连接 1.1 配置HiveServer2 WEB 参数 HiveServer2是一...
  • Spark之——Spark Submit提交应用程序

    万次阅读 2018-06-19 21:44:36
    本部分来源,也可以到spark官网查看英文版。 spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如*.py脚本);对于spark支持的集群模式,spark-submit提交应用的时候有...
  • 文章目录Spark Transformation和Action算子速查表Transformation算子Action算子 Spark Transformation和Action算子速查表 Transformation算子 Transformation算子 作用 map(func) 返回一个新的分布式数据集...
  • nohup sh run_job1.sh 20210727 >run_job1_20210727.log & 其他Hadoop的命令行操作 查看目录下的文件: hdfs dfs -ls your_file_absolute_directory 新建文件夹 hdfs dfs -mkdir your_file_absolute_directory 查看...
  • spark-submit 命令使用详解

    千次阅读 2019-09-06 20:37:35
    spark-submit 命令使用详解 spark-submit 用户打包 Spark 应用程序并部署到 Spark 支持的集群管理气上,...app arguments 是传递给应用程序的参数,常用命令行参数如下所示: –master: 设置主节点 URL 的参数...
  • spark

    2020-09-17 15:33:39
    Spark简介 一、简介 二、特点 三、集群架构 四、核心组件         3.1 Spark SQL         3.2 Spark Streaming   &...
  • Spark SQL: Relational Data Processing in Spark

    千次阅读 2019-04-07 09:44:56
    Spark SQL: Relational Data Processing in Spark Spark SQL : Spark中关系型处理模块 说明: 类似这样的说明并非是原作者的内容翻译,而是本篇翻译作者的理解(可以理解为批准),所以难免有误,特注! 当然翻译...
  • Spark基本原理介绍

    2020-11-26 10:18:39
    1. 在spark命令行中创建一个rdd对象:val rdd= sc.textFile("hdfs://node1.edu360.cn:9000/words.txt") 2. RDD给我的感觉就类似于一个类,它既包含数据,也包含操作,还有RDD于RDD之间的关系。RDD与mapreduce中的...
  • 在hadoop、zookeeper、hbase、spark集群环境搭建 中已经把...spark-shell是Spark命令行界面,我们可以在上面直接敲一些命令,就像windows的cmd一样,进入Spark安装目录,执行以下命令打开spark-shell:bin/spark-s

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,449
精华内容 2,179
关键字:

常用spark命令行