k8s 搭建大数据平台 - CSDN
  • Apache Spark 在大数据处理与分析领域,Apache Spark无疑占据着重要地位。...我们可以先看一下搭建一个常见的Apache Spark大数据平台需要哪些步骤: 1.安装Hadoop集群 2.配置HDFS 3.配置YARN 4.安装Spark...

    Apache Spark

    在大数据处理与分析领域,Apache Spark无疑占据着重要地位。它的特点是基于内存计算,支持各类资源管理平台,其中以YARN最为常见,同时又与Hadoop平台集成,在集群节点以HDFS作为分布式文件存储系统。

    我们可以先看一下搭建一个常见的Apache Spark大数据平台需要哪些步骤:

    1.安装Hadoop集群
    2.配置HDFS
    3.配置YARN
    4.安装Spark
    5.配置Spark与YARN集成

    事实上如果参阅官方文档,还有更多细节检查与配置,有过大数据相关领域从业经验的人都知道,要搭建一套可用的大数据环境并不容易,再加上后期维护,就更吃力了,而一套稳定的大数据平台正是进行大数据应用开发的基础。根据笔者了解,有不少公司正是因为大数据平台搭建及配置的复杂性等原因,不得不在多个测试环境中,共用一套大数据平台,这种方式长期看维护成本较高,也可能存在安全隐患。

    大数据领域需要一些变化,而Kubernetes的出现则提供了契机。

    Kubernete(以下简称k8s)是容器集群管理系统,是一个开源的平台,可以实现容器集群的自动化部署、自动扩缩容、维护等功能。通过Kubernetes你可以:

    · 快速部署应用
    · 快速扩展应用
    · 无缝对接新的应用功能
    · 节省资源,优化硬件资源的使用

    大数据社区

    随着K8s社区的发展壮大,微服务及容器化被越来越多的公司应用到生产环境。与此同时,K8s也成为容器编排的首选平台。大数据社区在容器化进程中当然也是不甘落后的。

    Spark自2.3开始官方支持K8sFlink自1.9开始官方支持K8sHue官方Helm chart包Hive以MR3为执行引擎支持K8sAirflow自1.10开始支持K8sPresto支持K8s……

    可以看到整个大数据社区也在积极支持容器化,但大数据的容器化并不是生硬地将各个组件搬到K8s上,以Spark on YARN为例,核心组件YARN作为资源调度器,其结构如下图所示

    下图讲述了Apache Spark on YARN的工作方式:
    在这里插入图片描述

    YARN ResourceManager的功能为:

    负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序

    了解K8s的同学可以看出YARN的功能其实与K8s Scheduler的功能非常类似

    Kubernetes 调度器是一个策略丰富、拓扑感知、工作负载特定的功能,调度器显著影响可用性、性能和容量。调度器需要考虑个人和集体的资源要求、服务质量要求、硬件/软件/政策约束、亲和力和反亲和力规范、数据局部性、负载间干扰、完成期限等。

    所以与其将YARN生搬到K8s中(早期确实是这样做的),何不用K8s调度器替换掉YARN,使得Spark适应K8s呢? 事实上社区确实是在这个方向努力尝试,并且自Spark 2.3开始,实验性支持使用K8s原生Scheduler替代YARN。

    spark on k8s:
    在这里插入图片描述
    在该方案中

    1.客户端通过spark-submit将任务提交到K8s集群中,并在集群中启动一个Spark Driver Pod;
    2.Spark Driver启动相应的Executor Pod, 组成一个Spark Application集群并执行作业任务;
    3.任务执行完成后,Executor Pod会被销毁, 而Driver Pod会持久化相关日志,并保持在’completed’状态,直到用户手清理或被K8s集群的垃圾回收机制回收.

    Spark原生支持K8s的好处也是很明显的:可以更好的利用K8s的集群资源,通过K8s赋能,更好的进行资源的隔离。这个方案不太友好的地方在于:spark-submit在K8s集群之外,使用非声明式的提交接口,实际使用起来不够友好。

    将Spark应用迁移到K8s环境中

    Spark Operator是Google基于Operator模式开发的一款的工具, 用于通过声明式的方式向K8s集群提交Spark作业,并且负责管理Spark任务在K8s中的整个生命周期,其工作模式如下
    在这里插入图片描述
    我们可通过Hem安装 spark-operator

    $ helm repo add incubator http://storage.googleapis.com/kubernetes-charts-incubator
    $ helm install incubator/sparkoperator --namespace spark-operator
    

    创建服务用户及绑定权限

    $ kubectl create serviceaccount spark 
    $ kubectl create clusterrolebinding spark-role --clusterrole=edit --serviceaccount=default:spark --namespace=default
    

    一个典型的Spark应用在K8s中的资源描述文件 spark-pi.yaml 如下所示

    apiVersion: "sparkoperator.k8s.io/v1beta2"
    kind: SparkApplication
    metadata:
      name: spark-pi
      namespace: default
    spec:
      type: Scala
      mode: cluster
      image: "gcr.io/spark-operator/spark:v2.4.4"
      imagePullPolicy: Always
      mainClass: org.apache.spark.examples.SparkPi
      mainApplicationFile: "local:///opt/spark/examples/jars/spark-examples_2.11-2.4.4.jar"
      sparkVersion: "2.4.4"
      restartPolicy:
        type: Never
      volumes:
        - name: "test-volume"
          hostPath:
            path: "/tmp"
            type: Directory
      driver:
        cores: 1
        coreLimit: "1200m"
        memory: "512m"
        labels:
          version: 2.4.4
        serviceAccount: spark
        volumeMounts:
          - name: "test-volume"
            mountPath: "/tmp"
      executor:
        cores: 1
        instances: 1
        memory: "512m"
        labels:
          version: 2.4.4
        volumeMounts:
          - name: "test-volume"
            mountPath: "/tmp"
    

    部署运行

    $ kubectl apply -f spark-pi.yaml
    

    在这里插入图片描述
    计算与存储分离

    1.计算与存储耦合存在的问题:当存储或计算其中一方资源不足时,只能同时对两者进行扩容,导致扩容的经济效率比较低(另一种扩容的资源被浪费了);
    2.在云计算场景下,不能实现真正的弹性计算,因为计算集群中也有数据,关闭闲置的计算集群会丢失数据。

    因为耦合导致的以上这些问题,导致很多公司不得不考虑这种耦合的必要性。而Hadoop的架构设计正是计算与存储耦合,这种设计并不适合云原生架构。而作为大数据存储的基石-HDFS,目前并无官方的K8s解决方案,不过在K8s社区本身就有许多优秀的存储解决方案-MINIO
    在这里插入图片描述
    MinIO 是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。而且实验数据表明,其性能丝毫不逊色于HDFS
    在这里插入图片描述
    安装MINIO也非常容易

    $ helm install stable/minio
    

    我们以WordCount,数据读写使用minio存储系统(兼容亚马逊S3云存储服务接口)

    JavaRDD<String> textFile = sc.textFile("s3a://...");
    JavaPairRDD<String, Integer> counts = textFile
        .flatMap(s -> Arrays.asList(s.split(" ")).iterator())
        .mapToPair(word -> new Tuple2<>(word, 1))
        .reduceByKey((a, b) -> a + b);
    counts.saveAsTextFile("s3a://...");
    

    由于兼容亚马逊S3云存储服务接口这一优势,minio也同样可以作为Hive数据仓库的可选存储系统。

    <property>
    <name>fs.s3a.path.style.access</name>
    <value>true</value>
    <description>Enable S3 path style access.</description>
    </property>
    <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>s3a://hive/warehouse</value>
    </property>
    

    总结

    通过以上论述,在K8s集群上搭建Spark大数据平台,相比传统YARN调度方式而言更为简洁,MINIO可作为大数据的存储系统,在保证数据的持久性的同时,也实现了大数据计算系统与存储系统的解耦。

    展开全文
  • K8S集群搭建.zip

    2020-07-26 23:30:12
    Kubernetes是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。
  • 【生产环境K8S搭建到运维的实录(一)】可以作为生产环境的K8S系统构成 1.前言 一次生产环境的从Kubernetes环境的搭建到运维的经历,期间遇到很多问题、知识点、注意点,通过一个连载的方式尽可能把所有的东西都...

    【生产环境K8S从搭建到运维的实录(一)】可以作为生产环境的K8S系统构成

    1.前言

    一次生产环境的从Kubernetes环境的搭建到运维的经历,期间遇到很多问题、知识点、注意点,通过一个连载的方式尽可能把所有的东西都总结出来,分享给需要的人。希望能够帮助到更多的人,也希望跟大家一起探讨进步。

    实际生产环境的所有机器都是在公司自己的私有云平台上搭建的虚拟机,只是为了更快的画出更漂亮的图,我们使用了一些AWS图例。请不要在意是再什么平台上搭建,我们想传达的只是设计思想。

    所有文章都是我们原创,我们小组的名字是:rm *小组

    2.系统全体俯视图

    下面直接看整个系统的结构,为了能够配合文章的说明,构成图并不是跟实际的生产环境一模一样,只是为了能达到说明效果,我们重新制作的构成图,只是画了这回连载说明必要的部分。

    在这里插入图片描述

    接下来会逐一拆分整个系统的每一部分,然后进行总结说明。首先从整体说明一下这个系统的构成,图中是按照功能把整个系统划分成6个子系统,这样做只是为了有助于我们今后拆分讲解,并不代表生产环境中就是这样划分的,在实际生产环境中可能是使用网络区域的划分方式。下面从左到右,从上到下简单介绍一下这6个子系统

    1. K8S Control System
    2. Kubernetes Cluster
    3. Monitoring System
    4. Operation and Maintenance System
    5. Log System
    6. Job System

    3.各子系统的概要介绍

    ·K8S Control System介绍

    在Kubernetes生产环境中,完全靠手工作业来搭建,配置,发布,升级,运维是一件困难的事情。我们需要一个工具来帮助我们更快正准确的完成这些工作,实现持续集成、持续交付、持续部署,另一方面Kubernetes本身的功能也是有限的,在实际的生产环境中需要一些其他工具来弥补Kubernetes的弱点和不足,现在主流的Kubernetes管理平台服务(PaaS)有Red Hat OpenShift、Pivotal Container Service(PKS)。另外这些工具都是需要付费的,而且价格并不便宜,不过既然是收费的当然就有他收费的道理,将来我们有机会详细说一下这些工具。

    ·Kubernetes Cluster System介绍

    这个就不用多介绍了,这是我们的主角,我们所有的子系统都是在为它服务的。Docker容器出现后,轻巧,便携,跨平台等等优点吸引了很多人,但在实际并不能单纯的直接使用Docker容器作为我们的生产环境提供服务,Kubernetes的出现解决了这个问题,可以让我们方便的在生产环境中优雅的使用Docker容器技术。

    ·Monitoring System介绍

    监控系统是任何一个生产环境中必不可少的部分,一个系统能够健康持续的提供服务,必须有一套强大的系统监控、故障发现、故障通知、预兆分析等功能的监控系统来支持。幸运的是这么重要的系统,居然有很多开源工具供我们选择,比如Promenade、zabixx。Promenade似乎更适合云环境和Kubernetes的监控。不管是哪个工具除了最基本的监控报警功能以外,通过扩张插件功能,还可以轻松的实现大屏仪表板(Dashboard)、邮件通知,SNS消息通知等功能。

    ·Operation and Maintenance System介绍

    这个子系统作为其他子系统的接入口,一方面是为了运维人员和开发人员提供系统接入服务,另一方面是为了隔离我们的生产环境,避免外部可以直接触摸到生产环境,让生产环境更为安全。通过这个子系统无论是运维人员的运维管理,还是开发人员的编译发布都可以在不触碰到环境的情况下完成工作。再通过一些自动化工具可以更高效的完成这些工作,常用的自动话工具有很多,Ansible、Puppet、Saltstack、Chef等等,最近Ansible更为活跃。

    ·Log System介绍

    日志系统,这个近年来由于大数据技术的出现而频繁出现在各个地方,一个系统的日志已经不仅仅是调查bug使用,它可以给一个公司带来很大的商业价值,作为一个好的日志系统,不只是要收集各种各样的日志信息,还要对这些日志信息进行分析,从中找出有价值的东西,比如系统是否有故障前兆、用户行为、商业趋势等等,都隐藏在日志信息中,充分的挖掘出这些信息,离不开日志系统的强大功能,大数据技术的火热,出现了一大批开源日志采集,分析,计算的工具。今后我们在详细说明日志系统的时候在介绍一下常用的产品。

    ·Job System介绍

    批处理调度系统也是一个非常有用的系统,在一个复杂庞大的业务系统里,一定会有这样的需求:定时定点有序的执行一些批处理,而且这些批处理是有前后关系,也就是前面的处理结果会影响到后边其他处理的走向和决定是否执行,如果只是一两个处理的话,我们使用CronTab或taskscheduler这样的系统自带工具就可以了,但是如果是几十个上百个处理,而且相互之间制约,时间限制等等一系列的执行条件的话,靠CronTab或Taskscheduler就很难管理了,这时就需要一个可视化的管理工具来方便的设计管理这些批处理了,今后在说明批处理调度系统的时候,会给大家介绍一下产品。

    本章内容只是介绍了一下K8S生产环境整体概貌,接下来我们会拆分整理细各个部分,陆续发布出来分享给大家,敬请期待!

    4.下回更新内容概要

    【生产环境K8S从搭建到运维的实录(二)】K8S Control System的详细说明

    作者:rm * 小组

    日期:2020/9/3

    展开全文
  • 说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会。如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课程,主要是实战强、含金量高、专注度高,有6个专题+2个大型项目+腾讯云...
    说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会。如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课程,主要是实战强、含金量高、专注度高,有6个专题+2个大型项目+腾讯云服务器,真枪实弹传授上千大数据集群运维经验。
     
     
    课程介绍:
     
    这是专门为IT运维人员设计的高端大数据课程,可能也是目前的 only  one!课程内容从100多份招聘要求中萃取知识点,再邀请几位年薪60W+的大数据运维专家共同商讨打磨而成。传统运维人员工作~忙~累~苦~而又工资低,多年运维老手的工资往往不如刚毕业一两年的码农。本课程意在借大数据红利之势,帮助大家抓住机遇拿下高薪,职业华丽升级转型!
     
    课程以电信运营商实战项目为导向,结合企业大数据运维实际应用场景,一步步带着学员掌握大数据运维各个技术环节。通过《从0建设大数据平台》实战,让学员有能力帮助企业实现大数据平台从无到有;通过《大规模集群运维实战》实战,让学员有能力保障维护大型大数据集群的稳定、有效、安全。课程在考虑内容覆盖面同时,非常注重实用性,力求让学员所学即所用,切实解决企业工作中的实际问题,拒绝无用功和假把式。文档丰富详尽,大部分内容来自上千节点产线环境之实践,或许你能整理出一份大数据运维”九阴真经“。
     
    课程亮点:
    实战性强:以解决企业实际问题为导向。从0建设大数据平台项目,解决企业大数据平台从无到有的迫切问题。大规模集群运维实战,解决企业如何平稳运行和维护大数据平台。
    含金量高:采用Cloudra Manager构建企业级大数据平台,传授上千节点大数据运维经验,解决千亿级别大数据集群产线问题。
    专注度高:专注于大数据运维,课程涵盖大数据集群规划、集群部署、集群安全、集群监控、集群容器化、集群运维,培养大数据运维专业人才。
     
     
    适合人群:
    1.IT运维人员提升拿高薪
    2.网管/技术支持蜕变转型涨薪
    3.Leader/架构师 扩充技术栈
    4.大专/本科学生轻松入行大数据
     
    就业岗位:
    1.大数据运维工程师
    2.大数据平台架构师
    3.大数据平台运维
     
     
     
    课程大纲:
    第一章 大数据运维通识
    1.大数据概述及技术生态介绍
    2.大数据运维及其他部门如何分工协作
    3.大数据运维需要掌握哪些必备技能
    4.如何成为高薪的大数据运维人才
     
    第二章 大数据集群规划
    1.网络规划
    1.1机房区域划分
    1.2机房三层网络结构
    1.3网络带宽规划(千兆,万兆)
    1.4主机网卡bond模式
     
    2.集群规划
    2.1集群业务规划
    2.2集群节点规划
    2.2.1HDFS集群节点规划
    2.2.2HBase集群节点规划
    2.2.3Kafka集群节点规划
    2.2.4Zookeeper节点规划
    2.2.5YARN节点规划
    2.2.6ElasticSearch节点规划
    2.3存储规划
    2.3.1Raid规划
    2.3.2多磁盘规划
     
    第三章 大数据集群搭建
    1.集群安装部署方式
    1.1Ambari+hdp自动化部署
    1.2CM+cdh自动化部署
    1.3Hadoop手动安装部署
     
    2.集群部署平台选择
    2.1阿里云
    2.2EC2
    2.3物理服务器
     
    3.大数据技术组件部署
    3.1Zookeeper集群安装
    3.2HDFS集群安装
    3.3YARN集群安装
    3.4Hive客户端安装
    3.5HBase集群安装
    3.6Kafka集群安装
    3.7Spark集群安装
    3.8Flink集群安装
    3.9接口机/跳板机安装
     
    4.核心技术组件体系结构
    4.1HDFS体系结构
    4.2YARN体系结构
    4.3HBase体系结构
    4.4Kafka体系结构
     
    第四章 大数据集群安全
    1.HDFS ACL存储权限控制
    2.资源队列权限控制
    3.HDFS Sentry权限控制
    4.vpn权限控制
    5.云桌面权限控制
     
    第五章 大数据集群监控
    1.集群级别监控
    1.1集群cpu负载
    1.2集群磁盘IO负载
    1.3集群网络IO负载
    1.4HDFS IO负载
    1.5集群内存负载
     
    2.YARN监控
    2.1ResourceManager运行状况
    2.2NodeManager运行状况
    2.3JobHistory Server运行状况
    2.4应用程序监控
    2.5容器监控
    2.6JVM监控
    2.7RPC监控
    2.8作业监控
    2.9资源队列监控
     
    3.HDFS监控
    3.1容量监控
    3.2DataNode读写监控
    3.3事务监控
    3.4编辑日志监控
    3.5Rpc监控
    3.6JVM堆栈监控
     
    4.Kafka监控
    4.1Broker监控
    4.2topic 分区监控
    4.3IO监控
     
    5.Zookeeper监控
    5.1进程IAAS层指标监控
    5.2运行状况监控
    5.3连接情况监控
    5.4请求监控
    5.5数据包监控
    5.6JVM监控
     
    6.HBase监控
    6.1regionserver区域监控
    6.2读写请求监控
    6.3事件监控
    6.4运行状态监控
    6.5JVM监控
    6.6关键节点主机指标监控
     
    第六章 大数据容器化技术
    1.Docker容器化技术
    1.1Docker实现原理
    1.2Docker安装部署
    1.3Docker容器管理
    1.4Docker镜像及仓库管理
    1.5Spark ON Docker集群搭建
     
    2.Kubernetes(k8s)容器化技术
    2.1k8s快速入门
    2.2k8s系统架构
    2.3k8s基础组件说明
    2.4k8s基础服务安装
    2.5k8s分布式安装
    2.6k8s Nginx部署
     
    3.大数据容器化技术实践
    3.1基于kubernetes(k8s)调度的Flink大数据流式计算
    3.2Docker+k8s容器化技术在大数据应用服务的落地实践
    3.3Docker+k8s部署、监控实践
     
     
     
    项目一:从0建设大数据平台
     
    1.大数据平台前期调研
    1.1历史数据总量
    1.2数据每天增长量
    1.3数据TTL
     
    2.集群硬件规划
    2.1总体规划的考虑
    2.1.1集群规模控制因素
    1)依据数据量计算磁盘总量
    2)依据数据块计算NameNode内存总量
    3)依据任务量和性能计算集群数量
    2.1.2集群构建考虑因素
    1)构建HA高可用集群
    2)物理机、云主机
    3)部署方式选择:原生集群、CDH集群、hdp集群
    2.2集群硬件选择    
    2.2.1主节点配置
    2.2.2从节点配置
    2.2.3CPU配置
    2.2.4Core与内存配置
    2.2.5磁盘配置
     
    3.集群节点规划
    3.1集群业务规划
    3.2集群节点规划
    3.2.1HDFS节点规划
    3.2.2HBase节点规划
    3.2.3Kafka节点规划
    3.2.4YARN节点规划
    3.2.5Zookeeper节点规划
    3.2.6ElasticSearch节点规划
    3.3集群存储规划
     
    4.大数据平台目录规划
    4.1HDFS目录规划
    4.2linux os目录规划
    4.3linux主机名规划
    4.4临时目录规划
     
    5.网络规划
    5.1机房选择
    5.2网络带宽规划
    5.3主机网卡规划
     
    6.大数据平台构建
    6.1选择集群部署平台
    6.2选择集群部署方式
    6.3大数据平台构建
    6.4接口机部署
     
    7.数据迁移至大数据平台
    7.1文件数据迁移大数据平台
    7.2数据库数据迁移大树将军平台
    7.3数据一致性验证
     
    8.大数据平台维护与管理
    8.1集群启停
    8.2集群各进程维护操作
    8.3数据平衡操作
    8.4集群日常运维
    8.5大数据平台权限控制
     
    项目二:大规模集群运维实践
    1.大数据集群基础运维
    1.1集群启停
    1.2 集群各进程维护操作
    1.3数据平衡操作
    1.4集群日常运维
     
    2.大数据集群扩缩容
    2.1HDFS节点增加与删除
    2.2YARN节点增加与删除
    2.3HBase节点增加与删除
    2.4Kafka节点增加与删除
     
    3.大数据集群巡检
    3.1HDFS巡检思路与技巧
    3.2YARN巡检思路与技巧
    3.3HBase巡检思路与技巧
    3.4Zookeeper巡检思路与技巧
    3.5Kafka巡检思路与技巧
     
    4.大数据集群产线问题解决
    4.1产线环境数据加工延迟定位
    4.2作业执行缓慢根因定位
    4.3作业数据倾斜问题排查
    4.4hive入库延迟根因定位
    4.5HBase数据丢失故障复盘
    4.6HBase数据误删数据恢复
    4.7Spark环境引起的资源申请不到问题定位
     
    5.大规模集群数据迁移
    5.1数据迁移方案
    5.2数据迁移前集群准备
    5.3大规模数据迁移流程
    5.4数据验证
     
     
     
    展开全文
  • 需求 ...现在这种硬件资源管理器也是Yarn、Mesos、K8S之流。 Mesos没有接触过,也没怎么听说过,pass Yarn的话一个是界面太丑,上CDH成本太高,一个CM就大的要是,二是不支持微服务、中间件。 K8S ...

    需求

    一台笔记本(4C8G),一台台式机(12C 32G),后面公司马上又要退役下来两台笔记本。还有自己买的游戏本,这些闲置机器也是吃灰,想着把它利用起来。如何把它联接起来也是一个事情?现在这种硬件资源管理器也是Yarn、Mesos、K8S之流。

    • Mesos没有接触过,也没怎么听说过,pass
    • Yarn的话一个是界面太丑,上CDH成本太高,一个CM就大的要是,二是不支持微服务、中间件。
    • K8S 看了比较完美,也支持大数据平台的部署(Docker),也支持微服务、中间件的部署(Docker),支持Docker集群。

    (没用过,实践发现K8S的镜像占用资源贼小)

    在这里插入图片描述

    设计

    在这里插入图片描述

    1. 首先把所有机器通过交换机进行连接,目前买的是4口的交换机,等所有电脑退役了后续需要升级。
    2. K8S平台安装,将笔记本作为主机,因为它24小时不间断运行。
    3. Harbor作为私有云镜像中心
    4. NextCloud作为家庭网盘中心,同步视频、照片和一些文档备份
    5. 大数据套件: Hadoop体系 + Flink 流式处理 + Hue
    6. 中间件:Redis、Kafka、Mysql、Zk、FastDFS等
    7. 搜索与日志:ELK
    8. Nginx作为主入口配置。

    实现

    1. 搭建K8S集群 https://blog.csdn.net/u013076044/article/details/105568896
    2. 搭建Harbor https://blog.csdn.net/u013076044/article/details/105543100
    3. 搭建ELK-EK
    展开全文
  • 回顾:大数据平台技术栈(ps:可点击查看),今天就来说说其中的K8S!来自:阿里技术公众号阿里妹导读:排查完全陌生的问题、不熟悉的系统组件,对许多工程师来说是无与伦比的...
  • k8s中集成大数据服务!!!!!!!!!!!!!!!!!!
  • 用Kubernetes部署企业大数据应用

    千次阅读 2019-07-05 10:08:45
    在Docker容器技术火热发展的今天,如何将分布在不同物理机上的Docker容器组织、管理、调度起来成为一个急需解决的问题,Kubernetes正是解决这个问题的最佳实践。Kubernetes是一个开源的系统,可以自动部署,扩展和...
  • 目前的大数据平台存在的问题: 通过手工方式直接部署在物理机上,过程复杂、效率低,不适合大规模集群的部署和动态扩容。 由于平台组件繁多,对宿主机底层库依赖过高,一旦安装完成,很难进行迁移,也无法做成模版...
  • 系列一中忘了说明,用Kubernetes部署大数据容器平台,有一个很大的好处是压根不用操心容器间的网络通信,不管是同一物理服务器内,还是跨物理服务器间的网络通信,你都不用操心,只需要把容器间互相关心的端口暴露好...
  • 使用k8s搭建spark集群 这几天尝试在k8s中搭建spark集群,踩了一些坑,跟大 家分享一下。 Spark的组件介绍可参考官方文档 大数据生态圈简介可参考这篇文章 基于k8s官方示例 具体参考github k8s FAQ 镜像拉取问题 该...
  • 简介:以我的经验来讲,理解K8S集群服务的概念,是比较不容易的一件事情。尤其是当我们基于似是而非的理解,去排查服务相关问题的时候,会非常不顺利。这体现在,对于新手来说,ping不通服务的IP地址这样基础的问题...
  • 如果你看了这篇博客没有装好Spark,你来找我!!!! 首先Spark是一个基于内存的用于大规模数据处理的统一分析引擎。 其次它支持使用Scala、Python、R、SQL等语言快速编写应用程序,使用非常方便。...
  • 一.基本信息 1. 服务器基本信息 主机名 ip地址 安装服务 spark-master 172.16.200.81 jdk、hadoop、spark、scala spark-slave01 172.16.200.82 jdk、hadoop、spark ...jdk、hadoop
  • k8s中部署spark集群

    2020-02-27 00:16:43
    基于kubernetes部署的两种方式 直接使用kubernetes作为集群管理器(Cluster Manager),...第二是要求k8s版本大于1.6,但我这边版本1.5.1,线上在用,不太想升级,而spark只是想搭起来玩玩... 第二种方式是standa...
  • 我们在之前的文章中 已经了解了 spark支持的模式,其中一种就是 使用k8s进行管理。 hadoop组件—spark----全面了解spark以及与hadoop的区别 是时候考虑让你的 Spark 跑在K8s 上了 spark on k8s的优势–为什么要把...
  • 本章基于k8s集群部署gitlab、sonarQube、 Jenkins等工具,并把上述工具集成到Jenkins中,以Django项目为例,通过多分支流水线及Jenkinsfle实现项目代码提交到不同的仓库分支,实现自动代码扫描、单元测试、docker...
  • 是时候考虑让你的Spark跑在K8S上了

    千次阅读 2019-09-17 10:51:23
    【摘要】 Spark社区在2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这样对于统一资源池,提高整体资源利用率,...相信玩Spark的你已经注意到最新的Spark版本已经支持不做任何修改可以直接跑在K8S上了,即...
  • k8s是什么 Kubernets是继大数据、云计算和Docker后的一种热门的容器编排技术,是Google在2014年发布的开源项目。同类的技术有Docker官方的Swarm。 k8s与swarm相比较更加成熟、完善,但学习成本也更高。 为什么学习k8...
  • 中国联通数据中心总经理王志军在Rancher举办的ECIC大会上的演讲实录,分享了中国联通为何开始进行平台容器化并如何运用Kubernetes对9000台的服务器数据节点进行最大化利用和合理调度,进而提升了60%的基础资源利用率...
1 2 3 4 5 ... 20
收藏数 1,833
精华内容 733
热门标签
关键字:

k8s 搭建大数据平台