精华内容
下载资源
问答
  • 2021-07-03 12:22:07

    自己大数据开发的学习路线,先后顺序大概是:Linux常用命令、Shell语言、Java基础、MySQL、Hadoop、YARN、MapReduce、Flume、Kafka、HBase、Hive、Spark、Flink。
    以上大数据技术组件是比较主流的,可做参考。某个技术栈也会有相似技术,前期先学一种,相似技术栈用法大部分很类似。

    学习建议,要先熟练搭建大数据集群,里边有很多坑,比较费时间,细心一点好很多。
    基础理论快速过一遍,后边用思维导图/博客或其他方式复习,相似组件对比学习。
    常用命令不用刻意记忆,多敲几遍,代码也是多敲。
    

    大数据开发技术框架

    更多相关内容
  • Spark开发工程师(含项目)

    千人学习 2019-02-21 10:33:06
    本课程为大数据金融信贷项目实战课,着重讲解企业中常用的大数据技术理论与实战,如Hadoop、Hive、HBase、Sqoop、Flume、Kafka、Spark Streaming、Spark SQL、Spark Structured Streaming等。课程包含离线项目和实时...
  • Spark开发工程师(含项目) 10年一线开发及项目管理经验,6年以上大数据...

    扫码下载「CSDN程序员学院APP」,1000+技术好课免费看

    APP订阅课程,领取优惠,最少立减5元 ↓↓↓

    订阅后:请点击此处观看视频课程

     

    视频教程-Spark开发工程师(含项目)-Spark

    学习有效期:永久观看

    学习时长:2336分钟

    学习计划:39天

    难度:

     

    口碑讲师带队学习,让你的问题不过夜」

    讲师姓名:杨俊

    架构师

    讲师介绍:10年一线开发及项目管理经验,6年以上大数据项目架构、实施、开发与运维经验,骨灰级大数据玩家,对Hadoop、Storm、Spark、Flink、Kylin、Druid等大数据技术有较深研究。搭建、维护过上百节点集群,处理过PB级数据。 因技术出色,多次在知名企业内部进行大数据技能培训,对一线企业大数据方面的技能需求非常了解。 热爱分享,喜欢结合切身经历的大型项目经验来授课,用血淋淋的一线案例、真刀真枪的现场演示、实时的回馈指导赢得了很多学员的仰慕和好评。

    ☛点击立即跟老师学习☚

     

    「你将学到什么?」

    本课程为大数据金融信贷项目实战课,着重讲解企业中常用的大数据技术理论与实战,如Hadoop、Hive、HBase、Sqoop、Flume、Kafka、Spark Streaming、Spark SQL、Spark Structured Streaming等。课程包含离线项目和实时项目,从项目业务需求、技术选型、架构设计、集群安装部署、集成开发以及项目可视化进行全方位实战讲解。


     

    「课程学习目录」

    第1章:项目需求与分析
    1.课程介绍
    2.金融信贷项目-介绍
    3.金融信贷项目-需求分析
    4.金融信贷项目-系统架构设计
    5.金融信贷项目-数据流程设计
    6.金融信贷项目-大数据平台集群规划
    第2章:集群节点准备
    1.VMware虚拟机软件安装配置
    2.Linux操作系统介绍
    3.Linux操作系统安装1
    4.VMware三种网络类型详解
    5.Linux操作系统安装2
    6.Linux系统网络配置
    7.Linux虚拟机克隆
    8.Linux静态IP技术
    9.x-shell远程连接工具使用
    10.Linux用户和用户组创建
    11.Linux主机名配置
    12.Linux防火墙配置
    13.openssh-clients服务安装
    14.Linux主机名与IP地址映射配置
    15.SSH免密码登录
    16.FileZilla工具使用
    17.节点2所有配置
    18.节点3所有配置
    第3章:Eclipse环境搭建
    1.本地JDK安装配置
    2.Eclipse下载安装
    3.本地maven安装配置
    4.Eclipse配置maven
    5.Eclipse构建maven项目
    第4章:Zookeeper分布式协调系统
    1.Zookeeper概述
    2.Zookeeper架构原理
    3.Zookeeper读写流程
    4.Zookeeper服务
    5.Zookeeper安装模式及不同厂商版本选择
    6.Zookeeper集群规划
    7.搭建时钟同步服务器
    8.集群节点IP地址映射与防火墙配置
    9.集群节点SSH免密码登录
    10.集群脚本配置文件开发
    11.集群分发shell脚本开发
    12.集群远程执行shell脚本开发
    13.集群JDK安装配置
    14.Zookeeper集群安装部署
    15.Zookeeper四字命令详解
    16.Zookeeper shell实操
    17.Zookeeper 连接Watcher开发
    18.Zookeeper Java API创建znode
    19.Zookeeper Java API判断znode是否存在
    20.Zookeeper Java API获取znode数据
    21.Zookeeper Java API更新znode节点数据
    22.Zookeeper Java API获取znode子节点
    23.Zookeeper Java API删除znode节点
    24.Zookeeper集群配置管理项目案例
    第5章:HDFS分布式文件系统
    1.hdfs特点
    2.hdfs体系架构
    3.hdfs读数据流程
    4.hdfs写数据流程
    5.NameNode HA工作原理
    6.ZKFC工作原理
    7.QJM工作原理与防止脑裂
    8.NameNode主备切换完成流程详解
    第6章:YARN资源管理系统
    1.YARN概述
    2.YARN与MapReduce之间的关系
    3.YARN基本架构
    4.MapReduce ON YARN
    5.YARN HA高可用
    第7章:Hadoop分布式集群搭建
    1.HDFS分布式文件系统安装配置
    2.HDFS服务启动与测试
    3.HDFS文件系统测试运行
    4.YARN集群安装配置
    5.YARN服务启动与测试
    6.YARN测试运行
    7.HDFS HA和YARN HA 故障转移实战演示
    8.Hadoop默认配置详解
    第8章:MapReduce离线计算框架
    1.MapReduce概述
    2.MapReduce基本设计思想
    3.MapReduce编程模型
    4.MapReduce案例分析
    第9章:Eclipse与MapReduce集成开发
    1.Eclipse开发MapReduce程序1
    2.Eclipse开发MapReduce程序2
    3.Eclipse本地调试运行MapReduce1
    4.Eclipse本地调试运行MapReduce2
    5.Eclipse项目打包的两种方式
    6.MapReduce提交YARN集群运行
    7.maven管理多个MapReduce程序1
    8.maven管理多个MapReduce程序2
    9.MapReduce调试、打包及部署运行
    第10章:Eclipse与HDFS集成开发
    1.获取HDFS文件系统
    2.Java API创建HDFS目录
    3.Java API文件上传HDFS
    4.Java API实现HDFS文件下载
    5.Java API查看HDFS文件目录
    6.Java API删除HDFS文件目录
    第11章:HBase分布式实时数据库
    1.HBase概述
    2.HBase数据模型
    3.HBase物理模型
    4.HBase系统架构
    5.HBase淘宝案例
    6.HBase移动案例
    7.HBase集群规划
    8.HBase安装配置
    9.HBase服务启动测试
    10.shell对HBase表进行测试
    11.hbase Java客户端基本操作
    第12章:Hive大数据仓库
    1.Hive概述
    2.Hive体系结构及原理
    3.HiveMetaStore安装方式与Hive部署方式
    4.MySQL元数据库安装
    5.Hive安装配置
    6.Hive服务启动与测试
    7.HiveServer1与HiveServer2区别与联系
    8.JDBC访问HiveServer2
    9.beeline访问HiveServer2
    10.Hive与HBase集成开发
    第13章:Sqoop数据导入导出
    1.Sqoop数据导入导出原理
    2.Sqoop安装部署
    3.Sqoop将MySQL数据导入HDFS
    4.Sqoop将HDFS数据导入MySQL
    5.利用Sqoop实现Hive与MySQL数据导入导出
    6.利用Sqoop实现HBase与MySQL数据导入导出
    7.MySQL数据库乱码以及访问权限问题解决
    第14章:Flume数据采集系统
    1.flume概述
    2.Flume系统架构
    3.Flume安装部署
    4.Flume集群构建
    5.Flume官网文档使用详解
    第15章:Kafka消息系统
    1.Kafka概述
    2.Kafka系统架构
    3.Kafka拓扑结构
    4.Kafka集群配置
    5.Kafka集群服务启动与测试
    6.Kafka 新api数据发送与消费
    7.Kafka旧api数据发送与消费
    8.Kafka集群监控
    9.Kafka与flume集成开发
    第16章:Spark 快速入门
    1.Spark概述
    2.Spark最简安装
    3.Eclipse开发并测试Java版本的Spark Wordcount
    4.Spark Submit提交运行Java版本的Wordcount
    5.Eclipse安装Scala插件
    6.Eclipse构建Scala maven项目
    7.Eclipse开发Scala版本的Spark Wordcount
    8.Scala Wordcount本地和线上分别测试运行
    第17章:Spark 编程模型
    1.RDD本质
    2.RDD窄依赖与宽依赖
    3.创建RDD
    4.RDD转换操作与行动操作
    5.PairRDD转换操作与行动操作
    第18章:Spark集群安装部署
    1.scala安装配置
    2.Spark集群配置
    3.spark集群服务启动测试
    4.Spark Standalone工作流程
    5.提交作业到Spark Standalone集群运行
    6.Spark ON YARN 工作原理
    7.Spark ON YARN集群搭建
    第19章:Spark Streaming实时计算
    1.Spark Streaming概述
    2.Spark Streaming运行原理
    3.Spark Streaming 编程套路
    4.窗口函数普通规约与增量规约
    5.DStream输出及持久化操作
    第20章:Spark SQL离线计算
    1.Spark SQL架构原理
    2.DataFrame、DataSet与RDD之间的区别与联系
    3.RDD转DataFrame
    4.RDD转DataSet
    5.DataSet转DataFrame
    6.DataSet转RDD
    7.DataFrame转RDD
    8.SparkSQL与Hive集成开发
    9.Spark SQL与mysql集成开发
    10.Spark SQL与HBase集成开发
    第21章:Spark Structured Streaming实时计算
    1.Spark Streaming Streaming案例
    2.Spark Structured Streaming编程模型
    3.Spark Structured Streaming数据源
    第22章:金融信贷项目离线分析
    1.启动集群相关服务
    2.数据格式说明
    3.业务数据导入Hive平台
    4.信用卡持卡用户特征分析
    5.信用卡用户消费行为分析
    6.用户信用卡管理行为分析
    7.开发Hive Shell脚本
    8.MySQL业务数据建模
    9.业务汇总数据入库
    第23章:Spark Streaming金融信贷项目实时分析
    1.需求分析与数据流程
    2.应用服务器模拟程序开发
    3.Flume集群实时采集APP日志
    4.应用服务器模拟+flume+kafka集成开发
    5.业务建模
    6.spark Streaming业务代码实现
    7.Spark Streaming与MySQL集成开发(1)
    8.Spark Streaming与MySQL集成开发(2)
    9.应用服务器程序+flume+kafka+SparkStreaming+MySQL集成开发
    第24章:Spark SQL金融信贷项目实时分析
    1.业务建模
    2.Spark SQL业务代码实现
    3.Spark SQL与MySQL集成开发
    第25章:Structured Streaming金融信贷项目实时分析
    1.业务建模
    2.Spark Streaming Streaming页面代码实现
    3.自定义JDBCSink
    4.Structured Streaming与MySQL集成开发
    5.应用服务器+Flume+Kafka+Structured Streaming+MySQL集成开发
    6.项目业务完善与优化
    第26章:金融信贷项目可视化
    1.Eclipse与tomcat集成
    2.Eclipse构建Web项目
    3.后台业务代码实现
    4.前端业务代码实现
    5.项目离线数据可视化
    6.项目实时数据可视化
    7.项目总结

     

    7项超值权益,保障学习质量」

    • 大咖讲解

    技术专家系统讲解传授编程思路与实战。

    • 答疑服务

    专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。

    • 课程资料+课件

    超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)

    • 常用开发实战

    企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。

    • 大牛技术大会视频

    2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。

    • APP+PC随时随地学习

    满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。

     

    「什么样的技术人适合学习?」

    • 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
    • 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
    • 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。

     

    「悉心打造精品好课,39天学到大牛3年项目经验」

    【完善的技术体系】

    技术成长循序渐进,帮助用户轻松掌握

    掌握Spark知识,扎实编码能力

    【清晰的课程脉络】

    浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。

    【仿佛在大厂实习般的课程设计】

    课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。

     

    「你可以收获什么?」

    1.0基础学完,能达到大数据开发工程师水平

    2.有开发基础学完,最高能达到大数据架构师水平

     

    展开全文
  • 《大数据开发工程师系列:Hadoop & Spark大数据开发实战》
  • 【就业课】Hadoop/Spark/Flink大数据开发工程师
  • 大数据的处理怎么能变快一点,答案是请用spark,因为它是基于内存的,可以有效减少数据的落地次数。Spark性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能...

    大数据的处理怎么能变快一点,答案是请用spark,因为它是基于内存的,可以有效减少数据的落地次数。Spark性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。

      Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。

      伴随Spark技术的普及推广,对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万的薪酬。而要想成为Spark高手,也需要一招一式,从内功练起:通常来讲需要经历以下几个阶段:

      一:熟练的掌握Scala语言

      Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你就必须阅读Spark的源代码,就必须掌握Scala。

      虽然说现在的Spark可以采用多语言Java、Python等进行应用程序开发,但是最快速的和支持最好的开发API依然并将永远是Scala方式的API,所以你必须掌握Scala来编写复杂的和高性能的Spark分布式程序

    \
      尤其要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等;

      二:精通Spark平台本身提供给开发者API

      掌握Spark中面向RDD的开发模式,掌握各种transformation和action函数的使用;掌握Spark中的宽依赖和窄依赖以及lineage机制;

      掌握RDD的计算流程,例如Stage的划分、Spark应用程序提交给集群的基本过程和Worker节点基础的工作原理等

      三:深入Spark内核

      此阶段主要是通过Spark框架的源码研读来深入Spark内核部分:

      通过源码掌握Spark的任务提交过程;通过源码掌握Spark集群的任务调度;尤其要精通DAGScheduler、TaskScheduler和Worker节点内部的工作的每一步的细节;
    在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

      四:掌握基于Spark上的核心框架的使用

      Spark作为云计算大数据时代的集大成者,在实时流处理、图技术、机器学习、NoSQL查询等方面具有显着的优势,我们使用Spark的时候大部分时间都是在使用其上的框架例如Shark、Spark Streaming等.

      Spark Streaming是非常出色的实时流处理框架,要掌握其DStream、transformation和checkpoint等;

      Spark的离线统计分析功能,Spark 1.0.0版本在Shark的基础上推出了Spark SQL,离线统计分析的功能的效率有显着的提升,需要重点掌握;

      对于Spark的机器学习和GraphX等要掌握其原理和用法;

      五:做商业级别的Spark项目

      通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面,包括项目的架构设计、用到的技术的剖析、开发实现、运维等,完整掌握其中的每一个阶段和细节,这样就可以让您以后可以从容面对绝大多数Spark项目。

      六:提供Spark解决方案

      彻底掌握Spark框架源码的每一个细节;根据不同的业务场景的需要提供Spark在不同场景的下的解决方案;根据实际需要,在Spark框架基础上进行二次开发,打造自己的Spark框架;

      前面所述的成为Spark高手的六个阶段中的第一和第二个阶段可以通过自学逐步完成,随后的三个阶段最好是由高手或者专家的指引下一步步完成,最后一个阶段,基本上就是到”无招胜有招”的时期,很多东西要用心领悟才能完成。

    展开全文
  • 大数据开发工程师2022

    2022-06-28 09:58:02
    分享课程——大数据开发工程师2022,内附下载地址,这套视频教程是2022最新升级版,一共23周内容,囊括了大数据相关的所有知识点,比如:flink/hadoop/spark/hive/hbase/数据仓库等等,可以说学习大数据一“部”到位...
  • Spark全面精讲

    2019-02-03 16:32:01
    完全从零起步,让大家可以一站式精通Spark企业级大数据开发,提升自己的职场竞争力,实现更好的升职或者跳槽,或者从j2ee等传统软件开发工程师哦转型为Spark大数据开发工程师,或是对于正在从事hadoop大数据开发的...
  • spark视频百度网盘

    2018-05-15 16:48:05
    01Spark部署 02Spark编程模型(1) 03Spark运行架构(1) 04Spark SQL原理和实践(4) 05Spark Streaming原理和实践 06Spark 机器学习入门 07GraphX 入门
  • 最近发现有些同学并不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的Java或者PHP工程师在工作上有什么区别? 什么不是大数据开发...

    最近发现有些同学并不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的Java或者PHP工程师在工作上有什么区别?
    什么不是大数据开发?

    仅使用数据库(关系型mysql,sqlserver,oracle等 非关系型 mongo redis等),尽管数据量达到千万级别,亿级别不是大数据开发。
    从业务系统的数据库中查询数据然后产出报表不是大数据开。
    端上(页面,h5,手机native)埋点上报数据记录到数据库中不是大数据开发。
    什么是大数据开发

    1. 大数据开发需要的技能

    到智联上搜了一下大数据开发工程师这个职位,随便点了几个职位,截图如下:
    在这里插入图片描述
    在这里插入图片描述

    所以说,现在互联网公司所指的大数据开发用到的工具是:hadoop,hive,hbase,spark,kafka等。

    1. 大数据开发做的事情

    精简到一个词语就是:统计
    精简到两类指标就是:PV和UV
    精简到一句话就是:统计各种指标的PV和UV

    PC互联网时代,各门户网站(比如:新浪,网易,搜狐)关注的是各自网站今天被打开了几次(pv),今天有多少人(uv)访问了网站。更复杂一点的比如:

    页面上某个按钮或者某个连接有多少人点击了几次
    某个页面上的热力图(点击地方越多,图上颜色越重)

    移动互联网时代,手机应用被用户打开的次数和人数也是大家关注的重点,但是除此之外还多出了许多其他非常重要的数据,由于手机屏幕的限制,信息流成为了移动时代的主流。

    各大门户网站非常关注自己的新闻客户端中:在信息流中曝光了多少篇文章,其中有多少篇文章被用户点击了。每篇文章阅读了长时间,因为用户点击的文章越多,使用客户端的时间越长,各公司的广告收入才越高,所以各公司想方设法推荐用户喜欢的内容。

    在这里插入图片描述

    1. 如何做这些事情

    因为网站的浏览行为,手机客户端中文章的曝光或者点击这些数据非常大,基本以亿为单位起。所以传统的把统计信息放到数据库中的方式已经不能完成这项统计工作。(例如:wordpress博客中,用户每阅读一篇文章,mysql中就会更新这篇文章的阅读次数+1)

    在这里插入图片描述

    所以大数据是通过日志来统计这些指标。

    比如:后台服务的日志(apache,tomcat,weblogic,nginx日志)

    主要难点在于:

    日志量太大(一般大点的互联网公司,一个业务线每天的日志都有几个t,再大些的每天几十t,几百t也不奇怪),需要掌握大数据相关技术例如前面提到的hadoop,hive等。
    数据的及时性,从离线计算来说,一般每天零点,前一天的日志都接收完毕,开始计算前一天的数据,几点能计算完毕?要看各个公司各自的要求。
    数据的准确性。(这是重中之重,大数据开发的工作就是统计,统计的数据如果不准…)
    如果是实时计算,需要掌握实时相关技术。例如:每5分钟网站的在线人数。
    监控监控监控:监控任务是否失败,数据是否产出,产出的数据是否异常。
    容灾容灾容灾:如果任务失败如何补救。比如实时任务,由于某种原因13:00到14:00的数据没有,如何把数据补回来。
    图片
    大数据开发和一般开发对比

    在转做大数据开发之前,一直在用Java作业务系统:例如hr系统(考勤,薪资等),收费系统。

    谈谈我个人对业务系统开发和大数据开发的理解:

    业务系统:
    一句话:对数据库的各种增删改查操作。

    重点难点在于:

    对复杂业务的理解上(比如计算工资:基本工资,五险一金,全勤奖,高温补贴,报销,奖金,加班费…等等都需要计算)。
    线上服务的稳定,比如facebook,淘宝等网站高并发的压力下维持网站正常运行。

    大数据开发

    一句话:对字符串的各种算数。

    重难点在于:

    数据的及时性。例如实时数据中,想知道 12:00~12:10这10分钟的用户数,如果这个数据在晚上20点才计算完成,那就没什么意义了。再比如,大家应该都有体验过:再手机上刷新闻的时候,你点了某一篇文章,再继续刷新闻,后面很快会出来不少和前面点击的那篇文章类似的文章,这就是根据你的点击给你及时推荐你有更大可能点的东西。
    数据的准确性。这个重要性不言而喻
    数据的稳定性和容灾。

    学互联网技术不能犹豫,否则你就和高薪擦肩而过了。不论你是0基础还是转行,都有大牛老师手把手教你学习最新热门技术,找一份自己满意的高薪工作。
    各位小可爱们需要学习资料的加小姐姐V:lezijie010(备注678,不备注会被拒绝的哦!)
    在这里插入图片描述

    展开全文
  • 本套教程可以让学员熟练掌握Spark技术栈,提升自己的职场竞争力,实现更好的升职或者跳槽,或者从J2EE等传统软件开发工程师转型为Spark大数据开发工程师,或是对于正在从事Hadoop大数据开发的朋友可以拓宽自己的技术...
  • 大数据开发工程师--面试宝典

    千次阅读 2022-02-19 12:56:11
    1.前言 随着5G终端的快速增长,产生大量的数字信息,这些数据的采集和挖掘对于企业、政府具有重大意义。目前,对于海量数据的存储和挖掘存在诸多难题,...本文旨在与大数据开发人员一起学习探讨大数据开发技术问题。
  • 一、安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择Spark版本和对应的Hadoop版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 配置环境变量...
  • Spark 作为一个用来快速实现大规模数据计算的通用分布式大数据计算引擎,是大数据开发工程师必 备的一项技术栈。Spark 相对 Hadoop 具有较大优势,但 Spark 并不能完全替代 Hadoop。 实际上,Spark 已经很好地融入了...
  • 目录: 00.视频 第07章.... 第08章.Hadoop(完结) 第09章....第10章.ZooKeeper(点播)(完结) ...第13章....第14章....第17章.sparkCore(完结) 第18章.sparkSql(完结) 第19章 kafka(完结) 第20章 ..
  • 从需求分析师到数据仓库架构师、ETL工程师、数据分析工程师、报表开发工程师、数据挖掘工程师等,都可以称为BI工程师。 ETL工程师:从事系统编程、数据库编程和设计,掌握各种常用编程语言的专业技术人员。也称为...
  • 大数据开发工程师需要具备哪些技能?

    万次阅读 多人点赞 2020-04-03 15:15:11
    大数据平台整体画像 大数据平台逻辑划分 数据相关的工具、产品和技术:比如批量数据采集传输的 Sqoop 、离线数据处理的Hadoop 和Hive 、实时流处理的 Storm和 Spark 以及数据分析的R语言等。 数据资产:不仅包含公司...
  • 目前在学习大数据专业,想提前了解一下大数据开发工程师的工作职责是怎么的?需要提前准备些什么?大数据分了哪些岗位? 笔者已从事数据开发工作三年有余,结合自己的工作经历和几位同行的经验来聊聊这几个问题。...
  • 美团数据开发工程师面试准备

    千次阅读 2020-08-12 09:11:53
    SQL 找出总成绩最高的那个人和所有课程的成绩 select S.ID, S.SNAME, C.ID, C.CNAME, SC....降低了数据的维护速度 除了MySQL之外的其他数据库 Oracle Neo4j 数据仓库 参考链接 Spark 网络和操作系统 数据结构 算法 个人
  • 2022百度大数据开发工程师实习面试经历

    千次阅读 热门讨论 2022-03-02 16:33:09
    总结 面试的要手撕的代码倒不难,但是难在对大数据组件的基础理解上,我原本以为作为一个数据开发人员不需要知道spark怎么配置,并行度是如何设置,计算资源是如何分配的,因为大数据开发人员有自己的配置规则,但...
  • 本博客搬运自我知乎所出视频成为一个大数据开发工程师的学习步骤? - 知乎大数据的学习是有条件限制的,首先你需要是一名普通的工程师,如果你是Java工程师的话更好,但如果你是小…...
  • Java开发工程师学习路线(2022年最新版)

    千次阅读 多人点赞 2022-03-07 12:52:40
    Java后端开发学习路线(2022年最新版)
  • 大数据开发工程师笔试题

    千次阅读 2021-10-24 14:25:28
    def processData(spark: SparkSession, readPath: String) = { } 16, uid subject_id score 1001 01 90 1001 02 90 1001 03 90 1002 01 85 1002 02 85 1002 03 70 1003 01 70 1003 02 70 1003 03 85 请找出所有...
  • 大数据开发工程师前景如何?

    千次阅读 2019-12-26 13:05:57
    1.大数据开发前景如何,企业对大数据开发的需求到底有多大。 大数据开发,是一个刚刚开始发展的行业,而且技术经常更新,所以大数据的发展会长期发展,但要求程序员要跟着行业发展不断学习进步。一个新技术的出现就...
  •         大数据开发工程师,看起来很高端。但很多时候都是脱离不了开发的层面,基本上大部分人都...那么,作为优秀的大数据开发工程师是怎么样的体验呢,可以先聊聊技术方...
  • 随着互联网的发展,越来越多的人投入到IT行业,而大数据开发工程师也因此成为一个比较热门职业,想要成为大数据开发工程师的你,是否又在考虑其该具备哪些技能呢?为了让你更好的了解大数据开发工程师需要具备的技能...
  • 职位:高级大数据开发工程师 职位年薪:30-60万  工作地点:杭州  所属行业:通信(设备/运营/增值服务) 年龄要求:26-35岁  学历要求:统招本科以上  工作年限:6年以上 工作职责: 1、负责大数据基础...
  • 前言 由于Spark框架大多都搭建在Hadoop系统之上,要明白Spark核心运行原理还是得对Hadoop体系有个熟悉...一、开发Spark目的 如果要用到Spark那基本上离不开Hadoop,我们了解到为了弥补Hadoop体系的许多不便之处,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 21,671
精华内容 8,668
关键字:

spark开发工程师