精华内容
下载资源
问答
  • 大数据工程师 数据分析师 大数据科学家 其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的方向吧) 二.大数据工程师的技能要求 附上比较权威的大数据工程师技能图(图侵删): 总结...

    一.大数据方向工作介绍

    大数据方向的工作目前分为三个主要方向:

    1. 大数据工程师
    2. 数据分析师
    3. 大数据科学家
    4. 其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的方向吧)

    二.大数据工程师的技能要求

    附上比较权威的大数据工程师技能图(图侵删):
     

    总结必须技能10条:

    1. .Java高级(虚拟机、并发)
    2. Linux 基本操作
    3. Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )
    4. HBase(JavaAPI操作+Phoenix )
    5. Hive(Hql基本操作和原理理解)
    6. Kafka
    7. Storm
    8. Scala
    9. Python
    10. Spark (Core+sparksql+Spark streaming )
    11. 一些小工具(Sqoop等)

    高阶技能6条:

    1. 机器学习算法以及mahout库加MLlib
    2. R语言
    3. Lambda 架构
    4. Kappa架构
    5. Kylin
    6. Aluxio

    三.学习路径

    第一阶段:

    1. Linux技能知识的学习;
    2. Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)

    第二阶段:

    1. Hadoop (董西成的书)
    2. HBase(《HBase权威指南》)
    3. Hive(《Hive开发指南》)
    4. Scala(《快学Scala》)
    5. Spark (《Spark 快速大数据分析》)
    6. Python (跟着廖雪峰的博客学习就ok了)

    第三阶段:

    对应技能需求,到网上多搜集一些资料就ok了,我把最重要的事情(要学什么告诉你了),剩下的就是你去搜集对应的资料学习,当然如果你觉得自己看书效率太慢,你可以网上搜集一些课程,跟着课程学;这个完全根据自己情况决定;如果看书效率不高就看网课,相反的话就看书。

    四.学习资源推荐:

    1. Apache 官网
    2. Stackoverflow
    3. github
    4. Cloudra官网
    5. Databrick官网
    6. 过往的记忆(技术博客)
    7. CSDN,51CTO

    转载文章,侵权删。

    展开全文
  • 2019独角兽企业重金招聘Python工程师标准>>> ...

    大数据学习涉及技术:

    1、数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

    2、数据存取:关系数据库、NOSQL、SQL等。

    3、基础架构:云存储、分布式文件存储等。

    4、数据处理:自然语言处理是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解,也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能(Artificial Intelligence)的核心课题之一。

    5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

    6、数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

    7、模型预测:预测模型、机器学习、建模仿真。

    8、结果呈现:云计算、标签云、关系图等。

     

    互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群:199加上【427】最后加上210就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入。
     

    大数据工程师又称大数据开发工程师,主要学习编程技术和算法

    具体课程如下:(java和linux作为学习大数据的基础,0基础小白需要1个半月左右的时间来学习java和linux)

    v2-4fa12f40bbb996274fae2d9ef5267358_hd.jpg

    v2-a7d04ead16148903756dc2061c09cf1f_hd.jpg

    v2-8c3269bcac4e0f9bb99dd7c9668996d8_hd.jpg

    v2-ef86d7a06a6db46cfef1b1318fce9131_hd.jpg

    v2-77b9c28957787ffcb7321c6148ce3902_hd.jpg

    v2-d92b22459e1b4f1fdb681c5b9a7a7b79_hd.jpg

    转载于:https://my.oschina.net/u/4136162/blog/3060238

    展开全文
  • 大数据工程师需要学习哪些知识和技能? 首先,数据可视化。 R语言不仅是一种编程语言,而且具有强大的统计计算功能和方便的数据可视化系统。这里,我推荐你读一本叫做R数据可视化手册的书。《R数据可视化手册》主要...

    大数据产业在科学发展的趋势中越来越受欢迎。大数据工程师需要学习哪些知识和技能?

    首先,数据可视化。

    R语言不仅是一种编程语言,而且具有强大的统计计算功能和方便的数据可视化系统。这里,我推荐你读一本叫做R数据可视化手册的书。《R数据可视化手册》主要关注R的图形系统,指导读者通过图形系统实现数据可视化。本书提供了超过150种快速绘制高质量图形的技术,每种技术都用于满足特定的绘图要求。

    Python已经看到了许多新的Python数据可视化库,它们已经弥补了一些空白。事实上,MatPoTLIB已经成为数据可视化最重要的数据库。此外,还有许多其他的库,如VISPY、BoKeh、Seabn、PyGa、Pyura和NETWorkX。这些库中的一些是建立在MatPultLB上的,有些还具有其他功能。

    ECTARS和D3.JS是基于HTML5的两个纯Java图表库。它们提供直观、生动、交互式和可定制的数据可视化图表。创新的拖放计算、数据视图、范围漫游等特性极大地增强了用户体验,赋予用户挖掘和集成数据的能力。它具有Mashup图、拖放计算、数据视图制作、动态类型切换、图例切换、数据区域选择、范围漫游、多维堆栈等功能。

    在Excel中可以选择大量的公式和函数。Microsoft Excel可用于执行计算、分析信息以及管理电子表格或网页中的数据信息列表和数据图表。它可以实现许多方便的功能,给用户带来方便。事实上,Excel可以完全满足日常工作中图表制作和数据可视化的需要。因此,要进入大数据产业,学习Excel是基础。

    二。机器学习

    机器学习的基础包括聚类、时间序列、推荐系统、回归分析、文本挖掘、决策树、支持向量机、贝叶斯分类和神经网络。这些基本知识仅仅通过听名字是无法理解的,但如果你掌握了统计和概率的基本知识,你就可以很容易地掌握这些不可理解的名词。因此,有必要对机器学习前的统计和概率进行研究。

    在完成统计学和概率学的基础研究之后,你可以选择一个或两个机器学习工具进行实践。百度的谷歌和百度脑的张量是优秀的机器学习框架。

    三。算法

    对于程序员来说,该算法并不太奇怪,首先,我们需要了解什么是数据结构,包括堆栈、队列、链表、哈希表、二叉树、红黑树、B树。然后,我们需要学习常见的算法,包括排序(插入排序、桶排序、堆排序、快速排序)、最大子阵列、最长公共子序列、最短路径和矩阵存储操作。

    最后,掌握常用的数据分析和挖掘软件,如Matlab、SPSS和SAS等。

    查看更多文章:

    没有基础想学大数据难吗?

    大数据入门学习,你要掌握这些技能

    大数据领域三个大的技术方向

    自学大数据从哪入手

    大数据专业未来就业前景如何?

    教你大数据必修三大技能 ,快快记录下来

    展开全文
  • 本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。 前言: 一、背景介绍 二、大数据介绍 正文: 一、...

    申明:

    本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。


    前言:

    • 一、背景介绍 

    • 二、大数据介绍

    正文:

    • 一、大数据相关的工作介绍

    • 二、大数据工程师的技能要求

    • 三、大数据学习规划

    • 四、持续学习资源推荐(书籍,博客,网站)

    • 五、项目案例分析(批处理+实时处理)


    前言

    一、背景介绍

    本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。

    二、大数据介绍

    大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。

    针对以上主要的4个特征我们需要考虑以下问题:

    1. 数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具。

    2. 数据采集之后,该如何存储?,对应出现了GFS,HDFS,TFS等分布式文件存储系统。

    3. 由于数据增长速度快,数据存储就必须可以水平扩展。

    4. 数据存储之后,该如何通过运算快速转化成一致的格式,该如何快速运算出自己想要的结果?

      对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很大,所以出现了Hive,Pig等将SQL转化成MapReduce的解析引擎;

      普通的MapReduce处理数据只能一批一批地处理,时间延迟太长,为了实现每输入一条数据就能得到结果,于是出现了Storm/JStorm这样的低时延的流式计算框架;

      但是如果同时需要批处理和流处理,按照如上就得搭两个集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出现了Spark这样的一站式的计算框架,既可以进行批处理,又可以进行流处理(实质上是微批处理)。

    5. 想成为云计算大数据Spark高手,看这里!戳我阅读

      年薪50W的Java程序员转大数据学习路线戳我阅读

      大数据人工智能发展趋势与前景  戳我阅读

      最全最新的大数据系统交流路径!!戳我阅读

      2019最新!大数据工程师就业薪资,让人惊艳!戳我阅读

    6. 而后Lambda架构,Kappa架构的出现,又提供了一种业务处理的通用架构。

    7. 为了提高工作效率,加快运速度,出现了一些辅助工具:

      • Ozzie,azkaban:定时任务调度的工具。

      • Hue,Zepplin:图形化任务执行管理,结果查看工具。

      • Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。

      • Python语言:编写一些脚本时会用到。

      • Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。

    以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍,知道了他们为什么而出现或者说出现是为了解决什么问题,进行学习的时候就有的放矢了。

    正文

    一、大数据相关工作介绍

    大数据方向的工作目前主要分为三个主要方向:

    1. 大数据工程师

    2. 数据分析师

    3. 大数据科学家

    4. 其他(数据挖掘等)

    二、大数据工程师的技能要求

    附上大数据工程师技能图:

     

    必须掌握的技能11条

    1. Java高级(虚拟机、并发)

    2. Linux 基本操作

    3. Hadoop(HDFS+MapReduce+Yarn )

    4. HBase(JavaAPI操作+Phoenix )

    5. Hive(Hql基本操作和原理理解)

    6. Kafka 

    7. Storm/JStorm

    8. Scala

    9. Python

    10. Spark (Core+sparksql+Spark streaming )

    11. 辅助小工具(Sqoop/Flume/Oozie/Hue等)

    高阶技能6条

    1. 机器学习算法以及mahout库加MLlib

    2. R语言

    3. Lambda 架构

    4. Kappa架构

    5. Kylin

    6. Alluxio

    三、学习路径

    假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;

    3个月会有(21*3+4*2*10)*3=423小时的学习时间。

    第一阶段(基础阶段)

    1)Linux学习(跟鸟哥学就ok了)—–20小时

    1. Linux操作系统介绍与安装。

    2. Linux常用命令。

    3. Linux常用软件安装。

    4. Linux网络。

    5. 防火墙。

    6. Shell编程等。

    官网:https://www.centos.org/download/ 
    中文社区:http://www.linuxidc.com/Linux/2017-09/146919.htm

    2)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时

    1. 掌握多线程。

    2. 掌握并发包下的队列。

    3. 了解JMS。

    4. 掌握JVM技术。

    5. 掌握反射和动态代理。

    官网:https://www.java.com/zh_CN/ 
    中文社区:http://www.java-cn.com/index.html

    3)Zookeeper学习(可以参照这篇博客进行学习:http://www.cnblogs.com/wuxl360/p/5817471.html)

    1. Zookeeper分布式协调服务介绍。

    2. Zookeeper集群的安装部署。

    3. Zookeeper数据结构、命令。

    4. Zookeeper的原理以及选举机制。

    官网:http://zookeeper.apache.org/ 
    中文社区:http://www.aboutyun.com/forum-149-1.html

    第二阶段(攻坚阶段)

    4)Hadoop (《Hadoop 权威指南》)—80小时

    1. HDFS

      • HDFS的概念和特性。

      • HDFS的shell操作。

      • HDFS的工作机制。

      • HDFS的Java应用开发。

    2. MapReduce

      • MapReduce程序运行流程解析。

      • MapTask并发数的决定机制。

      • MapReduce中的combiner组件应用。

      • MapReduce中的序列化框架及应用。

      • MapReduce中的排序。

      • MapReduce中的自定义分区实现。

      • MapReduce的shuffle机制。

      • MapReduce利用数据压缩进行优化。

      • MapReduce程序与YARN之间的关系。

      • MapReduce参数优化。

      • 运行WordCount示例程序。

      • 了解MapReduce内部的运行机制。 

    3. MapReduce的Java应用开发

    官网:http://hadoop.apache.org/ 
    中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/ 
    中文社区:http://www.aboutyun.com/forum-143-1.html

    5)Hive(《Hive开发指南》)–20小时

    1. Hive 基本概念

      • Hive 应用场景。

      • Hive 与hadoop的关系。

      • Hive 与传统数据库对比。

      • Hive 的数据存储机制。

    2. Hive 基本操作

      • Hive 中的DDL操作。

      • 在Hive 中如何实现高效的JOIN查询。

      • Hive 的内置函数应用。

      • Hive shell的高级使用方式。

      • Hive 常用参数配置。

      • Hive 自定义函数和Transform的使用技巧。

      • Hive UDF/UDAF开发实例。

    3. Hive 执行过程分析及优化策略

    官网:https://hive.apache.org/ 
    中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html 
    中文社区:http://www.aboutyun.com/thread-7598-1-1.html

    6)HBase(《HBase权威指南》)—20小时

    1. hbase简介。

    2. habse安装。

    3. hbase数据模型。

    4. hbase命令。

    5. hbase开发。

    6. hbase原理。

    官网:http://hbase.apache.org/ 
    中文文档:http://abloz.com/hbase/book.html 
    中文社区:http://www.aboutyun.com/forum-142-1.html

    7)Scala(《快学Scala》)–20小时

    1. Scala概述。

    2. Scala编译器安装。

    3. Scala基础。

    4. 数组、映射、元组、集合。

    5. 类、对象、继承、特质。

    6. 模式匹配和样例类。

    7. 了解Scala Actor并发编程。

    8. 理解Akka。

    9. 理解Scala高阶函数。

    10. 理解Scala隐式转换。

    官网:http://www.scala-lang.org/ 
    初级中文教程:http://www.runoob.com/scala/scala-tutorial.html

    8)Spark (《Spark 权威指南》)—60小时

    1. Spark core

      • Spark概述。

      • Spark集群安装。

      • 执行第一个Spark案例程序(求PI)。

    2. RDD

      • RDD概述。

      • 创建RDD。

      • RDD编程API(Transformation 和 Action Operations)。

      • RDD的依赖关系

      • RDD的缓存

      • DAG(有向无环图)

    3. Spark SQL and DataFrame/DataSet

      • Spark SQL概述。

      • DataFrames。

      • DataFrame常用操作。

      • 编写Spark SQL查询程序。

    4. Spark Streaming

    5.  

      • park Streaming概述。

      • 理解DStream。

      • DStream相关操作(Transformations 和 Output Operations)。

    6. Structured Streaming

    7. 其他(MLlib and GraphX )

    这个部分一般工作中如果不是数据挖掘,机器学习一般用不到,可以等到需要用到的时候再深入学习。

     

    9)Python (推荐廖雪峰的博客—30小时

    10)自己用虚拟机搭建一个集群,把所有工具都装上,自己开发一个小demo —30小时

    展开全文
  • "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 1、 数据体量巨大。从TB级别,跃升到PB级别。 2、 数据类型繁多,涉及网络日志、...
  • 大数据学习路径中会学习并实践 Java、Scala、Hadoop、HBase、Mahout、Sqoop及Spark等大数据技术,本路径通过大量的动手实验,在实验数据集上实践各种大数据工具,帮助你成长为具备动手能力的大数据工程师。...
  • 中级大数据工程师学习必备 高级大数据研发工程师学习必备
  • 大数据工程师学习计划

    千次阅读 2019-08-10 21:34:09
    申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。 前言 一、背景介绍 本人目前是一名大数据工程师,项目数据...
  • 大数据工程师学习路线

    千次阅读 2016-08-19 15:13:33
    大数据工程师学习路线
  • 前言: 实验楼上有10+条技术学习路径,对于想要系统入门该技术的小伙伴来...【大数据工程师学习路径中会学习并实践 Java、Scala、Hadoop、HBase、Mahout、Sqoop及Spark等大数据技术,本路径通过大量的动手实验,在...
  • 淘宝上买的全套学习视频,这是1----10包括:以下 01.第一阶段 虚拟机与Linux基础 02.第二阶段 自动化部署高级文本命令 03.第三阶段 集群部署zookeeper 04.第四阶段 并发动态大数据基础机制 05.第五阶段 rpc高性能框架...
  • 大数据工程师学习路线图,涉及基础知识,语言基础,工具,前端数据库,应用和图形化及项目实践所需知识概要
  • 已经成为一名大数据工程师了,想把相应的经验传授给后来人,大家共同学习。 先说一下简单的,后续更新。 学习过程中的要点: 1.要有很强的学习兴趣和长久的坚持。 2.有一定的计算机基础,不建议零基础 3.找一份初级...
  • 大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff...
  • 大数据工程师学习指南

    千人学习 2018-05-21 16:16:13
    大数据学习视频教程,该课程主要讲解大数据的知识体系、知识范围、学习路径、发展前景、学习方法等内容。授人以鱼不如授人以渔,掌握方法,即可事半功倍。
  • 大数据在如今的互联网IT行业是非常具有发展前景的,如果想成为一名合格的大数据工程师,那么首先就要扎实的基础和技术,下面小编为大家整理的大数据工程师需要掌握的知识点,希望能够帮助到大家。  大数据工程师...
  • 大数据是当时时代下一门炙热的IT学科,行情十分火爆,不论是阿里巴巴、百度这样的大公司,还是中小企业都很重视,...下面大数据工程师就带着大家一起来了解一下吧。 大数据是未来的发展方向,正在挑战我们的分析...
  • 如何成为大数据工程师 由于目前大数据人才匮乏,由于18年是各个大学第一年开设大数据专业,所以暂时也没有相关专业的大数据专业人才投入到社会中。对于公司来说,很难招聘到合适的人才。 阿里巴巴曾经举办了...
  • 31.第三十一阶段 sparkSQL 32.第三十二阶段 spark Streaming 33.第三十三阶段 游戏项目 34.第三十四阶段 游戏项目 35.第三十五阶段 spark源码 36.第三十六阶段 spark流程 ...39.第三十九阶段 机器学习
  • 大数据工程师学习路线图

    千次阅读 2019-01-09 17:00:53
    大数据什么?  每个企业每天都会生成数据,数据量根据企业业务的复杂度而变化。如果业务量大,我们可以很容易地使用常用的软件工具来管理,但是如果业务体系庞大,那么就将这些数据合理归档整合。这就是我们称之...
  • 11.第十一阶段 高可用集群hive 12.第十二阶段 辅助系统 13.第十三阶段 sqoop数据流分析项目 14.第十四阶段 京东订单分析项目 15.第十五阶段 推荐系统-移动流量 16.第十六阶段 hbase 17.第十七阶段 云计算项目 ...
  • 21.第二十一阶段 redis 22.第二十二阶段 日志监控 23.第二十三阶段 日志分析项目 24.第二十四阶段 广告推荐系统 25.第二十五阶段 scala函数式编程 26.第二十六阶段 scala函数式编程 27.第二十七阶段 akka ...
  • 大数据工程师需要掌握哪些知识?

    千次阅读 2019-05-05 17:36:57
    IT行业中Java语言是基础需要打牢,除此之外还要掌握其他的技能,大数据之所以被称为大数据,是因为这些海量数据的数量级已经达到...作为一名大数据工程师需要掌握哪些知识?我们一起来看一下。 对大数据以及人工智能...
  • 大数据工程师技能图谱大数据通用处理平台分布式数据存储资源调度数据分析/数据仓库消息队列日志收集流式计算编程语言机器学习库Hadoop家族必备技能Java高级Linux 基本操作HadoopHBaseHiveKafkaStorm/...
  • 大数据语言的知识框架体系图,希望能够帮助初学者有个学习大数据语言的路线和支持
  • 课程说明 列 内容 课程类型 视屏课程 内容类型 ...大数据工程师学习指南 地址 https://edu.csdn.net/course/detail/8215 时长 60 费用 免费 重点内容摘抄 课程内容再述 学习心得 ...
  • 大数据工程师培训课程有哪些?目前大数据基础课程需要学习Web标准化网页制作,必备的HTML标记和属性、HTML表格、表单的设计与制作、学习CSS、丰富HTML网页的样式、通过CSS布局和定位的学习、让HTML页面布局更加美观、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 71,104
精华内容 28,441
关键字:

大数据工程师需要学什么