大数据学习线路 - CSDN
精华内容
参与话题
  • 大数据学习路线(完整详细版)

    万次阅读 2019-01-22 11:46:07
    java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper...机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,spark,spark core,...

     

    java(Java se,javaweb)

    Linux(shell,高并发架构,lucene,solr)

    Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

    机器学习(R,mahout)

    Storm(Storm,kafka,redis)

    Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

    Python(python,spark python)

    云计算平台(docker,kvm,openstack)

    名词解释

    对于小白学习大数据需要注意的点有很多,但无论如何,既然你选择了进入大数据行业,那么便只顾风雨兼程。正所谓不忘初心、方得始终,学习大数据你最需要的还是一颗持之以恒的心。

    一、Linux

    lucene: 全文检索引擎的架构

     

    solr: 基于lucene的全文搜索服务器,实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面。

     


    今天为大家整理了部分大数据学习教程与大家共享,每个人可以根据自己的需要来选择,需要的小伙伴可以+下学习资料分享裙 199加上427最后是210数字连起来就是了。
     

    二、Hadoop

    HDFS: 分布式存储系统,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。

    yarn: 可以理解为MapReduce的协调机制,本质就是Hadoop的处理分析机制,分为ResourceManager NodeManager。

    MapReduce: 软件框架,编写程序。

    Hive: 数据仓库 可以用SQL查询,可以运行Map/Reduce程序。用来计算趋势或者网站日志,不应用于实时查询,需要很长时间返回结果。

    HBase: 数据库。非常适合用来做大数据的实时查询。Facebook用Hbase存储消息数据并进行消息实时的分析

    ZooKeeper: 针对大型分布式的可靠性协调系统。Hadoop的分布式同步等靠Zookeeper实现,例如多个NameNode,active standby切换。

    Sqoop: 数据库相互转移,关系型数据库和HDFS相互转移

    Mahout: 可扩展的机器学习和数据挖掘库。用来做推荐挖掘,聚集,分类,频繁项集挖掘。

    Chukwa: 开源收集系统,监视大型分布式系统,建立在HDFS和Map/Reduce框架之上。显示、监视、分析结果。

    Ambari: 用于配置、管理和监视Hadoop集群,基于Web,界面友好。

    二、Cloudera

    Cloudera Manager: 管理 监控 诊断 集成

    Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera对Hadoop做了相应的改变,发行版本称为CDH。

    Cloudera Flume: 日志收集系统,支持在日志系统中定制各类数据发送方,用来收集数据。

    Cloudera Impala: 对存储在Apache Hadoop的HDFS,HBase的数据提供直接查询互动的SQL。

    Cloudera hue: web管理器,包括hue ui,hui server,hui db。hue提供所有CDH组件的shell界面的接口,可以在hue编写mr。

    三、机器学习/R

    R: 用于统计分析、绘图的语言和操作环境,目前有Hadoop-R

    mahout: 提供可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘等,且可通过Hadoop扩展到云中。

    四、storm

    Storm: 分布式,容错的实时流式计算系统,可以用作实时分析,在线机器学习,信息流处理,连续性计算,分布式RPC,实时处理消息并更新数据库。

    Kafka: 高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据(浏览,搜索等)。相对Hadoop的日志数据和离线分析,可以实现实时处理。目前通过Hadoop的并行加载机制来统一线上和离线的消息处理

    Redis: 由c语言编写,支持网络、可基于内存亦可持久化的日志型、key-value型数据库。

    五、Spark

    Scala: 一种类似java的完全面向对象的编程语言。

    jblas: 一个快速的线性代数库(JAVA)。基于BLAS与LAPACK,矩阵计算实际的行业标准,并使用先进的基础设施等所有的计算程序的ATLAS艺术的实现,使其非常快。

    Spark: Spark是在Scala语言中实现的类似于Hadoop MapReduce的通用并行框架,除了Hadoop MapReduce所具有的优点,但不同于MapReduce的是job中间输出结果可以保存在内存中,从而不需要读写HDFS,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的MapReduce算法。可以和Hadoop文件系统并行运作,用过Mesos的第三方集群框架可以支持此行为。

    Spark SQL: 作为Apache Spark大数据框架的一部分,可用于结构化数据处理并可以执行类似SQL的Spark数据查询

    Spark Streaming:一种构建在Spark上的实时计算框架,扩展了Spark处理大数据流式数据的能力。

    Spark MLlib: MLlib是Spark是常用的机器学习算法的实现库,目前(2014.05)支持二元分类,回归,聚类以及协同过滤。同时也包括一个底层的梯度下降优化基础算法。MLlib以来jblas线性代数库,jblas本身以来远程的Fortran程序。

    Spark GraphX: GraphX是Spark中用于图和图并行计算的API,可以在Spark之上提供一站式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。

    Fortran: 最早出现的计算机高级程序设计语言,广泛应用于科学和工程计算领域。

    BLAS: 基础线性代数子程序库,拥有大量已经编写好的关于线性代数运算的程序。

    LAPACK: 著名的公开软件,包含了求解科学与工程计算中最常见的数值线性代数问题,如求解线性方程组、线性最小二乘问题、特征值问题和奇异值问题等。

    ATLAS: BLAS线性算法库的优化版本。

    Spark Python: Spark是由scala语言编写的,但是为了推广和兼容,提供了java和python接口。

    六、Python

    Python: 一种面向对象的、解释型计算机程序设计语言。

    七、云计算平台

    Docker: 开源的应用容器引擎

    kvm: (Keyboard Video Mouse)

    openstack:  开源的云计算管理平台项目



     

    展开全文
  • 计算机小白大数据学习线路

    千次阅读 2018-08-31 14:33:17
    人们常说毕业三五年后就可以看出一个人的未来。工作三五年后有人月收入过万,开始在老家买房;...近几年,大数据不仅被纳入谷歌、阿里巴巴等互联网公司的战略规划中,同时也在我国和其他国家的政府报...

            人们常说毕业三五年后就可以看出一个人的未来。工作三五年后有人月收入过万,开始在老家买房;有人零存款,继续每天租房的生活。不是后者不拼搏,只是入错了行而已。现在有一个行业“薪”机炸裂,可以迅速帮你“脱贫”,你会抓住这个机会吗?没错,我们说的就是大数据行业。

      首先,来看看大数据有多火吧。近几年,大数据不仅被纳入谷歌、阿里巴巴等互联网公司的战略规划中,同时也在我国和其他国家的政府报告中多次被提及,大数据无疑成为当今互联网世界的新宠儿。亚马逊凭借数据服务支撑着庞大的电商帝国,美国政府从大数据中找到蛛丝马迹逮住了本拉登,微信上人们乐此不疲的性格测试,婚恋配对也是大数据的应用。大数据是新兴行业,人才需求火爆。智联、BOSS直聘上大数据人才的薪资都在20K左右,北京拥有3~5年工作经验的大数据开发人员平均薪资都在30K。

     接下来,我们来看看你可以通过哪些渠道学习大数据。大数据行业远超一般行业的超高薪水让很多人眼馋不已,跃跃欲试。有人问:我只有一点点编程基础,可以学习大数据吗?也有人问,我是零基础,学习大数据学得会吗?学习大数据无非两种方式,要么自学,要么报名培训班老师带着一起学。学习大数据,还是需要不断地不耻下问,甚至要系统地学习,做一些企业的项目,然后进行一些动手实操,你才算真正掌握大数据。

      这里奉上一份完整的大数据学习线路图。

    严格说来,学习大数据首先要对大数据的发展趋势和应用有所了解。然后你需要掌握一门计算机的编程语言。对于零基础的朋友,一开始入门可能不会太简单。目前大多数IT培训机构都会教Java,我们都知道Java是目前使用很广泛的网络编程语言之一,它容易学而且很好用。学完了编程语言之后,就可以进行大数据部分的课程学习了。大数据课程,包数据分析、数据存储、数据计算、数据展现、数据上线等部分,Linux、Hadoop、Scala、HBase、Hive、 Spark等都必须熟练掌握。这些内容靠自学也可以,但要入职企业,进行一些实际项目的操作练手是十分必要的。

    展开全文
  • 最新大数据技术学习路线完整教程视频教程下载。时下引领着技术变革的非“大数据”莫属,本课程带你从0基础开始上手,让你全面掌握Hadoop开发的核心技能:Linux、Hadoop、Zookeeper、Hive、Sqoop、Flume、Oozie、...

    最新大数据技术学习路线完整教程视频教程下载。时下引领着技术变革的非“大数据”莫属,本课程带你从0基础开始上手,让你全面掌握Hadoop开发的核心技能:Linux、Hadoop、Zookeeper、Hive、Sqoop、Flume、Oozie、HBase、Kafka的搭建及框架的应用,了解最火爆最前沿的大数据技术发展趋势,快速入门大数据!

    2018最新大数据技术学习路线完整教程

     

    大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。大数据入门,需要学习以下这些知识点:

    先附上一张自己总结的学习线路图

     

    互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群:199加上【427】最后加上210就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入。
     

     

     

    1、Java编程技术

     

    Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,因此,想学好大数据,掌握Java基础是必不可少的。

    2、Linux命令

     

    对于大数据开发通常是在Linux环境下进行的,相比Linux操作系统,Windows操作系统是封闭的操作系统,开源的大数据软件很受限制,因此,想从事大数据开发相关工作,还需掌握Linux基础操作命令。

    3、Hadoop

     

    Hadoop是大数据开发的重要框架,其核心是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,因此,需要重点掌握,除此之外,还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作!

    4、Hive

     

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。

    5、Avro与Protobuf

     

    Avro与Protobuf均是数据序列化系统,可以提供丰富的数据结构类型,十分适合做数据存储,还可进行不同语言之间相互通信的数据交换格式,学习大数据,需掌握其具体用法。

    6、ZooKeeper

     

    ZooKeeper是Hadoop和Hbase的重要组件,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组件服务等,在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。

    7、HBase

     

    HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,更适合于非结构化数据存储的数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。

    8、phoenix

     

    phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎,其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性,大数据开发需掌握其原理和使用方法。

    9、Redis

     

    Redis是一个key-value存储系统,其出现很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客户端,使用很方便,大数据开发需掌握Redis的安装、配置及相关使用方法。

    10、Flume

     

    Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。

    11、SSM

     

    SSM框架是由Spring、SpringMVC、MyBatis三个开源框架整合而成,常作为数据源较简单的web项目的框架。大数据开发需分别掌握Spring、SpringMVC、MyBatis三种框架的同时,再使用SSM进行整合操作。

    12、Kafka

     

    Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现。

    13、Scala

     

    Scala是一门多范式的编程语言,大数据开发重要框架Spark是采用Scala语言设计的,想要学好Spark框架,拥有Scala基础是必不可少的,因此,大数据开发需掌握Scala编程基础知识!

    14、Spark

     

    Spark是专为大规模数据处理而设计的快速通用的计算引擎,其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求,大数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。

    15、Azkaban

     

    Azkaban是一个批量工作流任务调度器,可用于在一个工作流内以一个特定的顺序运行一组工作和流程,可以利用Azkaban来完成大数据的任务调度,大数据开发需掌握Azkaban的相关配置及语法规则。

    16、Python与数据分析

     

    Python是面向对象的编程语言,拥有丰富的库,使用简单,应用广泛,在大数据领域也有所应用,主要可用于数据采集、数据分析以及数据可视化等,因此,大数据开发需学习一定的Python知识。

    展开全文
  • 大数据教程,大数据学习线路

    千次阅读 多人点赞 2018-09-21 15:51:19
    很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。 马云 深度解析大数据大数据”是近年来IT行业的热词,并广泛的应用在各行各业。特别是近年来随着社交网络...

    前言先引用一下马云大大的话:

    很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。 马云

    深度解析大数据

    “大数据”是近年来IT行业的热词,并广泛的应用在各行各业。特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用,以数量庞大,种类众多,时效性强为特征的非结构化的数据不断涌现,数据的重要性愈发凸显,传统的数据存储、分析技术难以实时处理大量的非结构化信息,大数据的概念应运而生。

    大数据就是互联网发展到现今阶段的一种表象或特征,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

    大数据前景

    国家政策支持

    国务院日前印发《促进大数据发展行动纲要》,总理在致辞中说,当今世界,信息化浪潮席卷全球,大数据、云计算、物联网等蓬勃发展,使互联网时代迈上一个新台阶。今天的中国要把握住世界科技革命的历史机遇。

    岗位需求越来越多

    随着企业越来越重视大数据的利用,近几年间大数据人才缺口就已高达百万,目前企业都难以找到足够的大数据开发人才,大数据从业者的增长量,远远满足不了市场需求的扩张,大数据人才需求将出现“井喷”现象。

    咱们来看看智联上的岗位:

     

    无论专科还是本科,拥有1到3年工作经验,都可以找到薪资10k-15k的工作!这么多的企业在招聘,真的不怕找不到工作的哈。

     

    这只是工作1到3年的薪资,工作时间越长,经验越多,薪资越可观!

    说到了岗位,肯定有小伙伴们想学习,但是苦于找不到资料,昨天小编整理了一下大数据的资料,拿来分享给大家!

    大数据学习线路图:

    1、云计算大数据linux教程

    作为一个程序员,一定要学会linux,你的程序最终是跑在Linux服务器上的吆

    云计算大数据linux教程

    http://yun.itheima.com/course/358.html?zzj

    链接:https://pan.baidu.com/s/15StHwJaSiw-emT5bI59jcw 密码:gzni

    2、Java基础

    学习大数据,一定要有java基础,这十天的教程内容,完全可以让你入门!

     

    Java编程轻松入门教程

    视频http://yun.itheima.com/course/269.html?stt

    链接:https://pan.baidu.com/s/1o9yLBsu 密码:wwd0

    3、云计算大数据之zookeeper教程
    zookeeper可是Hadoop和Hbase的重要组件,集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。

    云计算大数据之zookeeper教程

    http://yun.itheima.com/course/359.html?zzj

    链接:https://pan.baidu.com/s/1wNp5QlqxfknI3p6vywxUhw 密码:ujd6

    4、云计算大数据Hive教程

    云计算大数据Hive教程

    http://yun.itheima.com/course/365.html?stt

    资料链接:https://pan.baidu.com/s/1PcZny-iLuVJdqlNGdi0zKw 密码:tm6o

    5、大数据hadoop教程入门

    这个可是重磅资源,学会hadoop,你的身价会倍增,现在一个hadoop工程师身价可在20k左右。

    大数据hadoop教程入门

    视频https://pan.baidu.com/s/1brllQlL

    资料链接:https://pan.baidu.com/s/1smCTwRj 密码:vp5v

    展开全文
  • 大数据学习路线图

    万次阅读 多人点赞 2018-04-17 10:59:17
    一、入门准备 1、linux操作基础 1) Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程 2) Linux的常用命令:常用命令的介绍、常用命令的使用和练习(文件操作、用户管理与权限...
  • 大数据学习路线 java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,...
  • 完整的大数据知识体系,大数据学习路线图

    千次阅读 多人点赞 2019-01-17 11:26:49
    大数据所需学习的内容纷繁复杂,难度较大,有一个合理的大数据学习路线图帮忙理清思路就显得尤为必要。  一、Java语言以java语言为基础掌握面向对象编程思想所涉及的知识,以及该知识在面向对象编程思想中的应用,...
  • 大数据学习线路

    2018-08-11 22:51:05
    参考: https://www.jianshu.com/p/c8382065bd2b  
  • 大数据学习路线及各阶段学习书籍推荐! 阶段一、大数据基础——java语言基础方面 (1)Java语言基础 Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理...
  • 自学大数据者请进:大数据学习线路及各阶段学习书籍、视频推荐 (1)Java语言基础 Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O...
  • 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及...
  • 大数据学习路线

    2018-01-10 09:15:38
    大数据学习路线 1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; ...
  • Java大数据学习路线图 ‘ ’ 准备篇 适用/适合人群:适合基础小白 目标:掌握JavaSE。 ●技术点小节: 1.开发工具的安装配置的介绍 2.JDK安装 3.DOS环境编程 4.Eclipse的安装使用 ●JAVA基础 1.基本的...
  • 自学大数据者请进:大数据学习线路及各阶段学习书籍、视频推荐 (1)Java语言基础 Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与...
1 2 3 4 5 ... 20
收藏数 4,466
精华内容 1,786
热门标签
关键字:

大数据学习线路