精华内容
下载资源
问答
  • 更多相关内容
  • 学习大数据的笔记,涉及工作中遇到的各种场景以及解决方案等。会对初步学习大数据入门的同事会有帮助。同时还有一些pathon、操作系统基本知识
  • 大数据学习路线图、大数据所有技术汇总 大数据采集、迁移 大数据存储、数据仓库、搜索引擎 离线大数据、实时大数据 大数据应用 大数据服务器集群部署与监控、资源调度管理、高可用 大数据中间件
  • 大数据学习资料.zip

    2020-06-10 11:53:14
    大数据学习资源课件,来源于第三届大学生大数据竞赛培训,理论加实战,简单操作,快速入门。 内容详实,例子鲜明,还有具体指令操作,便于大数据入门。
  • 大数据学习路线知识图谱,hadoop、spark、流式计算学习
  • 1.简单介绍了大数据及其框架 2.Linux系统安装及环境准备 3.Linux系统克隆及常用命令 4.Linux系统的软件安装方式介绍 5.VM虚拟机下安装Centos 6.部署hadoop(独立模式) 7.伪分布模式 8.全分布模式 9.一键启动脚本...
  • 大数据学习路径思维导图
  • 大数据学习文档.zip

    2020-01-05 23:43:17
    大数据学习文档,其中包含有,MR,hive,sqoop,zk,flume,等等,恰同学少年,风华正茂,挥斥方遒。
  • 大数据学习资料

    2018-03-25 10:15:54
    大数据学习资料里面包含了:_数据挖掘原理.pdf、数据挖掘:概念与技术(原书第3版).pdf、数据挖掘导论(完整版).pdf等
  • 大数据学习指南,从零开始学习大数据开发,包含大数据学习各个阶段资费汇总 概述 1. 2. 大数据学习路线 学习路线中的视频,文档资料可以关注公众号:旧时光大数据,回复相应关键字获取云盘链接 基础部分 一,编程...
  • 大数据学习文档

    2017-11-28 20:01:13
    该文档积累了大量的大数据方面的知识,满足于初学者的需求,提升个人能力很有帮助
  • 大数据学习 演讲人 2020-09-15 大数据学习全文共108页,当前为第1页。 01 大数据概述 03 技术体系 02 大数据应用 04 大数据技术点 目录 大数据学习全文共108页,当前为第2页。 01 大数据概述 大数据学习全文共108页...
  • 描述了大量再大数据学习中的问题集合,大数据课程学习实验报告,如编译Hadoop出现Failed to find a viable JVM installation under JAVA_HOME
  • 这是本人部分大数据学习笔记,共享给需要学习的朋友。目前也在学习中,会一直增加和完善这个文档
  • 大数据学习

    2018-02-23 11:04:16
    新人小白学习大数据的入门文档,内容详细,步骤清晰。
  • 大数据学习路线图

    2017-10-09 18:18:02
    大数据学习路线图权威指导,立马收藏吧,一图就够了,
  • 云计算与大数据学习报告 云计算与大数据学习报告 云计算与大数据学习报告 大数据与云计算学习报告 题目:谈谈对大数据与云计算技术的理解,及这两项技术对商业活动社会进步带来哪些影响 首先我想简单谈谈何为云计算,...
  • 尚硅谷联合多家企业,根据用人需求定制的2018最新大数据学习路线图。前阵子内测时,获得学习者和业内人士暴风骤雨般好评!大家可以保存自用,也可以转发给小伙伴、技术群。2018,共同提高,共同进步!升职加薪,路...
  • 2021最全大数据学习路线(建议收藏)

    万次阅读 多人点赞 2021-05-12 21:24:05
    大数据是未来的趋势,在数字化转型时代,把握大数据是关键的!

    个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师!

    我可以给你提供最全的【大数据学习路线】;帮助你搭建大数据知识体系,从入门到精通;亲自指导你大数据工程师面试的简历该如何撰写!

    前言

    本文针对非科班生转行大数据所遇到的问题,提出一些切实的建议,以免小伙伴在学习过程中走弯路。

    我依据自己转行所走过的一些弯路,总结了我自己大数据学习的详细路线,推荐一些我看过的大数据课程以及技术书籍,帮助各位小伙伴做一个资源筛选。

    我能够理解每一位即将转行和正在转行的小伙伴,你们可能焦虑自己是否能够学好这么多的大数据知识,也可能正在担心35岁后的自己该怎么办?

    曾经的我,也曾陷入同样的焦虑和迷茫情绪。这些情绪完全是由于自己在学习过程中,你所期望的高度和自己目前所处的高度的落差所导致的,都是正常的情绪。

    但是我觉得我们也不要过于担忧,因为未来总是不可预测的,谁也不知道35岁以后的我们会做什么,我们不要过早的杞人忧天,也不要过早的限制自己,我们现在所选择的工作,未来不一定就得干到老。

    所以,当前我们应该要先沉淀自己,打造自己在未来的核心竞争力,先攒到自己的第一桶金才是王道,有资本了,就有更多的选择和更大的可能。

    1大数据发展前景

    我根据我国发布的《第十四个五年规划和2035年远景目标纲要》,带大家看看以下一个指标。

    创新驱动这个类别中,数字核心产业增加值占GDP比重要从2020年的7.8%,到2025年要增加到10%。这个概念大家可能还不是很敏感,跟着小林继续看下面另一张图。

    经济社会发展主要指标

    我国在大力发展的数字经济核心重点产业中,其中包括大数据领域,如下图所示。政府大力推动大数据领域技术发展创新,实现数字化转型,大数据在未来有较大的发展潜力!

    数字经济重点产业

    2020年是我国5G的元年,国家在大力建设 5G 的基础设施。2021年,5G手机可能会逐渐增长,将会是大数据爆发的1年。5G网络所产生的数据速率:每秒 10G 的数据量,这会使得各个公司的数据量爆发式增长。

    此外,我国第一批大数据专业在2017年开设,2021年第一批大数据专业学生才毕业。因此,大数据领域人才紧缺,需要大量的数据研发、数据分析以及数据挖掘工程师。

    2学习路线总论

    未来想在互联网发展,应该怎么学?就大数据方向来说,我个人认为主要有三个方面:

    第一,计算机基础知识是不可或缺的,如果你拥有扎实的基础知识,在遇到问题时可以快速认识到问题的本质,从而解决问题。我至今在不断在加强自己计算机基础知识的学习;

    第二,大数据框架的技术原理,对于重点框架要重视企业级调优以及源码的学习。

    第三,项目实战。学习了大量的技术需要结合项目场景去应用,才能加深你对技术的理解。

    大数据是一个进可攻、退可守的方向

    进可以往人工智能方向发展,但是需要非常扎实的数学知识。

    我非常赞同我导师曾经跟我说的一句话:“任何问题,最终都会归咎于数学问题”!因此较好的数学能力可以支撑你不断的挑战新的问题!

    退可以往大数据应用开发方向发展,但是需要丰富的框架使用和调优经验。

    2.1计算机基础

    • 精通一门语言:Java,C,C++,Python,Go,Scala,等等。(大数据建议选择 JavaScala或者Python)我自己学习的是Java语言,语言只是一门工具,无需太过纠结。
    • 数据结构与算法:链表,队列,堆,二叉树,排序,查找,贪心,回溯等。
    • 计算机网络与基础:OSI七层体系,常用的TCP/IP四层体系。
    • 操作系统:进程与线程,乐观锁与悲观锁,缓存一致性,CPU时间片调度。
    • 数学:高等数学,线性代数,概率论与数理统计。

    推荐数学是考虑到一些小伙伴要进一步往 AI 方向发展,而数学是机器学习的基石。你只有拥有了这些底层基础,才能支撑你走得更远!

    2.2大数据组件

    整个大数据知识体系学习需要花较长的时间,大数据框架也比较多,下图是我自学大数据的技术栈。我是依据目标企业的招聘要求,选择以下技术栈学习,还有其它的框架,可以视情况而定,选择要不要学。

    Java是基础工具,我个人是学完JavaSE,重点对集合、多线程以及JVM进行深入学习,JavaEE没有花时间学。如果你时间充裕,比如大二或者研一同学,可以深入学习JavaEE,再进行后续的学习也行。

    目前企业生产基本使用的是 Linux 系统,掌握 Linux 基本原理是未来必备技能。

    Hadoop 是分步式系统基础架构,主要解决海量数据的存储和海量数据分析计算问题,包含HDFS,MapReduce,Yarn 三个组件。其它框架在此不作介绍了。

    大数据重点技术栈

    针对一个技术框架如何学习,可以参照我下面这个视频!我总结了框架学习要按照阶段去学,循序渐近,而不是一蹴而就,急功近利会导致你技术学的不够深入不说,更重要的是浪费了你的时间。

    2.3项目实践

    大部分非科班同学都会遇到的痛点,在学校没有实际的项目。但是找工作的时候,简历上至少需要23个项目,并且要有12个亮点项目。比如在某个项目中,你遇到什么困难,采用什么技术解决的?做了哪些优化?

    关于项目这块,后面我有项目实战推荐!

    3学习资料推荐

    我自己作为一名非科班转型者,深知一份好的入门学习资料可以节约多少时间。因此,我对自己自学以来的历程,做了一下复盘,并且把我自己的学习路线以及自学的学习资料推荐给大家。

    希望能够给转行的小伙伴们一点参考。主要包含了计算机基础知识大数据框架学习、项目实战三个模块相关的入门视频和好的书籍推荐!

    建议零基础同学先学习Java语言基础语法,一个月左右便可以把JavaSE学完,后续找面经查漏补缺!

    之后搭建Linux虚拟机平台,为后续大数据框架学习作准备。

    因为我的时间比较紧急,不仅要完成导师布置的任务,还要挤出时间学习。所以,我的计算机基础知识是穿插在大数据框架学习中间,面试前重点刷了一些常见的面试题。以下是我刷的Java面试题博客链接。

    最全 Java 面试总结:
    https://blog.csdn.net/thinkwon/category_9731418.html

    3.1基础

    编程语言基础:Java基础是所有后续大数据学习的基石。我最开始是通过看书学习,看完后没有什么感觉,幸好之后找到了尚学堂高淇的300集,这个视频里把每一个知识点都讲的非常全面,也会有详细的案例。如果你是零基础,建议看视频入门,代码一定要自己敲一遍,切忌眼高手低!

    高淇三百集:
    https://www.bilibili.com/video/BV1oy4y1H7R6?p=16

    Java 推荐《Java编程思想》,有在线中文版

    此外,还有Scala语言,因为后续要学到 Spark、Flink等框架,这些框架采用Scala编程极为灵活,所以需要学习Scala的编程规范。关于Scala学习,推荐尚硅谷老师的视频。

    尚硅谷Scala语言入门:

    https://www.bilibili.com/video/BV1Xh411S7bP?p=50

    注意:在这个阶段,Scala 语言可以先不学,可以在学习 Spark 之前学习!


    数据结构与算法:强烈推荐左神的视频,他讲的内容基本上和企业面试相关,通俗易懂。我当时看的是一个在牛客网上讲视频:其中包括算法初级和进阶。在听这个视频前,最好去了解下基本的数据结构!可以从下面百度网盘中获取视频资料和课件!看完视频后,具备一定的基础了,可以把剑指offer刷完!

    数据结构与算法视频链接:

    https://pan.baidu.com/s/14bGK2Wva2MbyviIKjkhNNQ

    提取码:3ojw

    如果网盘链接失效,请添加我微信:a934614406,备注【左神算法】,我重新给你发一遍!


    计算机网络与基础:我当时看的是B站方老师讲解的视频,讲的比较全面透彻,而且时间也不是很长,总共42节,每节平均40分钟左右,一周左右便可以看完,针对非科班同学特别友好!要留大把时间给后面技术框架学习,听完视频,可以去搜一搜相关的面经,可以查漏补缺。

    方老师计算机网络链接:

    https://www.bilibili.com/video/BV1yE411G7Ma?p=23


    操作系统:操作系统知识比较多涉及到的内容也比较细,如果你的时间充裕,且不着急面试找工作的话,你可以去B站搜索哈工大李治军老师的课程,老师会用Linux内核代码得视角帮助你理解操作系统得原理。

    操作系统链接:

    https://www.bilibili.com/video/BV1d4411v7u7?from=search&seid=15412161143884682127

    如果你时间紧急,想直接应对面试,这里给你分享一份总结好的操作系统重点面试知识!

    请添加我微信:a934614406,备注【操作系统】,我给你发一份详细的操作系统面试知识!


    数学理论基础:大数据与人工智能结合,那么数学基础是不可或缺的。但是,数学是学不完的,也没有几个人像数学专业的同学或者博士那样精通数学,所以大家要认识到,入门 AI 只要掌握数学中的基础知识就好,主要包含:高等数学、线性代数、概率论与数理统计三门课程。这里为大家整理了三篇简易的数学入门文章:

    高等数学:https://zhuanlan.zhihu.com/p/36311622

    线性代数:https://zhuanlan.zhihu.com/p/36584206

    概率论与数理统计:https://zhuanlan.zhihu.com/p/36584335

    推荐笔记:《机器学习的数学基础》和《斯坦福大学机器学习的数学基础》

    链接:https://pan.baidu.com/s/1mEPLOurp57IZL9GNOwx2sw

    提取码:iihb

    如链接失效,请加我微信:a934614406,备注【数学基础】

    3.2大数据框架

    Linux:无论你做的是后端还是大数据,Linux已经成为企业筛选人才的一个标准。我极力推荐观看尚硅谷韩顺平老师的Linux入门视频教程,清华大学的学霸,课程逻辑清晰,讲解透彻。

    国内入门Linux课程几乎选择该门课程。这也是我学习印象最深刻的一门课,看完后,只能一句卧槽,居然还能讲的的这么清晰!

    尚硅谷韩顺平Linux链接:

    https://www.bilibili.com/video/av21303002

    可以结合《Linux就该这么学》这本术一起学习,加深对 Linux 理解!


    Hadoop(重点):Hadoop是大数据技术中最重要的框架之一,是学习大数据的第一课。

    目前,Hadoop已经从1.x版本发展到现在的3.x版本。Hadoop一共包含3个组件:分别是最强的分步式文件系统HDFS,海量数据并行计算框架MapReduce,流行的资源管理系统Yarn

    任何框架的学习,先搭建好环境,线上跑一个测试案例,之后再深入其原理。

    HDFS有伪分布式、完全分步式以及高可用架构模型,重点了解HA架构模型以及各个角色的职责。

    HDFS的架构模型主要包括以下角色:NamenodeActive、Standyby),DatanodeJournalNodeDFSZKFailoverControllerZKFC),SecondNamenode

    SecondNamenode应用较少,但还是要了解其工作机制。

    MapReduce的核心思想、详细工作流程,Shuffle机制也要重点掌握,面试会问。

    Yarn资源管理系统不仅适用于MapReduce计算框架,同时也会被用于Spark计算框架,所以它的工作机制也非常重要。

    我推荐大家学习尚硅谷的Hadoop教程,从原理到生产实践调优,再深入源码,非常透彻。

    尚硅谷Hadoop链接:

    https://www.bilibili.com/video/av21303002

    可以结合《Hadoop权威指南》第四版学习。

    如果对 Hadoop 源码感兴趣,可以参考《Hadoop技术内幕》(董西成)和《Hadoop2.x HDFS源码剖析》这两本书。


    ZooKeeperZooKeeper是一个分步式协调管理组件,主要的典型应用场景是数据发布/订阅、分步式协调/通知、集群管理等。

    你可以结合《从Paxos到ZooKeeper》这本书结合一起学,这本书不仅阐述了CAP理论,把ZooKeeper的核心原理讲的很透。小白可以从下面这个视频入门。

    尚硅谷ZooKeeper链接:

    https://space.bilibili.com/302417610/video?keyword=ZooKeeper

    注:视频仅作为初学者入门,要深入学习还需要看书和研究官方文档。


    HiveHive 是一款开源数据仓库工具,它可以将结构型数据映射成一张表,但其底层使用的是MapReduce,提供类SQL查询,一般称之为HQL

    初学者入门Hive,可以从视频开始,重点需要了解内部表与外部表的区别,以及分区分桶等。

    如果你要深入学习其内部原理及调优,可以去读一读《Hive编程指南》和Apache官方文档,对企业级的调优有详细的阐述。

    尚硅谷Hive链接:

    https://www.bilibili.com/video/BV1EZ4y1G7iL


    HBaseHBase是一个结构化数据的分步式存储系统,可扩展也支持海量数据存储的NoSQL数据库,是每一个大数据从业者应该要掌握的基本框架。重点要掌握其架构原理,各个角色职责,Compact流程和Region流程。下面是入门 HBase 的视频教程。

    尚硅谷HBase链接:

    https://www.bilibili.com/video/BV1Y4411B7jy

    注:可以结合《HBase权威指南》和《HBase实战中文版》两本书,加深对 HBase 的理解。


    Redis(重点!):Redis是一个开源的 key-value 存储系统,支持存储的 value 类型相对更多,并且支持各种不同方式的排序,为了保存效率,数据都是缓存在内存中。

    该组件无论是后端还是大数据,都是必会的一个框架。我学习一个新技术,先是通过视频入门,之后再去看相关书籍和官方文档,深入理解技术细节。

    Redis 推荐大家看尚硅谷周阳老师讲的,就是该课程有点老,很多新的特性可能无法了解。我贴出了两个Redis 课程入门学习链接:

    尚硅谷周阳老师Redis链接:

    https://www.bilibili.com/video/BV1oW411u75R

    2021最新入门到精通Redis链接:

    https://www.bilibili.com/video/BV1Rv41177Af?p=4

    推荐书籍:《Redis设计与实现》和《Redis 深度历险:核心原理与应用实践》


    Kafka(重点!): 作为高吞吐量的分步式发布订阅消息系统,Kafka 可以处理消费者规模的网站中所有动作流数据。

    这里建议:先了解 Kafka 是解决什么问题的而产生的,再了解其基本架构,最后深入理解核心实现原理。

    下面是 Kafka 入门视频链接:

    尚硅谷Kafka入门链接:

    https://www.bilibili.com/video/BV1a4411B7V9

    推荐书籍:首推《深入理解 Kafka:核心设计与实践原理》,想要深入了解 Kafka 源码的,你可以跟着《Apache Kafka 源码剖析》一起看,可以让你顿悟!


    Spark(重点!重点!重点!):Spark 支持了 StreamingSQLGraphXMLLib等应用。但相较于 Hadoop 中的 MapReduce 计算框架,Spark速度快10到100倍左右

    另外,计算过程中,如果某一节点出现问题,事件重演的代价远低于 MapReduceSpark SQL 可以对结构化数据进行处理

    Spark Streaming 主要用于实时流数据处理场景,支持多种数据源,DStreamSpark Streaming 的基础抽象

    Spark MLlib 提供了常见的机器学习功能的程序库,GraphX 主要用于图计算。下面是我为大家筛选的 Spark 入门学习链接,这个视频主要是基于Scala 2.12版本讲解,对最新的 Spark3.0作了详细的介绍,是一套小白入门学习的好资料。

    2021Spark 从入门到精通链接:

    https://www.bilibili.com/video/BV11A411L7CK

    注:学习 Spark 之前,一定要先学习 Scala 语言。在编程语言基础中,已经给出了 Scala 的详细学习推荐!

    推荐书籍:《learning Spark》、《深入理解Spark 核心思想与源码分析》


    Flink(重点!重点!重点!):Flink 是一个分步式处理引擎,用于对无界和有界数据流进行状态计算。Flink 计算具有快速、灵巧、结果准确以及良好的容错性等一系列优点,被广泛用于各行各业的流式数据场景。

    目前,国内形成以阿里为首的企业,腾讯,京东,滴滴,携程,美团等,都在使用 Flink框架。Flink 在大数据的流式计算占据着非常重要的地位,每一个大数据人都应该要掌握这门技术。

    Flink 给大家推荐的是尚硅谷武老师的课,清华毕业的武老师把技术知识点剖析得非常透彻,该课程主要包含两个模块:Flink 理论基础和基于 Flink 得电商用户行为分析项目实战。

    尚硅谷Flink链接:

    https://www.bilibili.com/video/BV1Qp4y1Y7YN

    推荐书籍:《Flink原理、实战与性能优化》

    数据挖掘和机器学习这部分内容,我目前还没有学习,等后续我学完后,再整理这部分内容给大家作个参考。

    3.3项目

    关于项目,这是咱们非科班同学在面试时最薄弱的一环。在学校,你几乎很难去做一个实实在在的落地项目,因为基本接触不到相关的项目。

    因此,我建议大家要提前计划实习,通过实习让自己获得项目经验。我是从研二上学期开始自学编程的,本科粗浅的学过一点 C++,算是有一点点基础。

    当时,我一边帮导师做自己专业相关的课题项目,一边学习大数据技术。下图是我自学时做的部分笔记。

    学习笔记

    如果你现在处在大二、研一这个阶段,你可以提前计划实习,在实习公司主动去了解一些相关的落地项目;但如果你即将面临找工作,并且各个技术栈还没有学完,你可以先把基础技术框架过一遍,然后参照我给你推荐的下面几个项目。


    尚硅谷大数据电商数仓项目链接:

    https://www.bilibili.com/video/BV1Hp4y1z7aZ

    技术选型:Hadoop+ZooKeeper+Hive+Flume+Sqoop+Kafka+Azkaban+Kylin+Spark

    这个项目主要是讲解了数据仓库的架构模型,实现了数仓项目的闭环,从数据采集到数仓建模,再到数仓应用等。项目中还涉及到一些其它技术,中间可以穿插着学习。

    在面试过程中,首先要把项目架构说清楚以及技术选型的原因,是否有其它替代方案;其次说明你在项目中碰到了什么问题,你用什么方法解决该问题的;最后要清晰的能表述出你负责的部分的代码逻辑。

    虽然说,电商数仓项目比较普遍,但在没有项目的情况下,可以作为基础项目。


    尚硅谷大数据实时处理(SparkStreaming)项目链接:

    https://www.bilibili.com/video/BV1tp4y1B7qd?spm_id_from=333.788.b_636f6d6d656e74.27

    该项目基于SparkStreaming对电商平台的用户行为以及订单业务,通过不同的指标和维度,进行实时的分析和计算。主要包括数据产生,数据传输,数据计算以及最终的数据可视化。

    可以掌握SparkStreaming实时计算的流程,还可以掌握大数据采集框架、高并发的分步式消息队列、基于内存的高吞吐的实时计算技术、以及海量存储毫秒级查询的数据库。


    Flink实时项目:这个项目是我自己私藏的项目,你可以添加我的微信,给你发 Flink 项目资料。

    声明:上述提及的所有书籍和学习资料小林大部分都亲自学过,均为小林友情推荐,绝不含任何广告性质!

    4面试

    找工作对于每个人来说都是一项浩大的工程,我还记得第一次面试时,心中的不安感。我是在研二下学期开始着手准备秋招的,当时因为疫情原因还没有返校。

    如果你在实习且不能转正的,你可以在7月份左右准备各个公司的提前批招聘,但要注意该公司的提前批对秋招应聘是否有影响,因为提前批基本都是神仙打架,我当时只是为了积攒面试经验。

    对于大部分人来说,最重要的是秋招,或者年初的春招,我给大家从获取招聘信息的途径和面试经验两个方面去分享下我的经历。

    4.1如何获取各个公司的内推资格?

    1. 推荐大家关注内推军、校招巴士两个公众号,就是加入了号主建的一个内推群,号主每天会更新各个大厂的内推码。
    2. 如果你想去字节跳动,可以关注内推熊这个公众号,号主是字节算法工程师,已经内推接近1000人进字节,特别靠谱。
    3. 牛客网:在牛客网,各个公司的员工会直接贴上内推码,一般要求你把简历通过邮件发给部门领导,一定要记住,要看清格式要求再发,否则没有人会回你。
    4. 有个网站叫超级简历,整合了各大企业的校园招聘入口,地址:https://www.wondercv.com/jobs/。
    5. 如果你有之前认识的师兄或者朋友在某个企业工作,可以问问他们了解一些秋招情况,顺便让他们帮你内推。
    6. 关注目标企业的微信公众号,他会发布当年的招聘行程,根据行程去离你自己城市最近的那个大学,参加宣讲会。
    7. BOSS直聘上,也可以向很多公司投递简历!

    基本上,小林秋招主要通过上述方式投递自己的简历,但还需要要注意以下几点:

    • 一个公司切记不要投递多个岗位,否则 HR 不知道你到底能胜任哪个岗位。
    • 可以先投一些小公司,积攒一些面试经验后,再去投你的目标企业,但也不要等到很晚。
    • 简历投递时间:周二——周四的 8:00-17:00。周一HR一般会开会作周计划,周五一般是周总结会,HR没有时间去看邮箱。
    • 简历最好针对性的制作,结合每个岗位的具体要求和自身能力来写,可以重点突出自己的底层能力(沟通能力、管理能力、解决矛盾能力等等)和技术能力。

    4.2面试经验

    我整个秋招投递了100多家公司,见识了各种各样的面试现场。这里强烈建议大家,在面试后的第一时间,去做下面试总结,以提高自己在某些技术上的不足。

    通过不断的总结,你会了解到,每个公司技术面试的问题都相差不大,特别对于应届生,要求你计算机的基础知识特别扎实。

    当然,还有一个最重要环节,就是自我介绍,需要你自己提前根据自身情况去写好,切忌去念简历上已经存在的信息

    多去表达一些你自己的经历以及能证明自己能力的事情。要求语言简练,突出你自己最擅长的技术领域。

    例如:以下是我秋招面试时的自我介绍

    面试官,您好!我叫XXX,首先感谢您在百忙之中,抽出时间来给我面试!

    在研究生期间,我在完成自己的学业任务以外,主要利用课外时间自学了计算机基础知识(数据结构与算法、计算机网络基础)、JavaSE(如集合、多线程,JVM)、Hadoop、Spark。我曾经参与过 XXXX 项目研发,主要负责了 XXXXX 设计和 XXXXX 分析两个模块。此外,在学习之余,我比较喜欢通过博客、知乎等各种平台分享自己所学的知识。在生活中,我是一个乐观开朗的人,我会通过摄影和篮球给自己释放压力。我特别喜欢贵公司的 XXX 文化(要主动提前去了解),期待能与你共事!

    在面试中,一般需要注意以下几个点:

    • 遇到不会的算法题,要积极主动和面试官沟通以寻求解题思路
    • 坦诚地面对问题,进行真诚的表述(千万不要对只是了解的技术,假装自己会,面试官一眼就能看穿)
    • 专业对口未必就能旗开得胜,非科班同学面试时一定要自信

    5总结

    上述给大家分享的学习路线以及学习资料大部分都是我亲自学过一遍的,对于新技术,我基本都是以视频入门,之后再通过书籍和 Google去查漏补缺,深入技术原理

    遇到相关问题推荐大家去 GoogleStackOverFlow 寻找答案。此外,大家在学习的过程中,要记得去博客或者知乎分享自己的知识,没有输出,你的输入会大打折扣!

    回首研究生三年,其中一边帮导师做项目,一边学习,这段时间过得非常充实且充满着压力。不仅要顶着导师布置的项目任务压力,一边还要为自己找工作做准备,属实不易。最后,希望每一位小伙伴,能够早日收割自己满意的 offer

    展开全文
  • 大数据学习路线指南

    2017-01-28 07:15:37
    2016年6月1日 - 作为一门对数学和计算机都有较高要求的一门交叉学科,从事大数据是有一定门槛的,但相对于10年以上的职业生涯(国外顶尖数据科学家50-60岁仍然十分活跃)...
  • 自己学习大数据总结的文档,比较详细,供需要的朋友参考
  • 大数据开发学习,大数据学习路线(完整详细版)

    万次阅读 多人点赞 2019-05-04 13:24:20
    很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及...


    很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系

    在巨大的数据集中进行筛选的最好工具是什么?以下是总结的十大合适大数据处理的编程语言。

    1. R语言

    R语言是数据科学的宠儿,R语言有着简单而明显的吸引力,使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字,它被比喻为是Excel的一个极度活跃版本。

    2. Python

    如果说R语言是一个神经质又可爱的高手,那么Python是它随和又灵活的表兄弟。作为一种结合了R语言快速对复杂数据进行挖掘的能力并构建产品的更实用语言,Python迅速得到了主流的吸引力。Python是直观的,并且比R语言更易于学习,以及它的生态系统近年来急剧增长,使得它更能够用于先前为R语言保留的统计分析。

    在数据处理中,在规模和复杂性之间往往会有一个权衡,于是Python成为了一种折中方案。IPython

    notebook和NumPy可以用作轻便工作的一种暂存器,而Python可以作为中等规模数据处理的强大工具。丰富的数据社区,也是Python的优势,因为可以提供了大量的工具包和功能。

    3. Julia

    虽然当前的数据科学绝大多数是通过R语言,Python,Java,MatLab和SAS执行的。但依然有其他的语言存活于夹缝中,Julia就是值得一看的后起之秀。Julia是一种高层次的,极度快速的表达性语言。它比R语言快,比Python更可扩展,且相当简单易学。

    4. JAVA

    Java不能提供R和Python同样质量的可视化,并且它并非统计建模的最佳选择。但是,如果你移动到过去的原型制作并需要建立大型系统,那么Java往往是你的最佳选择。

    5. Hadoop 和 Hive

    Hadoop作为首选的基于Java的框架用于批处理数据已经点燃了大家的热情。Hadoop比其他一些处理工具慢,但它出奇的准确,因此被广泛用于后端分析。它和Hive——一个基于查询并且运行在顶部的框架可以很好地结对工作。

    6. Scala

    Scala是另一种基于Java的语言,并且和Java相同的是,它正日益成为大规模机器学习,或构建高层次算法的工具。它富有表现力,并且还能够构建健壮的系统。

    7. Kafka和Storm

    Kafka,诞生于LinkedIn内部,是一个超快速的查询消息系统,Storm是用Scala编写的另一个框架,它在硅谷中因为流处理而受到了大量的青睐。它被Twitter纳入其中,勿庸置疑的,这样一来,Twitter就能在快速事件处理中得到巨大的裨益。

    8. MatLab

    MatLab一直以来长盛不衰,尽管它要价不菲,但它仍然被广泛使用在一些非常特殊的领域:研究密集型机器学习,信号处理,图像识别等。

    9. Octave

    Octave和MatLab非常相似,但它是免费的。不过,它在学术性信号处理圈子之外很少见到。

    10. GO

    GO是另一个正在掀起浪潮的后起之秀。它由Google开发,从C语言松散地派生,并在构建健壮基础设施上,正在赢得竞争对手。

    大数据的编程语言有哪些?大数据开发学习

     

    大数据开发学习可以按照以下内容进行学习:

    第一阶段:JavaSE+MySql+Linux

    学习内容:Java 语言入门 → OOP 编程 → Java 常用Api、集合 → IO/NIO → Java 实用技术 → Mysql 数据库 → 阶段项目实战 → Linux 基础 → shell 编程

    学习目标:学习java语言,掌握java程序编写、面向对象程序开发,掌握MySql体系结构及核心编程技术,打好 Linux 基础,为后续学习提供良好的语言基础。

    第二阶段:Hadoop 与生态系统

    学习内容:Hadoop → MapReduce → Avro → Hive → HBase → Zookeeper →Flume → Kafka → Sqoop → Pig

    学习目标:掌握大数据学习基石Hadoop、数据串行化系统与技术、数据的统计分析、分布式集群、流行的队列、数据迁移、大数据平台分析等

    第三阶段:Storm 与Spark 及其生态圈

    学习内容:Storm → Scala → Spark → Spark SQL → Spark Streaming →Spark 机器学习

    学习目标:让大家拥有完整项目开发思路和架构设计,掌握从数据采集到实时计算到数据存储再到前台展示,所有工作一个人搞定!并可以从架构的层次站在架构师的角度去完成一个项目。

    第四阶段:其他

    学习内容:Mahout 机器学习→ R 语言→Python

    学习目标:机器学习领域经典算法的实现,熟练使用 R语法和统计思维,可以基于具体问题建立数学模型,掌握python技术与数据分析,将数据结果以可视化的直观方式展示给目标用户。

    第五阶段:项目实战、技术综合运用

    学习内容:某手机公司bug 系统 → 传统广告怎么用大数据 → 类互联网电商网站 → 网站日志收集清洗系统 → 网站流量统计分析系统

    学习目标:具备企业级大型完整项目开发能力,综合运用大数据分析知识,完成数据分析、收集、展示的完整流程。想学习好大数据可以关注公众号程序员大牛 有视频资源分享一起学习

    展开全文
  • 摘要:10分钟了解大数据学习的方向和路径,助你快速入行 大数据学习路径 当然如果你想要做一个数据分析师或者数据挖掘师,那么,你首先要做的不是马上去买很多的相关书籍,也不是马上去报一个数据分析师培训课程,我...
  • java到大数据学习路线

    千次阅读 2022-02-18 10:54:17
    可重点学习如下知识点 计算机网络(重点看OSI七层模型 或 TCP/IP五层模型 理解每层含义)数据结构(重点看数组、栈、队列、链表、树)算法(重点看各种 排序算法、查找算法、去重算法,最优解算法,多去LeetCode刷...
    1. 计算机网络

    2. 操作系统

    3. 数据结构

    4. 计算机组成原理

      可重点学习如下知识点   
      计算机网络(重点看 OSI七层模型 或 TCP/IP五层模型 理解每层含义
      数据结构(重点看 数组、栈、队列、链表、树
      算法(重点看 各种 排序算法、查找算法、去重算法,最优解算法,多去 LeetCode 刷算法题)
      操作系统(重点看 进程、线程、IO、调度、内存管理

     数据仓库分为离线数仓实时数仓,但是企业在招聘时大多要求两者都会,进入公司之后可能会专注于离线或实时其中之一。

    不管离线还是实时,重中之重就是SQL

    SQL 语法及调优一定要掌握,这里说的 SQL 包括 mysql 中的 sql,hive中的 hive sql,spark 中的 spark sql,flink 中 的 flink sql。

    在企业招聘的笔记及面试中,一般问的关于 sql 的问题主要是以 hive sql 为主,所以请重点关注!

    1. 实时数仓需要重点掌握的技能:

      • Hadoop(这是大数据基础,不管离线和实时都必须掌握)

      • Kafka(重点,大数据领域中算是唯一的消息队列)

      • Flink(重中之重,这个不用说了,实时计算框架中绝对王者)

      • HBase(会使用,了解底层原理)

      • Druid(会用,了解底层原理)

      • 实时数仓架构(两种数仓架构:Lambda架构和Kappa架构)

      • Hadoop(HDFS,MapReduce,YARN)

      • Hive(重点,包括hive底层原理,hive SQL及调优)

      • Spark(Spark 会用及了解底层原理)

      • Oozie(调度工具,会用即可)

      • 离线数仓建设(搭建数仓,数仓建模规范)

      • 维度建模(建模方式常用的有范式建模和维度建模,重点关注维度建模)

    大数据开发分两类,第一类是编写Hadoop、Spark、Flink 的应用程序,第二类是对大数据处理系统本身进行开发,如对开源框架的扩展开发,数据中台的开发等!

    • 语言:Java 和 Scala(语言以这两种为主,需要重点掌握)

    • Linux(需要对Linux有一定的理解)

    • Hadoop(需理解底层,能看懂源码)

    • Hive(会使用,能进行二次开发)

    • Spark(能进行开发。对源码有了解)

    • Kafka(会使用,理解底层原理)

    • Flink(能进行开发。对源码有了解)

    • HBase(理解底层原理)

    MySQL需要学习 sql 语法,范式,事务等。

    hadoop -> zookeeper -> hive -> flume && sqoop -> azkaban && oozie -> 数仓建模理论+实践 -> hbase -> redis -> kafka -> elk -> scala -> spark -> kylin -> flink -> 实时数仓项目

    学完以上技能后,有时间还需要学习比较流行的 OLAP 查询引擎

    Impala 、 Presto、Druid 、 Kudu 、 ClickHouse 、 Doris

    如果还有时间,可以学习数据治理相关的内容,如元数据管理,数据湖等

    Atlas 、 Hudi

    我作的这幅图把Hadoop放在了核心位置,旁边都是围着它的组件,说明了Hadoop的重要性,需要重点学习,后面的一切都是以Hadoop为基础的。

    从图中能看出这些组件的图标大多是动物,而左下角的 zookeeper 的图标是人,为动物园管理者,所以从图标中我们也能猜出zookeeper是用来管理这些大数据框架的。

    再来看下 Hive,大象头,蜜蜂的身体,大象是Hadoop,蜜蜂是采蜜的,所以我们猜测Hive作为数据仓库和Hadoop密不可分的,并且收集数据的。

    HBase作为数据库,图标是鲸鱼,鲸鱼是世界上最大的动物,代表HBase是存储巨量的数据

    Impala是一个OLAP查询分析引擎,图标是一个斑羚羊,斑羚羊的特点就是跑的特别快,所以Impala是查询速度特别快的一个交互式查询分析引擎。

    Flink是一个松鼠,松鼠的特点就是快速和灵巧,和Flink的理念相吻合。

    展开全文
  • 大数据,大数据学习,大数据开发.html
  • 大数据学习书签.html

    2021-02-08 14:05:57
    整整两年大数据学习各类优秀网站资料收集,包括hadoop、hdfs、yarn、hive、hbase、flume、kafka、flink\spark、sqoop、mysql、ELK等各类大数据组件及遇到的运维问题总结。
  • 2021 最新大数据学习路线(完整详细版,含免费资料) 你好,我是号主的朋友应癫,大数据领域十年研发和管理,曾就职于中国电子、美团、字节跳动。 今天给大家分享的是我根据自己的经历和经验总结出来的大数据技术...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 401,456
精华内容 160,582
关键字:

大数据学习