• 课程背景:本人目前从业于数据仓库大数据开发工作,是从零基础自学出来的。本次课程也是自己的学习心得体会,给有上进精神的伙伴提供一个指路明灯。本课程的整理花费了本人不少的时间、金钱和心血。从一个懵懵懂懂...

    课程背景本人目前从业于数据仓库和大数据开发工作,是从零基础自学出来的。本次课程也是自己的学习心得体会,给有上进精神的伙伴提供一个指路明灯。本课程的整理花费了本人不少的时间、金钱和心血。从一个懵懵懂懂的运维工程师自学转型到数据仓库开发、大数据开发的。

    目的也是为了让致力于数据仓库开发、大数据开发的伙伴们,能够懂得珍惜这次的学习机会。

    适合人员运维工程师、JAVA研发工程师、ETL抽取工程师、数据分析师、数据挖掘工程师等。

    课程纲要

    学习阶段

    课程名称

    课程内容

     

     

     

     

    第一阶段(基础阶段)

    Linux学习

    1. Linux操作系统介绍与安装。

    2. Linux常用命令。

    3. Linux常用软件安装。

    4. Linux网络。

    5. 防火墙。

    6. Shell编程等。

     

    Java 学习

    1. JAVA基础:java简介、字符串、数组等

    2. 掌握多线程。

    3. 掌握并发包下的队列。

    4. 了解JMS。

    5. 掌握JVM技术。

    6. 掌握反射和动态代理。

    Zookeeper学习

    1. Zookeeper分布式协调服务介绍。

    2. Zookeeper集群的安装部署。

    3. Zookeeper数据结构、命令。

    4. Zookeeper的原理以及选举机制。

    数据仓库理论

    1. 数据仓库入门课程。
    2. 数据仓库讲解。
    3. PowerDesigner数据仓库设计视频课程。
    4. 真实电商数据仓库全流程开发讲解。

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    第二阶段(攻坚阶段)

     

     

     

     

     

    Hadoop学习

     HDFS

     

    1. HDFS的概念和特性。

    2. HDFS的shell操作。

    3. HDFS的工作机制。

    4. HDFS的Java应用开发。

     

    MapReduce

     

    1. 运行WordCount示例程序。

    2. 了解MapReduce内部的运行机制。

             MapReduce程序运行流程解析。

             MapTask并发数的决定机制。

             MapReduce中的combiner组件应用。

             MapReduce中的序列化框架及应用。

             MapReduce中的排序。

             MapReduce中的自定义分区实现。

             MapReduce的shuffle机制。

             MapReduce利用数据压缩进行优化。

             MapReduce程序与YARN之间的关系。

             MapReduce参数优化。

    3.  MapReduce的Java应用开发

     

     

     

     

     

    Hive学习

    1. Hive 基本概念

     

             Hive 应用场景。

             Hive 与hadoop的关系。

             Hive 与传统数据库对比。

             Hive 的数据存储机制。

     

    2. Hive 基本操作

     

           Hive 中的DDL操作。

           在Hive 中如何实现高效的JOIN查询。

           Hive 的内置函数应用。

           Hive shell的高级使用方式。

           Hive 常用参数配置。

      Hive 自定义函数和Transform的使用技巧。

           Hive UDF/UDAF开发实例。

     

    3. Hive 执行过程分析及优化策略

     

    HBase学习

    1. hbase简介。
    2. habse安装。
    3. hbase数据模型。
    4. hbase命令。
    5. hbase开发。
    6. hbase原理。

     

     

     

    Scala学习

    1. Scala概述。

    2. Scala编译器安装。

    3. Scala基础。

    4. 数组、映射、元组、集合。

    5. 类、对象、继承、特质。

    6. 模式匹配和样例类。

    7. 了解Scala Actor并发编程。

    8. 理解Akka。

    9. 理解Scala高阶函数。

    10. 理解Scala隐式转换。

     

     

     

     

     

    Spark学习

    1. Spark core

             Spark概述。

             Spark集群安装。

             执行第一个Spark案例程序(求PI)。

     

    2. RDD

             RDD概述。

             创建RDD。

    RDD编程API(Transformation 和 Action Operations)。

             RDD的依赖关系

             RDD的缓存

             DAG(有向无环图)

      

    3. Spark SQL and DataFrame/DataSet

             Spark SQL概述。

             DataFrames。

             DataFrame常用操作。

             编写Spark SQL查询程序。

      

    4. Spark Streaming

             park Streaming概述。

             理解DStream。

    DStream相关操作(Transformations 和 Output Operations)。

     

    5. Structured Streaming

     

    6. 其他(MLlib and GraphX )机器学习才用

    Python学习

    1. Python基础准备。
    2. PythonWeb开发。
    3. Python扩展开发。
    4. Python开发选修。

    数据仓库开发

    1. PowerDesigner视频教程。
    2. Oracle快速入门与提高。
    3. 详解SQL与PLSQL

     

     

     

    其它课程

    Redis课程

    1. Redis入门视频课程。
    2. Redis入门到精通、集群与应用。

    Memcached课程

    1. Memcached分布式集群。

     

    数据仓库工具和文档

    1. PowerDesigner 16破解文件。
    2. Pdm导入导出脚本与模板。
    3. OLAP及数据仓库讲解。
    4. 数据仓库原理、设计与应用等。

    问题答疑

    1. 数据仓库开发为什么和大数据开发放到一起?

    回答:从目前企业的招聘需求上来看,想到成为一名数据仓库开发工程师,必须董大数据相关的知识。

    例如:

    数据仓库工程师任职要求:

    1、有至少3年数据仓库实施及至少2年模型设计经验,本科以上学历;

    2、深入理解DW,BI相关的知识,包括:ETL、数据仓库、OLAP、多维数据模型等;

    3、熟悉数据仓库建模理论,以及数据仓库数据层级关系,精通多维数据模型设计,具备大型数据仓库架构设计、模型设计和处理性能调优等相关经验;

    4、熟练使用主流数据模型设计工具;

    5、精通SQL,能够熟练使用HiveQL和Spark SQL进行数据开发,熟悉Hive数据模型优化;

    6、具有良好的团队协作精神和沟通能力,较强的逻辑思维,学习能力和解决问题的能力,可承担较大的工作压力;

    7、有独立设计数据仓库经验,熟悉数据仓库相关理论知识者优先;

    8、有财务数据集市开发经验者优先。

    如有需要课程者:请加QQ 1843527571。

    ***********************************************************************END********************************************************************


    如有需要者,课程地址:

    链接:https://pan.baidu.com/s/1tssjWQS3UjnM2nGitohIdw 密码:9pos

     

    ————————————————————————————————————————————————————————

    展开全文
  • 希望学习者最好从事过数据库相关工作,有一些 JAVA开发基础,或者有其他工作经验,想学习大数据数据仓库的同学,对于没有工作经验,或者对开发,数据完全小白的同学,建议先了解相关知识再学习。 本课程的宗旨...
  • 大数据体系构建数据仓库 2019-08-06 13:10:45
    大数据时代,数据仓库大数据体系升级换代很常见,也是个不错的机会。如果是想系统研究大数据体系的数据仓库设计,个人比较推荐滴滴(前)架构师的视频分享课:http://t.cn/EJ07vua主要是干货比较多,有15案例+3...
  • 资源名称:Hadoop大数据开发案例教程与项目实战 内容简介:本书是一本Hadoop学习入门参考书,全书共11章,分为基础篇和提高篇两部分。基础篇包括第1~6章,具体包括Hadoop概述、Hadoop基础环境配置、分布式存储HDFS...
  • 大数据开发入门教程 2018-11-14 00:03:47
    第一阶段:linux+搜索+hadoop体系Linux大纲这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等众多课程。因为企业中无一例外的是使用...
  • 第一部分:数据仓库基础理论与技术圈  第一章:互联网电商大数据环境  第二章:商业智能与数据仓库基础理论  第三章:维度建模基础理论  第四章:电商大数据一般架构  第五章:电商数据平台从零搭建方案...
  • 数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。 二、课程内容 《大数据...
  • Kylin大数据实战学习教程 2018-12-06 18:07:45
    本课程为专题课,通过全面讲解Kylin架构原理、分布式集群搭建以及项目案例,让你快速掌握Kylin实时大数据BI技术,从而解决海量数据多维指标动态计算耗时问题、复杂条件筛选问题以及跨月、季度、年等大时间区间查询...
  • 提高篇包括D17~11章 具体包括协调系统Zookeeper、Hadoop数据库Hbase、Hadoop数据仓库Hive、Hadoop数据采集Flume、OTA离线数据分析平台。全书内容结构合理 知识点全面 讲解详细 重点难点突出。 本书适合作为院校...
  • 广义上来说,Hadoop大数据平台也可以看做是新一代的数据仓库系统, 它也具有很多现代数据仓库的特征,也被企业所广泛使用。因为MPP架构的可扩展性,基于MPP的数据仓库系统有时候也被划分到大数据平台类产品。 但是...
  • 大数据时代需要大数据挖掘,我习惯把大数据分成四个领域:数据科学、网络科学、空间地理科学和可视化技术。  最近的主要兴趣在空间地理领域,学习如何获取POI,Polygon,经纬度,空间匹配算法和可视化,一个全新...
  • 华为大数据全套课件教程 2020-07-08 23:30:53
    华为 BigData 2.0 实验手册,HDFS分布式文件系统,MapReduce分布式离线批处理和Yarn资源协调,Spark2x基于内存的分布式计算,HBase分布式NoSQL数据库,Hive分布式数据仓库,Streaming分布式流计算引擎,Flink流计算...
  • Kylin大数据实战学习教程 大数据高级架构师,多年大数据项目架构及研发经验...
  • 而是在大数据分析和大数据仓库中占据着几乎不可替代的重要作用,大数据分析中Hive和Hbase、Hive和Spark SQL、Hive和Impala的结合使用愈加紧密,大数据仓库中Hive在数据仓库建模模块的作用暂时无可替代。所以,深入...
  • 全新大数据企业电商数据仓库项目实战教程 张长志技术全才、擅长领域:区块链、大...
  • 数据仓库是否再次相关,或者它们是一个垂死的品种? 如果你在这个问题上有点困惑,你会被原谅。一方面,数据仓库肯定似乎处于热门阶段。作为一个长期的行业观察者,我看到了连续创新和创业活动浪潮的行业激增。 ...
  • 1、OLTP和OLAP  OLTP的全称是 Online Transaction Processing, OLTP主要用传统的关系型数据库来进行事务处理。... OLAP的全称是 Online Analytical Processing,OLAP能够处理和统计大量的数据...
  • 大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要...
  • 任课讲师13年以上大数据,BI 设计开发经验,为多家500强企业设计过数据中台和数据仓库架构。授课过程中结合理论和实践为大家提供以下内容: 1,了解数据中台的基础知识,以及和数据仓库之间的关系 2. 掌握数据...
  • 第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时...
1 2 3 4 5 ... 20
收藏数 4,401
精华内容 1,760