• 大数据入门ppt

    2020-07-05 23:10:36
    关于大数据大数据,Hadoop,Zookeeper,HBase,Hive,Impala,Kafka,Storm,Spark,Hue,Fiume NG,OoZie,Sqoop,Pig,Cloudera,Hortonworks,MapR,Google入门ppt
  • 大数据详情简介,可以说是入门大概的了解大数据,很好的掌握概念
  • 大数据培训ppt

    2020-06-15 14:48:26
    大数据培训ppt 是针对对大数据感兴趣的人做的一次入门级培训。
  • 如何入门大数据学习

    2018-09-25 16:32:38
    很多人都在说要进入大数据行业,要学习大数据技术,但往往对大数据都是一知半解,我们先看百度百科对大数据的定义  来抓重点,常规的软件工具处理不了的,就必须要用新的技术,那能解决以上问题的技术就是大数据...

             首先,大数据的定义是什么?很多人都在说要进入大数据行业,要学习大数据技术,但往往对大数据都是一知半解,我们先看百度百科对大数据的定义

             来抓重点,常规的软件工具处理不了的,就必须要用新的技术,那能解决以上问题的技术就是大数据技术。

             大数据的技术是一个技术群落,想全部学习短期内是不现实的,那么我们怎么样科学的有逻辑有规划的来学习,得了解大数据行里,有哪些位,我直接从工作位的技能需求来倒推我如何学大数据,如何有重点的来学

    首先,先看看有哪些位,当然大公司会分的比较详细,中小企企要求会全面一些

    先看看如下,图没有很详细,我再做解答

     

    从整个数据目的业务流程出,(以上所有位都对编程有要求,所以程基是必不可少的)

    • 大数据工程,众所周知,在没有大数据以前,行业应用已经非常成熟了,最早大家只关注功能的实现,接着重视前台的界面,前端工程师因此火了一段时间,因为以前数据量不大,所以在功能上并不重视,由于移动互联网的发展,数据量非常庞大了,这个时候单机服务器不能解决问题,那么分布式集群就出现了,大数据工程师的职责就是搭建大数据平台,所以从上图可以得知,大数据工程师,需要有java基础(行业应用大部分是java语言编写的),所以,今后想从事该岗位的,那么学习的路线图如下

    java基础----linux----hadoop-----hive、hbase----scala---spark

    • 算法工程师,该岗位零基础的小伙伴就请止步吧,更适用于数学专业的研究生及以上学历,对数据基础要求比较高。
    • 数据挖掘工程师,建议从python入手,毕竟python里面有大量的数据科学的包,也有pyspark,直接从spark里面调数据,不用学习Scala语言(spark的编程语言是Scala),学习的路线如下:

    python基础—python web(强化编程基础)--数学基础补充(线性代数、概率统计、离散数学)--python  numpy  pandas包---机器学习算法---深度学习

    • 数据分析师,该岗位对数学基础要求不高,但对综合素质要求非常高,能充分的理解行业行情、公司运营、产品运作、对市场敏锐度较高。具备一定的编程基础,建议学习python,能熟练使用相关的工具,如excel,sas、spss等,能写漂亮的文章做PPT就行,数学基础不好的女生可以建议走该方向。

    学习路线:python基础—python  numpy  pandas包---excel—spss---sas

    • 大数据可视化,该岗位需要前端的相关基础,大数据运维工程师,也不多做介绍了。

    根据以上的岗位介绍,对自己做一个整体的规划

     

     

    个人是建议从大数据工程师入手,从java基础开始学,毕竟编程基础是每个岗位都需要的,而且java的适用面是最广的,虽然现在python的势头很足,但相对java来说,python比较简单,只要java能熟练使用了,要学会python,两周的时间就没问题,从长远的职业规划来说,学习没有速成的方法,脚踏实地才是最重要的。

    我这有大数据工程师详细的学习的计划,分享给大家,希望对你们有帮助。

    第一阶段:静态网页基础(HTML+CSS)

    1. 难易程度:一颗星
    2. 主要技术包括:html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等

    第二阶段:JavaSE+JavaWeb

    1. 难易程度:两颗星
    2. 主要技术包括:java基础语法、java面向对象(类、对象、封装、继承、多态、

    抽象类、接口、常见类、内部类、常见修饰符等) 、异常、集合、文件、IO、

    MYSQL(基本SQL语句操作、多表查询、子查询、存储过程、事务、分布式事务)

    JDBC、线程、反射、Socket编程、枚举、泛型、设计模式

    第三阶段:前端框架

    1. 难易程序:两星
    2. 主要技术包括:JavaScript、Jquery、注解反射一起使用,XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

    第四阶段:企业级开发框架

    1. 难易程序:三颗星
    2. 主要技术包括:Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro 、redis、流程引擎activity, 爬虫技术nutch,lucene,webService CXF、Tomcat集群和热备 、MySQL读写分离

    第五阶段: 初识大数据

    1. 难易程度:三颗星
    2. 主要技术包括:大数据前篇(什么是大数据,应用场景,如何学习大数据库,虚拟机概念和安装等)、Linux常见命令(文件管理、系统管理、磁盘管理)、Linux Shell编程(SHELL变量、循环控制、应用)、Hadoop入门(Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop)、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapReduce应用(中间计算过程、Java操作MapReduce、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP 端优化,COMBINER 使用方法见,TOP K,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK 与 SED命令)

    第六阶段:大数据数据库

    1. 难易程度:四颗星
    2. 主要技术包括:Hive入门(Hive简介、Hive使用场景、环境搭建、架构说明、工作机制)、Hive Shell编程(建表、查询语句、分区与分桶、索引管理和视图)、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、Hbase SHELL编程(DDL、DML、Java操作建表、查询、压缩、过滤器)、细说Hbase模块(REGION、HREGION SERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成)、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)

    第七阶段:实时数据采集

    1. 难易程序:四颗星
    2. 主要技术包括:Flume日志采集,KAFKA入门(消息队列、应用场景、集群搭建)、KAFKA详解(分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试)、KAFKA高级使用(java开发、主要配置、优化项目)、数据可视化(图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图)、STORM入门(设计思想、应用场景、处理过程、集群安装)、STROM开发(STROM MVN开发、编写STORM本地程序)、STORM进阶(java开发、主要配置、优化项目)、KAFKA异步发送与批量发送时效,KAFKA全局消息有序,STORM多并发优化

    第八阶段:SPARK数据分析

    1. 难易程序:五颗星

    主要技术包括:SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用(高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等)、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARK SQL、SPARK 进阶(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA与SOCKET、编程模型)、SPARK高级编程(Spark-GraphX、Spark-Mllib机器学习)、SPARK高级应用(系统架构、主要配置和性能优化、故障与阶段恢复)、SPARK  ML KMEANS算法,SCALA 隐式转化高级特性

    展开全文
  • 面向入门人员介绍大数据基础知识的很好的课件,讲解清晰生动,例子形象。
  • 第一章 大数据概述1.1大数据故事点球(分析对手的特点)电商(分析消费习惯,广告定点投放等) 1.2大数据背景无处不在的大数据:科学数据、金融数据、物联网数据、交通数据、社交网络数据、零售数据等 1.3大数据...

    第一章 大数据概述

    1.1大数据故事

    点球(分析对手的特点)

    电商(分析消费习惯,广告定点投放等)

     

    1.2大数据背景

    无处不在的大数据:科学数据、金融数据、物联网数据、交通数据、社交网络数据、零售数据等

     

    1.3大数据的基本概念

    大数据的4V特征:

     

     

    大数据解决的问题:

     

     

    1.4大数据涉及到的技术

    数据采集、数据存储、数据处理/分析/挖掘、可视化

     

     

    1.5大数据带来的挑战

    对现有数据库管理技术的挑战

    经典数据库并没有考虑数据的多类别

    实时性的技术挑战

    网络架构、数据中心、运维的挑战

    其他挑战:数据隐私、数据源的复杂多样等

     

    1.6 挑战之如何对大数据进行存储和分析

    系统瓶颈:存储容量、读写速度、计算效率

    Google大数据技术:GFSBigTableMapReduce

    http://blog.csdn.net/myan/article/details/1726553

     

    1.7如何学好大数据

    查找官网、英文

    项目实战融会贯通

    参加社区活动

    多动手、多练习、坚持

    展开全文
  • 大数据PPT.zip

    2020-06-10 00:02:15
    提供Hadoop、HBase、Hive、Spark、Storm等大数据集群实验环境和快速搭建服务 从入门到实战,帮助用户构建大数据课程和实训体系
  • 大数据我们都知道hadoop,可是...为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面问题来阅读本文章:

    原文链接:http://www.aboutyun.com/thread-7569-1-1.html

    大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。
    我们可以带着下面问题来阅读本文章:
    1.hadoop都包含什么技术
    2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性
    3.Spark与hadoop的关联是什么?
    4.Storm与hadoop的关联是什么?






    hadoop家族
    创始人:Doug Cutting
    整个Hadoop家族由以下几个子项目组成:

    Hadoop Common:
    Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。详细可查看
    Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理大全1-9章

    HDFS:

    是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。下面为详细资料:
    什么是HDFS及HDFS架构设计
    HDFS+MapReduce+Hive快速入门
    Hadoop2.2.0中HDFS为何具有高可用性
    Java创建hdfs文件实例

    MapReduce:

    是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。
    详细可查看:
    Hadoop简介(1):什么是Map/Reduce
    Hadoop MapReduce基础
    MapReduce工作原理讲解
    手把手交你写Mapreduce程序实例并部署在Hadoop2.2.0上运行

    Hive:

    Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。hive类似CloudBase,基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据 的汇总,即席查询简单化。
    详细可查看:
    Hive的起源及详细介绍
    hive详解视频


    Pig:

    Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。
    Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。
    详细可查看:
    pig入门简单操作及语法包括支持数据类型、函数、关键字、操作符等
    hadoop家族Pig和Hive有什么不同?



    HBase:

    Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。
    详细可查看:
    hbase与传统数据的区别
    HBASE分布式安装视频下载分享

    ZooKeeper:

    Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
    详细可查看:
    什么是Zookeeper,Zookeeper的作用是什么,在Hadoop及hbase中具体作用是什么

    Avro:

    Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。


    Sqoop:
    Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。
    详细可查看:
    Sqoop详细介绍包括:sqoop命令,原理,流程

    Mahout:

    Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:
    推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
    聚集:收集文件并进行相关文件分组。
    分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。
    频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。


    Cassandra:

    Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。

    Chukwa:

    Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

    Ambari:

    Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。



    HCatalog

    Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:
    提供一个共享模式和数据类型机制。
    提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。
    为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

    ------------------------------------------------------------------------------------------------------------------------------------------------

    Chukwa:

    Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。


    ------------------------------------------------------------------------------------------------------------------------------------------------

    Cloudera系列产品:
    创始组织:Cloudera公司
    1.Cloudera Manager:
    有四大功能
    (1)管理
    (2)监控
    (3)诊断
    (4)集成
    Cloudera Manager四大功能

    2.Cloudera CDH:英文名称:CDH (Cloudera's Distribution, including Apache Hadoop)
    Cloudera对hadoop做了相应的改变。
    Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。
    详细可以查看
    Cloudera Hadoop什么是CDH及CDH版本介绍
    相关资料
    CDH3实战Hadoop(HDFS) , HBase , Zookeeper , Flume , Hive
    CDH4安装实践HDFS、HBase、Zookeeper、Hive、Oozie、Sqoop
    Hadoop CDH四种安装方式总结及实例指导
    hadoop的CDH4及CDH5系列文档下载分享


    3.Cloudera Flume
    Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。


    Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。
    Flume采用了多Master的方式。为了保证配置数据的一致性,Flume[1]引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。
    详细可查看:
    什么是 flume 日志收集,flume的特性
    什么是 flume 日志收集,flume的原理是什么,flume会遇到什么问题

    4.Cloudera Impala

    Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
    详细可查看:
    什么是impala,如何安装使用Impala
    5.Cloudera   hue
    Hue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。
    详细可查看:
    cloudera hue安装及Oozie的安装
    什么是Oozie?Oozie简介
    Cloudera Hue 使用经验分享,遇到的问题及解决方案


    ------------------------------------------------------------------------------------------------------------------------------------------------

    Spark

    创始组织:加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发


    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

    Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

    尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

    可以详细了解
    科普Spark,Spark是什么,如何使用Spark(1)
    科普Spark,Spark核心是什么,如何使用Spark(2)
    优酷土豆用Spark完善大数据分析
    Hadoop新成员Hadoop-Cloudera公司将Spark加入Hadoop


    -----------------------------------------------------------------------------------------------------------------------------------------------

    Storm

    创始人:Twitter
    Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。

    详细可以了解:
    storm入门介绍
    Storm-0.9.0.1安装部署 指导
    总体认识storm包括概念,场景,组成
    大数据架构师:hadoop、Storm改选哪一个?
    大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合

    展开全文
  • 大数据介绍PPT.pptx

    2020-06-30 10:23:36
    关于介绍大数据PPT作品,内容包括大数据简介、应用领域、技术特性等入门知识科普。PPT设计简洁,画面优美。
  • 林子雨老师的《大数据技术原理与应用》教材配套ppt,浅显易懂,适合入门者学习!
  • 简要对大数据和云计算进行介绍,对入门大数据有很大帮助。
  • 推荐一个大数据学习群 119599574晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享, 一、整体了解数据分析——5小时 新人们...
    推荐一个大数据学习群 119599574晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,
    
    一、整体了解数据分析——5小时
    新人们被”大数据“、”人工智能“、”21世纪是数据分析师的时代“等等信息吸引过来,立志成为一名数据分析师,于是问题来了,数据分析到底是干什么的?数据分析都包含什么内容?
    市面上有很多讲数据分析内容的书籍,在此我推荐《深入浅出数据分析》,此书对有基础人士可称消遣读物, 但对新人们还是有一定的作用。阅读时可不求甚解,重点了解数据分析的流程、应用场景、以及书中提到的若干数据分析工具,无需纠结分析模型的实现。5个小时,足够你对数据分析工作建立初步的印象,消除陌生感。
    
    二、了解统计学知识——10小时
    15个小时只够你了解一下统计学知识,作为入门足够,但你要知道,今后随着工作内容的深入,需要学习更多的统计知识。
    本阶段推荐书籍有二:《深入浅出统计学》《统计学:从数据到结论》,要了解常用数理统计模型(描述统计指标、聚类、决策树、贝叶斯分类、回归等),重点放在学习模型的工作原理、输入内容和输出内容,至于具体的数学推导,学不会可暂放一边,需要用的时候再回来看。
    
    三、学习初级工具——20小时
    对于非技术类数据分析人员,初级工具只推荐一个:EXCEL。推荐书籍为《谁说菜鸟不会数据分析》,基础篇必须学习,提高篇不一定学(可用其他EXCEL进阶书籍),也可以学习网上的各种公开课。
    本阶段重点要学习的是EXCEL中级功能使用(数据透视表,函数,各类图表适用场景及如何制作),如有余力可学习VBA。
    
    四、提升PPT能力——10小时
    作为数据分析人员,PPT制作能力是极其重要的一项能力,因此需要花一点时间来了解如何做重点突出,信息明确的PPT,以及如何把各类图表插入到PPT中而又便于更新数据。10个小时并不算多,但已经足够(你从来没做过PPT的话,需要再增加一些时间)。具体书籍和课程就不推荐了,网上一抓一大把,请自行搜索。
    
    五、了解数据库和编程语言——10小时
    这个阶段有两个目标:学习基础的数据库和编程知识以提升你将来的工作效率,以及测试一下你适合学习哪一种高级数据分析工具。对于前者,数据库建议学MySQL(虽然Hadoop很有用但你不是技术职位,初期用不到),编程语言建议学Python(继续安利《深入浅出Python》,我真没收他们钱……)。数据库学到联合查询就好,性能优化、备份那些内容用不到;Python则是能学多少学多少。
    
    六、学习高级工具——10小时
    虽然EXCEL可以解决70%以上的问题,但剩下30%还是需要高级工具来做(不信用EXCEL做个聚类)。高级分析工具有两个选择:SPSS和R。虽然R有各种各样的好处,但我给的建议是根据你在上一步中的学习感觉来定学哪一个工具,要是学编程语言学的很痛苦,就学SPSS,要是学的很快乐,就学R。不管用哪一种工具,都要把你学统计学时候学会的重点模型跑一遍,学会建立模型和小幅优化模型即可。
    
    七、了解你想去的行业和职位——10+小时
    这里我在时间上写了个”+“号,因为这一步并不一定要用整块时间来学习,它是贯穿在你整个学习过程中的。数据分析师最需要不断提升的能力就是行业和业务知识,没有之一。你将来想投入哪个行业和哪个职位的方向,就要去学习相关的知识(比如你想做网站运营,那就要了解互联网背景知识、网站运营指标体系、用户运营知识等内容)。
    
    八、做个报告——25小时
    你学习了那么多内容,但现在出去的话你还是找不到好工作。所有的招聘人员都会问你一句话:你做过哪些实际项目?(即使你是应届生也一样) 如果你有相关的项目经验或者实习经验,当然可以拿出来,但是如果没有,怎么办?答案很简单,做个报告给他们看,告诉招聘者:我已经有了数据分析入门级(甚至进阶级)职位的能力。同时,做报告也会是你将来工作的主要内容,因此也有可能出现另外一种情况:你费尽心血做了一个报告,然后发现这不是你想要的生活,决定去干别的工作了……这也是件好事,有数据分析能力的人做其他工作也算有一项优势。
    展开全文
  • 推荐大家加微信公众号:DT_Spark 这个微信号每天都会更新关于大数据的一些视频 非常的好 1,《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq​2,《Hadoop深入浅出实战经典》...

    推荐大家加微信公众号:DT_Spark 这个微信号每天都会更新关于大数据的一些视频 非常的好
    1,《大数据不眠夜:Spark内核天机解密(共100讲)》:

    http://pan.baidu.com/s/1eQsHZAq

    2,《Hadoop深入浅出实战经典》

    http://pan.baidu.com/s/1mgpfRPu

    3,《Spark纯实战公益大讲坛》

    http://pan.baidu.com/s/1jGpNGwu

    4,《Scala深入浅出实战经典》

    http://pan.baidu.com/s/1sjDWG25

    5,《Docker公益大讲坛》

    http://pan.baidu.com/s/1kTpL8UF

    6,《Spark亚太研究院Spark公益大讲堂》

    http://pan.baidu.com/s/1i30Ewsd

    7,DT大数据梦工厂Spark、Scala、Hadoop的所有视频、PPT和代码在百度云网盘的链接:

    http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group

    王家林免费在51CTO发布的1000集合大数据spark、hadoop、scala、docker视频:

    1,《Scala深入浅出实战初级入门经典视频课程》

    http://edu.51cto.com/lesson/id-66538.html

    2,《Scala深入浅出实战中级进阶经典视频课程》

    http://edu.51cto.com/lesson/id-67139.html

    3,《Akka深入浅出实战经典视频课程》

    http://edu.51cto.com/lesson/id-77672.html

    4,《Spark亚太研究院决胜大数据时代公益大讲堂》

    http://edu.51cto.com/lesson/id-30815.html

    5,《云计算Docker虚拟化公益大讲坛 》

    http://edu.51cto.com/lesson/id-61776.html

    6,《Spark 大讲堂(纯实战手动操作)》

    http://edu.51cto.com/lesson/id-78653.html

    7,《Hadoop深入浅出实战经典视频课程-集群、HDFS、Yarn、MapReduce》

    http://edu.51cto.com/lesson/id-77141.html

    8,《从技术角度思考Hadoop到底是什么》

    http://edu.51cto.com/course/course_id-1151.html

    展开全文
  • 新手如何入门大数据

    2019-09-02 15:38:22
    首先你要有自己职业规划...知道数据分析和大数据是做什么的、能解决什么问题,给自己定一个小目标。一个有经验的数据科学家:最少要有2到3年工作经验,而工作经验体现在运用数据科学处理各种商业问题的能力上,同时...
  • j现在市面上的大数据产品太多了,但它们还远远没达到像 IaaS 层那样的标准化程度,每个产品之间的差别也并不是特别明确清晰。很多企业在做大数据平台或大数据方案的时候,常常不知道该选用哪些产品来满足自己的需求...
  • java基础+大数据

    2020-07-13 23:31:04
    java基础+大数据 以及一些学习的方法
  • 首先,大数据的定义是什么?很多人都在说要进入大数据行业,要...大数据的技术是一个技术群落,想全部学习短期内是不现实的,那么我们怎么样科学的有逻辑有规划的来学习,怎么进行大数据入门学习呢?我们得了解大...
  • 大数据十大经典算法SVM-讲解PPT大数据十大经典算法SVM-讲解PPT大数据十大经典算法SVM-讲解PPT大数据十大经典算法SVM-讲解PPT
  • 刘鹏大数据PPT.rar

    2020-06-30 13:03:05
    刘鹏博士精品大数据配套PPT,包含全部的大数据知识架构,适合入门、提高的人群,能帮助你快速掌握大数据相关知识。
  • 下载地址:网盘下载内容简介编辑 《大数据挑战与nosql数据库技术》对大数据时代面临的挑战,以及nosql数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。...
1 2 3 4 5 ... 20
收藏数 3,738
精华内容 1,495
关键字:

ppt 入门 大数据