精华内容
下载资源
问答
  • 大数据入门
    千次阅读 多人点赞
    更多相关内容
  • 2021贺岁大数据入门spark3.0入门到精通资源简介: 本课程中使用官方在2020年9月8日发布的Spark3.0系列最新稳定版:Spark3.0.1。共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,...
  • 大数据入门

    2020-12-11 09:42:36
    大数据入门 第一节课:概述 1、什么是大数据 2、为什么产生了大数据 3、大数据体系结构 第二节课:hadoop 1、hadoop的组成 2、hadoop的架构 3、hadoop的时空 第三节课:hdfs 1、什么是hdfs 2、hdfs的shell操作 3、...
  • 大数据入门指南v1.0

    2020-10-24 15:22:41
    大数据入门指南,来自github博主bigdata,只是全面,适合新手阅读,非常好,特别好,很实用,很适用于入门和刚接触大数据的行业人员及老师学生等等等等等等
  • 2021贺岁大数据入门spark3.0入门到精通资源简介: 本课程中使用官方在2020年9月8日发布的Spark3.0系列最新稳定版:Spark3.0.1。共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,...
  • 大数据入门培训

    2018-09-06 15:47:24
    掌握大数据技术的基础理论 HFDS YARN MapReduce Spark core Sqoop flume Kafka Hive Hbase Elasticsearch 掌握平台的基本原理和操作方法 Inceptor基于Hive和Spark Slipstream Hyperbase Search
  • 大数据入门文档,让你大概了解大数据的发展钱景,以及发展方向,走向一条迎娶白富美,当上CTO的完美人生不归路
  • mooc十小时大数据入门

    2018-09-15 16:54:10
    大数据入门教程 ,视频,软件,代码,文档齐全,资源仅供学习使用,如果喜欢请购买正版。
  • 大数据入门笔记系列】第一节 大数据常用组件大数据释义大数据组件跳转 大数据释义 近些年来,坊间一直流传着这样的言论:“大数据时代,人人都在裸奔”。对于外行人来说,对于“大数据”这个词最直观的理解就是...
  • 一本书读懂大数据(每个人都看得懂的大数据入门书) [黄颖].mobi
  • 大数据入门-大数据技术概述(一)

    千次阅读 多人点赞 2021-07-31 22:54:57
    一、简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算...Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具

    目录

    大数据入门系列文章

    1.大数据入门-大数据是什么

    一、概念

    二、技术详解

    1.基础架构:Hadoop

    2.分布式文件系统:HDFS

    3.数据仓库:Hive

    4.存储引擎:Kudu

    5.分布式数据库:HBase

    三、其他

    大数据入门系列文章

    1.大数据入门-大数据是什么


    大数据入门系列文章

    你知道什么是大数据吗,请走传送门。

    1.大数据入门-大数据是什么

    1.大数据入门-大数据是什么

    一、概念

    大数据技术是指在构架大数据平台的时候需要的技术。包含存储系统,数据库,数据仓库,资源调度,查询引擎,实时框架等。下面以我目前所了解到的一些技术做简要介绍。目前之介绍简单概念。

    二、技术详解

    1.基础架构:Hadoop

    1.架构

    2.简介

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    2.分布式文件系统:HDFS

    1.HDFS架构

    2.简介

    指被设计成适合运行在通用硬件上的分布式文件系统。

    3.特点

    HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

    3.数据仓库:Hive

    1.架构

    2.简介

    Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

    3.特点

    执行过程走MapReduce比较慢,处理规模大,可扩展性高,加载模式为读时模式。后面就MapReduce会做专门的解释。

    4.存储引擎:Kudu

    1.架构

    2.简介

    Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。

    3.特点

    支持随机读写,支持OLAP 分析,太多列查询时性能下降,跟关系型数据有点类似。其存储文件不在HDFS上面,有自己的存储文件系统。

    5.分布式数据库:HBase

    1.架构

    2.简介

    HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。

    3.特点

    高可靠、高性能、面向列、可伸缩。

    1.架构

    2.简介

    Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。

    3.特点

    流处理特性、API支持、Libraries支持、整合支持。

    三、其他

    以上就是我目前涉及到的部分技术,下一篇出Zookpeer、Yarn、Spark、Impala、Kafka、Flume。

    大数据入门系列文章

    你知道什么是大数据吗,请走传送门。

    1.大数据入门-大数据是什么

    1.大数据入门-大数据是什么

    如果你觉得这篇文章对您有帮助,请关注点赞加收藏,想要了解更多请关注公众号联系博主,祝您生活愉快,身心健康!

    备注:以上资源来自网络,侵删。

    展开全文
  • 大数据入门23.pptx

    2021-09-21 02:36:53
    大数据入门23.pptx
  • 大数据入门简介(一) 首先我们先想想为什么会大数据,或者说它能干什么? 与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗。下面我们就围绕这个大...

    大数据入门简介(一)

    首先我们先想想为什么会大数据,或者说它能干什么?

    与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗。下面我们就围绕这个大好好谈谈这个大数据。

    一、概念(三无、俩海)

    1、大数据是指无法通过常规软件等工具对数据内容进行抓取、管狸和处理的数据集合(三无)。

    2、大数据主要解决(俩海):海量的数据存储和海量的数据计算问题。

    二、特性(四V俩固)

    四大特性(4V):

    ​ Volume:大数据量。大多是过去俩年产生的数据

    ​ Velocity:速度快。数据增长速度快,时效性比较高

    ​ Variety:多样化。数据种类和数据来源多样化。结构化数据-半结构化数据-非结构化数据。

    ​ Value:价值密度低。需要深入挖掘数据信息。

    固有特性:

    ​ 时效性

    ​ 不可变性

    三、Hadoop

    1、介绍

    Hadoop是一个开源的分布式系统架构。

    我们可以看看他的发展及版本。

    (1)、Hadoop起源于搜索引擎Apache Nutch

    ​ 创始人:Doug Cutting

    ​ 2004年:最初版本

    ​ 2008年:成为Apache顶级项目

    (2)、Hadoop发行的版本

    ​ 社区版:Apache Hadoop版本。开源,免费,你懂的,国内大多数公司都在用。

    ​ Cloudera发行版:CDH。这个现在好像需要money了,不过适合小公司使用,兼容性高。

    ​ Hortonworks发行版:HDP。这个就不多介绍了,感兴趣的可以查查。

    (3)、那为什么我们要使用Hadoop呢?(三高+三优)

    ​ 首先我们先说说三高吧:

    ​ 高扩展性:在集群件分配任务数据,可方便的扩展数以千计的节点。

    ​ 高可靠性:Hadoop底层维护了多个数据副本。

    ​ 高容错性:Hadoop阔加能够自动将失败的任务重新分配。

    听了这三高是不是就已经觉得他已经很牛了?别急,还有呢。。。

    我们再说说它的三个优吧:

    ​ 低成本:Hadoop架构可以允许部署在不同机器上,哪怕你这个机器再垃圾都可以噢,老省钱了。

    ​ 灵活:Hadoop可以存储在任意类型的数据。

    ​ 开源:它是开放式的,社区活跃,有很多大神再社区活动,你们懂的,还不赶紧抱大腿,嘿嘿嘿。。。

    (4)、Hadoop和RDBMs数据库对比

    ​ 我们既然说到了数据库,不妨把俩者做个比较吧。

    ​ 为了大家能够清晰的明白它们之间的不同和优异,我给它做了个表格(在此声明,绝对不是我懒,主要是最近一直敲字,快吐了。。。。)

    HadoopRDBMS
    格式读数据时要求写数据时要求
    速度写数据速度快读数据速度快
    数据监管任意的数据结构标准结构化
    数据处理处理能力绝对牛处理能力有限
    数据类型结构化、半结构化、非结构化只能是结构化数据
    应用场景OLAP
    处理非结构化数据
    海量的数据存储计算
    交互式OLTP
    ACID事务处理
    企务系统

    在这里可以额外提一个知识点:OLAP和OLTP

    OLTP(On-line Transaction Processing):联机事务处理。一般针对具体的业务在数据库中的操作。

    OLAP(On-line Analytical Processing):联机分析处理。一般针对某些主题的历史数据进行处理,支持管理类型的决策。

    概览类型的估计大家也不想看,那咱们就是上图,简单明了,将俩者进行一个对比。
    在这里插入图片描述

    2、功能

    解决海量数据存储、海量数据计算的问题。

    3、优势

    1、处理海量数据的架构首选。

    2、非常快的完成大数据的计算任务。

    3、至今为止,这种架构已经发展成一种Hadoop生态圈。

    如下图所示:

    在这里插入图片描述

    针对这个庞大的Hadoop架构,咱们可以先来简单的看看他们。

    乍一看这么多,龟龟,其实,咱们主要可以先看看这几个最重要的。

    下面给大家一一列举:

    HDFS:分布式文件系统。解决分布式存储。

    MapReduce:分布式计算框架。

    对这个庞大的Hadoop架构,咱们可以先来简单的看看他们。

    乍一看这么多,龟龟,其实,咱们主要可以先看看这几个最重要的。

    下面给大家一一列举:

    HDFS:分布式文件系统。解决分布式存储。

    MapReduce:分布式计算框架。

    YARN:分布式资源管理系统,直白的说,也可以说式集群资源管理系统。

    展开全文
  • 大数据入门ppt

    2016-02-09 23:19:55
    关于大数据大数据,Hadoop,Zookeeper,HBase,Hive,Impala,Kafka,Storm,Spark,Hue,Fiume NG,OoZie,Sqoop,Pig,Cloudera,Hortonworks,MapR,Google入门的ppt
  • MapReduce 大数据 入门 学习
  • 2021贺岁大数据入门spark3.0入门到精通资源简介: 本课程中使用官方在2020年9月8日发布的Spark3.0系列最新稳定版:Spark3.0.1。共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,...
  • MapReduce开发 大数据 入门 学习
  • 大数据入门资料.ppt

    2022-06-21 16:37:34
    大数据入门资料.ppt该文档详细且完整,值得借鉴下载使用,欢迎下载使用,有问题可以第一时间联系作者~
  • 大数据基础入门
  • 2021贺岁大数据入门spark3.0入门到精通资源简介: 本课程中使用官方在2020年9月8日发布的Spark3.0系列最新稳定版:Spark3.0.1。共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,...
  • 大数据入门 大数据时代介绍 共23页.pptx
  • 2021贺岁大数据入门spark3.0入门到精通资源简介: 本课程中使用官方在2020年9月8日发布的Spark3.0系列最新稳定版:Spark3.0.1。共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,...
  • 2021贺岁大数据入门spark3.0入门到精通资源简介: 本课程中使用官方在2020年9月8日发布的Spark3.0系列最新稳定版:Spark3.0.1。共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,...
  • 大数据入门实验数据

    2019-03-15 16:36:34
    一份123M的数据,大数据初学者可用来实验练手,数据用逗号分割
  • 硅谷高科技公司 大数据介绍 大数据相关技术 Hadoop生态系统 Spark简介 LinkedIn内部实战 参考资料
  • 大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...
  • Hadoop伪分布搭建 大数据 入门 学习

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 108,126
精华内容 43,250
关键字:

大数据入门

友情链接: DDETrackerV7Source.zip