精华内容
下载资源
问答
  • 大数据简介

    万次阅读 2019-11-05 17:56:16
    1、大数据概述 传统数据处理介绍 2、什么是大数据?(Big Data) 3、传统数据与大数据的对比 4、大数据的特点 数据集主要特点 其他特征 传统数据与大数据处理服务器系统安装对比 5、大数据生态系统 新技术...

    目录

    1、大数据概述

    2、什么是大数据?(Big Data)

    3、传统数据与大数据的对比

    4、大数据的特点

    5、大数据生态系统

    6、大数据技术为什么快?


    1、大数据概述

    • 传统数据处理介绍

           数据来源:

             1、企业内部管理系统 ,如员工考勤(打卡)记录。

              2、客户管理系统(CRM)

           数据特征:

             1、数据增长速度比较缓慢,种类单一。

             2、数据量为GB级别,数据量较小。

          数据处理方式:

             1、数据保存在数据库中。处理时以处理器为中心,应用程序到数据库中检索数据再进行计算(移动数据到程序端)

          遇到的问题:

             1、数据量越来越大、数据处理的速度越来越慢。

             2、数据种类越来越多,出现很多数据库无法存储的数据,如音频、照片、视频等。

    2、什么是大数据?(Big Data)

              是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

             是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

             数据的存储单位

             最小的基本单位是bit

             1 Byte =8 bit

             1 KB = 1,024 Bytes = 8192 bit

              KB --->MB---> GB ---> TB --->PB---> EB --->ZB--->YB ---> BB --->NB---> DB  进率1024

    3、传统数据与大数据的对比

    4、大数据的特点

            数据集主要特点

                    Volume(大量):  数据量巨大,从TB到PB级别。

                    Velocity(高速):  数据量在持续增加(两位数的年增长率)。

                    Variety(多样):   数据类型复杂,超过80%的数据是非结构化的。

                    Value(低密度高价值):  低成本创造高价值。

            其他特征

                    数据来自大量源,需要做相关性分析。

                    需要实时或者准实时的流式采集,有些应用90%写vs.10%读。

                    数据需要长时间存储,非热点数据也会被随机访问。 

                    传统数据与大数据处理服务器系统安装对比

     传统数据下服务器系统安装

            在传统数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。通常会将多块数据硬盘制作成LVM(逻辑卷),即将多块物理硬盘通过软件技术“拼接”在一起形成一个大的硬盘(逻辑上是一个硬盘)。

    大数据下服务器系统安装

            在大数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。数据硬盘必须独立挂载,每个硬盘挂载到系统的一个独立的目录下。

    5、大数据生态系统

            大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题

            新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。

            技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。

            最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。

            商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。

    新技术

            HADOOP

                    HDFS:       海量数据存储。

                    YARN:       集群资源调度。

                    MapReduce:    历史数据离线计算。

            Hive:海量数据仓库。  

                    Hbase:海量数据快速查询数据库。

                    Zookeeper:集群组件协调。

            Impala:是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。

            Kudu:是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件

                    Sqoop:数据同步组件(关系型数据库与hadoop同步)。

                    Flume :海量数据收集。

            Kafka:消息总线。

            Oozie:工作流协调。

            Azkaban: 工作流协调。

            Zeppelin: 数据可视化。

            Hue: 数据可视化。

            Flink:实时计算引擎。

            Kylin: 分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。

            Elasticsearch: 是一个分布式多用户能力的全文搜索引擎。

            Logstash: 一个开源数据搜集引擎。

            Kibana: 一个开源的分析和可视化平台。

            SPARK   SparkCore:Spark 核心组件

            SparkSQL:高效数仓SQL引擎

            Spark Streaming: 实时计算引擎

            Structured: 实时计算引擎2.0

            Spark MLlib:机器学习引擎

            Spark GraphX:图计算引擎

    6、大数据技术为什么快?

    传统数据与大数据处理方式对比

    纵向扩展:

            表示在需要处理更多负载时通过提高单个系统处理能力的方法来解决问题。最简单的情况就是为应用系统提供更为强大的硬件。例如如果数据库所在的服务器实例只有2G内存、低配CPU、小容量硬盘,进而导致了数据库不能高效地运行,那么我们就可以通过将该服务器的内存扩展至8G、更换大容量硬盘或者更换高性能服务器来解决这个问题

    横向扩展

            是将服务分割为众多的子服务并在负载平衡等技术的帮助下在应用中添加新的服务实例

            例如如果数据库所在的服务器实例只有一台服务器,进而导致了数据库不能高效地运行,那么我们就可以通过增加服务器数量,将其构成一个集群来解决这个问题。

    资源集中(计算与存储)

            集中式计算:数据计算几乎完全依赖于一台中、大型的中心计算机的处理能力。和它相连的终端(用户设备)具有各不相同的智能程度。实际上大多数终端完全不具有处理能力,仅仅作为一台输入输出设备使用。

            集中式存储:指建立一个庞大的数据库,把各种信息存入其中,各种功能模块围绕信息库的周围并对信息库进行录入、修改、查询、删除等操作的组织方式。

    分布式(计算与存储)

            分布式计算:是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

            分布式存储:是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落,多台服务器。

    大数据技术快的原因

             1、分布式存储

             2、分布式并行计算

             3、移动程序到数据端

             4、更前卫、更先进的实现思路

             5、更细分的业务场景

             6、更先进的硬件技术+更先进的软件技术

    展开全文
  • 大数据生态

    大数据生态

    进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。

    一、大数据时代

    1. 1.1第三次信息化浪潮

    根据IBM首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。
    在这里插入图片描述

    1. 1.2信息科技为大数据时代提供技术支撑

    ①存储设备容量不断增加
    ②CPU处理能力大幅提升
    ③网络带宽不断增加

    1. 1.3数据产生方式的变革促成大数据时代的来临

    在这里插入图片描述

    二、大数据概念

    随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。“数据是新的石油。”亚马逊前任首席科学家Andreas Weigend说。
    大数据的特点
    ①数据量大:根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)
    人类在最近两年产生的数据量相当于之前产生的全部数据量
    预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。

    ②数据类型繁多:大数据是由结构化和非结构化数据组成的
    10%的结构化数据,存储在数据库中90%的非结构化数据,他们与人类信息密切相关。
    ③处理速度快:从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少,1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同。
    ④价值密度低,商业价值高:以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值。
    大数据的影响
    在思维方式方面,大数据完全颠覆了传统的思维方式:
    1.全样而非抽样
    2.效率而非精确
    3.相关而非因果

    1. 大数据技术的不同层面及其功能

    在这里插入图片描述

    1. 大数据关键技术
      在这里插入图片描述
    2. 大数据计算模式
      在这里插入图片描述

    三、Spark简介

    1.Spark简介
    Spark最初由美国加州大学伯克利分校(UC Berkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。
    2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。
    Spark在2014年打破了Hadoop保持的基准排序纪录。
    Spark/206个节点/23分钟/100TB数据。
    Hadoop/2000个节点/72分钟/100TB数据。
    Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度。
    2.spark的特点
    ①运行速度快:使用DAG执行引擎以支持循环数据流与内存计算。
    ②容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程 。
    ③通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件。
    ④运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源 。
    3.spark未来前景
    Spark如今已吸引了国内外各大公司的注意,如腾讯、淘宝、百度、亚马逊等公司均不同程度地使用了Spark来构建大数据分析应用,并应用到实际的生产环境中。
    在这里插入图片描述
    在这里,我们里看一下spark的架构图吧。
    在这里插入图片描述
    上面我们了解到了大数据生态,现在看一下spark的生态吧。
    在这里插入图片描述
    4.Hadoop与Spark的对比
    1.Hadoop存在如下一些缺点:
    ①表达能力有限。
    ②磁盘IO开销大。
    ③延迟高。
    ④任务之间的衔接涉及IO开销。
    ⑤在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务。
    2.Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题。
    相比于Hadoop MapReduce,Spark主要具有如下优点:
    ①Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比Hadoop MapReduce更灵活。
    ②Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高。
    ③Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制。
    在这里插入图片描述
    使用Hadoop进行迭代计算非常耗资源,spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据。

    展开全文
  • 课程互联网+光机电应用技术 主讲教师郭华峰 大数据简介 教学目标 了解大数据的概念 了解大数据的4V特征 了解大数据的应用现状 引言 大数据的定义 大数据big data指无法在一定时间范围内用常规软件工具进行捕捉管理和...
  • 大数据简介和未来展望.pdf
  • 大数据简介和未来展望.zip
  • nosql 和大数据简介

    2018-08-09 18:05:04
    nosql和大数据相关介绍,想了解这方面的可以下载看看,能有所感悟和收获

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 61,866
精华内容 24,746
关键字:

关于大数据的简介