大数据 订阅
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]  中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2] 展开全文
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]  中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]
信息
外文名
big data,mega data
提出时间
2008年8月中旬
提出者
维克托·迈尔-舍恩伯格及肯尼斯·库克耶
应用学科
计算机,信息科学,统计学
中文名
大数据
适用领域范围
人工智能
5V特点
大量、高速、多样、价值、真实性
大数据定义
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [3]  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [4]  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]  随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:1 Byte =8 bit1 KB = 1,024 Bytes = 8192 bit1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB全称:1 Bit(比特) =Binary Digit8 Bits = 1 Byte(字节)1,000 Bytes = 1 Kilobyte1,000 Kilobytes = 1 Megabyte1,000 Megabytes = 1 Gigabyte1,000 Gigabytes = 1Terabyte1,000 Terabytes = 1 Petabyte1,000 Petabytes = 1 Exabyte1,000Exabytes = 1 Zettabyte1,000 Zettabytes = 1 Yottabyte1,000 Yottabytes = 1Brontobyte1,000 Brontobytes = 1 Geopbyte
收起全文
精华内容
参与话题
问答
  • 大数据

    千次阅读 2019-08-23 11:38:01
    大数据学习路线,如何学习大数据? 博客推荐 - 博主 - big大鸟 - 大数据?什么是大数据大数据的概念)?大数据的价值?
    展开全文
  • 大数据_03【大数据基础知识】

    万次阅读 2020-10-06 09:10:05
    大数据_03 01 大数据概述02 什么是大数据?(Big Data)03 传统数据与大数据的对比04 大数据的特点4.1 传统数据与大数据处理服务器系统安装对比4.2 大数据下服务器系统安装![在这里插入图片描述]...

    01 大数据概述

    数据来源: 了解大数据到来之前,传统数据的通用处理模式1、企业内部管理系统 ,如员工考勤(打卡)记录。 2、客户管理系统(CRM)

    数据特征: 1、数据增长速度比较缓慢,种类单一。 2、数据量为GB级别,数据量较小。

    数据处理方式: 1、数据保存在数据库中。处理时以处理器为中心,应用程序到数据库中检索数据再进行计算(移 动数据到程序端)

    遇到的问题: 1、数据量越来越大、数据处理的速度越来越慢。 2、数据种类越来越多,出现很多数据库无法存储的数据,如音频、照片、视频等。

    02 什么是大数据?(Big Data)

    是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

    数据的存储单位 最小的基本单位是bit 1 Byte =8 bit 1 KB = 1,024 Bytes = 8192 bit

    KB MB GB TB PB EB ZB YB BB NB DB 进率1024

    03 传统数据与大数据的对比

    在这里插入图片描述

    04 大数据的特点

    Volume(大量):  		数据量巨大,从TB到PB级别。
    Velocity(高速):		数据量在持续增加(两位数的年增长率)。
    Variety(多样): 		数据类型复杂,超过80%的数据是非结构化的。
    Value(低密度高价值):  	低成本创造高价值。
    
    数据来自大量源,需要做相关性分析。
    需要实时或者准实时的流式采集,有些应用90%写vs.10%读。
    数据需要长时间存储,非热点数据也会被随机访问。
    
    

    4.1 传统数据与大数据处理服务器系统安装对比

    在这里插入图片描述

    4.2 大数据下服务器系统安装

    在这里插入图片描述

    05 大数据生态系统

    大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题
    新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。
    技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。 最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。
    商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。

    新技术
    HADOOP
    		HDFS:		海量数据存储。
    		YARN:		集群资源调度。
    		MapReduce:	历史数据离线计算。
    	
    Hive:海量数据仓库。	
    	Hbase:		海量数据快速查询数据库。
    	Zookeeper:	集群组件协调。
    	
    Impala:		是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。
    
    Kudu:		是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件
    	Sqoop:	数据同步组件(关系型数据库与hadoop同步)。
    	Flume :	海量数据收集。
    	
    Kafka:		消息总线。
    Oozie:		工作流协调。
    Azkaban: 	工作流协调。
    Zeppelin:	数据可视化。
    Hue: 		数据可视化。
    Flink:		实时计算引擎。
    
    Kylin: 	分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。
    Elasticsearch: 	是一个分布式多用户能力的全文搜索引擎。
    Logstash: 		一个开源数据搜集引擎。
    Kibana: 		一个开源的分析和可视化平台。
    
    SPARK
    		SparkCore:Spark 核心组件
    		
    SparkSQL:			高效数仓SQL引擎
    Spark Streaming: 	实时计算引擎
    Structured: 		实时计算引擎2.0
    Spark MLlib:		机器学习引擎
    Spark GraphX:		图计算引擎
    

    06 大数据生态系统

    在这里插入图片描述

    大数据技术快的原因
    	1、分布式存储
    	2、分布式并行计算
    	3、移动程序到数据端
    	4、更前卫、更先进的实现思路
    	5、更细分的业务场景
    	6、更先进的硬件技术+更先进的软件技术
    
    展开全文
  • 大数据_01【介绍】

    万次阅读 2020-10-04 16:12:20
    大数据_01【介绍】大数据特点大数据能做什么【海量数据背景下】大数据行业的应用大数据发展前景大数据部门组织结构 什么是大数据 指数据集的大小超过了现有典型数据库软件和工具的处理能力的数据 大数据特点 ...

    01 什么是大数据

    指数据集的大小超过了现有典型数据库软件和工具的处理能力的数据

    02 大数据特点

    **

    1. 海量化 数据量从TB到PB 多样化
    2. 数据类型复杂,超过百分之八十是非结构化的[结构化数据 半结构化数据 完全非结构化数据]
    3. 快速化 数据量在持续增加(两位数的增长率) ,数据处理速度要求高
    4. 高价值 在海量多样数据的快速分析下能发挥出更高的数据价值

    **

    03 大数据能做什么【海量数据背景下】

    1. 快速查询 全量查询
    2. 数据存储 量大 文件大
    3. 快速计算 对边传统方式 【属于离线计算】
    4. 实时计算 最新数据
    5. 数据挖掘 新价值

    04 大数据行业的应用

    1. 电信
    2. 零售
    3. 金融服务
    4. 制造
    5. 医疗
    6. 物联网
    7. 智慧城市

    05 大数据发展前景

    1. 党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大 数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇
    2. 国际数据公司IDC预测,到2020年,企业基于大数据计算分析平台的支出将突破5000亿美元。目前,我国大数据人才只有46万,未来3到5年人才缺口达150万之多
    3. 2017年北京大学、中国人民大学、北京邮电大学等25所高校成功申请开设大数据课程。 大数据属于高新技术,大牛少,升职竞争小;
    4. 在北京大数据开发工程师的平均薪水已经到17800元(数据统计来职友集),而且目前还保持强劲的发展势头。

    06 大数据部门组织结构

    平台组 数据仓库组
    Hadoop、Flume、Kafka、Storm、spark等框架平台搭建 ETL工程师-数据清洗
    集群性能监控 Hive工程师-数据分析、数据仓库建模
    集群平台性能调优 ~
    数据挖掘组 报表开发组
    算法工程师 JavaEE工程师
    推荐系统工程师 ~
    用户画像工程师 ~

    07 大数据项目流程

    1. 数据生产
    2. 数据采集
    3. 数据存储
    4. 需求分析
    5. 数据预处理
    6. 数据计算
    7. 结果数据存储
    8. 结果数据展现

    生-集-存-析 预-计-存-现

    展开全文
  • 大数据的简要介绍

    万次阅读 2020-10-04 21:25:31
    大数据【介绍】1)大数据是什么2)大数据特点3)大数据能做什么(海量数据背景下)4)大数据项目流程 1)大数据是什么 指数据集的大小超过了现有典型数据库软件和工具的处理能力的数据 2)大数据特点 ①海量化(Volume)...

    1)大数据是什么

    指数据集的大小超过了现有典型数据库软件和工具的处理能力的数据

    2)大数据特点

    ①海量化(Volume):数据量从TB到PB
    ②多样化(Variety):数据类型复杂,超过80%的数据是非结构化的
    ③快速化(Velocity):数据量在持续增加(两位数的年增长率)
    数据的处理速度要求高
    ④高价值(Value):在海量多样数据的快速分析下能够发挥出更高的数据价值

    3)大数据能做什么(海量数据背景下)

    ①快速查询 全量查询
    ② 数据存储 量大 文件大
    ③ 快速计算 对边传统方式 【属于离线计算】
    ④ 实时计算 最新数据
    ⑤数据挖掘 新价值

    4)大数据项目流程

    ①数据生产
    ②数据采集
    ③数据存储
    ④需求分析
    ⑤数据预处理
    ⑥数据计算
    ⑦结果数据存储
    ⑧结果数据展现

    展开全文
  • 大数据_08 【新增节点与删除节点】

    万次阅读 2020-10-14 21:05:44
    大数据_08 【新增节点与删除节点】服役新节点具体步骤01 需求基础02 准备新节点03 服役新节点具体步骤退役旧数据节点 服役新节点具体步骤 01 需求基础 需求基础 随着公司业务的增长,数据量越来越大,原有的数据...
  • 大数据大数据技术架构

    万次阅读 2019-07-11 16:55:29
    大数据,这个词现在对于我们来说已经是比较熟悉了,大数据的应用已经渗透到我们社会生活的方方面面,各个行业。最近,中央电视台纪录片频道正在热播的一部纪录片《大数据时代》,细致而生动地讲述了大数据技术在政府...
  • 大数据入门

    2020-12-11 09:42:36
    大数据入门 第一节课:概述 1、什么是大数据 2、为什么产生了大数据 3、大数据体系结构 第二节课:hadoop 1、hadoop的组成 2、hadoop的架构 3、hadoop的时空 第三节课:hdfs 1、什么是hdfs 2、hdfs的shell操作 3、...
  • 大数据介绍

    万次阅读 2020-10-05 08:10:01
    大数据【介绍】 1)大数据是什么 2)大数据特点 3)大数据能做什么(海量数据背景下) 4)大数据项目流程 1)大数据是什么 指数据集的大小超过了现有典型数据库软件和工具的处理能力的数据 2)大数据特点 ①海量化(Volume)...
  • 大数据的特点和快的原因

    万次阅读 2020-10-06 10:29:00
    大数据的特点和快的原因数据集主要特点其他特征大数据技术快的原因 数据集主要特点 Volume(大量): 数据量巨大,从TB到PB级别。 Velocity(高速): 数据量在持续增加(两位数的年增长率)。 Variety(多样): 数据...
  • 大数据到底应该如何学?

    万次阅读 多人点赞 2020-09-14 22:37:06
    本文关键字:大数据专业、大数据方向、大数据开发、大数据分析、学习路线。笔者从事大数据开发和培训多年,曾为多家机构优化完整大数据课程体系,也为多所高校设计并实施大数据专业培养方案,并进行过多次大数据师资...
  • 大数据技术

    千人学习 2018-12-19 18:46:50
    本阶段详细介绍了大数据所涉及到的Linux、shell、Hadoop、zookeeper、HadoopHA、Hive、Flume、Kafka、Hbase、Sqoop、Oozie等技术的概念、安装配置、架构原理、数据类型定义、数据操作、存储集群等重点知识点。
  • 欢迎进入神奇的大数据时代,

    万次阅读 多人点赞 2017-06-12 17:21:25
    随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多...
  • 大数据项目实战和大数据讲解ppt 大数据项目实战和大数据讲解ppt 大数据项目实战和大数据讲解ppt 大数据项目实战和大数据讲解ppt
  • 声明:本文转至Big大鸟的博客下,转载的名为《什么叫大数据 大数据的概念》一文,链接地址http://blog.csdn.net/qq_36738482/article/details/728235091、大数据定义 对于“大数据”(Big data)研究机构Gartner给...
  • 运营商大数据就是基于三大运营商用户数据的建模分析和数据挖掘能力,可以针对不同的企业,行业对于目标客户的需求不同,根据用户行为进行精准筛选和建立立体的用户画像进行分析。现推出了三网运营商大数据API接口的...
  • 什么叫大数据 大数据的概念

    万次阅读 多人点赞 2017-05-31 20:23:06
    1、大数据定义  对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力 的海量、高增长率和多样化的信息资产。 大数据...
  • 大数据介绍及大数据项目流程

    万次阅读 2019-11-04 19:56:22
    1. 什么是大数据? 字面意思理解:大量的数据,海量的数据 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据 2. 大数据有什么特点? 1.海量化 数据量大(多) 2.多样化 结构化数据,半...
  • 大数据简介

    万次阅读 2019-11-05 17:56:16
    1、大数据概述 传统数据处理介绍 2、什么是大数据?(Big Data) 3、传统数据与大数据的对比 4、大数据的特点 数据集主要特点 其他特征 传统数据与大数据处理服务器系统安装对比 5、大数据生态系统 新技术...
  • 大数据Java强化班(十)之大数据爬虫

    千人学习 2019-09-10 10:14:32
    课程由猎豹移动大数据架构师,根据Java在公司大数据开发中的实际应用,精心设计和打磨的大数据必备Java课程。通过本课程学习大数据新手能够少走弯路,以最短的时间系统掌握大数据开发必备语言Java,为后续大数据课程...
  • 13个大数据应用案例,告诉你最真实的大数据故事

    万次阅读 多人点赞 2018-03-15 10:27:48
    大数据真的太神奇了,真的可以让改变一个企业的运营吗?答案是肯定的。大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了。然而实际上很多人都对大数据的应用模糊不清。现在就...
  • Hadoop大数据实战开发

    万人学习 2019-05-24 10:17:23
    介绍大数据技术生态圈主流技术框架的应用与发展,介绍如何搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS 、大数据分布式并行计算框架MapReduce。 本课程介绍大数据的学习基础。 本课程介绍...
  • 大数据基础--大数据深入了解

    万次阅读 2019-10-31 22:57:12
    第一部分 《大数据概述》 传统数据如何处理? 什么是大数据? 传统数据与大数据的对比 大数据的特点? 大数据前/后服务器系统安装部署区别是什么?。 大数据生态系统以及技术组件介绍 大数据技术为什么快? 什么是...
  • 大数据简介 一、概念 研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 根据维基百科的定义,大数据是指无法在...
  • 大数据-大数据学习过程

    千次阅读 多人点赞 2018-09-13 11:03:50
    本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。 前言: 一、背景介绍 二、大数据介绍 正文: 一、大数据相关的...
  • 大数据入门笔记系列】第一节 大数据常用组件

    万次阅读 多人点赞 2020-02-13 22:00:20
    大数据入门笔记系列】大数据常用组件大数据释义大数据组件 大数据释义 近些年来,坊间一直流传着这样的言论:“大数据时代,人人都在裸奔”。对于外行人来说,对于“大数据”这个词最直观的理解就是“大的数据集”...
  • 大数据大数据框架

    千次阅读 2018-04-25 23:45:15
    大数据(BigData)是一种规模庞大的数据集合,一般单台计算机的能力范围无法对数据集进行获取、存储、管理和分析。因此大数据又和云计算和分布式集群密不可分。大数据是互联网发展至今一个时代的产物。所以并没有什么...
  • 大数据概述

    千次阅读 2019-11-06 10:07:52
    大数据概述、特点。应用场景、企业数据部的业务流程分析、大数据部门组织结构
  • 大数据大数据

    千次阅读 2018-11-11 00:00:00
    首先,祝大家双十一快乐。开始本文之前,希望大家参与一下下面的投票。做这个投票的主要原因是最近经常有找浪尖咨询大数据,自学,培训及找工作的事情,问题归类如下:大数据要不要培...

空空如也

1 2 3 4 5 ... 20
收藏数 224,087
精华内容 89,634
关键字:

大数据