大数据 订阅
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]  中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2] 展开全文
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]  中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]
信息
外文名
big data,mega data
提出时间
2008年8月中旬
提出者
维克托·迈尔-舍恩伯格及肯尼斯·库克耶
应用学科
计算机,信息科学,统计学
中文名
大数据
适用领域范围
人工智能
5V特点
大量、高速、多样、价值、真实性
大数据定义
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [3]  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [4]  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]  随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:1 Byte =8 bit1 KB = 1,024 Bytes = 8192 bit1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB全称:1 Bit(比特) =Binary Digit8 Bits = 1 Byte(字节)1,000 Bytes = 1 Kilobyte1,000 Kilobytes = 1 Megabyte1,000 Megabytes = 1 Gigabyte1,000 Gigabytes = 1Terabyte1,000 Terabytes = 1 Petabyte1,000 Petabytes = 1 Exabyte1,000Exabytes = 1 Zettabyte1,000 Zettabytes = 1 Yottabyte1,000 Yottabytes = 1Brontobyte1,000 Brontobytes = 1 Geopbyte
收起全文
精华内容
参与话题
问答
  • 大数据系列全套学习路线

    万次阅读 2018-09-03 18:39:24
    大数据Hadoop系列之Hadoop分布式集群部署 大数据Hadoop系列之Hadoop机架感知配置 大数据Hadoop系列之HDFS命令讲解 大数据Hadoop系列之Hadoop服务开机自启动配置 大数据Hadoop系列之Hadoop Web控制台添加身份验证...
    展开全文
  • 大数据学习路线总结

    千次阅读 2018-10-13 11:06:11
    大数据学习路线总结 1.大数据基础入门 对比:Java开发和大数据开发 1.1为什么要学习大数据 目的:很好找工作 对比:Java开发和大数据开发   1.2什么是大数据 举例: 一商品推荐:问题:(1)大量的订单...

    大数据学习路线总结

    1.大数据基础入门

    对比:Java开发和大数据开发

    1.1为什么要学习大数据

    目的:很好找工作

    对比:Java开发和大数据开发

     

    1.2什么是大数据

    举例:

    一商品推荐:问题:(1)大量的订单如何存储(2)大量的订单如何计算

    二天气预报:问题:(1)大量的天气数据如何存储(2)大量的天气数据如何计算

     

    什么是大户数据,本质?

    一数据的存储,分布式文件系统(分布式存储)

    二数据的计算,分布式计算

     

    1.3Java和大数据是什么关系?

    一Hadoop :基于Java语言开发的

    二Spark:基于Scala语言开发的 ,scala语言基于java语言

     

    1.4学习大数据需要的基础和路线

    一学习大数据需要的基础:Java基础(JavaSE) --->类、继承、I/O 、反射 、泛型。。。。

                          :Linux基础(Linux基本操作) --->创建文件、目录、vi编辑器

    二学习路线

    一.一Java基础和Linux基础

    一.二Hadoop的学习:体系结构、原理、编程

    (*)第一阶段:HDFS、MapReduce、HBase(NoSQL数据库)

           (*)第二阶段:数据分析引擎:Hive、Pig

    数据采集引擎:Sqoop、Flume

    (*)第三阶段:HUE:Web管理工具

    Zookeeper:实现Hadoop的HA

                          Ozzie    :工作流引擎

    一.三Spark的学习

    (*)第一阶段:Scala编程语言

                   (*)第二阶段:Spark Core --->基于内存的数据计算

    (*)第三阶段:Spark SQL类似Oracle中的SQL语言

           (*)第四阶段:Spark Streaming  --->进行实时计算(流式计算),比如大数据学习路线总结

    1.大数据基础入门

    对比:Java开发和大数据开发

    1.1为什么要学习大数据

    目的:很好找工作

    对比:Java开发和大数据开发

     

    1.2什么是大数据

    举例:

    一商品推荐:问题:(1)大量的订单如何存储(2)大量的订单如何计算

    二天气预报:问题:(1)大量的天气数据如何存储(2)大量的天气数据如何计算

     

    什么是大户数据,本质?

    一数据的存储,分布式文件系统(分布式存储)

    二数据的计算,分布式计算

     

    1.3Java和大数据是什么关系?

    一Hadoop :基于Java语言开发的

    二Spark:基于Scala语言开发的 ,scala语言基于java语言

     

    1.4学习大数据需要的基础和路线

    一学习大数据需要的基础:Java基础(JavaSE) --->类、继承、I/O 、反射 、泛型。。。。

                          :Linux基础(Linux基本操作) --->创建文件、目录、vi编辑器

    二学习路线

    一.一Java基础和Linux基础

    一.二Hadoop的学习:体系结构、原理、编程

    (*)第一阶段:HDFS、MapReduce、HBase(NoSQL数据库)

           (*)第二阶段:数据分析引擎:Hive、Pig

    数据采集引擎:Sqoop、Flume

    (*)第三阶段:HU自来水厂

    一.四Apache Storm:类似Spark Streaming --->进行实时计算(流式计算):比如自来水厂

        (*)NoSQL:Redis基于内存的数据

    展开全文
  • (转载)大数据学习路线大数据学习路线

    千次阅读 多人点赞 2018-07-22 09:10:46
    本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。 二、大数据介绍 大数据本质也是数据,但是又有了新的特征,包括数据来源广、...

    一、背景介绍

    本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。

    二、大数据介绍

    大数据本质也是数据,但是又有了新的特征,包括数据来源广数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。

    针对以上主要的4个特征我们需要考虑以下问题:

    1. 数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具。

    2. 数据采集之后,该如何存储?,对应出现了GFS,HDFS,TFS等分布式文件存储系统。

    3. 由于数据增长速度快,数据存储就必须可以水平扩展。

    4. 数据存储之后,该如何通过运算快速转化成一致的格式,该如何快速运算出自己想要的结果?

      对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很大,所以出现了Hive,Pig等将SQL转化成MapReduce的解析引擎;

      普通的MapReduce处理数据只能一批一批地处理,时间延迟太长,为了实现每输入一条数据就能得到结果,于是出现了Storm/JStorm这样的低时延的流式计算框架;

      但是如果同时需要批处理流处理,按照如上就得搭两个集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出现了Spark这样的一站式的计算框架,既可以进行批处理,又可以进行流处理(实质上是微批处理)。

    5. 而后Lambda架构,Kappa架构的出现,又提供了一种业务处理的通用架构。

    6. 为了提高工作效率,加快运速度,出现了一些辅助工具:

      • Ozzie,azkaban:定时任务调度的工具。
      • Hue,Zepplin:图形化任务执行管理,结果查看工具。
      • Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。
      • Python语言:编写一些脚本时会用到。
      • Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。

    以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍,知道了他们为什么而出现或者说出现是为了解决什么问题,进行学习的时候就有的放矢了。

    正文

    一、大数据相关工作介绍

    大数据方向的工作目前主要分为三个主要方向:

    1. 大数据工程师
    2. 数据分析师
    3. 大数据科学家
    4. 其他(数据挖掘等)

    二、大数据工程师的技能要求

    附上大数据工程师技能图:

    enter image description here

    必须掌握的技能11条

    1. Java高级(虚拟机、并发)
    2. Linux 基本操作
    3. Hadoop(HDFS+MapReduce+Yarn )
    4. HBase(JavaAPI操作+Phoenix )
    5. Hive(Hql基本操作和原理理解)
    6. Kafka 
    7. Storm/JStorm
    8. Scala
    9. Python
    10. Spark (Core+sparksql+Spark streaming )
    11. 辅助小工具(Sqoop/Flume/Oozie/Hue等)

    高阶技能6条

    1. 机器学习算法以及mahout库加MLlib
    2. R语言
    3. Lambda 架构
    4. Kappa架构
    5. Kylin
    6. Alluxio

    三、学习路径

    假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;

    3个月会有(21*3+4*2*10)*3=423小时的学习时间。

    第一阶段(基础阶段)

    1)Linux学习(跟鸟哥学就ok了)—–20小时

    1. Linux操作系统介绍与安装。
    2. Linux常用命令。
    3. Linux常用软件安装。
    4. Linux网络。
    5. 防火墙。
    6. Shell编程等。

    官网:https://www.centos.org/download/ 
    中文社区:http://www.linuxidc.com/Linux/2017-09/146919.htm

    2)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时

    1. 掌握多线程。
    2. 掌握并发包下的队列。
    3. 了解JMS。
    4. 掌握JVM技术。
    5. 掌握反射和动态代理。

    官网:https://www.java.com/zh_CN/ 
    中文社区:http://www.java-cn.com/index.html

    3)Zookeeper学习(可以参照这篇博客进行学习:http://www.cnblogs.com/wuxl360/p/5817471.html

    1. Zookeeper分布式协调服务介绍。
    2. Zookeeper集群的安装部署。
    3. Zookeeper数据结构、命令。
    4. Zookeeper的原理以及选举机制。

    官网:http://zookeeper.apache.org/ 
    中文社区:http://www.aboutyun.com/forum-149-1.html

    第二阶段(攻坚阶段)

    4)Hadoop (《Hadoop 权威指南》)—80小时

    1. HDFS

      • HDFS的概念和特性。
      • HDFS的shell操作。
      • HDFS的工作机制。
      • HDFS的Java应用开发。
    2. MapReduce

      • 运行WordCount示例程序。
      • 了解MapReduce内部的运行机制。 
        • MapReduce程序运行流程解析。
        • MapTask并发数的决定机制。
        • MapReduce中的combiner组件应用。
        • MapReduce中的序列化框架及应用。
        • MapReduce中的排序。
        • MapReduce中的自定义分区实现。
        • MapReduce的shuffle机制。
        • MapReduce利用数据压缩进行优化。
        • MapReduce程序与YARN之间的关系。
        • MapReduce参数优化。
    3. MapReduce的Java应用开发

    官网:http://hadoop.apache.org/ 
    中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/ 
    中文社区:http://www.aboutyun.com/forum-143-1.html

    5)Hive(《Hive开发指南》)–20小时

    1. Hive 基本概念

      • Hive 应用场景。
      • Hive 与hadoop的关系。
      • Hive 与传统数据库对比。
      • Hive 的数据存储机制。
    2. Hive 基本操作

      • Hive 中的DDL操作。
      • 在Hive 中如何实现高效的JOIN查询。
      • Hive 的内置函数应用。
      • Hive shell的高级使用方式。
      • Hive 常用参数配置。
      • Hive 自定义函数和Transform的使用技巧。
      • Hive UDF/UDAF开发实例。
    3. Hive 执行过程分析及优化策略

    官网:https://hive.apache.org/ 
    中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html 
    中文社区:http://www.aboutyun.com/thread-7598-1-1.html

    6)HBase(《HBase权威指南》)—20小时

    1. hbase简介。
    2. habse安装。
    3. hbase数据模型。
    4. hbase命令。
    5. hbase开发。
    6. hbase原理。

    官网:http://hbase.apache.org/ 
    中文文档:http://abloz.com/hbase/book.html 
    中文社区:http://www.aboutyun.com/forum-142-1.html

    7)Scala(《快学Scala》)–20小时

    1. Scala概述。
    2. Scala编译器安装。
    3. Scala基础。
    4. 数组、映射、元组、集合。
    5. 类、对象、继承、特质。
    6. 模式匹配和样例类。
    7. 了解Scala Actor并发编程。
    8. 理解Akka。
    9. 理解Scala高阶函数。
    10. 理解Scala隐式转换。

    官网:http://www.scala-lang.org/ 
    初级中文教程:http://www.runoob.com/scala/scala-tutorial.html

    8)Spark (《Spark 权威指南》)—60小时

    enter image description here

    1. Spark core

      • Spark概述。
      • Spark集群安装。
      • 执行第一个Spark案例程序(求PI)。
    2. RDD

      enter image description here

      • RDD概述。
      • 创建RDD。
      • RDD编程API(Transformation 和 Action Operations)。
      • RDD的依赖关系
      • RDD的缓存
      • DAG(有向无环图)
    3. Spark SQL and DataFrame/DataSet

      enter image description here

      • Spark SQL概述。
      • DataFrames。
      • DataFrame常用操作。
      • 编写Spark SQL查询程序。
    4. Spark Streaming

      enter image description here

      enter image description here

      • park Streaming概述。
      • 理解DStream。
      • DStream相关操作(Transformations 和 Output Operations)。
    5. Structured Streaming

    6. 其他(MLlib and GraphX )

    这个部分一般工作中如果不是数据挖掘,机器学习一般用不到,可以等到需要用到的时候再深入学习。

    官网:http://spark.apache.org 
    中文文档(但是版本有点老):https://www.gitbook.com/book/aiyanbo/spark-programming-guide-zh-cn/details 
    中文社区:http://www.aboutyun.com/forum-146-1.html

    9)Python (推荐廖雪峰的博客—30小时

    10)自己用虚拟机搭建一个集群,把所有工具都装上,自己开发一个小demo —30小时

    可以自己用VMware搭建4台虚拟机,然后安装以上软件,搭建一个小集群(本人亲测,I7,64位,16G内存,完全可以运行起来,以下附上我学习时用虚拟机搭建集群的操作文档)

    展开全文
  • 大数据

    千次阅读 2019-08-23 11:38:01
    大数据学习路线,如何学习大数据? 博客推荐 - 博主 - big大鸟 - 大数据?什么是大数据(大数据的概念)?大数据的价值?
    展开全文
  • 大数据学习路线

    万次阅读 多人点赞 2017-06-03 16:35:58
    一方面我自己还只是大数据学习中的一个小学生,贸然动笔怕贻笑大方;另一方面大数据本身领域博大精深,其涵盖领域之广技术种类之多确实很难用一篇文章囊括。怎奈“下雨天打孩子,闲着也是闲着”,况笔者一直坚持写...
  • 大数据技术学习路线

    万次阅读 多人点赞 2017-06-22 14:19:50
    如果你看完有信心能坚持学习的话,那就当下开始行动吧! 一、大数据技术基础 1、linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux...
  • Hadoop入门和大数据应用

    万人学习 2015-09-01 17:01:44
    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用...
  • 大数据学习路线 java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,...
  • 大数据学习(1)-大数据概述

    千次阅读 多人点赞 2019-03-27 21:39:41
    文章目录目录大数据产生背景大数据概念大数据影响大数据应用大数据关键技术大数据产业大数据,云计算,物联网关系云计算物联网大数据,物联网,云计算三者之间联系 目录 大数据产生背景 三次信息化浪潮 根据IBM前...
  • java转大数据学习路线

    万次阅读 多人点赞 2018-07-19 15:17:43
    首先这个文章是转载的,留着后面基础再扎实一点之后开始学习,感谢原文的作者,写出了如此清晰的学习路线。原文作者文章链接:https://blog.csdn.net/gitchat/article/details/78341484 【不要错过文末彩蛋】 申明...
  • 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及...
  • 大数据是什么?  每个企业每天都会生成数据,数据量根据企业业务的复杂度而变化。如果业务量大,我们可以很容易地使用常用的软件工具来管理,但是如果业务体系庞大,那么就将这些数据合理归档整合。这就是我们称之...
  • 大数据时下热度不减,物联网、云计算、大数据、人工智能紧密相连。 物联网的正常运行是通过大数据传输信息给云计算平台处理,然后人工智能提取云计算平台存储的数据进行活动。大数据需要特殊的技术以有效地处理大量...
  • 大数据开发工程师学习路线分享

    千次阅读 2018-05-30 18:01:35
    处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成的,大数据涉及分布式计算、高并发处理、高可用处理、集群、实时性计算等等,汇集的是IT最热门、最流行的IT技术,大数据是机器学习、深度学习...
  • //2014年10月28日 我学了好多机器学习,数据挖掘后才发现gyejie
  • 大数据所需学习的内容纷繁复杂,难度较大,有一个合理的大数据学习路线图帮忙理清思路就显得尤为必要。 一、Java语言以java语言为基础掌握面向对象编程思想所涉及的知识,以及该知识在面向对象编程思想中的应用,...
  • 大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法。...今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具。 阶段一、 Java语言基础 Java开发介绍、熟悉Ec...
  • 比较传统数据与大数据

    千次阅读 2019-10-11 19:55:49
    一、比较大数据与传统数据 大数据相较于传统数据的特点可以概括为:数据量“大”、数据类型“复杂”和数据价值“无限”。 二、比较传统数据挖掘与大数据挖掘 1、技术背景的差异: 传统数据挖掘基于数据库、数据...
  • 大数据云计算学习路线

    万次阅读 2016-10-25 21:59:10
    大数据、云计算系统顶级架构师课程学习路线大数据之Linux+大数据开发篇 Java Linux基础 Shell编程 Hadoop2.x HDFS YARN MapReduce ETL数据清洗Hive Sqoop Flume/Oozie 大数据WEB工具Hue HBase ...
  • 大数据基础学习路线

    千次阅读 2019-09-21 21:08:00
    大数据学习路线大数据的本质Java和大数据的关系学习大数据需要的基础和路线 大数据的本质 (1)数据的存储:分布式文件系统(分布式存储) (2)数据的计算:分布式计算 Java和大数据的关系 Hadoop:基于java语言开发 ...
  • 大数据学习路线

    万次阅读 多人点赞 2018-03-30 16:20:05
    一、入门准备 1、linux操作基础 1) Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程 2) Linux的常用命令:常用命令的介绍、常用命令的使用和练习(文件操作、用户管理与权限...
  • 大数据最佳学习路线

    千次阅读 2018-05-17 10:04:55
    一,题记要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data +...二,大数据里面的角色角色一:大数据工程大数据工程需要解决数据的定义、收集、计算与保存的工作,因此大数据工程师们在设计和部署这样...
  • 大数据工程师学习路线

    千次阅读 2016-08-19 15:13:33
    大数据工程师学习路线

空空如也

1 2 3 4 5 ... 20
收藏数 199,329
精华内容 79,731
关键字:

大数据