大数据技术 订阅
大数据技术,是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等大数据应用技术。 [1] 展开全文
大数据技术,是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等大数据应用技术。 [1]
信息
属    性
大数据
应    用
大数据平台
中文名
大数据技术
专    业
数据科学与大数据技术专业
图像复原概述
2018年,利用大数据技术打造指引行业发展的风向标,成为天津平行进口汽车行业向智能经济发展迈出的重要一步。天津市商务局机电产业处处长李建介绍了天津自贸试验区平行进口汽车大数据平台的进展情况及相关工作。大数据指数体系助力行业发展。 [1] 
收起全文
精华内容
下载资源
问答
  • 大数据技术

    万次阅读 2019-08-28 22:28:43
    大数据技术spark 2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。 一、环境搭建 (1) java安装 在线安装 sudo apt-get install openjdk-7-jre openjdk-7-jdk 离线...

    大数据技术

    2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。


    一、基本概念

    (1) 定义

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    (2) 技术支撑

    • 存储
    • 计算
    • 网络

    (3) 4V特性

    • Volume 大量化
    • Variety 多样化
    • Velocity 快速化
      1秒定律:数据的价值通常只在产生后的1秒内有效
    • Value 价值密度低

    (4) 大数据影响

    • 追求全样而非抽样
    • 追求效率而非精确
    • 追求相关而非因果

    (5) 大数据技术的层次

    • 数据采集与引接
    • 数据存储与管理
    • 数据处理与分析
    • 数据隐私与安全

    (6) 大数据两大核心技术

    • 分布式存储
      解决海量数据的存储问题
    • 分布式处理
      解决海量数据的处理问题

    (7) Apache开源大数据技术

    • 分布式数据库:HBase(BigTable的开源实现)
    • 分布式文件系统:HDFS(GFS的开源实现)
    • 分布式并行处理技术:MapReduce

    (8) 谷歌大数据技术

    • 分布式数据库:BigTable
    • 分布式文件系统:GFS
    • 分布式并行处理技术:MapReduce

    (9) 大数据计算模式

    • 批处理
      针对大规模数据的批处理
      MapReduce、Spark
    • 流计算
      针对流数据需要实时处理,给出实时响应,否则分析结果就失去了商业价值
      Storm、Flume、S4
    • 图计算
      针对大规模图结构数据的处理
      Google Pregel
    • 查询分析计算
      针对大规模数据的存储管理和查询分析
      Google Dremel、Hive、Cassandra

    (10) 大数据关键技术

    Hadoop生态

    在这里插入图片描述

    Spark生态

    在这里插入图片描述

    Flink的生态

    在这里插入图片描述

    Hadoop的缺点

    • 延迟高
    • 磁盘IO开销大
    • 表达能力有限

    Spark的优点

    • spark的计算模式也属于MapReduce,但是不限于Map和Reduce操作,还提供多种数据集操作类型
    • spark提供内存计算,迭代效率高
    • spark基于DAG的任务调度执行机制

    展开全文
  • 大数据之大数据技术架构

    万次阅读 2019-07-11 16:55:29
    最近,中央电视台纪录片频道正在热播的一部纪录片《大数据时代》,细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面带来的改变和影响。大数据现在已经成了一种全新的思维方式...

         上期我们说到大数据的概念,其实,大数据比我们想象中的还要复杂,本期,我们主要从技术的角度介绍一下大数据的知识。

          大数据技术是一系列技术的总称,它是集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等技术,是一个庞大而复杂的技术体系。

           根据大数据从来源到应用,实现传输的流程,可以将大数据技术架构分为数据收集层、数据存储层、数据处理层、数据治理与建模层、数据应用层。

    ​                                       

                                                                大数据技术架构图

    一、数据收集层

            大数据收集层主要采用了大数据采集技术,实现对数据的ETL操作,ETL,是英文Extract-Transform-Load的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于采集的数据种类错综复杂,对于这种不同种类的数据。

    在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同。对于大数据采集的数据类型,主要有以下三类:

    (1)互联网数据:主要包括互联网平台上的公开信息,主要通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。并将其提取、清洗、转换成结构化的数据,将其存储为统一的本地文件数据。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架;

    (2)系统日志数据:许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。目前常用的开源日志收集系统有Flume、Scribe等;

    (3)数据库数据:些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。

                                      

     

                                                                                     数据采集技术

    二、数据存储层

    当大量的数据收集完后,我们需要对大数据进行存储。数据的存储分为持久化存储和非持久化存储。持久化存储表示把数据存储在磁盘中,关机或断电后,数据依然不会丢失。非持久化存储表示把数据存储在内存中,读写速度快,但是关机或断电后,数据丢失。

    对于持久化存储而言,最关键的概念就是文件系统和数据库系统。常见的分布式文件系统HDFS、对应的分布式非关系型数据库系统Hbase,以及另一个非关系型数据库MongoDB。

    而支持非持久化的系统,包括Redis、Berkeley DB和Memcached,则为前述的存储数据库提供了缓存机制,可以大幅地提升系统的响应速度,降低持久化存储的压力。

    三、数据处理层

    当我们把数据收集好了、数据存储以及读写也都没有问题,我们手握着这一堆数据干嘛?除了保存原始数据,做好数据备份之外,我们还需要考虑到利用他们产生更大的价值。那么首先我们需要对这些数据进行处理。大数据处理分为两类,批量处理(离线处理)和实时处理(在线处理)。

    在线处理就是指对实时响应要求非常高的处理,如数据库的一次查询。而离线处理就是对实时响应没有要求的处理,如批量地压缩文档。通过消息机制可以提升处理的及时性。

    Hadoop的MapReduce计算是一种非常适合的离线批处理框架。为了提升效率,下一代的管理框架YARN和更迅速的计算框架Spark最近几年也在逐步的成型之中。在此基础上,人们又提出了hive、pig、impala和spark SQL等工具,进一步简化了某些常见的查询。

    Spark Streaming和Storm则在映射和归约的思想基础上,提供了流式计算框架,进一步提升处理的实时性。

    同时可以利用ActiveMQ和Kafka这样的消息机制,将数据的变化及时推送到各个数据处理系统进行增量的更新。由于消息机制的实时性更强,通常还会与spark streaming、storm这样的流式计算结合起来使用。

    四、数据治理与建模层

    数据收集、数据存储和数据处理是大数据架构的基础设置。一般情况下,完成以上三个层次的数据工作,已经将数据转化为基础数据,为上层的业务应用提供支撑。但是大数据时代,数据类型多样,单位价值稀疏的特点,要求对数据进行治理和融合建模。通过利用R语言、Python等对数据进行ETL预处理,然后再根据算法模型、业务模型进行融合建模,从而更好地为业务应用提供优质底层数据。

    在对数据进行ETL处理和建模后,需要对获取的数据进行进一步管理,可以采用相关的数据管理工具,包括元数据管理工具、数据质量管理工具、数据标准管理工具等,实现数据的全方位管理。

    五、数据应用层

    数据应用层是大数据技术和应用的目标。通常包括信息检索、关联分析等功能。Lucene、Solr和Elasticsearch这样的开源项目为信息检索的实现提供了可能。

    大数据架构为大数据的业务应用提供了一种通用的架构,还需要根据行业领域、公司技术积累以及业务场景,从业务需求、产品设计、技术选型到实现方案流程上具体问题具体分析,利用大数据可视化技术,进一步深入,形成更为明确的应用,包括基于大数据交易与共享、基于开发平台的大数据应用、基于大数据的工具应用等。

     

    展开全文
  • 资源名称:架构大数据 大数据技术及算法解析内容简介:本书从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势。不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如...
  • 中国大数据技术大会(BDTC)作为大数据领域极具影响力的行业盛会,已成功举办十二届,见证了大数据技术生态在中国的建立、发展和成熟。从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,已经成为国内外...
  • 今天我们来聊聊大数据技术的起源,这里我先告诉大家,大数据技术实际上是起源于搜索引擎技术的,所以我们需要先简单了解下搜索引擎的工作原理。 网络搜索引擎 我们都用过 google 和百度,我们在 google 和百度上...

    大家好,这里是抖码课堂,抖码课堂专注提升互联网技术人的软硬实力。在抖码课堂的公众号中可以听这篇文章的音频,体验更好~~~~

    今天我们来聊聊大数据技术的起源,这里我先告诉大家,大数据技术实际上是起源于搜索引擎技术的,所以我们需要先简单了解下搜索引擎的工作原理。

    网络搜索引擎

    我们都用过 google 和百度,我们在 google 和百度上可以通过关键字搜索到在网络上所有我们想要的内容。那你有没有想过下面的问题:

    1. 当我们输入关键字,然后点击搜索的时候,google 和百度为什么能在很短的时间内返回我们想要的结果呢?

    2. 搜索返回的结果有很多条,它们又是按照什么规则排序的呢?为什么第一条结果就得排在第一位呢?

    上面的两个问题其实就是网络搜索引擎技术需要解决的问题,google 和百度本质上都是通过搜索引擎来建立用户和网页之间的连接。

    接下来,我们先来思考上面第一个问题的解决方案。我们要解决的问题就是用户通过搜索关键词,然后得到这个关键词所在的所有网页。

    方案一

    要解决这个问题,我们能想到的最简单的解决方案就是:当用户发起关键词查询的时候,google 和百度就去全网搜索每一个网页,然后找出包含用户需要的关键词的那些网页,然后返回给用户。

    如果 google 和百度真的是用这个方案的话,我相信没有一个用户会去用 google 和百度,因为,这个搜索的速度太慢了,单单访问全网的网页这个动作就是一个奇慢无比的动作,所以这个方案是不靠谱的。

    方案二

    既然访问全网的网页非常的慢,那我们可以事先将全网的网页内容抓取过来,然后存储到内部的服务器中,这样,每次用户搜索关键词的时候只需要搜索我们内部的服务器上的内容就可以了,这样的优化措施就可以提高搜索的速度了,这个就是方案二了。

    实际上,google 和百度每天要做的事情就是不断的抓取全网的网页然后存储到他们内部服务器中,这个动作称为爬取网页,使用的技术就是爬虫技术。

    方案三

    虽然把全网网页的数据都存储在自己的服务器上,但是,当数据量越来越大的时候,用户搜索某个关键词所在的网页的速度也会很慢,因为要从全部的网页中去匹配有没有包含指定的关键词也是一个很慢的动作。接下来就得解决这个查询慢的问题。

    以上查询慢的原因在于我们需要对每一个网页数据进行匹配,如果我们事先知道用户需要查询的关键词在哪些网页上的话,那么当用户查询这个关键词的时候,我们就可以直接将这个关键词对应的所有网页返回给用户了,就不用在用户搜索的时候,拿着关键词去匹配每一个网页了,这样的话,查询就可以在很短的时间内得到结果了。

    所以,现在的问题就变成了怎么样得到每一个关键词出现在哪一些网页上。这个问题我们可以通过先对所有网页内容进行分词,然后同时记录每一个词所在的网页的 url,这样将全网网页数据按照这个逻辑处理完后,就可以得到每个词及其出现的所有网页了。这个过程叫做倒排索引,本质上就是给每一个词建立索引,在计算的过程中记录这个词所在的网页的 url。

    至此,我们就可以通过爬取网页数据 + 倒排索引的技术使得用户和网页之间能够快速的建立连接了,也就解决了开篇提到的第一个问题。

    接下来,我们看看第二个问题。一个关键词一般会出现在多个网页中,那么这些网页是以什么顺序排列在用户的面前呢?要对网页进行排序的话,那么首先要解决的问题就是使得网页之间可以排序,我们可以通过给每一个网页计算一个权重值,然后就可以根据权重值来排序了。

    那这个权重值怎么计算呢?google 研发出了一个非常著名的算法 PageRank,它可以计算每个网页的权重 (也就是网页的重要性),在这里,我们不打算深入研究 PageRank,我们就举一个简单的例子:一个网页如果被很多的网页引用了,那么这个网页相对来说就比较重要,它的权值就比较高了。所以说,重要的网页排名靠前这个是比较自然的。

    大数据技术起源

    前面我们了解了搜索引擎的实现原理,接下来我们来关注另一个非常重要的问题,那就是数据量。

    搜索引擎需要爬取全网的网页数据,这个数据量得多大呢?我们先看下面一张图片,这张图片是从 1991 年以来全网网站的数量的统计:

    从上图我们可以看到以下几点:

    1. 第一个网站是 1991 年 8 月份出现的

    2. google 是在 1998 年成立的

    3. 在 google 成立的第三年,也就是 2000 年,网站的数量呈爆炸式增长,相比 1999 年增加了 438%

    网站数量的增多,导致网页的数量增多,那么 google 需要爬取的网页的数量就增多,爬取过来的网页的数据量已经超过了一台服务器可以存储的大小了。这个时候 google 就需要解决数据量越来越大的问题了。要解决这个问题有两种方式:

    1. 对单台服务器进行优化,不断增加磁盘大小,提升性能,也就是寻找更好的服务器

    2. 部署一个超大规模的服务器集群,这个服务器集群由大量的普通的商用服务器组成,可以将爬取过来的数据通过分块分布式的存储在这个集群中

    以上方案一需要的服务器太贵,成本太高,所以 google 选择了方案二,google 将普通的服务器组织到一起,形成一个集群就解决了这个数据量大的问题,成本相对较低。

    为了支持将所有网页数据进行分块,然后分布式的存储在集群中的所有机器上,google 研发了一个分布式存储文件系统,那就是 GFS (The Google File System 的缩写)。GFS 是为了解决大量数据分布式存储的问题。

    数据存储的问题是解决了,那么怎么样基于分布式存储的数据进行计算呢?比如怎么对分布式存储的数据进行倒排索引和 PageRank 的计算呢?为了解决这个问题,google 研发了基于分布式存储的分布式计算技术,即 MapReduce

    至此,google 在多台服务器组成的集群上,使用 GFS 分布式存储爬取过来的网页数据,然后使用 MapReduce 对分布式存储的数据进行倒排索引和网页权重的计算,这样解决了数据量越来越大的问题。

    GFS 和 MapReduce 是 2000 年左右研发出来的,当时还没有大数据的概念,但是这两个技术及其背后解决问题的思想为后面的大数据发展奠定了基础。所以说大数据技术起源于 google 的搜索引擎技术中。

    为什么是 google ?

    至此,朋友们有没有想过一个问题,那就是为什么是 google 率先研发出大数据技术呢?其实原因有两点:

    1. google 内部有厉害的软件工程师,也就是说具有很多人才

    2. 随着互联网的发展,google 所处的搜索引擎行业率先遇到了大量数据的存储和计算问题

    所以,google 研发出了 GFS 和 MapReduce 解决了大量数据的存储和计算问题。 

    那么,随着互联网的发展,各行各业都会遇到这个大量数据的存储和计算的问题,特别是已经到来的 5G 时代,能收集到的数据越来越多,所以说各行各业和大数据技术的结合势在必行。

    这篇文章就分享到这里,感谢你的阅读和收听,如果你觉着这篇文章对你有所帮助的话,你可以分享给你更多的朋友哟~

    系统学习大数据技术:大数据高级工程师就业课程

    展开全文
  • 课程从下面的四个方向讲解大数据技术 Hadoop : 大数据技术思想入门 分布式存储之 HDFS 分布式计算之 MapReduce 和 Yarn Hadoop 2
  • 开源大数据技术架构设计

    万人学习 2015-09-23 11:19:44
    主讲: 钱广锐(IBM研究员/技术讲师/教授) 苏再卿(IBM开发组长/工程师/技术讲师) 【课程主题】 开源大数据技术架构设计
  • 大数据技术之Hive

    2016-05-03 22:59:01
    大数据技术

    大数据技术


    Hive 调用的常用方式


    Hive -e ‘sql’

    Hive -f  'file.name'

    Java jdbc



    Hive 是目前hadoop 系统中最重要的工具 ,请参考stuq 的IT 图谱 :

    https://github.com/TeamStuQ/skill-map/blob/master/data/designbyStuQ/png-Hadoop-by-StuQ.png




    展开全文
  • 大数据技术之Java

    2016-05-03 22:54:25
    大数据技术
  • 大数据技术之Hbase

    2016-05-03 22:58:25
    大数据技术
  • 初识大数据——大数据技术家族 随着技术的不断演进以及新兴技术的不断完善,需要根据平台的数据模型和业务逻辑对平台的技术体系进行更新。为了更好地与大数据组进行某些方面的对接,以及运用大数据技术的优势,计划...
  • 大数据技术框架图解

    万次阅读 2018-10-31 15:18:30
    大数据技术框架见附件: 数据处理:
  • 大数据技术发展史:大数据的前世今生

    万次阅读 多人点赞 2019-02-14 21:11:53
    大数据技术发展史:大数据的前世今生 今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和...
  • 大数据技术总结

    2020-04-17 11:49:51
    大数据技术总结大纲概念应用难题技术栈大数据架构数据收集Sqoop/CanalFlumeKafka数据存储HDFSHBaseKudu分布式协调与资源管理ZookeeperYarn数据计算MapReduceSparkImpala/PrestoStormFlink数据分析...
  • 2018中国大数据技术大会全部ppt资料,中国大数据技术大会(BDTC)作为大数据领域极具影响力的行业盛会,已成功举办十一届,见证了大数据技术生态在中国的建立、发展和成熟。是极具行业实践的专业大数据交流平台
  • 大数据技术学习路线

    万次阅读 多人点赞 2017-06-22 14:19:50
    一、大数据技术基础 1、linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux...
  • 大数据技术框架

    千次阅读 2017-10-10 15:55:04
    大数据技术框架见附件
  • 目录 产生背景 常见应用场景 企业级大数据技术框架 数据收集层 数据存储层 ...企业级大数据技术实现方案...大数据技术直接来源互联网行业,互联网的用户量和数据越来越多逐步形成大数据,根据有关技术报告知道,国...
  • 大数据应用导论 Chapter1 | 大数据技术与应用概述

    千次阅读 多人点赞 2020-03-24 08:50:00
    读者们可以通过此博客初步了解大数据技术的整体框架和使用流程,让读者们更加直观的感受到大数据的魅力。 Chapter1 | 大数据技术与应用概述1、大数据的概念1、什么是Big Data?2、大数据的五大特征2、大数据的历史...
  • 大数据技术

    千次阅读 2018-09-02 17:36:28
    大数据技术栈全貌 下面自底向上介绍各个层的主要项目。 1 采集层和传输层 Sqoop 在hadoop和关系型数据库之间转换数据。 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从...
  • 大数据技术快的原因

    千次阅读 2020-10-07 08:07:24
    大数据技术快的原因: 1、分布式存储 2、分布式并行计算 3、移动程序到数据端 4、更前卫、更先进的实现思路 5、更细分的业务场景 6、更先进的硬件技术+更先进的软件技术
  • 浅谈大数据技术

    千次阅读 2020-06-24 00:24:23
    现如今,大数据技术已经渗透到我们生活的方方面面,人们也很乐于谈及大数据。但是,什么是大数据?大数据是如何产生的?大数据涉及哪些技术?大数据给我们带来了什么好处?对我们产生了什么影响? 也许并不是所有人...
  • 大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及...
  • 大数据技术列表

    2019-02-01 16:10:09
    当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的...
  • 大数据技术与应用

    万次阅读 2017-12-10 10:56:34
    大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。 ...
  • 大数据技术介绍:01大数据概述

    万次阅读 2019-02-02 10:21:33
    大数据技术框架: Hadoop生态系统(1) Hadoop生态系统(2) Hadoop构成:Flume(非结构化数据收集): Cloudera开源的日志收集系统 用于非结构化数据收集 Flume特点 分布式 高可靠性 高容错性 易于定制与扩展 ...
  • 大数据技术在金融领域的应用与实战视频培训教程,系列课程是CSDN学院主题月专属视频,本期主题为 “金融大数据 ”,内容秉承干货实料的原则,邀请业内顶尖的数据技术讲师,共话大数据平台、Spark部署实践以及实现...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 58,592
精华内容 23,436
关键字:

大数据技术