- 属 性
- 大数据
- 应 用
- 大数据平台
- 中文名
- 大数据技术
- 专 业
- 数据科学与大数据技术专业
-
大数据技术
2019-08-28 22:28:43大数据技术spark 2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。 一、环境搭建 (1) java安装 在线安装 sudo apt-get install openjdk-7-jre openjdk-7-jdk 离线...大数据技术
2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。
一、基本概念
(1) 定义
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
(2) 技术支撑
- 存储
- 计算
- 网络
(3) 4V特性
- Volume 大量化
- Variety 多样化
- Velocity 快速化
1秒定律:数据的价值通常只在产生后的1秒内有效 - Value 价值密度低
(4) 大数据影响
- 追求全样而非抽样
- 追求效率而非精确
- 追求相关而非因果
(5) 大数据技术的层次
- 数据采集与引接
- 数据存储与管理
- 数据处理与分析
- 数据隐私与安全
(6) 大数据两大核心技术
- 分布式存储
解决海量数据的存储问题 - 分布式处理
解决海量数据的处理问题
(7) Apache开源大数据技术
- 分布式数据库:HBase(BigTable的开源实现)
- 分布式文件系统:HDFS(GFS的开源实现)
- 分布式并行处理技术:MapReduce
(8) 谷歌大数据技术
- 分布式数据库:BigTable
- 分布式文件系统:GFS
- 分布式并行处理技术:MapReduce
(9) 大数据计算模式
- 批处理
针对大规模数据的批处理
MapReduce、Spark - 流计算
针对流数据需要实时处理,给出实时响应,否则分析结果就失去了商业价值
Storm、Flume、S4 - 图计算
针对大规模图结构数据的处理
Google Pregel - 查询分析计算
针对大规模数据的存储管理和查询分析
Google Dremel、Hive、Cassandra
(10) 大数据关键技术
Hadoop生态
Spark生态
Flink的生态
Hadoop的缺点
- 延迟高
- 磁盘IO开销大
- 表达能力有限
Spark的优点
- spark的计算模式也属于MapReduce,但是不限于Map和Reduce操作,还提供多种数据集操作类型
- spark提供内存计算,迭代效率高
- spark基于DAG的任务调度执行机制
-
大数据之大数据技术架构
2019-07-11 16:55:29最近,中央电视台纪录片频道正在热播的一部纪录片《大数据时代》,细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面带来的改变和影响。大数据现在已经成了一种全新的思维方式...上期我们说到大数据的概念,其实,大数据比我们想象中的还要复杂,本期,我们主要从技术的角度介绍一下大数据的知识。
大数据技术是一系列技术的总称,它是集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等技术,是一个庞大而复杂的技术体系。
根据大数据从来源到应用,实现传输的流程,可以将大数据技术架构分为数据收集层、数据存储层、数据处理层、数据治理与建模层、数据应用层。
大数据技术架构图
一、数据收集层
大数据收集层主要采用了大数据采集技术,实现对数据的ETL操作,ETL,是英文Extract-Transform-Load的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于采集的数据种类错综复杂,对于这种不同种类的数据。
在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同。对于大数据采集的数据类型,主要有以下三类:
(1)互联网数据:主要包括互联网平台上的公开信息,主要通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。并将其提取、清洗、转换成结构化的数据,将其存储为统一的本地文件数据。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架;
(2)系统日志数据:许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。目前常用的开源日志收集系统有Flume、Scribe等;
(3)数据库数据:些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。
数据采集技术
二、数据存储层
当大量的数据收集完后,我们需要对大数据进行存储。数据的存储分为持久化存储和非持久化存储。持久化存储表示把数据存储在磁盘中,关机或断电后,数据依然不会丢失。非持久化存储表示把数据存储在内存中,读写速度快,但是关机或断电后,数据丢失。
对于持久化存储而言,最关键的概念就是文件系统和数据库系统。常见的分布式文件系统HDFS、对应的分布式非关系型数据库系统Hbase,以及另一个非关系型数据库MongoDB。
而支持非持久化的系统,包括Redis、Berkeley DB和Memcached,则为前述的存储数据库提供了缓存机制,可以大幅地提升系统的响应速度,降低持久化存储的压力。
三、数据处理层
当我们把数据收集好了、数据存储以及读写也都没有问题,我们手握着这一堆数据干嘛?除了保存原始数据,做好数据备份之外,我们还需要考虑到利用他们产生更大的价值。那么首先我们需要对这些数据进行处理。大数据处理分为两类,批量处理(离线处理)和实时处理(在线处理)。
在线处理就是指对实时响应要求非常高的处理,如数据库的一次查询。而离线处理就是对实时响应没有要求的处理,如批量地压缩文档。通过消息机制可以提升处理的及时性。
Hadoop的MapReduce计算是一种非常适合的离线批处理框架。为了提升效率,下一代的管理框架YARN和更迅速的计算框架Spark最近几年也在逐步的成型之中。在此基础上,人们又提出了hive、pig、impala和spark SQL等工具,进一步简化了某些常见的查询。
Spark Streaming和Storm则在映射和归约的思想基础上,提供了流式计算框架,进一步提升处理的实时性。
同时可以利用ActiveMQ和Kafka这样的消息机制,将数据的变化及时推送到各个数据处理系统进行增量的更新。由于消息机制的实时性更强,通常还会与spark streaming、storm这样的流式计算结合起来使用。
四、数据治理与建模层
数据收集、数据存储和数据处理是大数据架构的基础设置。一般情况下,完成以上三个层次的数据工作,已经将数据转化为基础数据,为上层的业务应用提供支撑。但是大数据时代,数据类型多样,单位价值稀疏的特点,要求对数据进行治理和融合建模。通过利用R语言、Python等对数据进行ETL预处理,然后再根据算法模型、业务模型进行融合建模,从而更好地为业务应用提供优质底层数据。
在对数据进行ETL处理和建模后,需要对获取的数据进行进一步管理,可以采用相关的数据管理工具,包括元数据管理工具、数据质量管理工具、数据标准管理工具等,实现数据的全方位管理。
五、数据应用层
数据应用层是大数据技术和应用的目标。通常包括信息检索、关联分析等功能。Lucene、Solr和Elasticsearch这样的开源项目为信息检索的实现提供了可能。
大数据架构为大数据的业务应用提供了一种通用的架构,还需要根据行业领域、公司技术积累以及业务场景,从业务需求、产品设计、技术选型到实现方案流程上具体问题具体分析,利用大数据可视化技术,进一步深入,形成更为明确的应用,包括基于大数据交易与共享、基于开发平台的大数据应用、基于大数据的工具应用等。
-
架构大数据大数据技术及算法解析
2019-07-23 00:45:20资源名称:架构大数据 大数据技术及算法解析内容简介:本书从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势。不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如... -
2019中国大数据技术大会
2019-12-30 14:29:01中国大数据技术大会(BDTC)作为大数据领域极具影响力的行业盛会,已成功举办十二届,见证了大数据技术生态在中国的建立、发展和成熟。从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,已经成为国内外... -
大数据技术入门:Hadoop 3.x
2020-09-08 21:50:16课程从下面的四个方向讲解大数据技术 Hadoop : 大数据技术思想入门 分布式存储之 HDFS 分布式计算之 MapReduce 和 Yarn Hadoop 2 -
开源大数据技术架构设计
2015-09-23 11:19:44主讲: 钱广锐(IBM研究员/技术讲师/教授) 苏再卿(IBM开发组长/工程师/技术讲师) 【课程主题】 开源大数据技术架构设计 -
大数据技术之Hive
2016-05-03 22:59:01大数据技术大数据技术
Hive 调用的常用方式
Hive -e ‘sql’
Hive -f 'file.name'
Java jdbc
Hive 是目前hadoop 系统中最重要的工具 ,请参考stuq 的IT 图谱 :
https://github.com/TeamStuQ/skill-map/blob/master/data/designbyStuQ/png-Hadoop-by-StuQ.png
-
大数据技术之Java
2016-05-03 22:54:25 -
大数据技术之Hbase
2016-05-03 22:58:25大数据技术 -
初识大数据——大数据技术家族
2019-01-11 13:48:07初识大数据——大数据技术家族 随着技术的不断演进以及新兴技术的不断完善,需要根据平台的数据模型和业务逻辑对平台的技术体系进行更新。为了更好地与大数据组进行某些方面的对接,以及运用大数据技术的优势,计划... -
大数据技术框架图解
2018-10-31 15:18:30大数据技术框架见附件: 数据处理: -
大数据技术发展史:大数据的前世今生
2019-02-14 21:11:53大数据技术发展史:大数据的前世今生 今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和... -
2018中国大数据技术大会全部ppt
2018-12-10 09:01:582018中国大数据技术大会全部ppt资料,中国大数据技术大会(BDTC)作为大数据领域极具影响力的行业盛会,已成功举办十一届,见证了大数据技术生态在中国的建立、发展和成熟。是极具行业实践的专业大数据交流平台 -
大数据技术学习路线
2017-06-22 14:19:50一、大数据技术基础 1、linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux... -
大数据技术框架
2017-10-10 15:55:04大数据技术框架见附件 -
【大数据】企业级大数据技术体系概述
2019-05-02 21:56:12目录 产生背景 常见应用场景 企业级大数据技术框架 数据收集层 数据存储层 ...企业级大数据技术实现方案...大数据技术直接来源互联网行业,互联网的用户量和数据越来越多逐步形成大数据,根据有关技术报告知道,国... -
大数据应用导论 Chapter1 | 大数据技术与应用概述
2020-03-24 08:50:00读者们可以通过此博客初步了解大数据技术的整体框架和使用流程,让读者们更加直观的感受到大数据的魅力。 Chapter1 | 大数据技术与应用概述1、大数据的概念1、什么是Big Data?2、大数据的五大特征2、大数据的历史... -
大数据技术栈
2018-09-02 17:36:28大数据技术栈全貌 下面自底向上介绍各个层的主要项目。 1 采集层和传输层 Sqoop 在hadoop和关系型数据库之间转换数据。 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从... -
大数据技术快的原因
2020-10-07 08:07:24大数据技术快的原因: 1、分布式存储 2、分布式并行计算 3、移动程序到数据端 4、更前卫、更先进的实现思路 5、更细分的业务场景 6、更先进的硬件技术+更先进的软件技术 -
浅谈大数据技术
2020-06-24 00:24:23现如今,大数据技术已经渗透到我们生活的方方面面,人们也很乐于谈及大数据。但是,什么是大数据?大数据是如何产生的?大数据涉及哪些技术?大数据给我们带来了什么好处?对我们产生了什么影响? 也许并不是所有人... -
大数据学习路线图–常用的大数据技术
2019-07-09 17:46:54大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及... -
大数据技术在金融领域的应用与实战
2018-07-06 12:39:58大数据技术在金融领域的应用与实战视频培训教程,系列课程是CSDN学院主题月专属视频,本期主题为 “金融大数据 ”,内容秉承干货实料的原则,邀请业内顶尖的数据技术讲师,共话大数据平台、Spark部署实践以及实现... -
大数据技术介绍:01大数据概述
2019-02-02 10:21:33大数据技术框架: Hadoop生态系统(1) Hadoop生态系统(2) Hadoop构成:Flume(非结构化数据收集): Cloudera开源的日志收集系统 用于非结构化数据收集 Flume特点 分布式 高可靠性 高容错性 易于定制与扩展 ... -
大数据技术与应用
2017-12-10 10:56:34大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。 ... -
大数据是什么?初学者怎样理解大数据技术
2019-11-06 18:38:20相信这是很多初学者的疑问,大数据技术是一系列围绕数据价值化的技术总称,包括数据采集技术、数据存储技术、数据分析技术、数据呈现技术以及数据应用技术等,其中大数据技术与物联网技术、云计算技术、边缘计算技术... -
大数据技术与架构
2019-09-09 00:00:00戳蓝字 "大数据技术与架构" 关注我们哦! -
大数据技术层级划分
2020-08-02 15:08:15你们的灵魂画手再次上线,本次带来大数据技术层级划分的简图,如有错漏,欢迎私信支出。 技术的进步在于多多交流和沟通,我是程序猿,为自己的头发加油!!! 整个大数据体系可以看出来,分为很多层,每一小块其实...
-
MXMIR源码SKYM2
-
81
-
SpringBoot中关于RunWith以及SpringBootTest
-
MFC中文文档.pdf
-
Unity 热更新技术-ILRuntime
-
Spring Security+OAuth2 精讲 多场景打造企业级认证与授权
-
SSiCP:一种新的基于SVM的递归特征消除算法,用于多类癌症分类
-
机器学习算法介绍
-
二分查找
-
21.5寸宽温工控屏UV215FHM-N10-京东方工控屏
-
计算机网络教程第五版微课版谢钧谢希仁编著课后习题参考答案最全整理.doc
-
Java异步非阻塞编程的几种方式
-
示例:演示Dictum框架的示例存储库-源码
-
在虚拟机上部署云资源
-
【每日一题】 995. K 连续位的最小翻转次数
-
CSharpOutline.vsix
-
layui-后台模板jump-server.zip
-
guluxuanchuantupin1.rar
-
回溯法
-
Viasfora.vsix