大数据技术 订阅
大数据技术,是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等大数据应用技术。 [1] 展开全文
大数据技术,是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等大数据应用技术。 [1]
信息
属    性
大数据
应    用
大数据平台
中文名
大数据技术
专    业
数据科学与大数据技术专业
图像复原概述
2018年,利用大数据技术打造指引行业发展的风向标,成为天津平行进口汽车行业向智能经济发展迈出的重要一步。天津市商务局机电产业处处长李建介绍了天津自贸试验区平行进口汽车大数据平台的进展情况及相关工作。大数据指数体系助力行业发展。 [1] 
收起全文
精华内容
参与话题
问答
  • 大数据技术

    千人学习 2018-12-19 18:46:50
    本阶段详细介绍了大数据所涉及到的Linux、shell、Hadoop、zookeeper、HadoopHA、Hive、Flume、Kafka、Hbase、Sqoop、Oozie等技术的概念、安装配置、架构原理、数据类型定义、数据操作、存储集群等重点知识点。
  • 资源名称:架构大数据 大数据技术及算法解析内容简介:本书从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势。不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如...
  • 中国大数据技术大会(BDTC)作为大数据领域极具影响力的行业盛会,已成功举办十二届,见证了大数据技术生态在中国的建立、发展和成熟。从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,已经成为国内外...
  • 大数据之大数据技术架构

    万次阅读 2019-07-11 16:55:29
    最近,中央电视台纪录片频道正在热播的一部纪录片《大数据时代》,细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面带来的改变和影响。大数据现在已经成了一种全新的思维方式...

         上期我们说到大数据的概念,其实,大数据比我们想象中的还要复杂,本期,我们主要从技术的角度介绍一下大数据的知识。

          大数据技术是一系列技术的总称,它是集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等技术,是一个庞大而复杂的技术体系。

           根据大数据从来源到应用,实现传输的流程,可以将大数据技术架构分为数据收集层、数据存储层、数据处理层、数据治理与建模层、数据应用层。

    ​                                       

                                                                大数据技术架构图

    一、数据收集层

            大数据收集层主要采用了大数据采集技术,实现对数据的ETL操作,ETL,是英文Extract-Transform-Load的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于采集的数据种类错综复杂,对于这种不同种类的数据。

    在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同。对于大数据采集的数据类型,主要有以下三类:

    (1)互联网数据:主要包括互联网平台上的公开信息,主要通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。并将其提取、清洗、转换成结构化的数据,将其存储为统一的本地文件数据。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架;

    (2)系统日志数据:许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。目前常用的开源日志收集系统有Flume、Scribe等;

    (3)数据库数据:些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。

                                      

     

                                                                                     数据采集技术

    二、数据存储层

    当大量的数据收集完后,我们需要对大数据进行存储。数据的存储分为持久化存储和非持久化存储。持久化存储表示把数据存储在磁盘中,关机或断电后,数据依然不会丢失。非持久化存储表示把数据存储在内存中,读写速度快,但是关机或断电后,数据丢失。

    对于持久化存储而言,最关键的概念就是文件系统和数据库系统。常见的分布式文件系统HDFS、对应的分布式非关系型数据库系统Hbase,以及另一个非关系型数据库MongoDB。

    而支持非持久化的系统,包括Redis、Berkeley DB和Memcached,则为前述的存储数据库提供了缓存机制,可以大幅地提升系统的响应速度,降低持久化存储的压力。

    三、数据处理层

    当我们把数据收集好了、数据存储以及读写也都没有问题,我们手握着这一堆数据干嘛?除了保存原始数据,做好数据备份之外,我们还需要考虑到利用他们产生更大的价值。那么首先我们需要对这些数据进行处理。大数据处理分为两类,批量处理(离线处理)和实时处理(在线处理)。

    在线处理就是指对实时响应要求非常高的处理,如数据库的一次查询。而离线处理就是对实时响应没有要求的处理,如批量地压缩文档。通过消息机制可以提升处理的及时性。

    Hadoop的MapReduce计算是一种非常适合的离线批处理框架。为了提升效率,下一代的管理框架YARN和更迅速的计算框架Spark最近几年也在逐步的成型之中。在此基础上,人们又提出了hive、pig、impala和spark SQL等工具,进一步简化了某些常见的查询。

    Spark Streaming和Storm则在映射和归约的思想基础上,提供了流式计算框架,进一步提升处理的实时性。

    同时可以利用ActiveMQ和Kafka这样的消息机制,将数据的变化及时推送到各个数据处理系统进行增量的更新。由于消息机制的实时性更强,通常还会与spark streaming、storm这样的流式计算结合起来使用。

    四、数据治理与建模层

    数据收集、数据存储和数据处理是大数据架构的基础设置。一般情况下,完成以上三个层次的数据工作,已经将数据转化为基础数据,为上层的业务应用提供支撑。但是大数据时代,数据类型多样,单位价值稀疏的特点,要求对数据进行治理和融合建模。通过利用R语言、Python等对数据进行ETL预处理,然后再根据算法模型、业务模型进行融合建模,从而更好地为业务应用提供优质底层数据。

    在对数据进行ETL处理和建模后,需要对获取的数据进行进一步管理,可以采用相关的数据管理工具,包括元数据管理工具、数据质量管理工具、数据标准管理工具等,实现数据的全方位管理。

    五、数据应用层

    数据应用层是大数据技术和应用的目标。通常包括信息检索、关联分析等功能。Lucene、Solr和Elasticsearch这样的开源项目为信息检索的实现提供了可能。

    大数据架构为大数据的业务应用提供了一种通用的架构,还需要根据行业领域、公司技术积累以及业务场景,从业务需求、产品设计、技术选型到实现方案流程上具体问题具体分析,利用大数据可视化技术,进一步深入,形成更为明确的应用,包括基于大数据交易与共享、基于开发平台的大数据应用、基于大数据的工具应用等。

     

    展开全文
  • 初识大数据——大数据技术家族 随着技术的不断演进以及新兴技术的不断完善,需要根据平台的数据模型和业务逻辑对平台的技术体系进行更新。为了更好地与大数据组进行某些方面的对接,以及运用大数据技术的优势,计划...

    作者:翁松秀


    初识大数据——大数据技术家族

    随着技术的不断演进以及新兴技术的不断完善,需要根据平台的数据模型和业务逻辑对平台的技术体系进行更新。为了更好地与大数据组进行某些方面的对接,以及运用大数据技术的优势,计划将平台的主要技术体系C# ,SQLServer演进为Java ,MySQL ,SparkSQL ,Redis。存储结构方面由原来的C#演进为MySQL和HDFS,业务方面以前主要由存储过程来实现,现在演进为用程序实现,解决存储过程的分布式计算需要借助连接服务器的瓶颈。大数据技术一方面用于存储我们平台的某些特殊数据,以便和大数据组进行对接,另一方面运用大数据在实时计算,基于内存的计算等优势来处理我们的某些业务逻辑。现在的目标是用Spark来实现性能数据统计入库和MRO数据统计入库。其他的业务模块由Java程序实现。

    Hadoop是一个分布式存储和计算框架,利用计算机集群对大规模数据集进行存储和计算。Hadoop框架最核心的技术是HDFS(Hadoop Distributed File System)和MapReduce,HDFS负责大规模数据的存储,而MapReduce负责大规模数据的计算。所以Hadoop最原始的技术体系是这样的:
    在这里插入图片描述
    现在的Hadoop框架满足了数据的存储和数据的计算,为了提高在分析处理大规模数据的效率,充分利用SQL在处理数据时的便捷和高效,所以出现了数据库仓库工具Hive,提供了SQL接口,负责将SQL语句翻译成MapReduce。所以现在的体系大概是这样的:
    在这里插入图片描述
    HDFS为大规模数据提供了存储方案,那我们应该如何将大规模数据采集到Hadoop的文件系统上?也就是采用什么方案来解决从大规模数据到HDFS的数据采集问题。

    • HDFS API:HDFS提供了写数据的API,可以支持用户用编程语言调用API将自己的数据写入HDFS,但是在实际开发中很少用原生的API,都是采用封装好的框架,比如说Hive中的Insert语句,Spark中的saveAsTextFile。
    • Sqoop框架:Sqoop是一个用于在HDFS文件系统和传统关系型数据库MySQL/SQLserver/Oracle进行数据同步的一个开源框架。
    • Flume框架:Flume是一个分布式的海量日志采集和传输框架。
      同理,也可以用HDFS API、Sqoop框架和Flume框架将HDFS上的数据传输我们的应用服务器中去。现在的Hadoop技术体系应该是这样的:
      在这里插入图片描述
      后来人们发现Hive后台使用MapReduce作为执行引擎处理速度确实有点慢,为了解决这个问题,出现了很多SQL On Hadoop框架,最常用的框架依次为:SparkSQL、Impala和Presto框架。这三个框架都是基于内存的大数据分析引擎。现在的Hadoop体系是这样的:
      在这里插入图片描述
      随着数据采集、分析和计算等任务越来越多,单纯地靠Hadoop的资源分配和任务调度器AppMaster远远不够,所以需要一个调度监控系统来完成对系统资源的分配、任务的调度和运行情况的监控。此时的Hadoop体系是这样的:
      在这里插入图片描述
      以上就是调研Hadoop大数据技术体系的雏形,鉴于现在Hadoop的各种框架多如牛毛,不可能在短时间内全部了解完。所以根据我们平台演进的需求,对Hadoop大数据从数据采集、数据存储、数据计算到数据应用的核心技术线对每个阶段的主要代表框架进行了调查和研究。后面会根据需要对Hadoop的实时计算,离线计算以及其他方面的优化进行学习和研究。SparkSQL能够从HDFS读取数据进行处理和计算,比如说数据统计,然后采用HDFS API或者Sqoop框架将统计结果同步到应用服务器中。如果有需要可以采用Flume框架对日志进行同步。
    展开全文
  • 大数据技术学习路线

    万次阅读 多人点赞 2017-06-22 14:19:50
    一、大数据技术基础 1、linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux...

    如果你看完有信心能坚持学习的话,那就当下开始行动吧!



    一、大数据技术基础
    1、linux操作基础

    • linux系统简介与安装
    • linux常用命令–文件操作
    • linux常用命令–用户管理与权限
    • linux常用命令–系统管理
    • linux常用命令–免密登陆配置与网络管理
    • linux上常用软件安装
    • linux本地yum源配置及yum软件安装
    • linux防火墙配置
    • linux高级文本处理命令cut、sed、awk
    • linux定时任务crontab

    2、shell编程

    • shell编程–基本语法
    • shell编程–流程控制
    • shell编程–函数
    • shell编程–综合案例–自动化部署脚本

    3、内存数据库redis

    • redis和nosql简介
    • redis客户端连接
    • redis的string类型数据结构操作及应用-对象缓存
    • redis的list类型数据结构操作及应用案例-任务调度队列
    • redis的hash及set数据结构操作及应用案例-购物车
    • redis的sortedset数据结构操作及应用案例-排行榜

    4、布式协调服务zookeeper

    • zookeeper简介及应用场景
    • zookeeper集群安装部署
    • zookeeper的数据节点与命令行操作
    • zookeeper的java客户端基本操作及事件监听
    • zookeeper核心机制及数据节点
    • zookeeper应用案例–分布式共享资源锁
    • zookeeper应用案例–服务器上下线动态感知
    • zookeeper的数据一致性原理及leader选举机制

    5、java高级特性增强

    • Java多线程基本知识
    • Java同步关键词详解
    • java并发包线程池及在开源软件中的应用
    • Java并发包消息队里及在开源软件中的应用
    • Java JMS技术
    • Java动态代理反射

    6、轻量级RPC框架开发

    • RPC原理学习
    • Nio原理学习
    • Netty常用API学习
    • 轻量级RPC框架需求分析及原理分析
    • 轻量级RPC框架开发

    二、离线计算系统
    1、hadoop快速入门

    • hadoop背景介绍
    • 分布式系统概述
    • 离线数据分析流程介绍
    • 集群搭建
    • 集群使用初步

    2、HDFS增强

    • HDFS的概念和特性
    • HDFS的shell(命令行客户端)操作
    • HDFS的工作机制
    • NAMENODE的工作机制
    • java的api操作
    • 案例1:开发shell采集脚本

    3、MAPREDUCE详解

    • 自定义hadoop的RPC框架
    • Mapreduce编程规范及示例编写
    • Mapreduce程序运行模式及debug方法
    • mapreduce程序运行模式的内在机理
    • mapreduce运算框架的主体工作流程
    • 自定义对象的序列化方法
    • MapReduce编程案例

    4、MAPREDUCE增强

    • Mapreduce排序
    • 自定义partitioner
    • Mapreduce的combiner
    • mapreduce工作机制详解

    5、MAPREDUCE实战

    • maptask并行度机制-文件切片
    • maptask并行度设置
    • 倒排索引
    • 共同好友

    6、federation介绍和hive使用

    • Hadoop的HA机制
    • HA集群的安装部署
    • 集群运维测试之Datanode动态上下线
    • 集群运维测试之Namenode状态切换管理
    • 集群运维测试之数据块的balance
    • HA下HDFS-API变化
    • hive简介
    • hive架构
    • hive安装部署
    • hvie初使用

    7、hive增强和flume介绍

    • HQL-DDL基本语法
    • HQL-DML基本语法
    • HIVE的join
    • HIVE 参数配置
    • HIVE 自定义函数和Transform
    • HIVE 执行HQL的实例分析
    • HIVE最佳实践注意点
    • HIVE优化策略
    • HIVE实战案例
    • Flume介绍
    • Flume的安装部署
    • 案例:采集目录到HDFS
    • 案例:采集文件到HDFS

    三、流式计算
    1、Storm从入门到精通

    • Storm是什么
    • Storm架构分析
    • Storm架构分析
    • Storm编程模型、Tuple源码、并发度分析
    • Storm WordCount案例及常用Api分析
    • Storm集群部署实战
    • Storm+Kafka+Redis业务指标计算
    • Storm源码下载编译
    • Strom集群启动及源码分析
    • Storm任务提交及源码分析
    • Storm数据发送流程分析
    • Storm通信机制分析
    • Storm消息容错机制及源码分析
    • Storm多stream项目分析
    • 编写自己的流式任务执行框架

    2、Storm上下游及架构集成

    • 消息队列是什么
    • Kakfa核心组件
    • Kafka集群部署实战及常用命令
    • Kafka配置文件梳理
    • Kakfa JavaApi学习
    • Kafka文件存储机制分析
    • Redis基础及单机环境部署
    • Redis数据结构及典型案例
    • Flume快速入门
    • Flume+Kafka+Storm+Redis整合

    四、内存计算体系Spark
    1、scala编程

    • scala编程介绍
    • scala相关软件安装
    • scala基础语法
    • scala方法和函数
    • scala函数式编程特点
    • scala数组和集合
    • scala编程练习(单机版WordCount)
    • scala面向对象
    • scala模式匹配
    • actor编程介绍
    • option和偏函数
    • 实战:actor的并发WordCount
    • 柯里化
    • 隐式转换

    2、AKKA与RPC

    • Akka并发编程框架
    • 实战:RPC编程实战

    3、Spark快速入门

    • spark介绍
    • spark环境搭建
    • RDD简介
    • RDD的转换和动作
    • 实战:RDD综合练习
    • RDD高级算子
    • 自定义Partitioner
    • 实战:网站访问次数
    • 广播变量
    • 实战:根据IP计算归属地
    • 自定义排序
    • 利用JDBC RDD实现数据导入导出
    • WorldCount执行流程详解

    4、RDD详解

    • RDD依赖关系
    • RDD缓存机制
    • RDD的Checkpoint检查点机制
    • Spark任务执行过程分析
    • RDD的Stage划分

    5、Spark-Sql应用

    • Spark-SQL
    • Spark结合Hive
    • DataFrame
    • 实战:Spark-SQL和DataFrame案例

    6、SparkStreaming应用实战

    • Spark-Streaming简介
    • Spark-Streaming编程
    • 实战:StageFulWordCount
    • Flume结合Spark Streaming
    • Kafka结合Spark Streaming
    • 窗口函数
    • ELK技术栈介绍
    • ElasticSearch安装和使用
    • Storm架构分析
    • Storm编程模型、Tuple源码、并发度分析
    • Storm WordCount案例及常用Api分析

    7、Spark核心源码解析

    • Spark源码编译
    • Spark远程debug
    • Spark任务提交行流程源码分析
    • Spark通信流程源码分析
    • SparkContext创建过程源码分析
    • DriverActor和ClientActor通信过程源码分析
    • Worker启动Executor过程源码分析
    • Executor向DriverActor注册过程源码分析
    • Executor向Driver注册过程源码分析
    • DAGScheduler和TaskScheduler源码分析
    • Shuffle过程源码分析
    • Task执行过程源码分析

    五、机器学习算法
    1、python及numpy库

    • 机器学习简介
    • 机器学习与python
    • python语言–快速入门
    • python语言–数据类型详解
    • python语言–流程控制语句
    • python语言–函数使用
    • python语言–模块和包
    • phthon语言–面向对象
    • python机器学习算法库–numpy
    • 机器学习必备数学知识–概率论

    2、常用算法实现

    • knn分类算法–算法原理
    • knn分类算法–代码实现
    • knn分类算法–手写字识别案例
    • lineage回归分类算法–算法原理
    • lineage回归分类算法–算法实现及demo
    • 朴素贝叶斯分类算法–算法原理
    • 朴素贝叶斯分类算法–算法实现
    • 朴素贝叶斯分类算法–垃圾邮件识别应用案例
    • kmeans聚类算法–算法原理
    • kmeans聚类算法–算法实现
    • kmeans聚类算法–地理位置聚类应用
    • 决策树分类算法–算法原理
    • 决策树分类算法–算法实现

    来源地址:我的博客文章 http://heminit.com/2017/06/23/my-post2/


    期望和大家一起学习,共同进步,共勉,O(∩_∩)O谢谢

    欢迎交流问题,可加个人QQ 469580884

    或者,加我的群号 751925591,一起探讨交流问题

    不讲虚的,只做实干家

    Talk is cheap,show me the code

    展开全文
  • 大数据技术通用参考模型 本标准规范了大数据的基础通用模型,包括大数据角色、活动和功能组件以及它们之间的关系。 本标准适用于理解大数据领域的复杂操作,是讨论需求、结构和操作的有效工具,并为大数据系列标准的...
  • 大数据技术大致包含哪些内容

    千次阅读 2018-07-19 17:11:37
    大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。那么关于大数据的技术大致包含哪些内容? 一、数据采集 ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间...

    关于大数据的概念,指的是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。而大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。那么关于大数据的技术大致包含哪些内容?

    一、数据采集

    ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

    二、数据存取

    关系数据库、NOSQLSQL等。

    三、基础架构

    云存储、分布式文件存储等。

    四、数据处理

    自然语言处理(NLPNatural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLUNatural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

    五、统计分析

    假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)bootstrap技术等等。

    六、数据挖掘

    分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

    七、模型预测

    预测模型、机器学习、建模仿真。

    八、结果呈现

    云计算、标签云、关系图等。

    展开全文
  • 开源大数据技术架构设计

    万人学习 2015-09-23 11:19:44
    主讲: 钱广锐(IBM研究员/技术讲师/教授) 苏再卿(IBM开发组长/工程师/技术讲师) 【课程主题】 开源大数据技术架构设计
  • 大数据技术在金融领域的应用与实战视频培训教程,系列课程是CSDN学院主题月专属视频,本期主题为 “金融大数据 ”,内容秉承干货实料的原则,邀请业内顶尖的数据技术讲师,共话大数据平台、Spark部署实践以及实现...
  • 2015 中国大数据技术大会已经圆满落幕,本届大会,以更加国际化的视野,从政 策法规、技术实践和产业应用等角度深入探讨大数据落地后的挑战,作为大数据产业 界、科技界与政府部门密切合作的重要平台,吸引了数千...
  • 大数据技术怎么自学?

    千次阅读 2018-08-01 18:05:46
    如今大数据应用越来越广,对于大数据技术人才的需求越来越大,很多人想转行学习大数据,并想通过自学进入大数据行业,那么,大数据技术怎么自学?大数据开发如何自学? 对于想学习大数据人员可分为以下三种; 第一类...
  • 大数据技术框架图解

    万次阅读 2018-10-31 15:18:30
    大数据技术框架见附件: 数据处理:
  • 2018中国大数据技术大会全部ppt资料,中国大数据技术大会(BDTC)作为大数据领域极具影响力的行业盛会,已成功举办十一届,见证了大数据技术生态在中国的建立、发展和成熟。是极具行业实践的专业大数据交流平台
  • 大数据:大数据技术框架

    千次阅读 2019-07-03 16:28:57
    大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及...
  • 如何精进大数据技术

    千次阅读 2020-03-27 12:04:47
    前几天跟前58的技术委员会主席孙玄聊天,聊天过程中得知他想搞大数据课程,于是我们有了如下对话。 问:根据你的观察,现在企业里面很多想搞大数据的工程师普遍有什么特点? 孙老板:很多同学的大数据知识是...
  • 1、数据收集层:分布式、异构性、多样化、流式产生 主要由关系型和非关系型数据收集组件,分布式消息队列构成。 Sqoop/Canal:关系型数据收集和导入工具,是连接关系型数据库和Hadoop的桥梁,Sqoop可将关系型...
  • 大数据技术

    千次阅读 2018-09-02 17:36:28
    大数据技术栈全貌 下面自底向上介绍各个层的主要项目。 1 采集层和传输层 Sqoop 在hadoop和关系型数据库之间转换数据。 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从...
  • 大数据技术入门

    千次阅读 多人点赞 2018-06-11 22:54:28
    大数据(一) - hadoop生态系统及版本演化大数据(二) - HDFS大数据(三) - YARN大数据(四) - MapReduce大数据(五) - HBase大数据(六) - ZooKeeper大数据(七) - Flume大数据(八) - Sqoop大数据(九) - Hive大数据(十) - ...
  • 中国大数据技术与产业发展白皮书(2013)

    千次下载 热门讨论 2013-12-26 13:09:12
    本白皮书由中国计算机学会大数据专家委员会组织撰写,参与白皮书撰写的...同时,探讨大数据研究面临的科学问题和技术挑战,为研究机构和研究人员提供参考指南。 如果提示输入密码,建议使用Adobe Reader阅读器打开。
  • BDTC2014中国大数据技术大会超级火爆。应大家的要求,特别将32位主要演讲专家的PDF收集、整理、分享。内容涵盖Hadoop、YARN、Spark、HBase、Impala、Tez等开源软件的最新进展,NoSQL/NewSQL、内存计算、流计算和图...
  • 世界上所有关注开发技术的人都意识到“大数据”对企业商务所蕴含的潜在价值,其目的都在于解决在企业发展过程中各种业务数据增长所带来的痛苦,现实是,许多问题阻碍了大数据技术的发展和实际应用。 因为一种成功的...
  • 大数据技术发展史:大数据的前世今生

    万次阅读 多人点赞 2019-02-14 21:11:53
    大数据技术发展史:大数据的前世今生 今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和...
  • 课程从下面的四个方向讲解大数据技术 Hadoop : 大数据技术思想入门 分布式存储之 HDFS 分布式计算之 MapReduce 和 Yarn Hadoop 2
  • 大数据技术的发展趋势

    万次阅读 2012-10-29 16:21:57
    大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。这些技术下一步将如何发展?它们之中哪些技术将广为流行?又会诞生哪些新的技术技术趋向多样化,企业应选择接受度高和...
  • 大数据技术全解之二

    千次阅读 2014-03-25 16:02:19
     《大数据技术全解》国内首本讲清大数据系统研发全流程图书,作者是一个我敬佩的人,敢于做非常具有挑战性的工作。写书本来不是一个容易的事情,写一本关于最新的技术的书,更加的不容易。除了作者自身需要有很高的...
  • 大数据技术介绍:01大数据概述

    万次阅读 2019-02-02 10:21:33
    大数据技术框架: Hadoop生态系统(1) Hadoop生态系统(2) Hadoop构成:Flume(非结构化数据收集): Cloudera开源的日志收集系统 用于非结构化数据收集 Flume特点 分布式 高可靠性 高容错性 易于定制与扩展 ...
  • 大数据技术 大数据技术

空空如也

1 2 3 4 5 ... 20
收藏数 50,786
精华内容 20,314
关键字:

大数据技术