大数据技术_大数据技术大会 - CSDN
大数据技术 订阅
大数据技术,是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等大数据应用技术。 [1] 展开全文
大数据技术,是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等大数据应用技术。 [1]
信息
属    性
大数据
应    用
大数据平台
中文名
大数据技术
专    业
数据科学与大数据技术专业
图像复原概述
2018年,利用大数据技术打造指引行业发展的风向标,成为天津平行进口汽车行业向智能经济发展迈出的重要一步。天津市商务局机电产业处处长李建介绍了天津自贸试验区平行进口汽车大数据平台的进展情况及相关工作。大数据指数体系助力行业发展。 [1] 
收起全文
精华内容
参与话题
  • 大数据方面核心技术有哪些?

    千次阅读 2019-04-18 17:42:38
    大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要...

    大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、

    一、数据采集与预处理

    对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。

     

     

    Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除channel中的信息。

     

     

     

    NDC,Netease Data Canal,直译为网易数据运河系统,是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据传输领域的各种工具和经验,将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外,NDC的设计遵循了单元化和平台化的设计哲学。

     

     

     

    Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择,可以在同一时间从众多常用的数据来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。

     

     

     

    Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业(极其容错的分布式并行计算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。

     

     

     

    流式计算是行业研究的一个热点,流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流分析工具有很多,比如开源的strom,spark streaming等。

     

     

     

    Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是Storm提供的后台守护进程,之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker因为错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。

    在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。
     

    当使用上游模块的数据进行计算、统计、分析时,就可以使用消息系统,尤其是分布式消息系统。Kafka使用Scala进行编写,是一种分布式的、基于发布/订阅的消息系统。Kafka的设计理念之一就是同时提供离线处理和实时处理,以及将数据实时备份到另一个数据中心,Kafka可以有许多的生产者和消费者分享多个主题,将消息以topic为单位进行归纳;Kafka发布消息的程序称为producer,也叫生产者,预订topics并消费消息的程序称为consumer,也叫消费者;当Kafka以集群的方式运行时,可以由一个服务或者多个服务组成,每个服务叫做一个broker,运行过程中producer通过网络将消息发送到Kafka集群,集群向消费者提供消息。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。Kafka可以和Flume一起工作,如果需要将流式数据从Kafka转移到hadoop,可以使用Flume代理agent,将Kafka当做一个来源source,这样可以从Kafka读取数据到Hadoop。

     

     

     

    Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了手动拷贝配置的繁琐,还很好的保证了数据的可靠和一致性,同时它可以通过名字来获取资源或者服务的地址等信息,可以监控集群中机器的变化,实现了类似于心跳机制的功能。

     

    二、数据存储

    Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。

     

     

     

    HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

     

     

     

    Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。

     

     

     

    Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。

     

     

     

    Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。

     

     

     

    Redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。

     

     

     

    Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来,Atlas相当于连接它的客户端,在前端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通讯,它实现了MySQL的客户端和服务端协议,同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节,同时为了降低MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责监听所有的客户端连接请求,工作线程只监听主线程的命令请求。

     

    互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入

     

    Kudu是围绕Hadoop生态圈建立的存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。Kudu的应用场景很广泛,比如可以进行实时的数据分析,用于数据可能会存在变化的时序数据应用等。

     

     

     

    在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减少磁盘上的存储。

     

    三、数据清洗

    MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。

     

     

     

    随着业务数据量的增多,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统,比如oozie或者azkaban,对关键任务进行调度和监控。

     

     

     

    Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的提交请求(提交工作流作业),当提交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业),然后向Oozie提交Workflow,Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因,用户程序不必等待作业执行完成(因为有些大作业可能会执行很久(几个小时甚至几天))。Oozie在后台以异步方式,再将workflow对应的Action提交给hadoop执行。

     

     

     

    Azkaban也是一种工作流的控制引擎,可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server用来调度工作流和任务,记录工作流或者任务的日志。

     

     

     

    流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台,其特点是易用、实时、可靠,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。

     

    四、数据查询分析

    Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapReduce jobs,然后在hadoop上面运行。Hive支持标准的SQL语法,免去了用户编写MapReduce程序的过程,它的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。

     

     

     

    Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈 。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特点,过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中,用户只需要创建表,导入数据,编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。

     

     

     

    Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala将整个查询分成一执行计划树,而不是一连串的MapReduce任务,相比Hive没了MapReduce启动时间。

     

     

     

    Hive 适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证想法的大数据分析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用像Hive那样把它组合成管道型的map->reduce模式,以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。

     

     

     

    Spark拥有Hadoop MapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

     

     

     

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。

     

     

     

    Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。

     

     

     

    Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

     

     

     

    还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等,常用的机器学习算法比如,贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

     

    五、数据可视化

    对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。

     

    在上面的每一个阶段,保障数据的安全是不可忽视的问题。

     

     

     

    基于网络身份认证的协议Kerberos,用来在非安全网络中,对个人通信以安全的手段进行身份认证,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。

     

     

     

    控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。

     

     

     

     

     

     

     

    简单说有三大核心技术:拿数据,算数据,卖数据。

     

    首先做为大数据,拿不到大量数据都白扯。现在由于机器学习的兴起,以及万金油算法的崛起,导致算法地位下降,数据地位提高了。举个通俗的例子,就好比由于教育的发展,导致个人智力重要性降低,教育背景变重要了,因为一般人按标准流程读个书,就能比牛顿懂得多了。谷歌就说:拿牛逼的数据喂给一个一般的算法,很多情况下好于拿傻傻的数据喂给牛逼的算法。而且知不知道弄个牛逼算法有多困难?一般人连这个困难度都搞不清楚好不好……拿数据很重要,巧妇难为无米之炊呀!所以为什么好多公司要烧钱抢入口,抢用户,是为了争夺数据源呀!不过运营,和产品更关注这个,我是程序员,我不管……

     

    其次就是算数据,如果数据拿到直接就有价值地话,那也就不需要公司了,政府直接赚外快就好了。苹果落地都能看到,人家牛顿能整个万有引力,我就只能捡来吃掉,差距呀……所以数据在那里摆着,能挖出啥就各凭本事了。算数据就需要计算平台了,数据怎么存(HDFS, S3, HBase, Cassandra),怎么算(Hadoop, Spark)就靠咱们程序猿了……

     

    再次就是卖得出去才能变现,否则就是搞公益了,比如《疑犯追踪》里面的李四和大锤他们……见人所未见,预测未来并趋利避害才是智能的终极目标以及存在意义,对吧?这个得靠大家一块儿琢磨。

     

    其实我觉得最后那个才是“核心技术”,什么Spark,Storm,Deep-Learning,都是第二梯队的……当然,没有强大的算力做支撑,智能应该也无从说起吧。

    数据查询分析和数据可视化。

    展开全文
  • 大数据技术介绍:01大数据概述

    万次阅读 2019-02-23 15:34:18
    大数据技术框架: Hadoop生态系统(1) Hadoop生态系统(2) Hadoop构成:Flume(非结构化数据收集): Cloudera开源的日志收集系统 用于非结构化数据收集 Flume特点 分布式 高可靠性 高容错性 易于定制与扩展 ...

    大数据技术介绍:01大数据概述
    大数据技术框架:
    在这里插入图片描述

    Hadoop生态系统(1)
    在这里插入图片描述

    Hadoop生态系统(2)
    在这里插入图片描述

    Hadoop构成:Flume(非结构化数据收集):
    Cloudera开源的日志收集系统
    用于非结构化数据收集
    Flume特点
    分布式
    高可靠性
    高容错性
    易于定制与扩展

    日志收集工具:flume
    在这里插入图片描述

    Hadoop构成:Sqoop(结构化数据收集)

    在这里插入图片描述
    Sqoop:SQL-to-Hadoop
    连接传统关系型数据库和Hadoop 的桥梁
    把关系型数据库的数据导入到Hadoop 系统( 如HDFS,HBase 和Hive) 中;
    把数据从Hadoop 系统里抽取并导出到关系型数据库里。
    利用MapReduce加快数据传输速度
    批处理方式进行数据传输

    Hadoop构成:HDFS(分布式文件系统)
    源自于Google的GFS论文,发表于2003年10月
    HDFS是GFS克隆版

    HDFS特点:
    良好的扩展性。
    高容错性。
    适合PB级以上海量数据的存储。

    基本原理:
    将文件切分成等大的数据块,存储到多台机器上
    将数据切分、容错、负载均衡等功能透明化
    可将HDFS看成一个容量巨大、具有高容错性的磁盘

    应用场景:
    海量数据的可靠性存储
    数据归档

    Hadoop构成:YARN(资源管理系统)
    YARN是什么
    Hadoop 2.0新增系统
    负责集群的资源管理和调度
    使得多种计算框架可以运行在一个集群中
    YARN的特点
    良好的扩展性、高可用性
    对多种类型的应用程序进行统一管理和调度
    自带了多种多用户调度器,适合共享集群环境

    如下图:图1,图2
    在这里插入图片描述
    在这里插入图片描述

    Hadoop构成:MapReduce(分布式计算框架)
    源自于Google的MapReduce论文
    发表于2004年12月
    Hadoop MapReduce是Google MapReduce克隆版
    MapReduce特点
    良好的扩展性
    高容错性
    适合PB级以上海量数据的离线处理
    在这里插入图片描述

    Hadoop构成:Hive(基于MR的数据仓库)
    由facebook开源,最初用于解决海量结构化的日志数据统计问题;
    ETL(Extraction-Transformation-Loading)工具
    构建在Hadoop之上的数据仓库;
    数据计算使用MR,数据存储使用HDFS
    Hive 定义了一种类SQL 查询语言——HQL;
    类似SQL,但不完全相同
    通常用于进行离线数据处理(采用MapReduce);
    可认为是一个HQL <—>MR的语言翻译器。
    日志分析
    统计网站一个时间段内的pv、uv
    多维度数据分析
    大部分互联网公司使用Hive进行日志分析,包括百度、淘宝等
    其他场景
    海量结构化数据离线分析
    低成本进行数据分析(不直接编写MR)

    Spark生态系统:
    spark主要是面向计算的生态系统,而hadoop则是涉及数据收集、存储、
    资源管理和计算等的综合大数据解决方案。
    在这里插入图片描述

    Flink生态系统:
    在这里插入图片描述

    典型企业级大数据架构:
    在这里插入图片描述

    Hadoop发行版介绍(开源版)
    Apache Hadoop
    推荐使用最新的2.x.x版本,比如2.7.3
    下载地址:http://hadoop.apache.org/releases.html
    SVN:http://svn.apache.org/repos/asf/hadoop/common/branches/

    CDH(Cloudera Distributed Hadoop)
    推荐使用最新的CDH5版本,比如CDH5.8.0
    下载地址: http://archive.cloudera.com/cdh5/cdh/

    HDP(Hortonworks Data Platform
    推荐使用最新的HDP 2.x版本,比如HDP 2.6版本
    下载地址:http://zh.hortonworks.com/hdp/downloads/

    Hadoop版本选择
    不同发行版兼容性
    架构、部署和使用方法一致,不同之处仅在若干内部实现。
    建议选择公司发行版,比如CDH或HDP
    类比原生linux与Ubuntu/Red Hat关系
    更易维护和升级
    经过集成测试,不会面临版本兼容问题

    Hadoop集群搭建
    全人工搭建
    自动化安装软件:Cloudera Manager,Ambari

    Hadoop发行版CDH:如下图:
    在这里插入图片描述

    Hadoop发行版HDP:如下图
    在这里插入图片描述

    Hadoop全人工模式安装:常见错误
    1.防火墙未关闭(所有节点都要关系)
    Connection Refused…
    2.配置文件抄错
    core-site.xml
    yarn-site.xml
    hdfs-site.xml
    以及mapredsite.xml

    3.多次格式化HDFS
    每次格式化后,均会导致HDFS启动失败,
    解决方案:清空HDFS的各个数据目录,然后重启HDFS
    格式化HDFS是非常危险的,会导致所有数据丢失!!!

    Hadoop运行模式
    本地模式:
    一个节点,不会启动任何服务
    伪分布式模式:
    一个节点,所有服务均运行在该节点上
    分布式模式:
    多于一个节点

    自动化安装:Ambari,如下图
    在这里插入图片描述

    自动化安装:Cloudera Manager
    Coudera提供的Hadoop管理系统
    软件免费,但代码不开源
    迄今为止最好用的Hadoop管理系统
    Hadoop自动化安装、部署和配置
    Hadoop管理(一站式管理各种服务)
    Hadoop监控与报警
    Hadoop问题诊断

    自动化安装:Cloudera Manager(主界面),如下图:
    在这里插入图片描述

    自动化安装:Cloudera Manager(节点管理),如下图:

    在这里插入图片描述

    自动化安装:Cloudera Manager(配置管理),如下图:
    在这里插入图片描述

    自动化安装:Cloudera Manager(搭建集群),如下图:
    在这里插入图片描述

    自动化安装:Cloudera Manager(审计),如下图:
    在这里插入图片描述

    学习大数据技术栈:
    Linux虚拟机
    Linux教程
    http://www.92csz.com/study/linux/

    集成开发环境:
    Eclipse,intellij IDEA

    【项目构建(包管理、编译、发布),maven】
    maven教程:
    https://yq.aliyun.com/articles/28591
    http://www.yiibai.com/maven/
    http://wenku.baidu.com/link?url=cceOGhtpf7xHs_KFbI2f_uh0B7uo915pSZhqbO2ymD2ouJ7qhcOZmlc1W9xB6VxHnqu9VPD_M9HloZ_Pt-wuL3uTJ6cfKCxuJm0Z_FSxCm

    【Hadoop与Spark版本】
    Scala 2.11.X(不能是2.10或2.12),Java 1.8

    Hadoop 2.7.3
    http://hadoop.apache.org/releases.html

    Hive 2.1.1
    http://hive.apache.org/downloads.html

    Hbase 1.2.4
    http://www.apache.org/dyn/closer.cgi/hbase/

    Flume 1.7.0
    http://flume.apache.org/download.html

    Sqoop1.99.7
    http://mirror.cc.columbia.edu/pub/software/apache/sqoop/1.99.7/sqoop-1.99.7-binhadoop200.tar.gz

    Presto 0.166
    https://prestodb.io/docs/current/installation/deployment.html

    Spark 2.1.0
    http://spark.apache.org/downloads.html

    Kafka 0.9.0
    http://kafka.apache.org/downloads

    Zookeeper 3.4.9
    http://zookeeper.apache.org/releases.html#download

    ====================================
    【End:2019-02-02 10:21】

    展开全文
  • 一文读懂大数据两大核心技术

    千次阅读 2018-04-13 18:21:58
    今天小编给大家先分享一下大数据的两大核心技术,知己知彼才能百战不殆,学习大数据技术也是一样的道理,要先有一个清晰的了解,才能确保自己全身心的投入学习。 Hadoop是什么? Hadoop在2006年开始成为雅虎项目,...

      今天小编给大家先分享一下大数据的两大核心技术,知己知彼才能百战不殆,学习大数据技术也是一样的道理,要先有一个清晰的了解,才能确保自己全身心的投入学习。

      Hadoop是什么?

      Hadoop在2006年开始成为雅虎项目,随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构,具有多个组件:Hadoop分布式文件系统(HDFS),它将文件以Hadoop本机格式存储并在集群中并行化; YARN,协调应用程序运行时的调度程序; MapReduce,这是实际并行处理数据的算法。Hadoop使用Java编程语言构建,其上的应用程序也可以使用其他语言编写。通过一个Thrift客户端,用户可以编写MapReduce或者Python代码。

      


      除了这些基本组件外,Hadoop还包括Sqoop,它将关系数据移入HDFS; Hive,一种类似SQL的接口,允许用户在HDFS上运行查询; Mahout,机器学习。除了将HDFS用于文件存储之外,Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

      它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。

      Spark是什么?

      Spark是一个较新的项目,在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目,专注于在集群中并行处理数据,一大区别在于它在内存中运行。

      类似于Hadoop读取和写入文件到HDFS的概念,Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行,Hadoop集群可用作数据源,也可与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。

      


      Spark是围绕Spark Core构建的,Spark Core是驱动调度,优化和RDD抽象的引擎,并将Spark连接到正确的文件系统(HDFS,S3,RDBM或Elasticsearch)。Spark Core上还运行了几个库,包括Spark SQL,允许用户在分布式数据集上运行类似SQL的命令,用于机器学习的MLLib,用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。

      Spark有几个API。原始界面是用Scala编写的,并且由于大量数据科学家的使用,还添加了Python和R接口。Java是编写Spark作业的另一种选择。

      Databricks是由Spark创始人Matei Zaharia创立的公司,现在负责 Spark开发并为客户提供Spark分销。

      Hadoop和spark两个大数据的核心技术的基础讲解在此就顺应结束了,想要提升自己的技术,想要突破自己的技术领域,欢迎撩小编,已经为你准备好了全套的大数据学习资料!

    展开全文
  • 大数据技术

    千人学习 2019-08-21 18:57:21
    本阶段详细介绍了大数据所涉及到的Linux、shell、Hadoop、zookeeper、HadoopHA、Hive、Flume、Kafka、Hbase、Sqoop、Oozie等技术的概念、安装配置、架构原理、数据类型定义、数据操作、存储集群等重点知识点。
  • 大数据技术背景介绍(开号篇)

    千次阅读 2018-09-02 15:18:46
    1、什么是大数据大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息...

    1、什么是大数据?

    大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    大数据的5V特点(IBM提出):

    • Volume(大量)——数据的大小决定所考虑的数据的价值和潜在的信息;

    • Velocity(高速)——指获得数据的速度;

    • Variety(多样)——指数据类型的多样性;

    • Value(价值)——合理运用大数据,以低成本创造高价值;

    • Veracity(真实性)——数据的质量;

    2、大数据的意义

    现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。

    有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值体现在以下几个方面:

    • 对大量消费者提供产品或服务的企业可以利用大数据进行精准营

    • 做小而美模式的中小微企业可以利用大数据做服务转型

    • 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

    3、大数据的典型案例

    A、啤酒与尿布

    全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

    这里写图片描述

    B、大数据与乔布斯癌症治疗

    乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。

    这里写图片描述

    C、 QQ圈子把前女友推荐给未婚妻

    2012年3月腾讯推出QQ圈子,按共同好友的连锁反应摊开用户的人际关系网,把用户的前女友推荐给未婚妻,把同学同事朋友圈子分门别类,利用大数据处理能力给人带来“震撼”。

    D、意料之外:胸部最大的是新疆妹

    淘宝数据平台显示,购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。

    4、OLTP与OLAP

    A、OLTP

    OLTP,即On-Line Transaction Processing(联机事务处理过程),也称为面向交易的处理过程,其基本特征死前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。衡量联机事务处理结果的一个重要指标是系统性能,具体体现为实时请求-响应时间(Response Time),即用户在终端输入数据之后,到计算机对这个请求给出答复所需要的时间。OLTP是由前台、应用、数据库共同完成的,处理快慢以及处理程度取决于数据库引擎、服务器、应用引擎。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

    OLTP据有一些明显的特征:1)支持大量并发用户定期添加和修改数据;2)提供用于支持单位日常运营的技术基础结构;3)包含大量数据,其中包括用于验证事务的大量数据;4)个别事务能够很快完成,并且只需访问相对较少的数据;5)交易一般是确定的,故OLTP是对确定性的数据进行存取;6)并发性要求高并且严格的要求事务完整和安全;7)实时性要求高;8)数据量不是特别大;9)系统结构复杂等。

    典型案例:银行转账

    这里写图片描述

    B、OLAP

    OLAP,即On-Line Analytical Processing(联机分析处理过程),其是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLAP具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。其中,F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告;M是多维性(Multi-dimensional),指提供对数据分析的多维书体和分析;I是信息性(Information),指能及时获得信息,并且管理大量信息。

    OLAP的主要特点,是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,在这里,维指的是用户的分析角度。例如对销售数据的分析,时间周期是一个维度,产品类型、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维数据模型建立完成,用户就可以快速地从各个分析角度获取数据,也能动态地在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联机分析处理被广泛关注的根本原因,它从设计理念和真正实现上都与传统的管理信息系统有着本质的区别。

    典型案例:商品推荐

    这里写图片描述

    C、OLTP与OLAP的比较:

    | | OLTP | OLAP
    |用户 | 操作人员,底层管理人员 | 决策人员,高级管理人员 |
    | 功能 | 日常操作处理 | 分析决策 |
    | DB设计 面向应用 | 面向主题 |
    | 数据 | 当前的,最新的,细节的,二维的、分立的 | 历史的,聚集的,多维的,集成的,统一的 |
    | 存取 | 读/写数十条记录 | 读取上百万条记录 |
    | 工作单位 | 简单的事务 | 复杂的查询 |
    | DB大小 | 100MB-GB | 100GB-TB |

    5、数据仓库

    数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的,是构建面向分析的集成化数据环境,为企业提供分析性报告和决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时也不需要“消费”任何数据,数据来源于外部,并且开放给外部应用,这也是为什么它叫“仓库”,而不叫“工厂”的原因。

    这里写图片描述

    从上图可以看出,数据仓库的基本架构主要包含的是数据的流入和流程过程,可以分为三大部分——数据源、数据仓库(包括数据存储及管理和数据集市)以及数据应用(前端展示)。数据仓库的数据来自于不同的数据源,并提供多样的数据应用,数据自左向右流入数据仓库后向上层应用程序开放应用,而数据仓库只是中间集成化数据管理的一个平台。数据仓库从各数据源获取数据及在数据仓库内的转换和流动,都可以认为是ETL(抽取Extra,转化Transfer,装载Load)过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常管理和维护工作的大部分精力就是保持ETL的正常运作和稳定。

    6、HADOOP思想的起源

    首先简单介绍下google,google旗下有非常多的产品,如Google搜索引擎,Gmail邮件,安卓操作系统,Google地图,Google地球,Google学术,Google翻译,Google+等,下一步Google What?这些产品为我们的生活带来了巨大的变革,可以说在这个世纪,如果你不会用Google,你的生活质量也不会怎么高。

    下面来看看google的低成本之道,这四个方面决定了google的成本很低,利润自然就高:

    • 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路);

    • 大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务;

    • 全世界多个数据中心,有些甚至还附带发电厂;

    • 运营商向google倒付费。

    这里写图片描述

    然后讲讲任何搜索引擎都会面临的几个难题,google自然也会遇到,但正是google的解决方案才成就了今天的Hadoop。

    a. 大量的网页如何存储?

    b. 海量的网页如何搜索?(搜索算法)

    c. 海量的网页如何排名?(Page-Rank计算问题)

    针对如上三个问题,google是怎么解决的呢?google发表了三篇论文(这也就是Hadoop的思想来源)。

    A、《The Google File System》

    GFS(Google File System:Google文件系统)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件之上,并提供容错功能,同时它还可以给大量的用户提供总体性能较高的服务。

    这里写图片描述

    B、《MapReduce:Simplified Data Processing OnLarge Clusters》

    MapReduce最早是由google公司研究提出的一种面向大规模数据处理的并行计算模型和方法,google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。概念“Map(映射)”和“Reduce(规约)”,是MapReduce的主要思想,它们都是从函数式编程语言里借鉴来的,也有从矢量编程语言里借鉴来的特性。MapReduce极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行于分布式系统之上。当前的软件实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。

    这里写图片描述

    C、《Bigtable:A Distributed Storage Systemfor Structured Data》

    BigTable是Google设计的分布式数据存储系统,用来处理海量数据的一种非关系型的数据库.BigTable是一个用于管理结构型数据的分布式存储系统,被设计为可扩展到很大规模:通过数以千台的机器存储PB级数据。BigTable实现了几个目标:广泛适用、可扩展、高性能和高可用。

    这里写图片描述

    7、HADOOP的产生

    Hadoop是什么?Hadoop不是指具体的一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台,实现在大量计算机组成的集群中对海量数据进行分布式计算,适合大数据的分布式存储和计算。

    Hadoop名字不是一个缩写,而是一个生造出来的词,是以Hadoop之父Doug Cutting儿子的毛绒玩具象命名的。2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升,随后Yahoo招安Doug Gutting及其项目。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会,2006年2月被分离出来,成为一套完整独立的软件,起名为Hadoop。

    这里写图片描述

    8、HADOOP框架

    Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架,它支持在以商品硬件构建的大型集群上运行应用程序。Hadoop框架透明地为应用程序提供可靠性和数据移动,它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。它主要拥有以下几个优点:

    a. 高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖;

    b. 高扩展性:Hadoop是在可用的计算机集群间分配数据并完成计算任务,这些集群可以方便地扩展到数以千计的节点中;

    c. 高效性:Hadoop能够在节点之间动态地移动数据,并保持各个节点的动态平衡,因此处理速度非常快;

    d. 高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配;

    e. 低成本:Hadoop是开源的,项目的软件成本因而得以大大降低。

    这里写图片描述

    9、HADOOP家族部分成员介绍

    HDFS——Hadoop分布式文件系统,被设计成适合部署于通用、低廉的硬件之上,有着高容错性、高吞吐量、高可靠性等特点;

    MapReduce——一种编程模型,用于大规模数据集的并行运算,用Map和Reduce两个函数编程实现基本的并行计算任务,而且还提供了抽象的操作和并行编程接口,以简单方便地完成大规模数据的编程和计算处理;

    YARN——一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处;

    HBase——HBase是一个分布式的、面向列的开源数据库,与一般的关系型数据库不同,它适合于非结构化数据存储与查询,具有高可靠性、高性能、面向列和可伸缩等特点;

    Hive——基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行;

    Pig——一种数据流语言和运行环境,用于检索非常大的数据集,为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境;

    Flume——Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,还提供对数据进行简单处理,并写到各种数据接收方;

    Sqoop——一款开源工具,主要用于在Hadoop(Hive)与传统的数据库(MySql、Oracle等)之间进行数据传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS中的数据导进到关系型数据库中;

    Zookeeper——一个分布式的、开放源码的分布式应用程序协调服务,是Hadoop和HBase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等;

    HUE——一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后由Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现。通过使用HUE可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据、运行MapReduce Job、执行Hive的SQL语句、浏览HBase数据库等;

    Storm——一个开源、分布式、高容错的实时大数据处理架构,它使得持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求,Storm经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域;

    Spark——专为大规模数据处理而设计的快速通用的计算引擎,它拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间的输出结果可以保存在内容中,从而不再需要读写HDFS,提高了运行效率。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架,具有易用性、通用性、速度快等众多特点,现已形成一个高速发展、应用广泛的生态系统;

    Redis——一个开源(BSD许可)的、使用ANSI C语言编写的、支持网络、基于内存亦可持久化的日志型、Key—Value数据库,可以用作数据库、缓存和消息中间件。为了实现其卓越的性能, Redis 采用运行在内存中的数据集的工作方式。根据实际使用情况,可以每隔一定时间将数据集导出到磁盘,或者追加到命令日志中,也可以关闭持久化功能,将Redis作为一个高效的网络缓存数据功能来使用。

    更多大数据技术内容, 欢迎关注

    g更多大数据内容,欢迎关注

    参考文献:
    ——《百度百科》
    ——《CSDN其他博文》
    ——《潭州大数据课程课件》

    展开全文
  • 大数据技术 ,就是从各种类型的数据中快速获得有价值信息的技术。 大数据 领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括:大数据采集...
  • 大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。 大数据价值的完整体现需要多种技术的协同。大数据关键技术涵盖数据存储、处理、...
  • 大数据技术综述

    千次阅读 2019-06-16 20:53:33
    2019独角兽企业重金招聘Python工程师标准>>> ...
  • 大数据之大数据技术架构

    万次阅读 2020-06-19 10:15:55
    最近,中央电视台纪录片频道正在热播的一部纪录片《大数据时代》,细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面带来的改变和影响。大数据现在已经成了一种全新的思维方式...
  • 大数据技术发展史:大数据的前世今生

    万次阅读 多人点赞 2019-02-14 21:11:53
    大数据技术发展史:大数据的前世今生 今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和...
  • 大数据相关技术介绍

    千次阅读 2019-02-13 09:20:40
    ... 操作系统:Linux 编程语言: Java:IO模型、网络编程、多线程、内存管理机制等基础知识|熟悉缓存、消息队列、索引查询|高并发、高负载、高可用系统的设计开发及调优 Java Web项目,SSM等框架,前后台交互 ...
  • 大数据技术框架图解

    万次阅读 2018-10-31 15:18:30
    大数据技术框架见附件: 数据处理:
  • 常用的大数据技术有哪些?

    万次阅读 2018-03-13 16:45:12
    大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及...
  • 【155G大数据视频】2018大数据视频教程全套

    万次阅读 热门讨论 2019-08-26 13:54:34
    01_尚硅谷大数据技术之Linux基础.rar 02_尚硅谷大数据技术之Hadoop.rar 03_尚硅谷大数据技术之Zookeeper.rar 04_尚硅谷大数据技术之Hadoop-HA.rar 05_尚硅谷大数据技术之Hive框架基础.rar 06_尚硅谷大数据技术之...
  • BDTC2015大会精彩演讲PPT集锦

    万人学习 2019-06-21 09:54:56
    中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内具影响、规模大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(Hadoop in China,HiC)。从2007年仅60人参加的技术沙龙到当下数...
  • 搞定大数据平台:从入门到实战

    万人学习 2020-02-18 17:06:58
    本课程主要是构建大数据平台,包含目前大数据常用的所有技术组件的环境部署。所有技术组件的安装部署,都是手把手操作,不会出现跳讲和断讲,0基础同学也能一站式搞定大数据平台环境。
  • 大数据组件图谱---比较齐全

    万次阅读 多人点赞 2020-10-06 13:17:38
    转载地址:... 大数据组件图谱 文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台 文件系统 HDFSHadoop Distributed File S
  • 大数据环境下的关联规则挖掘

    万人学习 2019-07-01 10:35:23
    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。
  • 区块链技术详解

    万人学习 2018-11-08 16:07:31
    区块链技术入门教程,该课程对目前区块链知识进行一次体系化的讲解,使得初学者能迅速抓住区块链技术的核心思想,对区块链应用和智能合约有一个的、由浅入深的了解。
  • 大数据可以考哪些证书?

    万次阅读 2019-09-06 21:59:38
    随着国家政策的支持,大数据产业不断发展,落地应用于各行各业,大数据人才需求与日俱增,大数据认证的数量也在不断增加,这些资格来自供应商、教育机构、独立或行业机构。大数据领域包括:大数据系统管理、Hadoop、...
1 2 3 4 5 ... 20
收藏数 319,932
精华内容 127,972
关键字:

大数据技术