• 例如,搭建大数据平台需要大规模数据存储平台,需要数据处理和挖掘工具,分析结果需要通过展现工具体现大数据分析的价值。所以,没有一个完善的BigData生态系统,大数据分析平台是搭建不起来的。

    对于大数据分析平台的建设,往往不是某个产品就能够满足,而是需要多种不同的产品一起搭建。例如,搭建大数据平台需要大规模数据存储平台,需要数据处理和挖掘工具,分析结果需要通过展现工具体现大数据分析的价值。所以,没有一个完善的BigData生态系统,大数据分析平台是搭建不起来的。

    IBM作为大数据分析领域的领导者,有着其他厂商或开源无法比拟的完整BigData生态系统。下面然让我们来看看这个生态系统包括哪些产品。

    大数据

    IBM Open Platform with Apache Hadoop

    IOP是IBM遵循Open Data Platform Initiative 联盟标准构建,以开源技术为核心的产品包。所包含的内容100%开源,包括HDFS、Spark、HBase、Kafka等。用户如果想使用IOP,完全可以免费下载和使用,包括在生产环境上使用。在免费使用的基础上,IBM还提供了有偿的技术支持。

    大数据

    IBM BigInsights

    IBM BigInsights 是实现IBM大数据战略的重要旗舰产品,它包含了开源部分-即IOP,和增值部分。BigInsights增值部分则包括了BigSQL-业界最先进、最成熟的SQL on Hadoop引擎,Text Analytics-基于拖拽的文本分析工具,Big Sheet -类似电子表格的数据处理工具,BigR -适合在分布式平台运行的R改进版本等高级功能。

    大数据

    IBM Streams

    IBM Streams 是一个高级流计算平台,帮助用户开发的应用程序快速摄取、分析和关联来自数千个实时源的信息。它可处理非常高的数据吞吐率,最高可达每秒数百万个事件或消息。Streams 旨在从一个几分钟到几小时的窗口中的移动信息(数据流)中揭示有意义的模式。该平台能够获取低延迟洞察,并为注重时效的应用程序(比如欺诈检测或网络管理)获取更好的成果,从而提供业务价值。

    大数据

    IBM SPSS

    我们常说的SPSS包含SPSS Modeler 和SPSS Analytic Server。SPSS Modeler是一款数据挖掘分析的行业软件,其采用数据流的方式来展示数据挖掘的操作过程,并结合CRISP-DM 工业标准打造了一个支持众多数据挖掘操作的应用平台。SPSS Analytic Server是大数据分析的解决方案,它提供了一个易于实现的框架,从而能够在分布式文件系统上来执行大数据分析。它将IBM SPSS 现有的商业分析技术与大数据技术相结合,使得用户能够使用复杂的分析算法以高可伸缩的方式来解决基于大数据的分析问题。

    大数据

    IBM Big Replicate

    Big Replicate集成了Wandisco Fusion技术,为Hadoop集群实现数据复制和高可用方案。BigReplicate为跨任意距离的Hadoop集群提供了单一虚拟命名空间,从而打破信息孤岛,实现Hadoop集群之间的自由、灵活数据复制。

    大数据

    IBM Big Integrate

    Big Integrate是IBM InfoSphere Information Server(DataStage)的Hadoop版本,为大数据平台提供企业级ETL方案。

    大数据

    IBM BigQuality

    BigQuality采用Data Quality 引擎,为Hadoop环境提供数据分析、清洗和数据质量监控的功能。

    大数据

    IBM Big Match

    Big Match使用IBM InfoSphere MDM的相同算法,帮助用户解决Hadoop环境中跨非结构化和结构化数据的客户身份匹配的挑战。

    大数据

    结束语

    IBM 提供了企业级Hadoop方案-BigInsights,而且提供了完善的生态系统,为用户建设大数据平台提供完整的产品支持。

    下面给大家提供一个Biginsights试用链接,感兴趣的朋友可以尝试一下:

    http://bigdata.evget.com/product/385.html

    展开全文
  • 先来谈谈企业搭建大数据分析平台的背景。1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,...

    讨论一

    先来谈谈企业搭建大数据分析平台的背景。

    1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据,BI就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。 所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI应用分析建设的。

    2、大数据拥有价值。来看看数据使用金字塔模型,从数据的使用角度来看,数据基本有以下使用方式:


    自上而下,可以看到,对数据的要求是不一样的:

    • 数据量越来越大,维度越来越多。
    • 交互难度越来越大。
    • 技术难度越来越大。
    • 以人为主,逐步向机器为主。
    • 用户专业程度逐步提升,门槛越来越高。

    企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台。企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。

    整体方案思路如下:

    建设企业的基础数据中心,构建企业统一的数据存储体系,统一进行数据建模,为数据的价值呈现奠定基础。同时数据处理能力下沉,建设集中的数据处理中心,提供强大的数据处理能力;通过统一的数据管理监控体系,保障系统的稳定运行。有了数据基础,构建统一的BI应用中心,满足业务需求,体现数据价值。

    提到大数据就会提到hadoop。大数据并不等同于hadoop,但hadoop的确是最热门的大数据技术。下面以最常用的混搭架构,来看一下大数据平台可以怎么来搭建,支撑企业应用:


    通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。

    利用spark和hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系。

    同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。

    讨论二

    面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作。

    在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。

    (1)操作系统的选择

    操作系统一般使用开源版的RedHat、Centos或者Debian作为底层的构建平台,要根据大数据平台所要搭建的数据分析工具可以支持的系统,正确的选择操作系统的版本。

    (2)搭建Hadoop集群

    Hadoop作为一个开发和运行处理大规模数据的软件平台,实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心的设计是HDFS和MapReduce,HDFS是一个高度容错性的系统,适合部署在廉价的机器上,能够提供高吞吐量的数据访问,适用于那些有着超大数据集的应用程序;MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型。在生产实践应用中,Hadoop非常适合应用于大数据存储和大数据的分析应用,适合服务于几千台到几万台大的服务器的集群运行,支持PB级别的存储容量。

    Hadoop家族还包含各种开源组件,比如Yarn,Zookeeper,Hbase,Hive,Sqoop,Impala,Spark等。使用开源组件的优势显而易见,活跃的社区会不断的迭代更新组件版本,使用的人也会很多,遇到问题会比较容易解决,同时代码开源,高水平的数据开发工程师可结合自身项目的需求对代码进行修改,以更好的为项目提供服务。

    (3)选择数据接入和预处理工具

    面对各种来源的数据,数据接入就是将这些零散的数据整合在一起,综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入,数据接入常用的工具有Flume,Logstash,NDC(网易数据运河系统),sqoop等。对于实时性要求比较高的业务场景,比如对存在于社交网站、新闻等的数据信息流需要进行快速的处理反馈,那么数据的接入可以使用开源的Strom,Spark streaming等。

    当需要使用上游模块的数据进行计算、统计和分析的时候,就需要用到分布式的消息系统,比如基于发布/订阅的消息系统kafka。还可以使用分布式应用程序协调服务Zookeeper来提供数据同步服务,更好的保证数据的可靠和一致性。

    数据预处理是在海量的数据中提取出可用特征,建立宽表,创建数据仓库,会使用到HiveSQL,SparkSQL和Impala等工具。随着业务量的增多,需要进行训练和清洗的数据也会变得越来越复杂,可以使用azkaban或者oozie作为工作流调度引擎,用来解决有多个hadoop或者spark等计算任务之间的依赖关系问题。

    (4)数据存储

    除了Hadoop中已广泛应用于数据存储的HDFS,常用的还有分布式、面向列的开源数据库Hbase,HBase是一种key/value系统,部署在HDFS上,与Hadoop一样,HBase的目标主要是依赖横向扩展,通过不断的增加廉价的商用服务器,增加计算和存储能力。同时hadoop的资源管理器Yarn,可以为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一等方面带来巨大的好处。

    Kudu是一个围绕Hadoop生态圈建立的存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,可以运行在普通的服务器上,作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Redis是一种速度非常快的非关系型数据库,可以将存储在内存中的键值对数据持久化到硬盘中,可以存储键与5种不同类型的值之间的映射。

    (5)选择数据挖掘工具

    Hive可以将结构化的数据映射为一张数据库表,并提供HQL的查询功能,它是建立在Hadoop之上的数据仓库基础架构,是为了减少MapReduce编写工作的批处理系统,它的出现可以让那些精通SQL技能、但是不熟悉MapReduce、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据。Impala是对Hive的一个补充,可以实现高效的SQL查询,但是Impala将整个查询过程分成了一个执行计划树,而不是一连串的MapReduce任务,相比Hive有更好的并发性和避免了不必要的中间sort和shuffle。

    Spark可以将Job中间输出结果保存在内存中,不需要读取HDFS,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Solr是一个运行在Servlet容器的独立的企业级搜索应用的全文搜索服务器,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML,生成索引,或者通过HTTP GET操作提出查找请求,并得到XML格式的返回结果。

    还可以对数据进行建模分析,会用到机器学习相关的知识,常用的机器学习算法,比如贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

    (6)数据的可视化以及输出API

    对于处理得到的数据可以对接主流的BI系统,比如国外的Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可免费试用)等,将结果进行可视化,用于决策分析;或者回流到线上,支持线上业务的发展。

    成熟的搭建一套大数据分析平台不是一件简单的事情,本身就是一项复杂的工作,在这过程中需要考虑的因素有很多,比如:

    稳定性,可以通过多台机器做数据和程序运行的备份,但服务器的质量和预算成本相应的会限制平台的稳定性;
    可扩展性:大数据平台部署在多台机器上,如何在其基础上扩充新的机器是实际应用中经常会遇到的问题;
    安全性:保障数据安全是大数据平台不可忽视的问题,在海量数据的处理过程中,如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点。

    讨论三

    大数据分析平台实现技术

    1 硬件平台

    大数据分析平台需要进行 PB 级数据的读取、写入,需要进行数据挖掘模型的大规模运算,需要进行预测结果的发布,对底层基础硬件的磁盘 IO 和运算速度要求很高,同时需要满足分布式、动态扩展的要求,因此采用配置为 2 路 8 核CPU、128GB 内存、千兆网卡的x86架构 PC Server 服务器。

    2 平台软件

    操作系统软件采用 Red Hat,数据采集采用 Flume-NG, 海量数据存储及分布式计算采用Hadoop,数据清洗采用 Hive,数据挖掘引擎采用 Spark R,预测结果保存在 HBase 中。

    采 用 HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统。

    采用 Hadoop 构建 PB 级大数据平台,提供海量数据存储和分布式计算。

    采用 Hive 做为数据清洗引擎,提供 PB级数据预处理、加工、整合服务。

    采用 Spark R 组件,Spark R 提供了 Spark中弹性分布式数据集的 API,用户可以在集群上通过 R shell 交互性的运行 job。数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。

    采用 HBase 技术可以提供海量数据的高效发布。

    3 大数据挖掘模型开发

    数据采集存储模块:DPI、业务侧、网元侧数据通过文件接口方式发送到 Flume-NG 集群,Flume-NG 通过 memory 数据传输方式,将接收到的数据实时的通过 hdfs 方式汇聚到大数据分析平台。

    数据清洗模块:通过编写 HQL 脚本对数据进行清洗、转换,形成特征宽表。

    数据挖掘模块:基于特征宽表的数据建模采用 Spark R, 调用聚类、分类等算法,进行模型开发、模型评估、模型应用。

    分析结果发布:模型应用的结果集存储在HBase 中,首先需要在 HBase 中新建存储结果集的 HBase 表,通过 Map Reduce 生成 HFile文件,然后通过 Bulk Load 方式入库。数据的调用通过 HBase API 实现,数据的展现通过ECharts 技术实现。

    可以关注一下ETHINK数据智能分析平台

    讨论四

    如果用开源产品搭建大数据平台,还是很繁琐的,需要对细节比较了解。

    可以选择商业版的hadoop平台,支持可视化一键部署。

    有的大数据平台厂商利用的docker技术,直接就秒级创建一个大数据分布式平台

    讨论五

    在具体回答之前,需要搞清楚以下几个问题,搞清楚了,其实问题的答案也就有了:

    1、是从个人学习成长的角度想搭建平台自学?还是现在的公司需要大数据技术进行分析?

    ——如果是从个人学习成长的角度,建议直接按照Hadoop或者Spark的官网教程安装即可,建议看官网(英文),在大数据技术领域,英语的掌握是非常重要的,因为涉及到组件选型、日后的安装、部署、运维,所有的任务运行信息、报错信息都是英文的,包括遇到问题的解答,所以还是非常重要的。

    如果是公司需要进行大数据分析,那么还要研究以下几个问题:

    为什么需要搭建大数据分析平台?要解决什么业务问题?需要什么样的分析?数据量有多少?是否有实时分析的需求?是否有BI报表的需求?

    ——这里举一个典型的场景:

    公司之前采用Oracle或MySQL搭建的业务数据库,而且有简单的数据分析,或者可能采购了BI系统,就是直接用业务系统数据库进行支持的,现在随着数据量越来越大,那么就需要采用大数据技术进行扩容。


    搞清楚需求之后,按照以下的步骤进行:

    1、整体方案设计;

    整体方案设计时需要考虑的因素:

    • 数据量有多少:几百GB?几十TB?
    • 数据存储在哪里:存储在MySQL中?Oracle中?或其他数据库中?
    • 数据如何从现在的存储系统进入到大数据平台中?如何将结果数据写出到其他存储系统中?
    • 分析主题是什么:只有几个简单指标?还是说有很多统计指标,需要专门的人员去梳理,分组,并进行产品设计;
    • 是否需要搭建整体数仓?
    • 是否需要BI报表:业务人员有无操作BI的能力,或团队组成比较简单,不需要前后端人员投入,使用BI比较方便;
    • 是否需要实时计算?

    2、组件选型;

    架构设计完成后就需要组件选型了,这时候最好是比较资深的架构师参与设计,选型包括:

    • 离线计算引擎:Hadoop、Spark、Tez……
    • 实时计算引擎:Storm、Flink、Samza、Spark Streaming……
    • BI软件:Tableau、QlikView、帆软……

    3、安装部署;

    选型完成后,就可以进行安装部署了,这部分其实是最简单的,直接按照每个组件的部署要求安装即可。

    4、另一种选择:采用商用软件

    如果是企业需要搭建大数据平台,那么还有一种选择是直接采用商用的数据平台。市面上有很多成熟的商用大数据平台,Cloudera、星环、华为、亚信等等,都有对应的产品线,我司也有一款非常优秀的大数据平台产品:数栈。

    数栈主要有以下几个特点:

    1、完全基于开源:基于开源Spark(离线)、Flink(实时)计算引擎,绑定性不强,很多企业担心被某一家供应商绑定,但数栈完全基于开源,不存在这个问题;

    基于这一点,其实企业也可以自行搭建底层平台,而数栈只是提供开发套件(包括数据集成、计算任务管理,用户可以直接在WEB页面编写SQL逻辑代码、调度依赖配置等)

    2、简单易用:数栈包含数据开发套件、数据计算引擎(Spark、Flink)、数据治理套件(数据地图、数据质量、数据模型)、数据应用引擎(数据API),覆盖了企业内的数据采集、数据统计分析与挖掘、数据治理、数据开放的全链路,并同时覆盖离线分析与实时分析,满足企业内的各种数据处理需求。

    3、性价比高:很多传统企业的数据量其实并不是特别大,例如几百GB、1,2TB,数栈最小支持3台虚拟机部署,与其他厂商动辄几十、上百个节点相比,成本可以降低很多;

    数栈与搭建大数据团队的关系又是怎样的呢?

    ——数栈是开发团队的生产力工具,有了它可以让开发团队用大数据平台用的更爽,更好,解决需求的速度更快,同时基于开源的技术,开发人员编写MapReduce代码进行运行,可以在数栈上面配置任务调度、依赖关系,查看运行日志,也加快了团队的成长速度,因此数栈的引入,其实是开发团队的一个好帮手,让团队更有效率。

    讨论六

    一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:

    1、Linux系统安装

    一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。比如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。

    2、分布式计算平台/组件安装

    当前分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

    使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方);2)开源组件一般免费,学习和维护相对方便;3)开源组件一般会持续更新;4)因为代码开源,如果出现bug可自由对源码作修改维护。

    在这里我还是要推荐下我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。

    常用的分布式数据数据仓库有Hive、Hbase。
    Hive可以用SQL查询,Hbase可以快速读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务, Impala是对hive的一个补充,可以实现高效的SQL查询

    3、数据导入

    前面提到,数据导入的工具是Sqoop。它可以将数据从文件或者传统数据库导入到分布式平台。

    4、数据分析

    数据分析一般包括两个阶段:数据预处理和数据建模分析。

    数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。

    数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。

    5、结果可视化及输出API

    可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。

    参考知乎:https://www.zhihu.com/question/35950209



    —–乐于分享,共同进步!
    —–更多文章请看:http://blog.csdn.net/BLSPers

    展开全文
  • 行内人士皆知,大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。今天我们就以大数据平台为例,透过平台所包含的系统模块来看...

      行内人士皆知,大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。今天我们就以大数据平台为例,透过平台所包含的系统模块来看看其应该具备哪些实际功能?

     

      一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:

     

      1、Linux系统安装

     

      一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。比如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。

     

      2、分布式计算平台/组件安装

     

      当前分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

     

      使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方);2)开源组件一般免费,学习和维护相对方便;3)开源组件一般会持续更新;4)因为代码开源,如果出现bug可自由对源码作修改维护。

     

      常用的分布式数据数据仓库有Hive、Hbase。Hive可以用SQL查询,Hbase可以快速读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务,Impala是对hive的一个补充,可以实现高效的SQL查询

     

      3、数据导入

     

      前面提到,数据导入的工具是Sqoop。它可以将数据从文件或者传统数据库导入到分布式平台。

     

      4、数据分析

     

      数据分析一般包括两个阶段:数据预处理和数据建模分析。

     

      数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。

     

      数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。

     

      5、结果可视化及输出API

     

      可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。

     

      平台的每个子系统都包含不同的功能,不同功能的模块组合成一个具有实际应用价值的大数据分析平台,实现对各种业务的前瞻性预测和分析,为用户提供统一的决策分析支持,从而更好地突出平台本身的价值。

     

    展开全文
  • 本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第3章,第3.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第3章 企业...

    本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第3章,第3.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    第3章

    企业大数据解决方案

    企业在开展大数据战略时,往往面临多种实施解决方案的路径可供选择。由于企业需求、背景和环境的不同,所适用的解决方案和实现方式也会有所差异。对大多数企业而言,适合企业的解决方案才是最好的,而非是那些价格最贵、功能最全的。

    不同解决方案之间有哪些区别?它们各自对于企业的要求和限制条件是什么?企业应该如何根据自身情况选择最合适的大数据解决方案?本章将重点介绍这些问题。

    3.1 企业大数据解决方案实现方式

    工欲善其事必先利其器,企业大数据解决方案既包括大数据产品和工具层面,又包括服务层面。企业大数据解决方案根据实现方式的不同可分为完全独立研发、直接购买第三方解决方案和借助第三方的力量进行联合开发三种。

    3.1.1 独立研发

    独立研发指的是企业内部通过组建大数据中心或部门,独立进行大数据项目的研发。企业独立研发大数据平台,在数据安全、技术可控、后期扩展等方面具有重要意义。

    image
    image

    但是,这种方式并不适合所有企业,它对企业来讲具有以下几个方面的要求和限制:

    image

    综上,独立自主研发的方式更适合具有下列特点的企业:企业内部有一批专家、具有非常强的解决问题的能力、较强的技术实力、充足的资源保障、对大数据没有较强的时间紧迫性要求。除此以外,企业对于数据安全、技术可控、后期运维方面的需求较为明显。

    3.1.2 第三方解决方案

    由于国外市场的开发性、企业运营的成熟性以及法律法规保障的完善性,很多国外的大型企业尤其是上市公司通常更愿意直接购买成熟的大数据解决方案。直接购买第三方成熟的解决方案具有如下优势:

    image
    image

    综上,直接采用第三方解决方案更适合希望借助第三方的平台快速进入大数据工作状态,借助其成熟经验将大数据的价值迅速落地,并在后期运维过程中不想投入太多的企业;但对于技术完全可控、二次开发需求大、数据安全要求高的企业将不适用。

    第三方大数据方案服务商非常多,甚至可以说有一个大数据生态圈。在这个生态圈中既有能够实现端到端的完整链条的整合解决方案,也有侧重于数据采集、数据预处理、数据存储、数据挖掘分析、数据可视化等环节的垂直型方案。国内的服务提供商包括阿里巴巴、百度、腾讯、华为等,国际大数据巨头包括Amazon、Oracle、SAP、Dell、TERADATA、EMC、Opower、Splunk、Intel、Google、Microsoft、IBM、HP等。

    以阿里巴巴为例,阿里巴巴提供的阿里云是中国最成熟也是应用最为广泛的大数据解决方案之一。阿里云不仅提供大数据方案的服务,更提供了包括云计算、安全、域名与网站等不同服务。在大数据领域,阿里巴巴提供的服务叫做“大数据(数加)”,其中包括数据应用、数据分析展现、人工智能、大数据基础服务四类。如图3-1所示为阿里云大数据解决方案内容。

    image

    1.数据应用

    推荐引擎

    推荐引擎(Recommendation Engine, RecEng,)是在阿里云计算环境下建立的一套推荐服务框架,目标是让广大中小互联网企业能够在这套框架上快速地搭建满足自身业务需求的推荐服务。

    它基于阿里云的一体化部署(SaaS),为推荐业务定义了一整套规范,同时提供了默认算法模板以及自定义功能;支持接入实时日志,以及实时修正API;通过多种测试手段和监控方式为业务决策提供参考。如图3-2所示是阿里云的推荐引擎配置界面。

    image

    公众趋势分析

    公众趋势分析是基于全网公开发布数据,结合媒体传播路径和受众群体画像,利用语义分析、情感算法和机器学习等大数据技术,识别公众对品牌形象、热点事件和公共政策的认知趋势。

    它全面覆盖全网公开的数据(千万源站,每日更新20亿网页),能最快2分钟级别获得数据;通过机器学习、自然语言、文本处理的协同处理等提供精准有效的结果,结合分级告警、智能分析、协同处理和深度集成等为客户提供丰富的服务。如图3-3所示为阿里云公众趋势分析报表。

    image

    数据集成

    数据集成(Data Integration)是阿里巴巴对外提供的稳定高效、弹性伸缩的数据集成平台,为阿里云大数据计算引擎(包括MaxCompute、AnalyticDB、OSS)提供离线的批量数据进出的通道。有别于传统的客户端点对点同步运行工具,数据集成本身以公有云服务为基本设计目标,集群化、服务化、多租户、水平扩展等功能都是其基本实现要求。阿里巴巴自己的采云间、御膳房、聚石塔、孔明灯的后台数据同步均是基于数据集成完成各自的数据传输需求。

    目前,数据集成支持的数据通道包括:关系型数据库、NoSQL数据存储、数据仓库、结构化存储以及文本,通过离线数据同步的模式以读取Snapshot的方式从源端传输到目的端。但目前只支持结构化(或可以转换为结构化)的数据,不支持多个地域之间数据同步,本身不提供数据流的消费方式,即用户不能直接通过数据集成的API消费数据流。如图3-4所示为阿里云数据集成的配置界面。

    image

    移动数据分析

    移动数据分析(Mobile Analytics)是阿里云推出的一款移动App数据统计分析产品,提供通用的多维度用户行为分析,支持日志自主分析,助力移动开发者实现基于大数据技术的精细化运营、提升产品质量和体验、增强用户黏性。

    移动分析能采集用户行为和应用性能数据,通过秒级的实时计算,为客户提供丰富的维度统计报表。同时,它还能通过与移动加速、移动推送、移动域名解析等合力为移动开发者提供更完善的移动服务。如图3-5所示为阿里云移动数据分析报告界面。

    image

    阿里巴巴还有另外一套移动数据分析产品——友盟,目前友盟已经跟缔元信网络数据、CNZZ三家公司合并并统一更名【友盟+】,提供包括针对网站和App的统计分析服务,针对游戏、广告和线下分析的行业数据解决方案、自助智能分析,针对微社区、分享和推送的运营工具全域运营指数和运营报告。

    数据市场相关API及应用

    阿里云允许自身以及第三方企业通过API的形式提供大数据应用服务,它的定位是软件交易及交付平台,作为2016年阿里云的战略发展点,承接着中国云生态各个链条产品的落地。目前,入驻云市场的优秀ISV遍布国内外,提供围绕云计算产品的软件应用及服务,包括但不限于基础软件、服务市场、行业软件、企业应用、建站市场等。如图3-6所示为阿里云数据市场相关API及应用界面。

    2.数据分析展现

    DataV数据可视化

    DataV是一个可视化产品组件。相比于传统图表与数据仪表盘,其可视化致力于用更生动、友好的形式,即时呈现隐藏在瞬息万变且庞杂数据背后的业务洞察。DataV提供指挥中心、地理分析、实时监控、汇报展示等多种场景模版来帮助客户解决设计难题,并通过多种图表、数据源接入、图形化操作方式满足开发和设计需要,最终在终端适配多分辨率与发布方式,满足不同场合下的使用。如图3-7所示为阿里云DataV数据可视化界面。

    image

    image

    QuickBI

    QuickBI是一个大数据商业智能套件,提供海量数据实时在线分析、拖拽式操作、丰富的可视化效果,帮助客户更快地完成数据分析、业务数据探查。该产品更多地侧重于通过快速的数据整合、分析和可视化的方式提供简易可操作的数据分析服务。

    QuickBI内置柱状图、线图、饼图、雷达图、散点图等20多种可视化图表,可通过类似于Excel的操作方式进行多维数据分析;整个分析过程都是实时的,支持RDS、MaxCompute(原ODPS)、AnalyticDB等多种云数据源;通过智能加速引擎针对海量数据提供秒级响应。如图3-8所示为阿里云QuickBI开始界面。

    image

    画像分析

    画像分析所适用的场景主要是结合阿里云分析型数据库(Analytics DataBase),将分布在多个存储资源的数据整合起来,在标签模型上构建大数据画像类的交互式分析应用,让业务人员可以自由灵活地分析这些对象各种属性与行为之间的关联性。它可以广泛应用于工业设备画像分析、企业经营画像分析、用户行为画像分析等多个场景。

    大数据画像类分析基于行为等明细数据产生,通过从半结构化数据中抽取特征并结合预测、评分、文本特征提取等算法技术来进一步挖掘有效用户特征。在交互式分析过程中根据不断调整的筛选条件、维度组合、下钻、上卷能够快速返回结果,直到获取到足够多的信息。如图3-9所示为阿里云画像分析。

    郡县图治

    “郡县治,天下安”,区域发展亟需响应“互联网”行动计划,敏捷应对经济新常态。“郡县图治”能够提供直观的数据可视化技术,整合政府统计数据和互联网数据源,动态反映当前区域经济的发展态势,集中呈现当地基础产业、特色产业、内需消费特征等各类关键指标,民生经济一览无余,为宏观决策提供分析依据和辅助支撑。“郡县图治”基于云计算环境部署,具备多种可配置参数,由阿里云实时推送互联网数据分析的结果,并提供全链路维护和自动化升级服务。如图3-10所示为阿里“云郡县图治”报告。

    image

    image

    3.人工智能

    机器学习

    阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。该平台为算法开发者提供了丰富的MPI、PS、BSP等编程框架和数据存取接口,同时为算法使用者提供了基于Web的IDE可视化实验搭建控制台。

    它是一站式的算法与智能应用的开发、发布与分享的平台,所有工作都在一个平台上完成,减少了多平台转换、迁移、集成等繁琐问题;支持处理亿万级大规模数据,适用于绝大多数企业数据规模;基于工作流的思路,通过简单的拖拽即可完成数据挖掘、数据分析等功能。如图3-11所示为阿里云机器学习平台工作流操作界面。

    image

    智能语音交互

    智能语音交互(Intelligent Speech Interaction),是基于语音和自然语言技术构建的在线服务,通过提供语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。

    智能语音交互提供的三类服务:

    image

    印刷文字识别

    印刷文字识别是OCR(Optical Character Recognition,光学字符识别)的具体应用,它提供了包含多种场景下的文字识别,其中包括身份证证件识别、驾驶证识别、行驶证识别、营业执照识别、门店招牌识别、英文识别。

    人脸识别

    人脸服务是一款用于提供图像和视频帧中人脸分析的在线服务,通过提供人脸检测、人脸特征提取、人脸年龄估计和性别识别、人脸关键点定位等,可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等各种场景。

    通用图像识别

    通用图像分析服务是一款用于提供图像内容分析和理解的在线服务产品。“通用”一词是指,在该服务中提供的算法API模块可以应用于各种图像领域,没有具体业务场景、垂直领域等场景限制。该服务旨在提供一些通用的图像分析和理解算法API模块,开发者和企业可以通过这些模块组合,结合自身领域特点,独立开发图像分离和理解系统,满足自身特定需求。

    电商图像分析

    电商图像分析服务是一款用于提供电商平台环境下的图像分析的在线服务产品。该产品提供若干图像分析和理解技术的在线API服务给开发者和企业使用,其中包括牛皮癣图像识别、图像背景分析、炒信图像识别等独立服务模块。这些独立技术模块可应用于电商平台下的商品主图、副图等质量判断、选品投放过滤、搜索和推荐等业务场景。

    机器翻译

    机器翻译(Machine Translation)通过阿里巴巴的海量电商数据,结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻译功能,为跨境电商信息本地化与跨语言沟通提供精准、快捷、可靠的在线翻译服务。

    4.大数据基础服务

    大数据开发套件

    大数据开发套件(Data IDE)是阿里巴巴集团推出的大数据领域平台级产品,它提供了一站式大数据开发、管理、分析、挖掘、共享、交换等端到端的解决方案,其利用MaxCompute(原名ODPS)在几分钟内可将原始数据转变为业务洞察的海量数据处理能力,整个过程都是通过对可视化组件的拖拽来实现。如图3-12所示为阿里云大数据开发套件配置界面。

    image

    大数据计算服务

    大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。如图3-13所示为大数据计算服务界面。

    image

    分析型数据库

    阿里云分析型数据库(原名:分析数据库服务ADS),则是一套RT-OLAP (Realtime OLAP,实时OLAP)系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用SQL进行自由灵活的计算分析,无需预先建模,而利用云计算技术,分析型数据库可以在处理百亿条甚至更多量级的数据上达到甚至超越MOLAP类系统的处理性能,实现百亿数据毫秒级计算。如图3-14所示为阿里云分析型数据库使用界面。

    image

    批量计算

    批量计算(BatchCompute)是一种适用于大规模并行批处理作业的分布式云服务。Batch

    Compute可支持海量作业并发规模,系统自动完成资源管理、作业调度和数据加载,并按实际使用量计费。如图3-15所示为阿里云批量计算作业配置。

    image

    3.1.3 联合开发

    联合开发是一种介于上述两种解决方案的折中方式,它是企业与第三方服务商一起进行大数据解决方案开发的方式。这种方式能融合二者的优点,并对缺点进行有效补足:

    image

    综上,联合开发方式更适合那些想要对数据、技术完全可控,并且将大数据战略作为重要发展战略和核心竞争力的企业,这些企业通常内部已经具有一定的技术实力、较多的行业专家、相对明确的数据规划和预期。

    展开全文
  • 2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构...

    云栖号案例库:【点击查看更多上云案例】
    不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

    案例背景

    2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。

    斗鱼大数据架构发展历程

     

    image

    在2014年中期,斗鱼就开始使用大数据,最开始使用的是简单的HBase和Hadoop。在2015年,开始使用CDH运维大数据集群,主要针对可视化运维。在2017年的下半年,斗鱼开始接触阿里云大数据的一些产品,并且与其他产品做了对比。最终选择了阿里云的MaxCompute。

    • Apache Hadoop阶段

    由于业务场景比较简单,组件较少,并且使用的人也少,但可以灵活的操作,同时集群规模较小,运维要求低,可以自由的利用开源,培养了许多人才。但在发展过程中也遇到了一些阻碍,例如:组件增多,运维成本高,业务增长快,集群扩容操作繁琐,人员增加,数据安全要求高,物理机操作,环境安全难保障。

    • Cloudera CDH阶段

    斗鱼为何选择Cloudera CDH?原因主要有:首先,它能满足业务发展需要,多组件运维成本低,集群扩容操作简单,数据安全及环境安全有保障。其次,CDH在国内被广泛使用。最主要的一点是斗鱼的团队内部有CDH人才。

    Cloudera CDH给斗鱼带来了许多便利,包括支持丰富的组件,不用考虑兼容性,可以通过CM统一管理,进行Web化管理,同时支持中文。另外,支持安全管理,以及对Kerberos安全认证。

    自建集群遇到了发展瓶颈,涉及到资源效率问题和资源成本问题。资源效率问题包括资源预算审批慢、机器采购周期长以及机房部署效率低。资源成本问题包括机器资源成本高、机房成本高还不稳定以及闲时资源空置较多。

     

    image

    大数据上云的挑战

    上云面临的挑战主要是如何保证数据安全,因为数据是企业核心的资源,安全性是非常关键的。其次是如何保持数据同步,是因为云上云下存在着海量数据。最后,因为云下存在大量的历史业务,那该如何将业务安全迁移到云上也是一个问题。

    • 如何保证数据安全?

    对于数据丢失的问题,阿里使用原始数据进行备份,这是很关键的。对于核心数据泄露问题,几率是很小的,因为泄露数据之后所要承担的风险远大于打败竞争对手所提供的收益。对于云环境面向外网,如何保证安全访问的问题,可以增加账号访问IP白名单及审计,设置公司内部才可访问。

    • 如何保持数据同步?

    由于每天会产生PB级历史数据和TB级数据增量。如何快速准确同步数据问题,可以使用数据同步工具,主要是基于DataX的改造。同时提高网络专线能力,增加多根专线,自动地进行异常切换,与云上平台业务进行隔离。利用数据校验工具,校验数据同步任务以及数据量。

    • 如何安全迁移业务?

    业务的安全迁移需要做到三个要求:1.不能引起故障,保证迁移可行性验证。2.迁移成本不能太高,业务侧尽量少改动。3.能上云也要能下云,尽量保证云上云下操作一致性。
    为了做到不引起故障,要做到三个需要:需要做业务场景测试,保证业务场景全部覆盖到,并且能够识别能够迁移的业务场景。需要数据质量检验,确保相同业务云上云下产出数据的一致性。需要数据效率验证,确保云上任务数据产出时间,同时不影响业务。

    • 如何保证较低的迁移成本?

    斗鱼在IDC中运行的任务主要分两部分,第一部分是Java任务,占比很小,特点是基于封装的HiveClient工具进行查询计算。第二部分是XML配置化任务,特点是基于自定义XML文件,支持HiveSQL统计后导入其他存储。针对这些任务的特点,斗鱼也做了相应的改造。针对封装OdpsClient,可以将HiveClient改成OdpsClient,并且改Hive URL为云环境。针对加模板改URL,可以引入MaxCompute参数模型,改Hive URL为云环境。

    为了保证能上云也能下云,第一,需要数据能上能下,就是前面提到的数据同步中心。 第二,需要完善的配套工具,云上云下环境尽量透明化使用。第三,多使用通用功能,通过SQL+UDF能覆盖大部分场景。

    混合云模式带来的变化

     

    image

     

    image

    混合云模式带来的变化主要针对资源效率低,难以跟上业务发展,以及资源成本高,企业财务压力大两方面。在资源效率方面,从自建集群到MaxCompute有一些变化,包括提前半年或一年提预算变成按量付费,采购耗时1到3个月变成资源可以无限使用,机房上架1周以上变为无机房概念。相比于IDC自建集群,MaxCompute每年大概节约1000w成本,保障集群零故障。同时也有一些附加的收益,包括阿里云的专业服务,当遇到技术问题时可以请教阿里的专家来帮助解决,以及计算资源可以量化,可以知道钱花在哪些业务了,以及与阿里专家交流,帮助解决业务难题。

     

    image

    在自建机房时,斗鱼也做了一些开发,下图所示为数据开发,包括基于Hue的查询计算和云上的DataStudio数据开发,然后将Hue的API和DataStudio的API集中起来形成斗鱼的大数据开放平台,作用是可以提供给数据部门的人使用,也可以提供给业务部门的分析人员使用。

     

    image

    此外,斗鱼也做了一些实践,称为多活数据中心,如下图所示。斗鱼通过确立自建机房的数据和阿里云数据在这两个数据中心的角色,保证可以在多活数据中心的状态下支撑更多的业务。

     

    image

    混合云带来的变化总结起来,资源成本和资源效率是最大的两个变化,还有可量化的成本、增值服务、额外的专业服务等,不仅可以给我们自己部门人员用,还可以给其他业务部门的人来用,并且他们对使用成本也是直接可见的。

    image

    云栖号案例库:【点击查看更多上云案例】
    不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

    原文链接
    本文为云栖社区原创内容,未经允许不得转载。

    展开全文
  • 数据被认为是新时期的基础生活...Hadoop等大数据技术和其他大数据工具和设备的出现以及云计算数据处理与应用模式的广泛运用,为企业处理日益增长的海量非结构化数据提供了高效、可扩展的低成本解决方案,弥补了传统...
  • 本节书摘来自华章出版社《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第3章,第3.1节,作者吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看 第3章 企业大数据...
  • 关于大数据的概念或者架构一直在各方争议的背景下持续的存在着。目前,关于大数据项目可以真正被落地实施的解决方案就是:Hadoop为核心的的一些列开源分布式解决方案。
  • 现如今已经进入大数据时代,各种系统、应用、活动所产生的数据浩如烟海,数据不再仅仅是企业存储的信息,而是成为可以从中获取巨大商业价值的企业战略资产。这样背景下,如何存储海量复杂的数据、从纷繁错综的数据中...
  • 大数据经过10年发展,现在已经到了一个重要的分水岭阶段:通用性和兼容性能力成为大数据发展主流,运行的稳定可靠和使用的简捷、易开发、易维护成为产品发展的驱动力,而这正是 Hadoop/Spark 这类积木式模块框架无法...
  • 阿里云大数据组件的基本介绍 注意:本文结合了本人对Hadoop生态和Spark的理解,阅读本文需要对传统的大数据组件有基本的认识和了解。本文不具备权威性,若要准确地了解阿里云大数据组件的特性请直接查看阿里云帮助...
  • 未来应该是移动互联网+大数据并存的时代,未来企业之间的竞争是数据的竞争。本文从互联网大数据发展现状、市场规模、需求分析、商业大数据价值、信息安全性、企业发展形态等方面简要分析在DT时代下互联网大数据应用...
  • 分享之前推荐一个大数据交流学习群:722680258零...但是,在未来10年肯定是大数据的天下,人工智能的爆发,将会有大量企业会进入大数据领域,而从JAVA程序员转JAVA大数据就会有天然的优势,因为目前大数据的架构基本...
  • 要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了...
  • 本节书摘来自华章出版社《企业大数据系统构建实战:技术、架构、实施与应用》一 书中的第3章,第3.1节,作者:吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.1 企业...
  • 大数据框架

    2016-01-13 10:37:20
    2、Hadoop在大数据、云计算中的位置和关系 3、国内外Hadoop应用案例介绍 4、国内Hadoop的就业情况分析及课程大纲介绍 5、分布式系统概述 6、Hadoop生态圈以及各组成部分的简介 7、Hadoop核心MapReduce例子说明 ...
  • 大数据技术之Hadoop(伪分布搭建) 1.1 Hadoop是什么? 1.2 Hadoop三大发行版本 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera在大型...
  • 权威研究证明,人类右脑记忆图像的速度,比左脑...因此大数据可视化以图表形式为人们解读数据,更加高效。无论是哪种行业和应用场景,大数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。
1 2 3 4 5 ... 20
收藏数 3,628
精华内容 1,451