精华内容
下载资源
问答
  • 大数据分析与应用技术创新平台
    万次阅读
    2018-11-15 16:54:48

    原文链接:https://mp.weixin.qq.com/s/kCDYOInF8KjHstIMAWSljA

     

    大数据分析与应用技术创新平台

     

    张平文, 鄂维南, 袁晓如, 傅毅明

    北京大学数学科学学院,北京 100871 

    北京大学大数据科学研究中心,北京 100871 

     北京大学信息科学技术学院,北京 100871 

     北京大数据研究院,北京 100871


     

    摘要:针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高等问题,系统地介绍了大数据分析与应用技术创新平台的总体技术框架,详细分析了我国大数据分析与应用五大共性技术存在的不足和解决思路,并阐述了创新平台中四大支撑平台的设计思路与应用方向,最后对大数据分析与应用技术国家工程实验室未来的发展方向和重点工作进行了介绍。

     

    关键词:大数据;数据处理;质量控制;数据挖掘;可视分析;智能数据管理;国家工程实验室

     

     

    论文引用格式:

    张平文, 鄂维南, 袁晓如, 等. 大数据分析与应用技术创新平台[J]. 大数据, 2018, 4(4): 86-93.

    ZHANG P W, E W N, YUAN X R, et al. Big data analysis and application technology innovation platform[J]. Big Data Research, 2018, 4(4): 86-93.

     

     

    1 引言

    目前,我国在大数据发展和应用方面已具备一定基础,拥有一定的市场优势和发展潜力,但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后、创新应用领域不广等问题,这些问题亟待解决。《国务院关于印发促进大数据发展行动纲要的通知》提出“加大大数据关键技术研发、产业发展和人才培养力度,着力推进数据汇集和发掘,深化大数据在各行业创新应用,促进大数据产业健康发展”,强调推进基础研究和核心技术攻关。

    针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高等问题,急需开展关键技术的攻关研发与突破工作。为践行国家大数据战略,北京大学牵头,联合中国科学院数学与系统科学研究院、中山大学、北京奇虎科技有限公司、北京嘀嘀无限科技发展有限公司、中国信息安全研究院有限公司等多家单位,共同申请建设大数据分析与应用技术国家工程实验室,并于2017年初获得了国家发展和改革委员会的正式批复。其目标是围绕数据科学理论体系、大数据计算系统与分析理论等重大基础研究进行前瞻布局,开展数据科学研究,引导和鼓励在大数据分析的理论、方法及关键应用技术等方面展开探索;加强数据清洗、大数据分析发掘、大数据可视化等领域关键技术攻关;围绕多源异构数据分析,针对视频、文本等多种数据类型,研究大规模机器学习的基础和创新方法,依托合作支撑单位开展面向大数据分析的全流程框架和工业标准的设定、大规模数据分析系统平台的搭建;针对多项代表性应用的大数据分析应用平台进行设计和优化,注重大数据分析理论和系统的源头创新,提升数据分析处理能力、知识发现能力和辅助决策能力;切实和有效地突破目前我国在大数据分析和应用方面的技术瓶颈,形成一整套具有国际影响力的大数据分析系统软件,推动我国大数据产业的发展。本文将系统地分析我国大数据分析与应用的五大共性技术的瓶颈和解决思路,介绍大数据分析系统开发平台、大数据系统测试评估平台、大数据分析可视化展示平台、重大应用示范与系统集成平台四大支撑平台的设计与应用,并对大数据分析与应用技术国家工程实验室未来的发展方向和重点工作进行展望。

     

    2 五大共性技术

    如图1所示,在一个典型的大数据分析与应用流程中,数据经过预处理后,采用以大数据统计为代表的共性模型和算法与大数据挖掘技术进行计算分析,再结合高度智能灵活的可视分析,最后支持复杂场景下的智能决策。分析的结果将进一步反馈到数据处理,并再次进入分析过程,进一步提供基于数据的洞见能力和决策支持。可见,在大数据分析与应用中,大数据预处理与质量控制技术、大数据分析支撑理论与算法、大数据挖掘技术、大数据可视分析技术、大数据智能知识管理与决策支持技术构成了大数据分析与应用的五大共性技术。这五大共性技术也是构建大数据分析与应用技术创新平台的关键环节。

     

    图1 大数据分析与应用技术创新平台的总体框架

     

    2.1 大数据预处理与质量控制技术

    (1)数据中的可信度建模问题

    在对复杂结构数据的可信度进行建模时,需要采用“不确定性”和“数据溯源”两个维度。对于不确定性而言,可以采用概率图模型对所研究的复杂结构数据进行数据建模,其中根据应用的需要考虑图模式中的点、边的不确定性以及它们之间的互相依赖关系。除此以外,还考虑到复杂结构数据的多源特性,不同的数据源提供的数据的可信度是不同的。在对数据的不确定性建模的基础上,还要考虑数据的“溯源”问题。大数据分析与应用技术创新平台将数据的不确定性和溯源作为一种统一的元数据,为描述关联数据的可信度提供建模。

    (2)数据中的数据质量检测和评估

    数据质量决定了数据的可用性。传统的数据质量检测方法中,最经典的方法是挖掘数据之间的函数依赖关系以及带有约束的函数依赖等。然而这些方法只考虑了关系数据库表中各个列之间的函数依赖关系。数据质量的检测需要研究复杂数据的数据质量问题。例如知识图谱数据的数据质量问题需要考虑两个方面的特征:图结构特点以及知识图谱数据中的本体语义。

    (3)大数据抽样

    大数据分析中有很多问题,其中一个很重要的问题是计算精度和计算复杂度的平衡。一个好的计算方法一方面要误差小,另一方面要计算速度快。大数据分析中这两方面目标几乎不能同时达到。当前应发展更普适的、更稳健的再抽样方法,其普适性将表现在适合于广义线性模型以及一般凸优化问题,其稳健性将表现在统计推断结果的精确性,即均方误差的减小。

    2.2 大数据分析支撑理论与算法

    数据分析算法大致可以分为计算数学算法、统计算法、计算机算法、优化算法等。由于这些算法来源于不同领域,其侧重点和使用的主要工具都有所不同,然而它们之间又有着千丝万缕的关系,相互关联。

    (1)大数据分析的计算数学理论与算法

    计算数学包括数值分析、数值代数和最优化等,为大数据分析提供了坚实的理论和算法基础,也拓展了大数据分析的应用领域与范围。在大数据的研究中,要推动变分法、偏微分方程、低秩和稀疏优化的结合,为图像科学和医疗影像提供新的数学模型和数值方法;推动计算数学与机器学习的结合;推动偏微分方程与机器学习的结合,发展高维数据分类、聚类和降维的新方法和理论。针对数据模型,可以推广基于多尺度的降维方法在物理模型中的应用,例如图像表示的小波方法就可以看成一个多尺度方法。深度学习网络的训练也和多重网格算法有很多相似之处,可以系统地研究多尺度方法在非结构数据分析中的应用。基于多层次神经网络的深度学习方法可以看成一种自适应、多尺度、多层次的表示方法,加深了对深度学习的理解,有助于找出其基本原理并推广。神经网络也可以看成一种特殊的图模型,从图模型的角度来看,神经网络有希望发展出更一般的多尺度、多层次模型。多年来,在计算数学领域发展出了一系列行之有效的并行算法、随机分析方法和张量分析方法,这为大数据分析提供了有效的途径。优化算法是计算数学和大数据分析的主要课题之一,实验室将研究在大数据中如何发展有效的优化算法。

    (2)大数据统计分析方法

    在分析大数据时,比较大的一个挑战是如何处理大数据的复杂性和不确定性,需要运用统计学原理及方法、机器学习方法来处理这两方面分析中的技术问题。数据的不确定性会带来预测结果的不确定,在统计中可以用随机变量的分布来描述数据的不确定性,然后用置信区间或置信带来量化预测结果的不确定性。

    随着计算机硬件的发展与大数据时代的来临,深度学习作为一种通用的人工智能算法,在近些年取得了巨大的成功。对比传统的模式识别方法,深度学习不再需要人工进行特征设计,而是采用端到端的方式进行训练,并在计算机视觉、语音识别和自然语言处理等很多领域都取得了突破性的进展。目前的深度学习算法主要面临模型复杂度较高、速度慢以及需要大量训练数据等问题。为了进一步推动深度学习的发展和广泛应用,仍需要突破以下关键技术:深度神经网络模型的预测加速和模型压缩、类人的深度学习过程以及新型的深度学习优化方法等。随着深度学习的不断发展,各种复杂的网络结构,特别是深层神经网络,由于灵活性较高,具有良好的表达能力,引起了越来越多的关注。但由于缺乏理论上的指导和支撑,目前深层神经网络的大量自由参数大多数情况下仍需依赖经验来调节与优化,离理论上的最优性能仍有较大差距。此外,如此复杂的模型很容易在特定的数据集上得到近乎理想的拟合效果,然而在推广泛化性能上却往往很难得到保障。为了推动深度学习的发展,继续提高模型的性能,需要对复杂神经网络的优化算法进行进一步的研究。

    深度学习在许多领域都有广泛的应用。在实际应用中,根据计算平台资源等方面的限制,往往需要设计出不同计算复杂度的模型。由于缺乏系统性方法的指导,很多神经网络的超参数(如卷积神经网络的层数、每层卷积神经网络卷积核的类型与数量等)都需要依赖经验来设定,然后通过大量的实验来验证模型的性能。因此,将深度学习算法在特定问题上进行应用的关键是如何在学习的过程中简单有效地完成超参数的自动选择。

    深度学习在监督学习领域已经取得了巨大的成功。基于监督学习的深度学习方法通常需要海量的标注数据进行训练,从而保证模型的推广性能。但在很多应用中,标注数据往往很难获得或者获得成本过高,而没有标注的原始数据往往很容易获得。相对地,人脑可以在没有监督信息时主动地从周围环境中学习。因此,要实现更加高级的智能行为,现有深度学习算法需要突破传统的监督学习模式,从监督学习向半监督学习乃至无监督学习转变,借鉴人与环境之间的交互过程,主动且自动地完成增强学习,以摆脱对监督信息的依赖,在更严苛的环境下完成学习任务。

    2.3 大数据挖掘技术

    在大数据挖掘技术方面,该实验室主要关注文本、视频、时空等典型数据类型,同时大力开展大规模并行数据挖掘技术的研发。

    (1)文本大数据分析技术

    深度语义分析、跨领域跨语言情感分析、大规模高精度文本知识挖掘、智能文本对话、语义搜索引擎等是实现大规模文本数据挖掘和自然语言理解的基础技术。设计制造自动人机对话平台(即智能问答机器助理)被认为是现代人工智能的一项充满挑战也极具困难性的任务。能主动引领新话题的对话模式(即主动式智能问答机器助理)对于现有的被动式人机对话模式而言是全新的突破。语义搜索引擎的应用可以大规模定制化采集任意多个网址、网页和文档信息,利用语义搜索引擎分析相关内容,筛选有价值的信息,构建语义索引,自动汇聚。该平台用于大规模文本的信息筛查和收集,可有效实现基于语义的信息与知识汇聚,有利于基于文本大数据技术的应用,实现科学决策。基于该平台,可以开发行业知识服务与决策支持系统(如智能辅助诊疗、智能新闻报道)、智库信息服务(智能产品服务、智库系统)、通用个人知识助理等行业、专业及通用的知识服务应用。

    (2)面向海量视频图像数据的语义分析技术

    基于语义的图像视频分析是计算机视觉和多媒体领域的一个基本问题,与人工智能、机器学习、人机交互等领域紧密相关。其中,图像数据相关的主要任务有图像分类、物体检测等,视频相关的任务包括多媒体语义事件检测、视频语义标注等。由于视觉数据的特征表达与真实的语义之间存在“语义鸿沟”的问题,尽管现有的研究工作提出了大量理论与算法,上述问题仍然面临着巨大的挑战。特别地,在图像、视频数量爆炸式增长的今天,如何充分挖掘海量视觉数据及其语义标注信息成为新的技术难题。传统的机器学习模型往往无法充分表达海量视频图像数据的语义复杂度,并进而构建高效的用于预测的模型。因此,需要针对海量视频图像数据的特性进一步扩展与增强现有的模型、理论和算法,并在公开的数据集上评测其性能。面向海量视频图像数据的语义分析技术研究需要突破的关键问题有图像快速索引、多媒体事件检测、视频语义标注等。

    (3)时空数据分析技术

    时空数据挖掘主要分为以下几类:时空模式挖掘、时空聚类、时空分类、时空异常检测等。在应用层面,可以以社会经济现象感知为目标,以时空大数据为基础,并以时空数据挖掘算法为支撑,发展一系列分析方法,包括个体移动行为模式分析、活动时间变化特征分析、场所情感语义分析等。移动是个体层次空间行为最直接的外在表现,个体移动行为模式分析是利用时空大数据中的移动轨迹信息研究个体移动模式或模型的方法;活动时间变化特征分析是指基于城市不同区域对应的活动日变化曲线,研究其用地特征和在城市运行中所承载的功能;同时,社交媒体(如推特、微博等)中包含了大量文本数据,这些数据成为语义信息获取的重要来源,其中带有位置的社交媒体数据通常占3%,可以利用这部分数据揭示与地理位置有关的语义信息,即进行面向场所的情感语义分析。

    (4)大规模并行数据挖掘技术

    考虑到当前开放互联环境中海量数据挖掘和应用的需求,该实验室将充分考虑分布式数据的特点,结合不断发展的、多样的存储和计算环境,研究海量分布式数据挖掘的理论、方法和技术、规范体系,力争使我国在相关领域的研究成果进入国际领先行列,重点突破海量数据挖掘系统体系结构、基于云计算的数据模型、分布式数据挖掘算法(包括分类算法、关联规则算法、主成分分析算法)等关键技术。

    2.4 大数据可视分析技术

    可视分析是对大数据进行分析的一种有效手段,日益受到重视。在中国计算机学会大数据专家委员会发布的2014—2016年大数据发展十大趋势中,可视分析技术连续3年被列入其中。可视分析技术的目标是使数据分析过程透明化。它结合了可视化、人机交互和自动分析技术。在一个典型的可视分析流程中,自动分析的结果通过可视化展示给用户,用户通过人机交互技术评价、修改和改进自动分析模型,从而得到新的自动分析结果。通过这种方式,可视分析技术将人的经验智慧与机器的运算能力紧密地结合在一起。这其中,由人来定义分析任务的模式,由机器来存储和分析大量的数据。分析结果的可视化则成为人与机器合作的桥梁。

    ● 大数据原位可视分析技术。最初的面向科学的原位可视化技术将数据处理与可视化代码、数值模拟代码进行耦合,在数值模拟程序运行的过程中进行若干处理与可视化工作,即时对相关特征进行提取并存储,从而能在后续处理中得到完整、精确和可靠的数据分析和可视化结果,用以支持用户的探索与分析。原位处理能在保证数据精度的同时,大幅减少所需数据存储、数据传输以及后续处理的代价。同时,原位处理的过程中,也能即时产生相关的可视化内容,用户可以基于内容对模型模拟过程进行监测、调整和操控。同样的思路可以被推广到一般意义上的复杂大数据分析中,在大数据产生和运输过程中,同步开展有效的可视化工作,可解决大数据可视化的瓶颈问题。

    ● 多尺度时空可视分析技术。面对多种不同来源、不同粒度的数据,如何在时空内进行融合是分析时空数据的巨大挑战。在统一空间内,将多源数据进行可视化处理并提供有效的可视分析手段是目前的研究热点之一。多尺度时空可视分析技术是探索应对大规模、异构的时空数据时较为通用的交互式分析和探索方法。

    ● 支持态势感知的大数据可视分析技术。传统的数据分析任务主要是针对单个或者一类数据进行的分析,随着大数据的出现,各式各样具有隐性相关关系的数据涌现出来。在一些复杂任务中,往往需要同时对不同类别的数据进行采集、监控、分析以及响应。支持用户对这类分析过程进行实时感知把握是今后可视分析需要具备的重要功能。

    2.5 大数据智能知识管理与决策支持技术

    面向大数据的知识发现、管理和决策支持服务平台是大数据分析流程中关键的一环。其中包括4个方面的主要内容:一是面向多源异构数据源的知识图谱构建和融合,将不同的数据源的数据进行有效的整合,形成面向一个领域或者开放领域的完备的知识图谱;二是海量知识数据的存储和查询等数据管理问题,一个面向海量知识数据的高效的知识图谱数据管理系统是提供知识服务和支撑上层决策的基础;三是智能知识检索和分析,笔者希望为用户提供一种基于可视化技术的、交互式的知识数据访问和分析的平台接口,方便普通用户使用知识图谱;四是在上述知识图谱的构建和分析的基础上,针对复杂的问题提出定性定量综合集成建模体系,从而有效支持相关决策。

     

    大数据支撑平台

    针对上述技术,大数据分析与应用技术创新平台将搭建相应的支撑平台,支持方法和系统的研发与落地。

    (1)大数据分析系统开发平台

    大数据分析系统开发平台建设专门面向大数据分析技术的支撑平台与系统,实现大数据机器学习算法的高效并行化,为各种机器学习算法提供统一的、用户透明的调度过程。构建两个面向大数据分析的算法库:面向大数据统计与机器学习分析处理基础算法的并行算法库、面向大数据挖掘技术核心算法的并行算法库。依托天河二号超级计算机,设计面向大数据分析与处理的软件支撑平台,包括基于天河二号的大数据可视化分析系统、支撑大数据可视化的基础并行算法库、实现知识图谱的基础并行算法库与软件系统支撑平台。重点突破大数据背景下深度学习、数据挖掘等各类应用的共性问题,研究解决这些问题的基础算法的并行性,研究并行编程框架及其支撑系统,创建基于天河二号的大数据分析软件支撑平台与系统。

    (2)大数据分析系统测试评估平台

    大数据分析系统测试评估平台是一个综合性试验测试平台,能够实现各种大数据分析方法和系统在多种数据对象、应用场景下的主客观质量测试和应用验证。大数据分析系统测试评估平台将建立标准测试方法和手段,并建立综合性的测试数据集合,能够提供多种情况下的测试评估能力,对其他平台的结果具有良好的支撑作用。

    (3)大数据分析可视化展示平台

    大数据分析可视化展示平台将提供先进的可视化显示环境,提供对目标数据分析效果的高效可视化,提供高度沉浸式、高像素分辨率的大规模可视化设施。大数据分析的可视化通常需要同时展示大量、高精度、多角度的复杂图形信息,以便使用者进行观察与分析。

    (4)重大应用示范与系统集成平台

    重大应用示范与系统集成平台主要通过与共建单位合作,在安全、交通等方面建设包括多种应用在内的大数据重大应用示范与系统集成。

     

    未来发展方向

    大数据分析与应用技术国家工程实验室瞄准国家的重大需求进行发力和突破,同时,还将以企业和市场的需求为导向,以提高产业自主创新能力为目标,力争在我国大数据分析与应用领域形成一批重大的标志性成果。

    在科研与人才的体制机制上,积极进行探索和创新,与北京大学大数据科学研究中心、北京大数据研究院等院校机构和科研单位进行深度协作,整合各方资源,发挥各方优势,努力实现机构共建、人才联聘、成果共享的“三位一体”运行新机制。

    在大数据人才培养上,将以往的分学科、分阶段的“串联式”培养方式升级为多学科交叉、理论与实践并行的“并联式”培养方式,联合北京大学数学科学学院、信息科学学院等院系,聚合数学、计算机、工程应用等多方面的资深专家,为大数据领域的优秀人才营造良好的成长环境。在提高人才培养效率的同时,使其具备利用大数据相关理论与实践经验解决具体问题的实战能力。

    大数据分析与应用技术国家工程实验室依托北京大学建立研究环境与核心团队,构建创新生态。针对大数据分析技术,建立研究开发和试验平台,开展针对大数据的预处理和质量控制、大数据的计算数学理论与算法、大数据的统计方法及理论、大规模机器学习方法、面向异构多源大数据的挖掘和分析、大数据的可视化以及知识计算和决策支持等方面的研究;针对重点行业应用和数据产业的发展需要,建立大数据分析系统和数据产业工业化应用的全流程开发框架和系统标准;并以支撑平台为基础,加强与支持单位以及优势单位和地区开展的合作研究,突破现有大数据分析的技术瓶颈,引领国内外大数据分析产业的发展,涌现一批具有自主知识产权、形成国际影响力的大数据分析系统平台,为我国大数据分析产业的发展以及基于大数据的政府决策、企业创新等提供基础支撑。

     

    结束语

    本文从我国大数据分析与应用的共性技术、大数据支撑平台和应用的现状和存在的问题出发,介绍了大数据分析与应用技术国家工程实验室建设的大数据分析与应用技术创新平台技术架构。创新平台围绕数据科学理论体系、大数据计算系统与分析理论等重大基础研究进行前瞻布局,开展数据科学研究,引导和鼓励在大数据分析的理论、方法及关键应用技术等方面展开探索。创新平台将引领大数据分析技术和国际标准发展,为我国大数据分析产业健康发展提供技术支撑、实验中心和人才基地。在产学研结合方面,该平台将成为支撑产业健康发展的核心试验支撑平台和充满活力的开放式研究开发环境。

    更多相关内容
  • 如何搭建企业大数据分析平台

    千次阅读 2019-04-02 09:13:54
    讨论一:先来谈谈企业搭建大数据分析平台的背景。1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的...

    讨论一:

    先来谈谈企业搭建大数据分析平台的背景。

    1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据,BI就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。 所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI应用分析建设的。

    2、大数据拥有价值。来看看数据使用金字塔模型,从数据的使用角度来看,数据基本有以下使用方式:


    自上而下,可以看到,对数据的要求是不一样的:

    • 数据量越来越大,维度越来越多。
    • 交互难度越来越大。
    • 技术难度越来越大。
    • 以人为主,逐步向机器为主。
    • 用户专业程度逐步提升,门槛越来越高。

    企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台。企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。

    整体方案思路如下:

    建设企业的基础数据中心,构建企业统一的数据存储体系,统一进行数据建模,为数据的价值呈现奠定基础。同时数据处理能力下沉,建设集中的数据处理中心,提供强大的数据处理能力;通过统一的数据管理监控体系,保障系统的稳定运行。有了数据基础,构建统一的BI应用中心,满足业务需求,体现数据价值。

    提到大数据就会提到hadoop。大数据并不等同于hadoop,但hadoop的确是最热门的大数据技术。下面以最常用的混搭架构,来看一下大数据平台可以怎么来搭建,支撑企业应用:


    通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。

    利用spark和hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系。

    同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。


    讨论二:

    面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作。


    在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。


    (1)操作系统的选择

    操作系统一般使用开源版的RedHat、Centos或者Debian作为底层的构建平台,要根据大数据平台所要搭建的数据分析工具可以支持的系统,正确的选择操作系统的版本。

    (2)搭建Hadoop集群

    Hadoop作为一个开发和运行处理大规模数据的软件平台,实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心的设计是HDFS和MapReduce,HDFS是一个高度容错性的系统,适合部署在廉价的机器上,能够提供高吞吐量的数据访问,适用于那些有着超大数据集的应用程序;MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型。在生产实践应用中,Hadoop非常适合应用于大数据存储和大数据的分析应用,适合服务于几千台到几万台大的服务器的集群运行,支持PB级别的存储容量。


    Hadoop家族还包含各种开源组件,比如Yarn,Zookeeper,Hbase,Hive,Sqoop,Impala,Spark等。使用开源组件的优势显而易见,活跃的社区会不断的迭代更新组件版本,使用的人也会很多,遇到问题会比较容易解决,同时代码开源,高水平的数据开发工程师可结合自身项目的需求对代码进行修改,以更好的为项目提供服务。

    (3)选择数据接入和预处理工具


    面对各种来源的数据,数据接入就是将这些零散的数据整合在一起,综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入,数据接入常用的工具有Flume,Logstash,NDC(网易数据运河系统),sqoop等。对于实时性要求比较高的业务场景,比如对存在于社交网站、新闻等的数据信息流需要进行快速的处理反馈,那么数据的接入可以使用开源的Strom,Spark streaming等。


    当需要使用上游模块的数据进行计算、统计和分析的时候,就需要用到分布式的消息系统,比如基于发布/订阅的消息系统kafka。还可以使用分布式应用程序协调服务Zookeeper来提供数据同步服务,更好的保证数据的可靠和一致性。


    数据预处理是在海量的数据中提取出可用特征,建立宽表,创建数据仓库,会使用到HiveSQL,SparkSQL和Impala等工具。随着业务量的增多,需要进行训练和清洗的数据也会变得越来越复杂,可以使用azkaban或者oozie作为工作流调度引擎,用来解决有多个hadoop或者spark等计算任务之间的依赖关系问题。

    (4)数据存储

    除了Hadoop中已广泛应用于数据存储的HDFS,常用的还有分布式、面向列的开源数据库Hbase,HBase是一种key/value系统,部署在HDFS上,与Hadoop一样,HBase的目标主要是依赖横向扩展,通过不断的增加廉价的商用服务器,增加计算和存储能力。同时hadoop的资源管理器Yarn,可以为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一等方面带来巨大的好处。


    Kudu是一个围绕Hadoop生态圈建立的存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,可以运行在普通的服务器上,作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Redis是一种速度非常快的非关系型数据库,可以将存储在内存中的键值对数据持久化到硬盘中,可以存储键与5种不同类型的值之间的映射。

    (5)选择数据挖掘工具


    Hive可以将结构化的数据映射为一张数据库表,并提供HQL的查询功能,它是建立在Hadoop之上的数据仓库基础架构,是为了减少MapReduce编写工作的批处理系统,它的出现可以让那些精通SQL技能、但是不熟悉MapReduce、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据。Impala是对Hive的一个补充,可以实现高效的SQL查询,但是Impala将整个查询过程分成了一个执行计划树,而不是一连串的MapReduce任务,相比Hive有更好的并发性和避免了不必要的中间sort和shuffle。


    Spark可以将Job中间输出结果保存在内存中,不需要读取HDFS,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Solr是一个运行在Servlet容器的独立的企业级搜索应用的全文搜索服务器,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML,生成索引,或者通过HTTP GET操作提出查找请求,并得到XML格式的返回结果。


    还可以对数据进行建模分析,会用到机器学习相关的知识,常用的机器学习算法,比如贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

    (6)数据的可视化以及输出API


    对于处理得到的数据可以对接主流的BI系统,比如国外的Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数(可免费试用)等,将结果进行可视化,用于决策分析;或者回流到线上,支持线上业务的发展。

    成熟的搭建一套大数据分析平台不是一件简单的事情,本身就是一项复杂的工作,在这过程中需要考虑的因素有很多,比如:

    • 稳定性,可以通过多台机器做数据和程序运行的备份,但服务器的质量和预算成本相应的会限制平台的稳定性;
    • 可扩展性:大数据平台部署在多台机器上,如何在其基础上扩充新的机器是实际应用中经常会遇到的问题;
    • 安全性:保障数据安全是大数据平台不可忽视的问题,在海量数据的处理过程中,如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点。

    讨论三:

    大数据分析平台实现技术

    1 硬件平台

    大数据分析平台需要进行 PB 级数据的读取、写入,需要进行数据挖掘模型的大规模运算,需要进行预测结果的发布,对底层基础硬件的磁盘 IO 和运算速度要求很高,同时需要满足分布式、动态扩展的要求,因此采用配置为 2 路 8 核CPU、128GB 内存、千兆网卡的x86架构 PC Server 服务器。

    2 平台软件

    操作系统软件采用 Red Hat,数据采集采用 Flume-NG, 海量数据存储及分布式计算采用Hadoop,数据清洗采用 Hive,数据挖掘引擎采用 Spark R,预测结果保存在 HBase 中。

    采 用 HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统。

    采用 Hadoop 构建 PB 级大数据平台,提供海量数据存储和分布式计算。

    采用 Hive 做为数据清洗引擎,提供 PB级数据预处理、加工、整合服务。

    采用 Spark R 组件,Spark R 提供了 Spark中弹性分布式数据集的 API,用户可以在集群上通过 R shell 交互性的运行 job。数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。

    采用 HBase 技术可以提供海量数据的高效发布。

    3 大数据挖掘模型开发

    数据采集存储模块:DPI、业务侧、网元侧数据通过文件接口方式发送到 Flume-NG 集群,Flume-NG 通过 memory 数据传输方式,将接收到的数据实时的通过 hdfs 方式汇聚到大数据分析平台。

    数据清洗模块:通过编写 HQL 脚本对数据进行清洗、转换,形成特征宽表。

    数据挖掘模块:基于特征宽表的数据建模采用 Spark R, 调用聚类、分类等算法,进行模型开发、模型评估、模型应用。

    分析结果发布:模型应用的结果集存储在HBase 中,首先需要在 HBase 中新建存储结果集的 HBase 表,通过 Map Reduce 生成 HFile文件,然后通过 Bulk Load 方式入库。数据的调用通过 HBase API 实现,数据的展现通过ECharts 技术实现。


    可以关注一下ETHINK数据智能分析平台

    讨论四:

    提到大数据,无可避免的就会提到Hadoop。尽管大数据并不等同于Hadoop,但Hadoop确实是最热门的大数据技术。下面是最常用的混搭架构,来看一下大数据平台可以怎么搭建,支撑企业应用:


    通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。

    利用Spark和Hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过Sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系。

    同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。


    讨论五:

    如果用开源产品搭建大数据平台,还是很繁琐的,需要对细节比较了解。

    可以选择商业版的hadoop平台,支持可视化一键部署。

    有的大数据平台厂商利用的docker技术,直接就秒级创建一个大数据分布式平台


    展开全文
  • 免费大数据分析平台有哪些

    万次阅读 2018-05-31 11:19:11
    昨天(5月28号)由社科文献出版社初版的...现在市面上围绕大数据的应用开发如火如荼,比如,企业级大数据处理平台开发、政务大数据平台的开发、智慧交通大数据平台开发等。这些大数据处理平台的开发从技术角度上来说...

    昨天(528)由社科文献出版社初版的《大数据蓝皮书:中国大数据发展报告No.2》正式发布了。以“数化万物 智在融合”为主题的中国国际大数据产业博览会也京举行中。基本可以预见,在接下来的一段时期内关于大数据应用开发又将进入到一个新的阶段。

    现在市面上围绕大数据的应用开发如火如荼,比如,企业级大数据处理平台开发、政务大数据平台的开发、智慧交通大数据平台开发等。这些大数据处理平台的开发从技术角度上来说都是偏向于底层的,开发难度之大真不是三两个人就可以搞得定的。虽然个人独立开发难度大,但研究下这些平台架构总是可以的,可能对于从事开发方面的技术宅来说,势必是要去研究下的!从我自己身边的这些技术宅身上,这一点我是看的很透彻的。

    免费大数据分析云平台

    我接触大数据的时间其实不是很久,也就是从去年开始接触的,算是我这个小圈子里比较早倒腾大数据方面东西的人之一吧。前几天有人问是否有免费的大数据平台可以玩一下。默默回了他,免费的没有,付费的倒是一大把!

    免费大数据分析云平台 

    免费的也不能说是没有,如果仅仅是作为个人爱好研究一下倒是可以找来一些免费版本的玩一下的,当然作为企业或者一些大平台应用的,自然是需要花大价钱购买更为专业的版本的。那些付费版本的这里我们就不讨论了,对于个人想要研究一下大数据相关内容的,到时候可以去玩一下大快搜索的DKhadoop,我印象中是有好几个版本的,有独立的免费版的可以去大快搜索的网站上去申请下载的。DKhadoop免费版本的没有安装过的,我用的是大快的其他版本的。可能是习惯了吧,所以觉得还是很好用的。

    其实提供免费版试用版本的不是只有大快搜索了,很多做大数据hadoop开发的一般都会提供一些“乞丐版”。但各家提供的这些免费试用版也是存在很大差异的,虽然大家遵循的开发原则一致,但还是各人有各人的特色吧。其他版本的我没怎么用过,也不好说太多。感兴趣的可以自己再去查找一些!

    展开全文
  • 智慧城市大数据分析系统解决方案

    千次阅读 2022-03-31 17:48:22
    建设目标 本项目主要建设数据分析服务平台,通过有效收集、整合智慧城市云平台以及周边关联系统中的各类数据,以业务运营和平台运维分析管理需求为导向进行数据加工处理,建立包括业务运营、云平台运维监控等应用,...

    背景定位目标

    1.建设背景

    中国“城镇化”的背景下,为了积极响应政府提出的城市化发展策略,把“智慧城市”作为业务发展重点,确立了“共建 汇聚 共享”为发展模式的智慧城市发展战略。

    “智慧城市”确定了依托云计算、物联网、移动互联网等核心技术,结合基础通信优势资源,打造全国统一的智慧城市云承载平台,使智慧城市成为企业新的业务增长点。

    “智慧城市”云平台建设和运营是一个庞大的系统化工程。为有效保障智慧城市云平台运营健康、高效、可持续化发展,需要以数据处理及分析应用为抓手,构建独立、高效、面向智慧城市云平台的业务运营、平台运维、租户运营的数据分析服务平台。

    2.系统定位

    根据智慧城市应用“以城市为中心”的业务特性,企业智慧城市云平台采用一级架构,包括管理平台和资源池两大部分。数据服务分析平台为智慧城市云平台的一部分。

    3.云平台功能架构中的定位

    4.与周边子系统关系

    数据服务分析平台主要从云管理平台中的业务平台、运维平台采集数据。

    租户的结构化/非结构化数据也是数据服务分析平台采集的一部分。

    5.建设目标

    本项目主要建设数据分析服务平台,通过有效收集、整合智慧城市云平台以及周边关联系统中的各类数据,以业务运营和平台运维分析管理需求为导向进行数据加工处理,建立包括业务运营、云平台运维监控等应用,并能方便快捷向平台运维人员、业务运营人员及租户提供所需的数据分析能力、数据计算服务能力、数据自助服务能力,为智慧城市云平台业务运营和平台运维保障提供有效信息支撑。

    总体建设方案

    1.总体框架

    数据分析服务平台主要包括“数据整合层、数据应用层、统一门户层、数据管控层”四个主要部分。

    1.1 数据整合层

    ● 数据体系架构

    多层次多粒度数据体系架构:数据架构是基于“智慧城市云平台”的管理数据和租户数据的进行规划,本次项包括STG、DWD、DWA、DM四层以及私有数据层次,不同层次实现数据粒度由细到粗的数据整合。

    ● 数据架构说明

    数据架构描述主要针对不同的数据层次描述层次的定位和作用、模型设计、数据粒度、存储周期。

    ● 模型设计六大原则

    ● 数据获取层STG

    STG层

    STG是数据整合层的一个组成部分,主要是作为数据仓库数据处理的过渡,以降低直接进行数据处理的复杂度。是一个面向数据主题的、集成的、可变的、当前的细节数据集合层。

    STG层是临时细节数据层,是对生产业务系统数据进行沉淀,因此本层的数据模型原则上延用生产模型,包括主题域和子域划分方式。

    STG数据整合层是的数据来源主要包括“平台管理数据”和“租户私有数据”两部分。平台管理数据,指来自于云管理平台的内部数据。租户私有数据,指来自租户自己部署应用的数据。

    接口说明-云管理平台对外接口

    ● 明细数据层(DWD)

    DWD是数据仓库的细节数据层,为企业各种分析类应用提供细节性数据支持,是数据仓库的核心,同时为未来需求的扩展提供历史数据支持。

    DWD层的模型设计,需要围绕企业核心业务过程展开,关注业务过程中的核心业务事件和业务实体,遵从生产系统域的划分。

    ● 衍生汇总数据层(DWA)

    1.2 数据应用层

    ● 三类应用/两个转变

    数据应用包括“数据运营分析应用、数据计算服务应用、数据自助服务应用”三类。数据应用以业务分析为基础、以计算服务为依托,面向不同角色提供工具化、产品化的自助服务应用,实现数据应用方式从传统应用向个性化应用转变,实现数据应用层次从可视化与监控向交互沟通方向转变。

    ● 数据运营分析应用

    “数据运营分析应用”主要包括“业务运营分析、平台运维分析、租户业务分析”三个部分,属于传统化、可视化应用。

    业务运营分析,是以 租户、产品业务核心对象为中心,围绕业务核心对象关键KPI进行监控,业务核心对象实体属性进行深入洞察分析。

    平台运维分析,是以资源为核心,围绕资源的使用、性能等进行分析。

    租户运营分析,是以单一租户为核心,提供单一的租户视图。

    ● 数据计算服务

    定义

    基于Hadoop的分布式计算能力封装(Hadoop based distributed computing power package),以下简称:HDCPP。

    HDCPP定义:为租户提供Hadoop分布式计算能力服务,租户能够在虚拟的Hadoop集群之上分析和处理海量的非结构化数据。HDCPP是对Hadoop能力的增强,与Hadoop集群服务、存储服务、监控服务进行无缝集成或连接。它也能与Hadoop架构之上的应用(Hive/Hbase/Pig等)进行无缝集成。 

    框架图

    数据计算服务是在hadoop之上,提供“查询、计算、存储”三种引擎,提供基于服务生命周期的“数据计算服务”管理。

    查询引擎

    查询引擎是HDCPP服务的实现,通过脚本,SQL,界面元素向外提供服务。

    查询引擎包含SQL解析、过程语言和元数据。

    计算引擎

    计算引擎是HDCPP服务的能力,在Hadoop架构基础上对计算能力封装,机制调整,优化。

    计算引擎包含计算均衡、多任务调度和MR计算。

    存储引擎

    存储引擎是HDCPP服务的基础,规定了文件的存储方式,文件格式,存储结构,应用规范。

    存储引擎包含块索引、列存储和结构化存储。

    基于生命周期数据计算服务

    服务申请-服务创建-服务配置-数据准备-服务运行-服务退出

    数据自助服务

    数据自助服务是在元数据基础之上,通过元数据屏蔽掉异构数据库差异,并提供统一的数据服务接口。自助数据服务的功能,包括元数据配置/服务/权限管理和即席查询两个部分。

    1.3 数据门户

    实现根据多级管理主体和用户角色,提供个性化的页面布局和个性化功能界面,统一接入、集中展现,提升用户感知。

    统一应用功能发布、集中的功能和数据授权,实现门户层面的安全管理。

    1.4 数据管控

    1.4.1 总体说明

    数据管控对元数据管理、数据质量、数据标准、数据安全、生命周期、数据加载、数据流程进行了有机结合,形成一套完整的企业级数据体系规范、运作流程及规章制度。

    数据管控包含三大方面:ETL调度、数据治理、元数据管理。

    1.4.2 元数据管理

    元数据是数据质量、流程监控的基础,期承载了项目内的所有静态内容展现,及动态变更提醒。

    实体扫描:通过扫描数据库,实现实体展现及变更通知,为自助分析服务提供元素支持

    血缘关系:支撑各层实体的来龙去脉关系展现;通过既定规范,形成期血缘关系,满足管理人员、租户、维护人员对数据加载现状的了解,及变更评估;

    数据权限:统一管控数据权限。

    API接口: 通过Web service方式向外界系统提供能够使用Web进行调用的API

    1.4.3 数据治理管理

    5W-1H-1R:WHAT,WHO,WHERE,

    WHY,WHEN; HOW; REPORT

    锁定管控内容:数据源、应用模块,各个监控环节,问题处理流程

    责任矩阵:采集流程、稽核流程、加工流程、发布流程、问题处理流程矩阵负责人

    设定监控点,异常告警快速定位:数据采集、加工、稽核、发布流程监控点,针对稽核设定阀值,异常情况定位

    分析异常原因:对各层级流程出现的异常点进行日志记录与原因分析

    问题告警定时提醒:记录异常警告时间,对负责人进行定时提醒

    异常问题解决方案:对不同的问题形成处理方案

    形成分析报告:因产生的问题进行原因总结,形成分析报告,为知识库提供参考

    1.4.4 ETL调度管理

    ETL是数据的动能它让数据流动起来,包括数据源采集、数据稽核、数据加工流程实现一体化监控。

    各环节出现的问题,系统可自动触发告警,通知管理员及时处理跟踪异常问题。

    数据加工机制为问题分层管理,各层问题在数据系统内部存在多次反复流转,确保数据结果正确。

    2.总体实施计划

    3.项目实施管理

    3.1 项目管理

    建立专业化分工的管理团队,洞察云管理平台发展方向,配合租户业务分析需求,逐步完善系统建设目标,落实项目管理责任。

    3.2 项目实施团队

    展开全文
  • ???? 作者主页:Java李杨勇 ???? 简介:Java领域优质创作者?...大数据分析主图展示&收费站流量&闯红灯分析统计 代码目录: 主要代码实现: 主页HTML布局: <title>
  • 大数据分析平台安全的重要性

    千次阅读 2022-04-06 13:51:55
    大数据存储安全:通过大数据安全存储保护措施的规划和布局,协同技术的发展,增加安全保护投资,实现大数据平台的安全保护,实现业务数据的集中处理。  2,大数据云安全:大数据一般需要在云端上传,下载和交互,...
  • 大数据时代,大数据分析行业水涨船高,很多身边的朋友都想学习一下如何进行大数据分析。经常有人问我该怎么选择大数据分析工具。也对,面对市面上那么多大数据分析工具,大家在选择的时候都会懵一下。 为了解答...
  • 1.Disco Disco最初由诺基亚开发,这是一种...作为Hadoop之外的一种选择,HPCC这种大数据平台承诺速度非常快,扩展性超强。除了免费社区版外,HPCCSystems还提供收费的企业版、收费模块、培训、咨询及其他服务。...
  • 电商平台订单交易数据分析

    千次阅读 多人点赞 2020-05-01 10:05:30
    本文根据某电商平台的实际订单交易数据,对2019年的交易情况进行分析,包括数据清洗、可视化、分析以及构造建立RFM模型。 1加载提取数据 1.1加载 数据包含如下字段:orderID:订单编号;userID:用户编号;goodsID...
  • 8种常见的大数据分析模型

    千次阅读 2020-10-10 12:23:01
    这篇文章给大家简单介绍一下八个模型,具体如下:1.留存分析模型留存分析模型是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。这是用来衡量产...
  • 六款超好用的大数据分析工具

    千次阅读 2021-05-27 17:05:16
    一、大数据分析工具——Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个...
  • 数据分析 1 点击主菜单数据分析,进入数据分析页面,如图 13-1 、图 13-2 所示,点击添加数据点,选择分析的数据点(可选择多个数据点,也可点击清除按钮删除全部选中数据)-->选择取值方式-->选择数据类型...
  • 30款常用的大数据分析工具推荐(最新)

    万次阅读 多人点赞 2019-09-27 10:37:32
    数据挖掘和数据分析的能力在当今时代相当重要, 智能的工具是你与竞争对手对抗并为公司业务增加优势的必备条件。我列出了30个最热门的大数据工具,供大家参考。 Part 1:数据采集工具 Part 2:开源数据工具 Part ...
  • 那么要达到这些效果,在电子商务行业大数据分析主要是采用以下算法以及模型:  第一、RFM模型  通过了解在网站有过购买行为的客户,通过分析客户的购买行为来描述客户的价值,就是时间、频...
  • 首先要构建电商数据分析的基本指标体系,主要分为8个类指标 目录 1. 总体运营指标 2.网站流量指标 3. 销售转化指标 4. 客户价值指标 5.商品类指标 6. 市场营销活动指标 7. 风控类指标 8. 市场竞争指标 ...
  • 大数据分析的学习感悟

    千次阅读 2020-05-15 17:02:36
    伴随着大数据、云平台、物联网、人工智能技术的快速发展,大数据分析必然会发挥更的作用。大数据的意义归根到底就四个字:辅助决策。利用大数据分析,能够分析现状、分析原因、发现规律、总结经验
  • 浅谈车联网与大数据分析

    万次阅读 2019-06-27 11:14:49
    车联网是以行驶中的车辆为信息感知对象,借助新一代信息通信技术,实现车与X(即车与车、人、路、服务平台)之间的网络连接,提升车辆整体的智能驾驶水平,为用户提供安全、舒适、智能、高效的驾驶感受与交通服务,...
  • 随着大数据、人工智能等技术的快速发展,企业对大数据平台的需求越来越强烈,通过大数据分析技术为企业提供经营价值。虽然数据分析工作隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对企业决策、企业...
  • 大数据分析平台

    万次阅读 2016-02-18 13:46:13
    新时期对数据中心资源整合的重新定义“大数据”。
  • 大数据分析平台搭建指南

    万次阅读 2018-10-16 00:58:06
    先来谈谈企业搭建大数据分析平台的背景。1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,...
  • 首先来看看认知计算和人工智能的区别 ...2.构建一个企业的大数据分析平台 ,主要分为哪几步? http://www.duozhishidai.com/article-8017-1.html 3.数据科学,数据分析和机器学习之间,有什么本质区别? ...
  • 可视化bi平台大数据分析的关系

    万次阅读 2018-09-10 18:19:59
    可视化bi平台,是一个数据分析结果的展示,数据可视化的作用也不容小觑,数据可视化的工具也是多种多样,免费的还是收费的,供企业选择的范围也很多。数据可视化过程汇总也会产生一些数据,或者是数据可视化的工具也...
  • 古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更更壮的牛。同样,在面对计算能力不足时,我们也应尝试着结合使用更多的计算机系统。 Hadoop就是基于这样的理念设计。Hadoop是一个由Apache...
  • 大数据挖掘与分析平台 整体解决方案 ...
  • [入门数据分析的第一堂课] 这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍: Ø  什么是数据分析-知其然才知...
  • 大数据分析在金融行业的广泛应用,已经是不可阻挡的时代趋势,极星大数据分析平台,顺应趋势,为金融机构提供量身定制的大数据分析软件,帮助金融机构应对未来挑战。 现如今,互联网已经让社会生活发生根本...
  • 浅谈数据分析和数据建模

    千次阅读 2019-11-26 15:43:02
    过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的个人数据,数据分析应用的领域集中在企业内部经营和财务分析。 数字时代到来之后,企业经营的各个阶段都可以被...
  • 数据可视化分析平台

    千次阅读 2020-08-27 17:18:10
    DataGear是一款数据可视化分析平台,使用Java语言开发,采用浏览器/服务器架构,支持多种数据库, 主要功能包括数据管理、SQL工作台、数据导入/导出、数据集管理、图表管理、看板管理等。 DataGear 1.11.1 已发布,...
  • 大数据分析概念  大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。  大数据作为时下最火热的IT行业...
  • 十大最值得关注的国内大数据分析厂商

    万次阅读 多人点赞 2016-11-25 14:43:06
    随着互联网和IT技术的推进,大数据的应用逐渐渗透到各行各业。尤其是数据体量的互联网、金融、银行、制造行业。大数据正逐渐改变企业的运营模式,市场导向,进而惠及人们的生活。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 855,091
精华内容 342,036
关键字:

平台大数据分析