精华内容
下载资源
问答
  • 问题导读:1、常用的算法模型有哪些? 2、如何对数据进行监控管理? 3、大数据平台的数据服务是怎样的?...专家数据仓库建立在Hadoop分布式系统之上,提供了多种丰富的算法模型,不同的应用通过借助不同的接口...

    问题导读:
    1、常用的算法模型有哪些?
    2、如何对数据进行监控管理?
    3、大数据平台的数据服务是怎样的?

     

    1.5    数据分析建模
    伴随着大数据时代的悄然来临,数据的价值得到人们的广泛认同,对数据的重视提到了前所未有的高度。数据已经作为企业、事业单位的重要资产被广泛应用于盈利分析与预测、客户关系管理、合规性监管、运营风险管理等业务当中。如何建立大数据分析模型,以提供决策依据是很多用户所迫切解决的问题。
    专家数据仓库建立在Hadoop分布式系统之上,提供了多种丰富的算法模型,不同的应用通过借助不同的接口实现数据的多维呈现和结果展示,为用户提供科学的决策支持。

    图 10-7 hadoop算法模型图

    大数据平台提供数据挖掘模型、分布式计算引擎、高性能机器学习算法库(包含分类 、聚类 、预测、推荐等机器学习算法)、即席查询功能,可以帮助决策者快速建立数据分析模型立方体,便于决策者进行OLAP分析。
    常用算法模型:

    • 分类算法:
      分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。如政务网中将用户在一段时间的网上办理所遇到的问题划分成不同的类,根据情况向用户推荐关联类的问题解决方案,从而方便用户快速解决网上办事审批中遇到的各类问题。
    • 回归算法
      回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。在回归算法常将数值结果转化为了0到1之间的概率,数值越大,函数越逼近1,数值越小,函数越逼近0,它可以应用到对数据序列的预测及相关关系的研究中去。如我们根据这个概率可以做垃圾预测,例如概率大于0.5,则这封就是垃圾。
    • 聚类算法
      聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。分类算法中的一个显著特征就是训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签。在聚类的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。以二维的数据来说,一个数据就包含两个特征,可通过聚类算法,给他们中不同的种类打上标签,通过聚类算法计算出种群中的距离,根据距离的远近将数据划分为多个族群。
    • 关联算法
      关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。
    • 推荐算法
      推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。
    • 神经网络模型
      神经网络模型,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型;第二类是用于联想记忆和优化算法的反馈式神经网络模型。第三类是用于聚类的自组织映射方法。
    • Adaboost算法
      其核心思想是针对同一个训练集,训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
    • 深度学习
      深度学习算法是对人工神经网络的发展。在计算能力变得日益廉价的今天,深度学习试图建立大得多也复杂得多的神经网络,用来处理存在少量未标识数据的大数据集。


    1.6    数据资源管理
    专家系统数据具有数据量大、数据类别多、数据关联关系紧密等特点,随着数据的积累,数据资源的利用价值逐步体现,提高数据的管理,是对数据资源充分利用的前提条件。数据资源管了包括如下几部分容:数据标准化管理、数据监测管理及元数据管理等。
    1.6.1    数据标准管理
    汇集整理数据资源管理所需的标准规信息,建立数据标准数据库。利用专家系统数据标准管理系统的接口同步更新标准信息。包括数据元标准以及信息代码标准。

    • 建设数据资源库,实现专家系统发布标准数据元与本地扩展数据元标准的汇集。实现与车辆检修等数据源管理系统接口对接。
    • 建设信息代码资源库,梳理国标、部标和本省定义的标准代码以及各业务信息系统需要使用的其它代码,建立字典代码实体数据库。应具备字典代码定期同步功能。并建设信息代码在线映射维护功能,以便对数据标准化转换提供支持。

    1.6.2    数据监控管理
    大数据运行监控通过对大数据资源库相关服务器、Oracle数据库、分布式存储系统、Hadoop平台等的运行状态、性能指标以及数据更新情况进行持续监控,及时发现存在的问题及隐患,辅助系统管理员及时采取措施,提高大数据资源库的运行可靠性,保障大数据资源库稳定高效运行。发现异常问题时通过短信、等方式通知系统管理员及时处理,实现通过自动、智能、持续的自动监控预警代替人工巡检,降低运维工作量,提高运维效率。通过可视化图表对监控结果进行统计分析直观展现平台运行各类运行指标,辅助管理员从宏观角度掌握平台运行情况。

    • 性能指标监控
      可以对服务器CPU负载、Oracle数据库连接数、分布式存储IO负载、Hadoop负载等各类性能相关指标进行监控,以便掌握平台负载情况,及时发现性能问题,辅助平台优化。
    • 大数据库日志监控
      自动采集大数据相关组件运行日志,并根据既定规则进行分析,发现异常及时告警。提供日志查询检索功能,可以按组件类型、时间、关键字等进行过滤。
    • 数据量监控
      数据量监控通过对数据总量以及增量进行定期监控,可以掌握数据量变化情况,也可以从数据增量角度发现数据入库异常。数据量监测结果可同步到数据台帐,以便数据台帐统计数据总量情况。

    1.6.3    元数据管理
    元数据是数据仓库中存储的基本单元,实现对元数据的管理,数据仓库的最基本功能之一。元数据管理包括元数据注册登记、元数据存储、元数据建模等多方面功能。

    1.7    数据服务
    大数据平台开放存储访问接口,提供基于 Hadoop 技术体系的 HDFS、HBase访问接口,以 OpenAPI 的方式,为应用提供大数据存储服务。
    数据服务层主要由数据服务总线来建设,主要负责将大数据平台的能力接口注册进去,再以标准化接口开放给应用系统使用,支持多种协议转换、服务质量 控制、访问控制、规则引擎等。数据服务层将大数据平台的数据服务能力开放出去,供第三方平台使用。

    如上图:应用服务系统使用服务接口,来接入数据服务总线,经过数据服务 总线的接入端点,进行过滤。同时根据访问控制、服务质量、协议转换、策略调 度、规则引擎的处理,接出到大数据平台的能力接口。

    展开全文
  • 作者介绍李金波,阿里云高级技术专家,大数据数仓解决方案总架构师,8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾任数据魔方、淘宝指数的数据架构设计专家。随着互联网规...

    作者介绍

    李金波,阿里云高级技术专家,大数据数仓解决方案总架构师,8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾任数据魔方、淘宝指数的数据架构设计专家。

    随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。本文作者主要从总体思路、模型设计、数据架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。

    总体思路

    随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?我认为应该从稳定、可信、丰富、透明四个关键词入手。其中,稳定要求数据的产出稳定、有保障;可信意味着数据的质量要足够高;丰富是指数据涵盖的业务面要足够丰富;透明要求数据构成流程体系是透明,让用户放心使用。

    我们之所以选择基于大数据平台构建数据仓库,是由大数据平台丰富的特征决定的:

    • 强大的计算和存储能力,使得更扁平化的数据流程设计成为可能,简化计算过程;

    • 多样的编程接口和框架,丰富了数据加工的手段;

    • 丰富的数据采集通道,能够实现非结构化数据和半结构化数据的采集;

    • 各种安全和管理措施,保障了平台的可用性。

    仓库架构设计原则包括四点:第一自下而上结合自上而下的方式,保障数据搜集的全面性;第二高容错性,随着系统耦合度的增加,任何一个系统出现问题都会对数仓服务产生影响,因此在数仓构建时,高容错性是必不可少的因素;第三数据质量监控需要贯穿整个数据流程,毫不夸张地说,数据质量监控消耗的资源可以等同于数据仓库构建的资源;第四无需担心数据冗余,充分利用存储换易用。

    模型设计

    构建数仓的首要步骤就是进行模型设计。

    维度莫建模或实体关系建模

    常见的模型设计思路包括维度建模和实体关系建模。维度建模实施简单,便于实时数据分析,适用于业务分析报表和BI;实体关系建模结构较复杂,但它便于主体数据打通,适合复杂数据内容的深度挖掘。

    每个企业在构建自己数仓时,应该根据业务形态和需求场景选择合适的建模方式。对于应用复杂性企业,可以采用多种建模结合的方式,例如在基础层采用维度建模的方式,让维度更加清晰;中间层采用实体关系建模方式,使得中间层更容易被上层应用使用。

    星型模型和雪花模型

    除了建模方式之外,在星型模型和雪花模型的选择上也有可能让使用者左右为难。事实上,两种模型是并存的,星型是雪花模型的一种。理论上真实数据的模型都是雪花模型;实际数据仓库中两种模型是并存的。

    由于星型模型相对结构简单,我们可以在数据中间层利用数据冗余将雪花模型转换成星型模型,从而有利于数据应用和减少计算资源消耗。

    数据分层

    在确定建模思路和模型类型之后,下一步的工作是数据分层。数据分层可以使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;同时数据分层也可以简化数据加工处理流程,降低计算复杂度。

    我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数据层上下三层结构。由传统的多层结构减少到上下三层结构的目的是为了压缩整体数据处理流程的长度,同时扁平化的数据处理流程有助于数据质量控制和数据运维。

    在上下三层的结构的右侧,我们增加了流式数据,将其添加成数据体系的一部分。这是因为当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。

    但是,由于流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设;此外,考虑到成本因素,流式数据体系的结构更加扁平化,通常不会设计中间层。

    下面来具体看下每一层的作用。

    数据基础层

    数据基础层主要完成的工作包括以下几点:

    • 数据采集:把不同数据源的数据统一采集到一个平台上;

    • 数据清洗,清洗不符合质量要求的数据,避免脏数据参与后续数据计算;

    • 数据归类,建立数据目录,在基础层一般按照来源系统和业务域进行分类;

    • 数据结构化,对于半结构化和非结构化的数据,进行结构化;

    • 数据规范化,包括规范维度标识、统一计量单位等规范化操作。

    数据中间层

    数据中间层最为重要的目标就是把同一实体不同来源的数据打通起来,这是因为当前业务形态下,同一实体的数据可能分散在不同的系统和来源,且这些数据对同一实体的标识符可能不同。此外,数据中间层还可以从行为中抽象关系。从行为中抽象出来的基础关系,会是未来上层应用一个很重要的数据依赖。例如抽象出的兴趣、偏好、习惯等关系数据是推荐、个性化的基础生产资料。

    在中间层,为了保证主题的完整性或提高数据的易用性,经常会进行适当的数据冗余。比如某一实事数据和两个主题相关但自身又没有成为独立主题,则会放在两个主题库中;为了提高单数据表的复用性和减少计算关联,通常会在事实表中冗余部分维度信息。

    数据集市层

    数据集市层是上下三层架构的最上层,通常是由需求场景驱动建设的,并且各集市间垂直构造。在数据集市层,我们可以深度挖掘数据价值。值得注意的是,数据集市层需要能够快速试错。

    数据架构

    数据架构包括数据整合、数据体系、数据服务三部分。其中,数据整合又可以分为结构化、半结构化、非结构化三类。

    数据整合

    结构化数据采集又可细分为全量采集、增量采集、实时采集三类。三种采集方式的各自特点和适应场合如上图所示,其中全量采集的方式最为简单;实时采集的采集质量最难控制。

    在传统的架构中,日志的结构化处理是放在数仓体系之外的。在大数据平台仓库架构中,日志在采集到平台之前不做结构化处理;在大数据平台上按行符分割每条日志,整条日志存储在一个数据表字段;后续,通过UDF或MR计算框架实现日志结构化。

    在我们看来,日志结构越规范,解析成本越低。在日志结构化的过程中,并不一定需要完全平铺数据内容,只需结构化出重要常用字段;同时,为了保障扩展性,我们可以利用数据冗余保存原始符合字段(如useragent字段)。

    非结构化的数据需要结构化才能使用。非结构化数据特征提取包括语音转文本、图片识别、自然语言处理、图片达标、视频识别等方式。尽管目前数仓架构体系中并不包含非结构化数据特征提取操作,但在未来,这将成为可能。

    数据服务化

    数据服务化包括统计服务、分析服务和标签服务:

    • 统计服务主要是偏传统的报表服务,利用大数据平台将数据加工后的结果放入关系型数据库中,供前端的报表系统或业务系统查询;

    • 分析服务用来提供明细的事实数据,利用大数据平台的实时计算能力,允许操作人员自主灵活的进行各种维度的交叉组合查询。分析服务的能力类似于传统cube提供的内容,但是在大数据平台下不需要预先建好cube,更灵活、更节省成本;

    • 标签服务,大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据通过打标签转换成KV的数据服务,用于前端应用查询。

    架构设计中一些实用的点

    在架构设计中有一些实用的点,这里给大家分享一下:

    第一,通过巧用虚拟节点实现多系统数据源同步,实现跨系统间的数据传输,实现多应用间数据交互。通过巧用虚拟节点减少运维人员在实际出现问题时的运维成本。

    第二,采用强制分区,在所有的表都上都加上时间分区。通过分区,保证每个任务都能够独立重跑,而不产生数据质量问题,降低了数据修复成本;此外通过分区裁剪,还可以降低计算成本。

    第三,应用计算框架完成日志结构化、同类数据计算过程等操作,减轻了开发人员的负担,同时更容易维护。

    第四,优化关键路径。优化关键路径中耗时最长的任务是最有效的保障数据产出时间的手段。

    数据治理

    数据治理不是独立于系统之外的保障,它应该贯穿在数仓架构内部和数据处理的流程之中。

    数据质量

    保障数据质量,可以从事前、事中、事后入手。事前,我们可以通过制定每份数据的数据质量监控规则,越重要的数据对应的监控规则应该越多;事中,通过监控和影响数据生产过程,对不符合质量要求的数据进行干预,使其不影响下流数据的质量;事后,通过对数据质量情况进行分析和打分,将一些不足和改进反馈数据监控体系,推动整体的数据质量提升。

    数据生命周期管理

    出于成本等因素的考虑,在大数据平台上我们依然需要对数据生命周期进行管理。根据使用频率将数据分为冰、冷、温、热四类。一个合理的数据生命周期管理要保证温热数据占整个数据体系大部分;同时为了保障数据资产的完整性,对于重要的基础数据会长久保留。

    对于数据中间计算过程数据,在保障满足绝大部分应用访问历史数据需要的前提下,缩短数据保留周期,有助于降低存储成本;最后一点值得注意的是,冷备已经成为历史,在大数据平台下不需要单独的冷备设备。

    作者丨李金波

    来源丨https://yq.aliyun.com/articles/57901

    dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn

    推荐阅读

    spark源码阅读基本思路

    尝尝鲜|Spark 3.1自适应执行计划

    spark改七行源码实现高效处理kafka数据积压

    展开全文
  • 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据...

    介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。

    与阿里云大数据数仓结缘

    介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构。2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop。

    初始时在Hadoop平台上构建数仓主要解决企业内部数据分析的需求,在2010年公司决定对外开放数据后,开始于2011年利用自建的数仓体系支持对外数据产品数据魔方、淘宝指数。后续在平台和产品上不停的丰富数据内容,同时离线和流式两套数据体系支持数据产品。

    从2012年开始,之前在Hadoop上的数据体系搬迁到阿里云数加MaxCompute(原ODPS),并完成了数据体系的重构,此时介然负责平台基础数据的建设支持全集团的上层数据应用。在2014年之后,公司开始对外服务,开始研究数据服务化和帮助外部用户如何利用阿里的平台实现大数据应用。

    数仓上遇到的挑战:数据质量保障、稳定和重复性

    在数据魔方、淘宝指数和阿里大数据数仓解决方案设计中,介然遇到了不少有挑战性的技术问题,主要集中在以下三点:

    1.数据质量保障:随着业务的复杂度增加,数据源头的类型和数据量也会越来越多,经常会碰到某些数据源因为一些偶发的原因同步过来的数据质量出现问题。比如日志出现乱码、数据库因为切库造成数据同步量变少等等。这就要求在整个数仓体系的搭建过程中不只要完成数据业务逻辑的处理,还需要增加数据质量的监控。“我们在核心的数据处理流程中,增加数据质量监控代码,如果碰到数据量的突变或者核心指标的突变,会将数据处理流程暂停并预警,让数据运维人员处理数据质量问题后再进行后续数据流程的运行,保障有质量问题的数据不流到下游应用中。”

    2.数据产出稳定性保障:随着数据量的增加、计算资源的逐渐饱和,业务数据最终产出的时间开始延迟,并有可能不能按照业务要求的时间点产出。“这个时候我们会分析数据产出的关键路径,找出关键路径下消耗时间最多的运行JOB,通过数据模型优化、计算任务拆解或者计算任务代码优化的手段减少任务产出的时间,同时保障整体产出时间满足预期。”

    3.重复的数据处理代码:由于业务的特殊性,会对某种类型的数据加工操作需求非常多。比如计算交易中,TOP N的商家、TOP N 的品牌、TOP N的商品,商家中TOP N的商品、品牌中TOP N的商家等等。 这类代码都是非常类似的,如果每个计算都独立任务,会造成计算资源的大量浪费。“我们通过特殊的代码框架,让一份基础数据中多种TOPN的数据可以在一次计算过程中产出,大大减少资源消耗,保障数据产出稳定。”

    优秀数仓的三要素:清晰、保障和扩展性好

    介然认为,优秀的数据仓库应该包含以下要素:

    1.结构、分层清晰:不一定需要多少个分层和主题,但是一定要清晰。用数据的人能够很快找到需要数据的位置。

    2.数据质量和产出时间有保障;

    3.扩展性好:不会因为业务的些许变化造成模型的大面积重构。

    而从系统架构、数据架构两个纬度来看,要想设计好大数据应用下的数据仓库,还应做到以下两点。

    1.系统架构上:足够的容错性,减少不必要的系统间的强耦合。因为你会碰到各种问题,不要因为一个不必要的依赖造成数据无法产出。

    2.数据架构上:简单、清晰、强质量控制。数据架构上扁平化的数据处理流程会对数据质量的控制和数据产出的稳定性提供非常好的基础。

    互联网人转型做大数据数仓需要注意哪几个点?

    对于之前做互联网数据仓库,现在想转型做大数据仓库的人,介然也提了一些建议,主要是四点:

    1.不必再苛刻的精打细算:基于传统平台构建数仓时,为了照顾平台的处理能力,我们经常会构建多层数据结构,预先对不同粒度的数据做预先汇总,以方便使用者在使用数据时能够已最小的计算代价获得计算结果。这也造成了整个数据处理流程较长,步骤很多,问题追溯困难。 新的大数据仓库基于分布式计算平台,平台的计算能力通常都比传统的平台强大很多。 所以有时候需要时再计算数据,或者基于明细进行各粒度的数据汇总已经能够满足需求,并能够大大减少整体数据处理流程步骤,用计算的代价减少人工的成本,更划算,数据体系也更健壮。

    2.不是模型层次越多越好:在传统的数仓架构中,大家都喜欢多数据模型进行分层设计,不同的模型层次拥有不同的数据域和作用域。这样设计固然看起来更清晰,但实际情况时多层之间可能存在重复数据,或者数据使用者在上层找不到完全切合的数据时,更愿意从底层的明细数据上自己去加工。一方面造成了数据使用上的混乱,一方面也会让数据整个处理流程长度增加,对于数据的运维带来较大的成本消耗。合理的层次设计,及在计算成本和人力成本间的平衡,是一个好的数仓架构的表现。

    3.质量是生命线:不再是你拿到的数据都是正确的,新的环境下的数据什么情况都会发生,而好的数仓架构需要有足够的容错性和质量保障。不要因为一条日志的乱码造成整个数据流程无法走通,也不要说一份日志50%的乱码你的程序还发现不了。在数据质量上投入再多的资源都不是浪费。

    4.数据变成生产资料:传统的数据应用绝大部分都是以报表和BI分析的形式支持业务。也许你的报表晚出来会被老板骂一通,但是对业务的影响并不大。 但是在新的数据应用场景下,数据已经变成生产资料,数据会服务化直接应用到业务系统中,也许一份数据的质量出现问题或者产出延迟,都可能对你的业务系统产生致命的影响。所以数仓开始承担新的使命。

    如果你依然迷惑,欢迎来听听阿里是如何搭建一个好的数据仓库

    介然称,本次分享会讲:在大数据的应用场景下,基于新的分布式计算平台的特征如何设计数据仓库。“会从应用需求、平台的特征、模型的设计、产品的应用几个角度来说明如何在阿里大数据平台下搭建一个好的数据仓库。”对于细节,他介绍到。

    这位阿里云大数据数仓解决方案总架构师,非常希望大家来听本次分享:“不管你在什么平台上做过数据开发,或者公司开始做大数据应用,只要利用平台支持这个应用,都欢迎来一起讨论。”

    精彩分享

     

    b179703ed70608ead1d5f1c2ee360c9944cf65fd

    d45d71f1e7150b1db613d34bff12b325d013ffbf

    76327d7ec53932d8c16f6d1f02b0c5026eee96d1

    cf29956d01c5e9ed8f149b61e9a1ea64db4dc9ad

    ae9f20459c5838978a9d163767982b9e403cbd6e

    ab1f9275d27c6cdbe39b1e9a46d746041c169e1a

    487586d50b0fee659990f3915138c06b7fb523e6

    8f085a4291ece66e7d1b8da28fddb4ea89825a3d

     

    a45d8e4c431c951cda6690d0dbc4a48f9cad6eb3

    2aa2cf31c8657b7e5722f40fd1921ad6bad21ff3

    b6d3c753639d2a157f022cd84bf39990228c5a5e

    fe10046f04fe1b57302aeaab49bb822aa0ba5b84

    917add91d80ecc9e1cac080acac091a8d795ec83

     

    caebb3f89a33489bb6250889c221556caf9e2a93

    4d6f959ed86b8c47ae8e8b0ea3dcc800dfc92694

    3ba23945c5ff03bdd679cb461a2f56b99baf2f94

    42a5fd36b3020ccbed8e4f6cc1f34fdbe08ce239

    a22871be93640b55ce022aba9648752bd1ebe73b

    6eb136254008467abfd7401c8b81106fdc5460fd

    转载于:https://my.oschina.net/u/3154814/blog/871173

    展开全文
  • 经过国内顶级专家的多次论证,我市已从中兴通讯、神州数码、太极、华为、浪潮5家企业中选取了较为契合沈阳实际的中兴通讯的建设方案,创新建设和运维模式,加强各方通力合作。 同时,我市已初步建成国内领先的城市级...

    近日,记者从市大数据管理局获悉,我市筹建的智慧沈阳统一平台一期项目目前已经建设完成。

    经过国内顶级专家的多次论证,我市已从中兴通讯、神州数码、太极、华为、浪潮5家企业中选取了较为契合沈阳实际的中兴通讯的建设方案,创新建设和运维模式,加强各方通力合作。

    同时,我市已初步建成国内领先的城市级基础数据资源库,研发了我的沈阳、数据开放、社会信用、决策支持等四个首批应用,在确保安全的前提下,突破性地整合共享了公安局人口户籍信息,已完成26个委办局的3.2亿条数据采集录入,包含了全市84%的人口。统一平台的建设将为提升沈阳市惠民、兴业、善政应用的支撑能力、促进资源集约利用、构建沈阳市大数据生态体系奠定坚实基础。

    数据资源是大数据发展的核心,搭建智慧城市统一平台,实现各级应用平台和业务应用系统间信息互联互通与数据共享,汇集全市各领域数据资源,促进信息资源开发利用,是智慧沈阳建设的基本路径。据了解,目前国内启动较早的其他城市的智慧城市建设一般是由基础设施导向、需求应用导向和产业发展导向为驱动模式的,我市在充分领会国家大数据发展的战略布局后,确定了以数据驱动为导向的智慧城市发展模式,构建了以智慧沈阳统一平台建设为基础、各行业及区域应用系统分步接入的全市统一数据共享与开放平台的架构体系。为了确保政府在智慧城市建设中对数据资源可控,确保应用系统有效运营以及确保大数据产业持续发展,我市明确了由市政府控股的沈阳大数据运营有限公司作为项目的实施主体,各专业公司以参股注资的方式共同参与建设。

    智慧沈阳统一平台汇聚整个城市数据资产,并进行大数据挖掘和分析,在此基础上构建智慧城市大数据运营的业务模型,分别向政府、企业和个人提供多样化的数据应用服务,是智慧城市的核心信息枢纽。

    市大数据管理局相关负责人介绍说,智慧沈阳统一平台是各领域二级业务应用系统集成、数据交换、数据共享、数据分析与展示、身份认证的有效载体,定位于“数据拥有者”+“服务提供者”,重点围绕“数据+服务”理念打造闭环多边商业模式,实现可持续运营。

    下一步,沈阳市将以智慧沈阳统一平台建设为依托,继续加强城市大数据资源的扩展利用,促进各相关信息系统的集成应用,打破信息壁垒,加速政务数据与互联网数据资源的融合;提升城市大数据分析处理能力,通过将最前沿的大数据技术引入智慧沈阳统一平台,在自服务数据准备、海量数据高性能处理、探索式分析、深度分析等方面达到业界一流技术水准,以更好支撑各级政府在城市治理、互联网+、产业融合等领域的数据分析能力;有序推动城市大数据开放,强化信息资源社会化开发利用,助推大数据产业链的“大众创业,万众创新”,为构建我市大数据生态体系提供强有力的支撑。年底前,沈阳市将初步实现部分数据向社会开放,并成功举办大数据创意大赛。到2017年底,沈阳市初步建立大数据交易标准和规范体系。

    本文转自d1net(转载)

    展开全文
  • 该项目自2007年开始筹划,最终经过科技部专家评审正式立项,由公安部组织国内相关领域的科研院所、100个城市、企业等来进行实施。 日前,第十届全国少数民族传统体育运动会在内蒙古名城鄂尔多斯召开,为了保证赛事与...
  • 企业存储系统能够支持多个应用、服务器和操作系统,是一个完备的信息管理解决方案,代表了未来10年支持公司需求的有效方案。SAN满足公司的信息传输需求,提供了网络时代理想的存储与管理方案。 译者序 前言 引言 第...
  • 数据挖掘论文合集-242篇(part1)

    千次下载 热门讨论 2009-01-13 14:03:31
    数据挖掘 企业决策分析的有效工具.caj 数据挖掘——技术与应用综述.caj 数据挖掘、OLAP在决策支持系统中的应用.caj 数据挖掘与决策支持系统.caj 数据挖掘与决策支持系统的关系.caj 数据挖掘与数据库知识发现.caj ...
  • 数据挖掘论文合集-242篇(part2)

    千次下载 热门讨论 2009-01-13 14:06:31
    数据挖掘 企业决策分析的有效工具.caj 数据挖掘——技术与应用综述.caj 数据挖掘、OLAP在决策支持系统中的应用.caj 数据挖掘与决策支持系统.caj 数据挖掘与决策支持系统的关系.caj 数据挖掘与数据库知识发现.caj ...
  • 数据挖掘在各行业的应用论文

    热门讨论 2010-04-19 09:40:57
    数据挖掘 企业决策分析的有效工具.caj 面向属性的RST在数据挖掘中的应用.caj 数据挖掘与决策支持系统的关系.caj 基于相联规则的数据挖掘理论.caj aaa数据挖掘在电信客户关系管理中的应用.caj 基于知识应用的数据挖掘...
  • 数据挖掘论文合集-242篇(part3)

    热门讨论 2009-01-13 14:08:51
    数据挖掘 企业决策分析的有效工具.caj 数据挖掘——技术与应用综述.caj 数据挖掘、OLAP在决策支持系统中的应用.caj 数据挖掘与决策支持系统.caj 数据挖掘与决策支持系统的关系.caj 数据挖掘与数据库知识发现.caj ...

空空如也

空空如也

1 2 3
收藏数 58
精华内容 23
关键字:

企业专家库建设方案