精华内容
下载资源
问答
  • 数据集成方案

    千次阅读 2019-08-23 09:27:02
    也称ETL、对跨部门的...数据集成常见问题如下: 1 涉及部门众多,数据接口类型多样化。 2 顶层设计缺失或历史原因,数据缺乏统一标准,信息孤岛、数据碎片化现象严重。 3 数据冗余、数据不一致、错误数据等系列...

    也称ETL、对跨部门的业务数据进行抽取、合并、清洗标准化,处理后的数据可以存入主数据存储库向各个业务系统提供一致的数据视图(主数据管理),也可按照主题数据格式存入大数据平台进行数据分析、挖掘(数据仓库、大数据)。数据集成常见问题如下:

    1 涉及部门众多,数据接口类型多样化。

    2 顶层设计缺失或历史原因,数据缺乏统一标准,信息孤岛、数据碎片化现象严重。

    3 数据冗余、数据不一致、错误数据等系列问题使得数据质量低下,难以有效检索利用。

    4 对于随时变化的业务数据,如何将其高效合并到主数据存储或数据仓库存储中。

    采用灵蜂数据集成软件BeeDI实施数据集成项目,具备如下优势:

    1 软件支持广泛的数据接口,支持对各类主流数据库(Oracle、DB2、SQL Server、MySQL、PostgreSQL、Informix、MongoDB、Redis、Teradata、SAP Hana等)、外部文件(文本、XML、Excel)、大数据存储(Hive、HBase)、消息服务器(Kafka)进行读写访问。

    2 软件提供数据联邦功能,可以跨库合并业务数据。支持各种映射转换,如类型转换、字段运算、参照转换、字符串处理、字符集转换、空值处理、日期转换、聚集运算、既定取值、字段切分、字段合并等。

    3 软件支持基于规则的数据清洗、过滤、转换等功能,简洁直观的图形操作界面帮助用户高效实现数据标准化。

    4 软件提供时间戳、触发器、日志解析等增量抽取方式,支持对增量数据进行各种清洗转换处理,处理后的数据可以存入数据库、大数据存储或发送到Kafka消息服务器。

    5 软件提供工作流调度功能,用于调度管理相关任务的执行顺序、触发条件、异常逻辑等。

    展开全文
  • 数据集成实际上是一个典型的ETL过程,我们会从源端数据库通过reader插件抽取数据,经过简单的转换,最终写入到大数据中心 。在抽取过程中,主要包含字段类型的转换、filter过滤条件,数据同步到大数据中心之后,可以...
    异构数据源类型

    常见的数据类型及转化:
    左边任意一个数据类型可以经过转换同步到右边任意一个数据类型
    在这里插入图片描述

    数据集成核心场景:

    数据集成实际上是一个典型的ETL过程,我们会从源端数据库通过reader插件抽取数据,经过简单的转换,最终写入到大数据中心 。在抽取过程中,主要包含字段类型的转换、filter过滤条件,数据同步到大数据中心之后,可以再运用大数据引擎的能力进行复杂的转换,也就是可以去搭建企业数据仓库(dw),企业数仓建议遵循数仓构建的标准,数据从原始端同步到MaxComputer中作为ods层存储,基于ods层再进行加工到数仓层(dw),可以再进一步加工到数据结果层(rpt)。
    在这里插入图片描述

    展开全文
  • 数据集成解决方案

    千次阅读 2020-07-30 17:35:18
    数据集成需要解决的问题三. 业内常见解决方案及痛点四. 我们的解决方案-Dlink 一 . 业务背景 随着云计算的普及和大数据时代的到来,如何让各种数据源中的种类丰富的数据高效上云,以及经过云上大数据计算后,如何把...

    一 . 业务背景

    随着云计算的普及和大数据时代的到来,如何让各种数据源中的种类丰富的数据高效上云,以及经过云上大数据计算后,如何把计算结果回流到种类丰富数据源 ?或者云上各个产品之间的数据怎么进行同步 ? 各个云厂商或者大数据解决方案提供商都推出了各自的数据集成产品,本文将就常见的解决方案进行探讨。
    典型的大数据业务集成场景

    典型的大数据业务集成场景

    二. 数据集成需要解决的问题

    数据集成的本质是实现不同数据源之间的数据交换,并且在交换过程中具备数据清洗转换的能力;当然,在实际应用场景中,还需要解决各种复杂网络问题,例如用户本地机房如何进行数据上云,云上不同VPC 内的数据源如何进行相互同步等。
    一个商业数据集成产品通常需要具备以下功能:
     1)支持种类丰富的数据源,并具备数据源的元数据管理
     2)具备数据源的全量抽取和增量抽取能力,并且稳定高效
     3)具备可视化的转换清洗能力
     4)具备数据质量监控能力,能收集脏数据并对同步的数据做质量校验
     5)完善的运维体系
     6)开放性,方便第三方扩张数据源
     7)系统水平扩展能力
     8)具备复杂网络下的数据集成方案

    三. 业内常见解决方案及痛点

    目前业内公司的集成产品有很多,但技术选型上基本分为两类:
    1) 单机同步引擎+资源管理分布式扩展,典型的如开源的Datax,Kettle + k8s 进行整合 ,当然还有部分拿web服务器来嵌入同步引擎的,这种方案并不如拿专门的资源管理系统来做扩展好
    2) 利用已有大数据计算引擎,将插件运行在计算引擎上,在上面包装成数据集成产品,如早期的Sqoop,以及现在不少公司搞的基于Spark,Flink 的流批一体数据集成产品
    下面将从技术角度分析一下上面两种方案
    方案一:
    采用方案一典型架构如下 :

    在这里插入图片描述
    其中Node 节点上面安装需要运行的同步引擎,如datax 或者kettle
      方案一的好处就是简单可控,当需要接入不同网络环境的数据源时候,可以借助资源调度层来做扩展,当然像K8S 这类的资源管控还不支持这种复杂网络情况,如果有这种业务场景,需要自建资源调度层。借助与资源调度层,多个同步任务运行时候可以水平扩展,但由于同步引擎只能单机运行,所以当同步的源头和目标都为集群时候,单机版本可能会出现性能瓶颈。

    方案二 :
    方案二直接利用现有的大数据计算引擎,如hadoop,spark,flink ;按照具体的计算引擎规范开发相应的同步插件,然后通过数据集成产品的特性进行业务化包装。技术细节可以参考具体的计算引擎,不再细述
    方案二的优缺点也很明显 :
      优点 : 大数据计算引擎本身功能比较强大,在上面包装数据集成产品可以快速获取集群同步能力,转换清洗能力
      缺点 : 无法适应复杂的网络情况,另外对应大数据计算引擎,一般需要专门的团队去维护,几乎没人为一个数据集成会去单独搭建并且运维一个大的计算引擎,成本高。另外整个数据集成跟某个具体的计 算引擎绑死,如果将来要换计算引擎,成本更高
      方案二对于大厂自建数据集成能力比较适用,因为通常大数据计算引擎有专门团队维护,不仅用于数据集成,而且用于其他的计算场景,成本会比较低,而且因为自己公司用,很少有复杂的网络场景。
      经过对上面方案一和方案二的分析,我们发现性能、成本、以及适应复杂网络环境似乎存在着矛盾,那么是否有一直解决方案可以完美解决上述痛点呢?

    四. 我们的解决方案-Dlink

    Dlink 是阿里巴巴自研的数据集成引擎,采用插件和引擎分离式设计,插件通过引擎适配层运行在具体引擎上,整个插件逻辑跟具体引擎无关,不仅实现了插件可扩展,还可以实现运行引擎扩展,具体架构如下 :

    Dlink 引擎架构

    1. 插件与运行引擎分离
      我们针对数据集成场景,把读取/写入的插件需要的方法做了最原子的抽象,通过引擎适配层运行在具体的引擎上,从而实现插件与引擎解耦;整个同步过程不仅可以运行在自带的原生引擎上面,也可以运行在flink,spark,hadoop 上面,单机能力与集群能力、清洗转换能力全部具备,并且运行引擎可以通过增加新的引擎
      适配层进行扩展,不需要改动插件代码。
    2. 成本优势
      由于Dlink 运行态没有与任何引擎绑死,也就意味着只要客户有任何一套Dlink 已经支持的运行引擎,那么可以直接把插件运行在客户原有的计算引擎上面。举个例子,有个客户自己有个spark 或者 flink 计算集群 ,那么可以不需要单独购买同步资源,可以直接利用客户的计算资源做同步,从而降低成本
    3. 复杂网络支持能力
      1) Dlink 支持单机运行,可以通过资源调度层的能力将客户环境的机器注册上来,解决网络问题
      2)如果客户本身有Dlink 支持的计算集群,如flink , 由于直接运行在客户的计算集群上面,那么就天然的跟 用户的网络做了打通

    目前Dlink一期功能已经在阿里云上线 ,感兴趣的可以通过Dataphin产品中的集成模块进行试用

    展开全文
  • 数据集成 数据挖掘的过程中往往需要的数据分布在不同的数据库,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。 实体识别 同名异义 名字相同但实际代表的含义不同 异名同义 名字...

    数据集成

    数据挖掘的过程中往往需要的数据分布在不同的数据库,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。

    1. 实体识别
      同名异义
      名字相同但实际代表的含义不同
      异名同义
      名字不同但代表的意思相同
      单位不统一
    2. 冗余属性识别
      1. 相同的属性出现多次
      2. 同一属性命名不一致导致重复

    数据变换

    1. 简单函数变换

    2. 规范化

    最小最大规范化
    值与最小值的差 再除以极差得到规范后的值
    零-均值规范化
    值与平均值的差 在除以标准差
    这种规范的方式是当前最多的数据标准化方法
    小数定标规范法
    移动的小数位数取决于绝对值的最大值。

    3. 连续属性离散化

    连续属性的离散化就是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或者整数值代表落在每个子区间中的数据值。
    常用的离散化方法有:等宽法、等频法和聚类
    (1)等宽法
    (2)等频法
    (3)基于聚类分析的方法

    4. 属性构造

    根据已知的属性创造出新的属性。

    5. 小波变换

    小波分析的理论和方法在信号处理、图像处理、语音处理、模式识别、量子物理等领域得到越来越广泛的应用。

    数据规约

    在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持数据完整性的新数据集。
    在规约后的数据集上进行分析和挖掘将更有效率。
    数据规约的意义在于:

    • 降低无效、错误数据对建模的影响,提高建模的准确性。
    • 少量且具代表性的数据将大幅缩减数据挖掘所需的时间。
    • 降低存储数据的成本。

    属性规约

    通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少维数。目标是寻找出最小的属性子集并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。
    常见方法如下:
    合并属性
    逐步向前选择 -------依次选择最优属性添至空集合
    逐步向后删除 -------依次选择最差属性移出原集合
    决策树归纳 利用决策树的归纳方法对初始数据进行分类归纳学习,获得初始决策树,没有出现在该决策树上的可以认为是无关的属性。
    主成分分析 -----用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转化成彼此相互独立或不相关的变量。

    数值规约

    数值规约是指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。
    有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归和对数线性模型。无参数的方法就需要存放实际数据,例如直方图,聚类,抽样等

    展开全文
  • 大数据处理技术之数据集成

    千次阅读 2019-03-20 16:40:23
    大数据处理技术是一个十分...而大数据处理的技术有很多,其中最常见的就是数据集成,那么什么是数据集成呢?下面我们就给大家介绍一下这些知识。 自学习大数据的时候,我门会学到很多的知识,也会了解到很多的知识点...
  • Android集成常见问题

    千次阅读 2013-09-17 16:45:42
    第三方登录步骤 问题:如何实现第三方账号登录?...问题:使用自己或者sample的代码都不能完成微信的分享,提示“分享正在后台进行”,然后就没有结果了。 回答:这是因为您的应用没有在微信开放平
  • Android 集成 Facebook 分享常见问题

    千次阅读 2019-07-16 17:46:58
    Facebook 作为世界上用户量最大的应用之一,很多时候我们可能会将自己应用的数据分享到 facebook上,那么我们就需要集成其 SDK,我们可以直接去集成 Facebook 官方的 SDK,也可以使用很多第三方 SDK ,包括友盟、Mob...
  • 数据集成:Flume和Sqoop

    万次阅读 2016-12-08 14:42:32
    本文主要阐述了Flume和sqoop的功能、架构以及实际应用,中间结合了一些实际的使用例子,读起来更直白易懂,对于了解和学习数据集成的人员来说会有很大作用。
  • 答:涉密信息系统集成资质(以下简称集成资质)包括系统集成、软件开发、综合布线、安防监控、屏蔽室建设、系统咨询、工程监理、运行维护、数据恢复共9个资质类别。 2.涉密信息系统集成甲级、乙级资质的区别是什么?...
  • Teiid 基于数据联邦的集成方案

    千次阅读 2014-04-25 13:10:29
    是将一个或多个物理数据源组合起来以提供更简单的数据集成解决方案,它提供了包含组件的容器,这些组件用来集成不同数据源的数据,并通过一致的 API 来访问它们。这些物理数据源包括: JDBC 数据源、CSV 文本...
  • 2016官方整理 - PayPal在线收款商家集成常见技术问题汇总
  • 安卓手机应用与后台的数据集成方式 ,比较常见的数据交换,应用数据同步之类的。有哪几种主流的技术?
  • 友盟推送SDK,集成测试,问题集成注意事项
  • 应用集成与数据集成建设总体思路

    万次阅读 2010-07-19 11:06:00
    Web 服务的出现产生了根本的改变,因为很多 Web 服务项目的...从业务的角度来看,它不再是一个技术问题,而是要开发一种应用程序体系结构和框架,可以在其中定义业务问题,还可以以一致的可重复的方式来实现解决方案。
  • 数据集成的N种方式

    千次阅读 2017-11-15 09:53:00
    据我了解的一些企业,这最近几...企业的许多数据在不同的系统中需要维护,经常会出现不同的系统间数据不一致的问题,这就需要各系统之间进行集成。由于各系统架构不一致,所以目前采取的方式主要是数据级别的集成。...
  • 整个大数据的处理流程可以定义为,在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的...
  • 常见集成模型总结

    千次阅读 2018-07-16 22:56:08
    Bagging(Bootstrap汇总)是一种集成方法。首先,我们创建随机训练数据集样本(训练数据集的子集)。然后我们为每个样本建立分类器。最后,这些多分类器的结果将结合起来,使用平均或多数投票。Bagging有助于降低...
  • 数据集成常用的几种方式

    千次阅读 2012-08-28 10:02:43
    数据集成常用的几种方式: 1.DBlink 方式,最常用两个系统的后台数据调用; 2.EIP集成,也是后台数据调用,但是通过借助第三方平台实现的,与DBlink 方式调用相比较,集中管理了更有优势; 3.WebService 集成,是...
  • 前言 对于数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据...常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的 Kettle、Sqoop、Datax、Streams...
  • 基于kettle的数据集成平台(三)

    千次阅读 2021-04-06 16:37:48
    上篇文章主要介绍了使用kettle平台实现文档的高效解析。通过上传文档和下载文档的方式,...物联网平台的主要数据传输协议有mqtt,coap,http等,mqtt是最常见的一种。展示层一般采用websocket技术进行展示。 问题: .
  • 而这又带来了新的问题——我们该如何选择正确的数据集成工具,从而对各类数据加以归纳?今天的文章将就此展开探讨。 数据不在一个数据库,文件系统,数据库或存储库中。为了满足许多业务需求,必须将数据与其他...
  • 常见集成声卡芯片

    万次阅读 2014-08-11 15:23:58
    实际上我们看到的集成声卡只是一个Codec,它只负责数模和模数转换而已。 AC'97音频技术规范   提起音效芯片就不得不提到AC'97音频技术规范,其全称为Audio CODEC '97(音频多媒体数字信号编/解码器),是...
  • Spring Boot 集成Mybatis实现多数据

    万次阅读 热门讨论 2017-06-30 19:12:38
    项目提交测试,趁着中当间的这个空档期,把springboot的多数据源配置学习一下,总体来说多数据源配置有两种方式,一种是静态的,一种是动态的。 静态的方式 我们以两套配置方式为例,在项目中有两套配置文件,两套...
  • 总结一篇热乎的【科大讯飞】SDK集成 常见问题!【离线唤醒】+【离线命令词】 近日,业务需要增加语音辅助功能到APP上,于是就找到了2家比较好一点的SDK 【科大讯飞】和【百度语音】! 先说说各自的优缺点吧!各位...
  • 最近公司开始开发springboot的项目,需要对...由于目前需要将工作流做成一个独立的数据源,所以在集成的时候需要配置双数据源。 首先我们需要对springboot的配置文件applicantion.yml进行配置。 spring: pr...
  • 数据集成在ODS项目的应用模式

    千次阅读 2008-12-22 19:14:00
    从专家给出的定义上来讲,它是一个面向主题的、集成的、当前的并且是可"挥发"的数据集合,它反映了在某一个时间切片瞬间,经营分析系统和外围系统用以相互交换数据的集合,主要用于经营分析系统与外围系统关键数据...
  • 再来说下数据集成开发过程,批处理数据集成和ETL 数据集成生命周期 1 确定项目的范围  2 概要分析  生命周期的第二个部分常常会被忽略,即概要分析。因为数据集成被视作一门技术活,而组织通常会对...
  • 集成测试常见策略

    万次阅读 2017-02-08 19:17:46
    在每个模块完成单元测试后,需要按照设计时做出的结构图把它们连接起来,进行集成测试。实践证明,一个模块能够单独地工作,并不能保证连接起来也能正常工作。 工具/原料 电脑 集成测试基本概念 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 216,136
精华内容 86,454
关键字:

常见的数据集成问题