精华内容
下载资源
问答
  • 常用ETL工具

    2021-01-27 14:07:26
    ETL工具【国外】1. datastage点评:最专业的ETL工具,价格不菲,使用难度一般下载地址:ftp://ftp.seu.edu.cn/Pub/Develop ... taStage.v7.5.1A-iSOBT种子下载:...

    一 ETL工具

    【国外】

    1. datastage

    点评:最专业的ETL工具,价格不菲,使用难度一般

    下载地址:ftp://ftp.seu.edu.cn/Pub/Develop ... taStage.v7.5.1A-iSO

    BT种子下载:http://pan.baidu.com/share/link?shareid=172289&uk=67437475

    ---------------------------------------

    2. informatica

    点评:专业程度如Datastage旗鼓相当,价格似乎比Datastage便宜。

    Informatica PowerCenter 8.6.1 for Win 32Bit

    服务端下载:http://pan.baidu.com/share/link?shareid=183214&uk=67437475

    客户端下载:http://pan.baidu.com/share/link?shareid=183217&uk=67437475

    Informatica PowerCenter 8.6.0 for Win 32Bit

    BT种子下载:http://pan.baidu.com/share/link?shareid=172290&uk=67437475

    Informatica PowerCenter 8.1.1 for Win 32Bit

    安装包下载:http://pan.baidu.com/share/link?shareid=183201&uk=67437475

    ---------------------------------------

    3. kettle

    点评:业界最有名的开源ETL工具。开源当然就免费,免费的有些东西使用就不是很方便。

    下载地址:http://kettle.pentaho.com/

    ---------------------------------------

    4. ODI

    点评:oracle数据库厂商提供的工具,有局限性,与oracle数据库耦合太深。

    下载地址: www.oracle.com/technetwork/cn/testcontent/index-091026-zhs.html

    ---------------------------------------

    5.Cognos

    下载地址:http://www.ibm.com/developerworks/cn/downloads/im/cognosbi/

    Cognos BI 8.3

    BT种子下载: http://pan.baidu.com/share/link?shareid=172287&uk=67437475

    Cognos BI 8.4

    BT种子下载:http://pan.baidu.com/share/link?shareid=172288&uk=67437475

    ------------------------------------------

    【国内】

    6. beeload

    点评: 最好的国产ETL工具,但产品化程度还有一定距离。

    下载地址: www.livbee.com

    ---------------------------------------

    二 专业调度工具

    有人说: ETL是BI的基础,而调度是ETL的灵魂,可见调度的重要性!

    调度原本是ETL技术的一个分支,但这些年, 调度越来似乎有走独立工具的趋势。虽然在ETL工具有调度功能,但与独立调度工具相比,ETL工具的调度就显得很弱了。

    【国外】

    1. Control-M

    点评:你当了大哥太多年,确实有点寂寞。不论是你的规模、价格、使用难度,都很伟大,但我一界平民,你对我只是传说。

    官网地址:www.bmc.com

    --------------------------------------

    【国内】

    2. taskctl

    点评:调度新秀。专业,而且设计独特、体验友好。易安装、易使用,看好其前景。

    下载地址:http://www.taskctl.com/html/2012 ... 8b57714a50a15a.html

    --------------------------------------

    3. ETS

    点评:专业化有待提升

    官网地址:http://www.etlschedule.com/

    --------------------------------------

    4. Moia

    点评:产品与项目是有区别的,不要总是在产品化与客户化之间徘徊。

    官网地址:http://www.adtec.com.cn/_d271218319.htm

    --------------------------------------

    5. ETL-Plus

    点评:功能全,遗憾的是东南倒塌。

    下载地址:[无]

    原文:http://www.itpub.net/forum.php?mod=viewthread&tid=1757788

    展开全文
  • 一篇文章搞懂数据仓库:常用ETL工具、方法

    万次阅读 多人点赞 2020-12-04 14:06:10
    ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程

    目录

    一、什么是ETL?

    二、ETL & ELT

    三、常用的ETL工具

    3.1 sqoop

    3.2 DataX

    3.3 Kettle

    3.4 canal

    3.5 StreamSets

    四、ETL加载策略

    4.1 增量

    4.2 全量

    4.3 流式

    小编有话


    一、什么是ETL?

    ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。

           抽取(Extract主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。

           转换(transform主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。

    装载(Load主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。

    二、ETL & ELT

    伴随着数据仓库的发展(传送门:数据仓库的八个发展阶段),数据量从小到大,数据实时性从T+1到准实时、实时,ETL也在不断演进。

    在传统数仓中,数据量小,计算逻辑相对简单,我们可以直接用ETL工具实现数据转换(T),转换之后再加载到目标库,即(Extract-Transform-Load)。但在大数据场景下,数据量越大越大,计算逻辑愈发复杂,数据清洗需放在运算能力更强的分布式计算引擎中完成,ETL也就变成了ELT(Extract-Load-Transform)。

    即:Extract-Transform-Load  >>  Extract-Load-Transform

    通常我们所说的ETL,已经泛指数据同步、数据清洗全过程,而不仅限于数据的抽取-转换-加载。

    三、常用的ETL工具

    下面小编将介绍几类ETL工具(sqoop,DataX,Kettle,canal,StreamSets)。

    3.1 sqoop

    • 是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。
    • 可以将一个关系型数据库(MySQL ,Oracle等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中。
    • sqoop命令的本质是转化为MapReduce程序。
    • sqoop分为导入(import)和导出(export),
    • 策略分为table和query
    • 模式分为增量和全量。

    image.png

    image.png

    3.2 DataX

    • DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台
    • 实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

    image.png

    image.png

    3.3 Kettle

    • 一款国外免费开源的、可视化的、功能强大的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

    3.4 canal

    • canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据实时订阅和消费,目前主要支持了MySQL,也支持mariaDB。

    image.png

    3.5 StreamSets

    • 是大数据实时采集ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。
    • 创建一个Pipelines管道需要配置数据源(Origins)、操作(Processors)、目的地(Destinations)三部分。

    四、ETL加载策略

    4.1 增量

    • 有些表巨大,我们需要选择增量策略,新增delta数据需要和存量数据merge合并。
    • 两种方法:
      • merge(一)

    image.png

    • merge(二)
      • 只有新增(full join。能拿更新表就拿更新表)

    image.png

     

    • 新增+删除
      • history-table Left join delet-table where delect-table.value is null == 表a
      • 表a full join update-table (能拿update就拿update)

    image.png

    4.2 全量

    每天一个全量表,也可一个hive天分区一个全量。

    4.3 流式

    使用kafka,消费mysql binlog日志到目标库,源表和目标库是1:1的镜像。

    小编有话

    无论是全量还是增量的方式,都会浪费多余的存储或通过计算去重,得到最新的全量数据。为解决这一问题,墙裂建议kafka的数据同步方案,源表变化一条,目标表消费一条,目标表数据始终是一份最新全量数据,且为实时同步的。 

    ps.极端情况下可能会丢数,需要写几个监控监本(详见数据质量篇)和补数脚本即可~

     

    数仓系列传送门:https://blog.csdn.net/weixin_39032019/category_8871528.html

    展开全文
  • 常用ETL工具 1. datastage 点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ftp://ftp.seu.edu.cn/Pub/Develop … taStage.v7.5.1A-iSO BT种子下载:...

    1.采用哪些方式可以获得大数据?


    方式1、外部购买数据

    有很多公司或者平台是专门做数据收集和分析的,企业会直接从那里购买数据或者相关服务给数据分析师,这是一种常见的获取数据的方式之一。

    方式2、网络爬取数据

    除了购买数据以外,数据分析师还可以通过网络爬虫从网络上爬取数据。比如大家可以利用网络爬虫爬取一些需要的数据,再将数据存储称为表格的形式。当你在浏览网页时,浏览器就相当于客户端,会去连接我们要访问的网站获取数据,然后通过浏览器解析之后展示给我们看,而网络爬虫可以通过代码模拟人类在浏览器上访问网站,获取相应的数据,然后经过处理后保存成文件或存储到数据库中供我们使用。此外,网络爬虫还可以爬取一些手机APP客户端上的数据。

    方式3、免费开源数据

    外部购买数据要花费一定的资金,网络爬取对技术又有一定的要求,有没有什么办法能又省力又省钱的采集数据呢?当然有,互联网上有一些“开放数据”来源,如政府机构、非营利组织和企业会免费提供一些数据,根据需求你可以免费下载。

    方式4、企业内部数据

    了解了企业外部数据的来源,其实企业内部本身就会产生很多数据提供给我们分析,我们一起来了解一下吧。前面说了,内部数据通常包含销售数据、考勤数据、财务数据等。比如销售数据是大部分公司的核心数据之一,它反应了企业发展状况,是数据分析的重点对象。还有考勤数据是记录企业员工上下班工作时间的数据,通过考勤数据可以分析员工的工作效率、状态等,便于企业对员工进行管理优化。财务数据是反应企业支出与收入情况的数据,可以通过对财务数据的分析了解企业经营状况,及时调整企业发展战略等。


    2.常用的大数据采集工具

    1、Apache Flume

    官网:https://flume.apache.org/

    Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建,所以依赖Java运行环境。

    Flume最初是由Cloudera的工程师设计用于合并日志数据的系统,后来逐渐发展用于处理流数据事件。

    Flume设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个Agent的网络,支持数据路由。

    每一个agent都由Source,Channel和Sink组成。

    Source

    Source负责接收输入数据,并将数据写入管道。Flume的Source支持HTTP,JMS,RPC,NetCat,Exec,Spooling Directory。其中Spooling支持监视一个目录或者文件,解析其中新生成的事件。

    Channel

    Channel 存储,缓存从source到Sink的中间数据。可使用不同的配置来做Channel,例如内存,文件,JDBC等。使用内存性能高但不持久,有可能丢数据。使用文件更可靠,但性能不如内存。

    Sink

    Sink负责从管道中读出数据并发给下一个Agent或者最终的目的地。Sink支持的不同目的地种类包括:HDFS,HBASE,Solr,ElasticSearch,File,Logger或者其它的Flume Agent。

    Flume在source和sink端都使用了transaction机制保证在数据传输中没有数据丢失。

    Source上的数据可以复制到不同的通道上。每一个Channel也可以连接不同数量的Sink。这样连接不同配置的Agent就可以组成一个复杂的数据收集网络。通过对agent的配置,可以组成一个路由复杂的数据传输网络。

    配置如上图所示的agent结构,Flume支持设置sink的Failover和Load Balance,这样就可以保证即使有一个agent失效的情况下,整个系统仍能正常收集数据。

    Flume中传输的内容定义为事件(Event),事件由Headers(包含元数据,Meta Data)和Payload组成。

    Flume提供SDK,可以支持用户定制开发:

    Flume客户端负责在事件产生的源头把事件发送给Flume的Agent。客户端通常和产生数据源的应用在同一个进程空间。常见的Flume 客户端有Avro,log4J,syslog和HTTP Post。另外ExecSource支持指定一个本地进程的输出作为Flume的输入。当然很有可能,以上的这些客户端都不能满足需求,用户可以定制的客户端,和已有的FLume的Source进行通信,或者定制实现一种新的Source类型。

    同时,用户可以使用Flume的SDK定制Source和Sink。似乎不支持定制的Channel。

    2、Fluentd

    官网:http://docs.fluentd.org/articles/quickstart

    Fluentd是另一个开源的数据收集框架。Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data, Inc 对该产品提供支持和维护。

    Fluentd的部署和Flume非常相似:

    Fluentd的架构设计和Flume如出一辙:

    Fluentd的Input/Buffer/Output非常类似于Flume的Source/Channel/Sink。

    Input

    Input负责接收数据或者主动抓取数据。支持syslog,http,file tail等。

    Buffer

    Buffer负责数据获取的性能和可靠性,也有文件或内存等不同类型的Buffer可以配置。

    Output

    Output负责输出数据到目的地例如文件,AWS S3或者其它的Fluentd。

    Fluentd的配置非常方便,如下图:

    Fluentd的技术栈如下图:

    FLuentd和其插件都是由Ruby开发,MessgaePack提供了JSON的序列化和异步的并行通信RPC机制。

    Cool.io是基于libev的事件驱动框架。

    FLuentd的扩展性非常好,客户可以自己定制(Ruby)Input/Buffer/Output。

    Fluentd从各方面看都很像Flume,区别是使用Ruby开发,Footprint会小一些,但是也带来了跨平台的问题,并不能支持Windows平台。另外采用JSON统一数据/日志格式是它的另一个特点。相对去Flumed,配置也相对简单一些。

    3、Logstash

    https://github.com/elastic/logstash

    Logstash是著名的开源数据栈ELK (ElasticSearch, Logstash, Kibana)中的那个L。

    Logstash用JRuby开发,所有运行时依赖JVM。

    Logstash的部署架构如下图,当然这只是一种部署的选项。

    一个典型的Logstash的配置如下,包括了Input,filter的Output的设置。

    几乎在大部分的情况下ELK作为一个栈是被同时使用的。所有当你的数据系统使用ElasticSearch的情况下,logstash是首选。

    4、Chukwa

    官网:https://chukwa.apache.org/

    Apache Chukwa是apache旗下另一个开源的数据收集平台,它远没有其他几个有名。Chukwa基于Hadoop的HDFS和Map Reduce来构建(显而易见,它用Java来实现),提供扩展性和可靠性。Chukwa同时提供对数据的展示,分析和监视。很奇怪的是它的上一次 github的更新事7年前。可见该项目应该已经不活跃了。

    Chukwa的部署架构如下:

    Chukwa的主要单元有:Agent,Collector,DataSink,ArchiveBuilder,Demux等等,看上去相当复杂。由于该项目已经不活跃,我们就不细看了。

    5、Scribe

    代码托管:https://github.com/facebookarchive/scribe

    Scribe是Facebook开发的数据(日志)收集系统。已经多年不维护,同样的,就不多说了。

    6、Splunk Forwarder

    官网:http://www.splunk.com/

    以上的所有系统都是开源的。在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。

    Splunk是一个分布式的机器数据平台,主要有三个角色:

    Search Head负责数据的搜索和处理,提供搜索时的信息抽取。
    Indexer负责数据的存储和索引
    Forwarder,负责数据的收集,清洗,变形,并发送给Indexer

    Splunk内置了对Syslog,TCP/UDP,Spooling的支持,同时,用户可以通过开发 Input和Modular Input的方式来获取特定的数据。在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。

    这里要注意的是,Search Head和Indexer都支持Cluster的配置,也就是高可用,高扩展的,但是Splunk现在还没有针对Farwarder的Cluster的功能。也就是说如果有一台Farwarder的机器出了故障,数据收集也会随之中断,并不能把正在运行的数据采集任务Failover到其它的 Farwarder上。


    3.常用的ETL工具

    1. datastage

    点评:最专业的ETL工具,价格不菲,使用难度一般

    下载地址:ftp://ftp.seu.edu.cn/Pub/Develop … taStage.v7.5.1A-iSO

    BT种子下载:http://pan.baidu.com/share/link?shareid=172289&uk=67437475

    2. informatica

    点评:专业程度如Datastage旗鼓相当,价格似乎比Datastage便宜。

    Informatica PowerCenter 8.6.1 for Win 32Bit

    服务端下载:http://pan.baidu.com/share/link?shareid=183214&uk=67437475
    客户端下载:http://pan.baidu.com/share/link?shareid=183217&uk=67437475

    Informatica PowerCenter 8.6.0 for Win 32Bit
    BT种子下载:http://pan.baidu.com/share/link?shareid=172290&uk=67437475

    Informatica PowerCenter 8.1.1 for Win 32Bit
    安装包下载:http://pan.baidu.com/share/link?shareid=183201&uk=67437475

    3. kettle

    点评:业界最有名的开源ETL工具。开源当然就免费,免费的有些东西使用就不是很方便。

    下载地址:http://kettle.pentaho.com/

    4. ODI

    点评:oracle数据库厂商提供的工具,有局限性,与oracle数据库耦合太深。

    下载地址: www.oracle.com/technetwork/cn/testcontent/index-091026-zhs.html


    展开全文
  • 常用etl工具比较

    2019-09-26 14:41:28
    ETL是什么? ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。(数据仓库结构)通俗的说法就是从数据源抽取数据出来,...

    ETL是什么?

    ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。(数据仓库结构)通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节,其设计的好坏影响生成数据的质量,直接关系到BI项目的成败。

    目前比较常用的etl工具有DataPipeline,Kettle,Talend,Informatica

    易用性:

    DataPipeline: 有非常容易使用的 GUI,具有丰富的可视化监控;

    Kettle: GUI+Coding;

    Informatica: GUI+Coding,有GUI,但是要专门的训练;

    Talend:GUI+Coding,有 GUI 图形界面但是以 Eclipse 的插件方式提供;

    技能要求:

    DataPipeline:操作简单,无技术要求;

    Kettle: ETL设计, SQL, 数据建模 ;

    Informatica: ETL设计, SQL, 数据建模;

    Talend:需要写Java;

    底层架构:

    DataPipeline:分布式,可水平扩展;

    Kettle:主从结构非高可用;

    Informatica:分布式;

    Talend:分布式;

    数据实时性:

    DataPipeline:支持异构数据源的实时同步,速度非常快;

    Kettle:不支持实时数据同步;

    Informatica:支持实时,效率较低;

    Talend:支持实时处理,需要购买高级版本,价格贵;

    技术支持:

    DataPipeline:本地化原厂技术支持;

    Kettle:无;

    Informatica:主要在美国;

    Talend:主要在美国;

     

    相关链接文档:https://wenku.baidu.com/view/6931cb1659eef8c75fbfb358.html

    转载于:https://www.cnblogs.com/minong/p/11507096.html

    展开全文
  • 常用ETL工具

    千次阅读 2015-12-03 10:35:32
    数据的迁移和集成都需要ETL来实现,一般来说在数据仓库的开发过程中ETL会占到70%到80%的时间,下面介绍几种常用ETL工具(1)Kattle是一个开源的ETL工具,有点免费,适合预算比较少的企业来用,确定不稳定,可维护...
  • ETL工具是什么呢?ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数...
  • ETL 常用工具对比和选型

    千次阅读 2020-09-22 11:49:28
    数据同步是每个大数据人都绕不开的工作,...说实话 ETL 工具实在是太多了,而且很多都可以满足我们日常的数据同步需求,所以这里不可能罗列所有的技术出来,主要是从场景的角度来说明,因为这一块的内容,面试官更...
  • ETL:ETL是用来描述将数据从源端经过提取、转换、装入到目的端的过程。ETL是构建数据仓库的重要一环,它包含了三...常用ETL工具: ETL工具的典型代表有Informatica PowerCenter、IBM Datastage、Oracle Warehouse Buil.
  • ETL常用的三种工具介绍及对比Datastage,Informatica http://www.sohu.com/a/249098751_100194412 ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、...
  • 常见ETL工具一览

    2020-02-14 14:17:27
    常见ETL工具一览 这些年,几乎都与ETL打交道,接触过多种ETL工具。现将这些工具做个整理,与大家分享。 一 ETL工具 【国外】 datastage 点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ftp://ftp.seu....
  • 主流etl工具对比分析

    2009-03-20 19:42:06
    对当前几大主流etl工具,informatica powercenter,IBM datastage,Business Objects,Cognos,Insight,IBM MetaData Workbench + Metadata server,石竹 MetaOne进行横向的分析比较.
  • 这些年,几乎都与ETL打交道,接触过多种ETL工具。现将这些工具做个整理,与大家分享。 一 ETL工具 【国外】 datastage 点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ftp://ftp.seu.edu....
  • 1. ETL的定义:是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。...2. 常用ETL工具:主要有三大主流工具,分别是Ascential公司的Datastage、Informatica公司的Powerce...
  • 常见的几种ETL工具

    千次阅读 2018-05-28 11:22:48
    点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ftp://ftp.seu.edu.cn/Pub/Develop ... taStage.v7.5.1A-iSO BT种子下载:http://pan.baidu.com/share/link?shareid=172289&uk=67437475 --...
  • ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。最近用kettle做数据处理...
  • 1.图形化界面工具包: https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.1/pdi-ce-7.1.0.0-12.zip/download 2.  
  • ETL – ETL工具介绍

    2021-01-20 12:30:03
    为什么要使用ETL工具? 实际生产环境中我们的数据源可能是不同的数据库或者文件,这时候需要我们先把文件整理成统一的格式再做处理这样的过程要用代码实现显然有些麻烦。 但数据来自不同的物理机,如果我们用SQL...
  • ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行...
  • ETL工具信息整理

    2018-05-22 10:03:01
    ETL工具相关信息整理,包含ETL基本架构,Kettle工具基本使用,常用ETL工具对比等
  • 大数据etl工具的研究,请联系作者免费分享。思维导图并不方便贴图,
  • 免费开源ETL工具KETTLE

    千次阅读 2019-04-25 17:01:08
    ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 Kettle (正式名...
  • ETL常用工具

    2021-05-16 09:49:03
    字符相关 public class CharsetUtils { private enum Charset { /** * 7位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块 */ US_ASCII("US-ASCII", "位ASCII字符,也叫作ISO646-US、Unicode字符集的...
  • 我想几个常用GIS软件的拓扑检查处理都应该能轻松应对的,实际操作才发现ArcGIS、SuperMap等桌面版都没有针对重复点的拓扑处理,只得另外想办法啦,经网络高人指点,自己摸索了一下,终于弄清楚了ArcMap下自定义...
  • 常用的数据集成ETL工具有哪些?ETL工具用于将异构数据转换为同类数据,然后由数据科学家用于从数据中获得有价值的数据,常用ETL工具有Microsoft-SQL Server集成服务、AWS Glue、Apache NiFi、Informatica Power...
  • 主流ETL工具

    万次阅读 2019-02-27 14:57:05
    ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、导购数据...主流ETL工具: informatica商业软件,相当专业的ETL工具。价格上比Datastage便宜一点,适合大规模的ETL应用。使用难度** Da...
  • 9.4 常用错误处理 9.5 转换步骤类型 9.5.1 文本文件输入(Text Input) 9.5.1.1 截图 9.5.1.2 图标 9.5.1.3 常用描述 9.5.1.4 选项 9.5.1.5 格式化 9.5.1.6 其它 9.5.2 表输入(Table Input) 9.5.2.1 截图 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,134
精华内容 4,053
关键字:

常用的etl工具