kettle 订阅
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 展开全文
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
信息
产    品
Spoon、Pan、CHEF、Kitchen
最新版本
绿色无需安装
特    点
transformation和job,
中文名
水壶
外文名
Kettle
Kettle介绍
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。
收起全文
精华内容
参与话题
问答
  • KETTLE 使用教程

    万次阅读 2019-02-12 15:46:45
    Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比字段,若目标表不存在该字段,则新插入该条记录。若存在,则更新。 Kettle简介:Kettle是一款国外开源的ETL工具...

    Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比字段,若目标表不存在该字段,则新插入该条记录。若存在,则更新。

     

    Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。(引用百度百科

    1、Kettle的下载与安装(在本文中使用的kettle版本为6.1.0.1-196)

    2、打开kettle。

      首先解压下载下来的压缩包如:pdi-ce-6.1.0.1-196.zip

      然后打开Spoon.bat,如图所示:

      

      打开后请耐心等待一会儿时间。

    3、建立转换。

      在文件->新建装换。

      新建转换后在左边的主对象树中建立DB连接用以连接数据库。如图所示:

      

      建立数据库连接的过程与其他数据库管理软件连接数据库类似。

      注意:在数据库链接的过程中,可能会报某个数据库连接找不到的异常。那是因为你没有对应的数据库链接驱动,请下载对应驱动后,放入kettle的lib文件夹。

    4、简单的数据表插入\更新

      (1)新建表插入

      在左边的面板中选择“核心对象”,在核心对象里面选择“输入->表输入”,用鼠标拖动到右边面板。如图所示:

     

     

     

      双击拖过来的表,可以编辑表输入。

      选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。

     

      (2)通过插入\更新输出到表。

      在左边面板中选择核心对象、选择“输出->插入\更新”如图所示:

     

      编辑插入更新:

      首先:表输入连接插入更新。

        选中表输入,按住shift键,拖向插入更新。

      然后:双击插入更新,编辑它。

     

      到这里基本上,这个转换就要做完了,可以点击运行查看效果,看是否有误,这个要先保存了才能运行,可以随意保存到任何一个地方。

    5、使用作业控制上面装换执行。

      使用作业可以定时或周期性的执行转换,新建一个作业。并从左边面板拖入start 和转换。

      

      双击start可以编辑,可以设置执行时间等等

      点开装换,可以设置需要执行的转换任务,比如可以执行上面我们做的转换,XXX.ktr

      最后点击运行即可。

     

      到这里,一个简单的通过作业调度的kettle就算做完了。

    转自:https://blog.csdn.net/Install_/article/details/80252565

    展开全文
  • Kettle — 使用手册

    万次阅读 多人点赞 2018-09-11 17:35:42
    介绍 ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD...Kettle是ETL中其中一个开源工具,基于纯Java开发。 kettle有两种脚本transformation(转换)和Job(作业) Kettle有三个主要组件:Spoon、Kitchen、P...

    介绍

    ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环,也是工作量较大的一块。Kettle是ETL中其中一个开源工具,基于纯Java开发。

    kettle有两种脚本transformation(转换)和Job(作业)

    Kettle有三个主要组件:Spoon、Kitchen、Pan

             Spoon:是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。windows选择Spoon.bat;Linux选择Spoon.sh

             Kitchen:利用Kitchen可以使用命令行调用Job

             Pan:利用Pan可以用命令行的形式调用Trans

             Carte:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。

    声明

    1.Kettle最早叫做Kettle,后来该名为PDI,不过大多数人还是习惯于叫Kettle

    2.我们这里使用的版本是最新的Kettle 8.1的版本

    3.说明一下Kettle的帮助文档可以在Spoon中找到,如果有任何问题可以去帮组文档中查找

    运行PDI Client(Spoon)

    PDI Client启动分为两种:一种是安装包方式安装,然后在菜单栏中启动,这种方式并不是我们想要的。另外一种是通过解压zip包,然后通过启动脚本spoon.bat或者spoon.sh启动Spoon。

    如果正确启动,则出现的主界面应该是下面这样的。

    界面整体功能的介绍在Spoon的帮助文档中有详细的介绍,下图中的章节。

    Kettle的使用流程

    1.创建一个简单的转换

    首先这个转换的事例是把testdb数据库中的t_user表的数据拷贝到test表数据库中的user表。

    1)创建一个转换

    2)连接到testdb和test数据库

    连接好以后应该会在DB连接中出现两个数据库连接。

    3)在核心对象中拖入一个表输入

    并对表输入进行属性设置。

    4)然后在核心对象中拖入插入/更新组件

    5)按住shift从表输入到插入/更新

    6)然后在对插入/更新进行配置,在用来查询的关键字中需要设置连接的字段。

    7)最后保存,并运行这个转换,看看是否正确。

    2.创建一个简单的作业

    这个作业就是将之前的转换以定时执行的方式运行。

    1)拖入开始组件,这里设置的间隔时间的3分钟

    2)拖入转换组件,将刚刚保存的转换文件配置到Transformation属性中。

    3)点击运行按钮,运行配置的作业。

    3.连接资源库

    在实际的团队开发过程中,不可能将自己的转换、作业和调度等配置存放在自己的电脑中。而Kettle的资源库正可以将我们的转换、作业等存储下来,构成一种协作平台。

    转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。Kettle支持连接的资源库类型有三种:

             1.Pentaho Repository:使用的是Kettle公司自己的服务器,一般自己公司不会使用

             2.Database Repository:保存在数据库的资源库,通过用户名密码访问

             3.File Repository:保存的服务器硬盘的资源库,不用密码就可以使用

    1)连接资源库

    点击右侧的Connect按钮,打开资源连接的Dialog,这里我们需要选择Other Repository

    然后在选择Database Repository,如下所示。

    2)配置数据库连接,点击Database Connection进行配置

    3)完成配置后,点击finish即可。配置完成后,数据库中会多出一些表,选择Connect Now。

    4)选择连接后,我们需要输入用户名密码,即可连接到指定的资源库。注意,这里的用户名密码默认是admin/admin(管理员)或者guest/guest(访问者)。然后在title上会显示连接的资源库。

    注意:上面的连接配置不要使用中文,包括资源名等等。不然会出现资源库配置为灰色,而且没有Connect按钮。解决方案见Kettle常见错误。

    4.使用资源库进行协作开发

    1.转换或作业的导入导出

    1)导入

    当我们有转换或作业在外部需要导入到资源库时,我们可以选择文件—从XML文件导入,选择我们需要导入的文件。

    然后将文件保存,会弹出Save界面,选择保存的目录和文件名即可。

    2)导出

    当我们需要将资源库中的作业和转换保存到本地使用时,我们可以选择文件—导出,进行导出。

    2.探索资源库

    选择工具—资源库—探索资源库,可以连接到当前连接的资源库。

    下面就连接上的资源库。浏览Tab主要是资源库中存在的转换和作业

    在浏览的目录或者文件上可以进行以下的各种操作。在这里我实在是没有找不到access controll和历史版本查看的功能。

    3.资源连接库管理

    在右侧的显示个人信息地方我们可以管理资源库。

    展开全文
  • kettle etl工具

    千人学习 2018-11-11 21:51:33
    详细介绍kettle中的各个组件。介绍实战中一些问题的处理。
  • kettle从入门到精通,让你真正掌所掌商业智能的能力。了解真正的ETL过程 此系列课程共20集,有真实项目,本课为完整版。
  • kettle(一)概述

    万次阅读 2015-07-25 23:24:44
    最近两个月一直和kettle打交道,从开始的没听说过,到现在能够熟练运用,不得不说项目驱动下,学习东西是最快的。好了,虽然使用kettle应付项目的任务绰绰有余,但是还是想系统的学习一下,总结一下。例如job用的...

               最近两个月一直和kettle打交道,从开始的没听说过,到现在能够熟练运用,不得不说项目驱动下,学习东西是最快的。好了,虽然使用kettle应付项目的任务绰绰有余,但是还是想系统的学习一下,总结一下。例如job用的比较少,kettle的集群模式没有涉及到等等。


              说起kettle,还是先说说ETLExtract-Transform-load,即抽取,转换,加载)数据仓库技术,是用来处理将数据从来源(例如:单位基础服务器)经过抽取,转换,加载到达至目的端(正在做的项目)的过程。也就是新的项目需要使用以前项目数据库中的数据,ETL就是解决这个问题的。

     

              ETL实现共同注意点:正确性,完整性,一致性,完备性,有效性,时效性,可获取性等,也就是说无论我们使用什么工具,来实现ETL技术时,达到这几个方面,才算是质量过关的,失去其中任何一方面都是不过关的。


             ETL实现主要是转换的实现,包含几个方面(来自百科):

    1、空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。

    2、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。

    3、拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。

    4、验证数据正确性:可利用Lookup及拆分功能进行数据验证。例如,主叫号861082585313-8148,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。

    5、数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。

    6Lookup:查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。

    7、建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。

     

              而,kettle则是其中的一种工具,其它还有:InformaticaDatastage,OWB,微软的DTS等等。好,下边简单说说kettle。


         kettle是一款国外开源(受欢迎)的ETL工具,纯Java编写(Java开发很好集成),可以在Windows,Linux,Unix上运行(Linux服务器流行时代下,kettle更加受欢迎),数据抽取高效稳定(更更受欢迎了)。kettle中文名俗称“水壶”,开发目的是将各种数据放到一个壶中,然后经过各种处理加工,以特定的格式流出。


             kettle家族包括:Spoon,Pan,CHEF,Kitchen


        Spoon:是通过图形界面来设计ETL转换过程(Transformation(最常用)


             PAN:允许批量执行由Spoon设计的ETL转换(例如使用一个时间任务调度器)Pan是一个后台执行程序,没有图形界面。


             CHEF:允许创建任务(Job)。任务通过执行,每个转换,任务,脚本等,使其更加有利于完成更为复杂的任务。


             Kitchen:允许你批量使用由Chef设计的任务(例如使用一个时间调度器),也是后台执行程序。

     

             kettle转换的设计包括几个方面:资源库,数据库连接,作业(job),转换(trans),步骤(step)。形象的举一个例子:资源库相当于我们的一个Java项目 ,数据库连接相当于我们的Java项目中的连接数据库,Job相当于Java项目中的一条线,而Trans相当于Java的一个个类,Step则是类中的方法。所以从这个层面来看,其实Kettle还是非常简单的。需要我们做的就是建好资源库,连接好数据库,建立转换,写好类中的每个步骤,将转换连接起来组成任务(当然转换也可以独立执行)。

     

             好,最后看一下什么时候适合使用kettle。这样一个项目A,这个项目A需要实施到很多家企业,而项目A需要用到每家企业的数据库基础数据,例如员工,组织结构,客户,供应商等等一些基础数据,这时候kettle就可以很轻松的完成任务。也就是说,我们的项目需要用到大量的数据库之间迁移数据。


             好,kettle理论简介,后边看kettle简单使用。最后附一张kettle工具的界面图:


    展开全文
  • 各个版本kettle

    2019-08-30 10:57:16
    官网下载的资源,几k的速度载了蛮久了,自己放网盘了,下载地址分享给大家 pdi-ce-8.3.0.0-371 pdi-ce-8.2.0.0-342 pdi-ce-7.1.0.0-12 pdi-ce-6.1.0.1-196 pdi-ce-6.0.1.0-386 以及自己用的lib,包含了一些数据库...
  • Kettle — 常用组件使用

    万次阅读 2019-07-14 20:11:03
    Kettle控件分为三种:转换控件、作业控件和Hop(跳)。 转换控件 输入控件 表输入 表输入控件是从数据库的表中读取数据的控件。我们可以在表中输入SQL语句(或者通过获取SQL查询语句获取)。比如我们通过获取...

    前言

    Kettle控件分为三种:转换控件、作业控件和Hop(跳)。

    转换控件

    输入控件

    表输入

    表输入控件是从数据库的表中读取数据的控件。我们可以在表中输入SQL语句(或者通过获取SQL查询语句获取)。比如我们通过获取SQL查询语句获取到SQL语句,我们可以预览这个转换。

    预览结果如下所示:

    对于查询语句而言,肯定是需要进行筛选的,这样就需要进行变量的引用。在Kettle中只要有替换SQL语句里的变量这个选项,就说明是支持变量的引用。还有就是允许简易转换的选项:勾选后可以避免不必要的字段的数据类型转换,从而提高性能。

    使用方式如下所示(对变量使用${var}):

    然后双击空白处,对转换属性—参数名称进行设置。

    预览结果

    或者直接用Job其他控件输入该属性值,比如下面的设置变量控件。

    下面是Java类型与Kettle类型对应:

      case ValueMetaInterface.TYPE_STRING: // Kettle类型
        parameterType = String.class; // Java类型
        break;
      case ValueMetaInterface.TYPE_NUMBER:
        parameterType = Double.class;
        break;
      case ValueMetaInterface.TYPE_INTEGER:
        parameterType = Long.class;
        break;
      case ValueMetaInterface.TYPE_DATE:
        parameterType = Date.class;
        break;
      case ValueMetaInterface.TYPE_BIGNUMBER:
        parameterType = BigDecimal.class;
        break;
      case ValueMetaInterface.TYPE_BOOLEAN:
        parameterType = Boolean.class;
        break;
      case ValueMetaInterface.TYPE_BINARY:
        parameterType = byte[].class;
        break;
      default:
        parameterType = String.class;
        break;

    自定义常量数据

    自定义常量数据可以允许自定义表和数据,通常用于测试或者固定数据的输入(这里输入还有一个生成记录控件,但是该记录生成的记录每条都是相等的)。对于自定义常量数据控件我们可以设置列名和自定义每一行的数据,下面就是设置列名(元数据)和行(数据)。

    获取系统信息

    通过获取系统信息控件,我们可以获取系统的时间、转换或者作业的开始结束时间(用于增量)、主机信息、上一个作业完成情况和命令行参数等。通过类型的选择可以选择多种类型,这里我们选择命令行参数。

    下面是完整的样例。

    表输入配置如下所示(要选择获取系统信息):

    最后添加的文本输出是为了验证结果。转换的参数配置后,启动时还需要输入值,不然表输入就拿不到值。

    文本文件输入

    文本文件输入是一个比较复杂的处理过程,它可以从多种格式的文件中读取数据,功能非常的强大。下面是一个简单的使用,我们需要浏览选择一个文件,然后将这个文件增加到选中的文件中。

    在内容中设置分隔符。

    然后在字段页签获取字段,然后预览一下是否成功。

    下面具体介绍一下文本文件输入的各个选项。

    首先从文本来源上来说,获取文件的方式有两种:直接选择本地文件(刚刚的选择方式)和从上个步骤获取文件名。

    这里说明一下从上个步骤获取文件名,如下所示。要先使用一个获取文件名的控件,获取文件名。

    然后在文本文件输入中配置从上个步骤获取文件名。记住要配置在输入里的字段被当作文件名为filename,不然会报错的。

    下面说一下文本文件输入中的内容设置选项。

    1)分隔符和文本限定符:分隔符是对文本字段进行分割;而内容限定符是当文本字段中有分隔符作为字段内容一部分的时候,就需要文本限定符将该字段内容包裹起来,如下所示。

    2)逃逸字符:类似于编程中的转义字符"\",比如\n就代表回车、\r就是tab键。利用逃逸字符我们可以自己设定转义字符,这里我就按照Java中将"\"设置为逃逸字符。

    同时文本输入是有过滤的功能的,如下所示,我们可以设置过滤的字符串。

    结果如下所示。这个工具有些东西看的有些耐人寻味,比如积极匹配选择是,就会出现只有被过滤的数据。

    其他输出字段,在这里可以选择于文件相关的字段输出。

    CSV文件输入

    CSV文件输入的读取要比文本文件输入要简单。但是因为利用了NIO、并行和延迟转换,效率大大的提高。如下所示(CSV不仅仅可以读取CSV文件还可以读取其他文件):

    固定宽度文件输入

    这种输入方式的行宽度是一定的,字段的宽度也是一定的,不需要分隔符解析,性能比较好,但是非常的不灵活。使用方式如下所示,主要是要设置行宽度和每一个字段的宽度。

    XML文件输入(Get data from XML)

    XML文件输入能从XML读取每一个元素作为字段。下面是是从本地XML文件输入,这里选择了三个文件。

    在内容中,主要是要设置循环读取路径(从XML哪个层次结构开始读取)。还有几个属性也是需要知道的,比如:

             考虑命名空间:选中此项即可识别XML文档名称空间

             验证XML:在解析之前会验证XML格式

             使用标记(user token):参考https://www.cnblogs.com/wind-man/p/7898145.html

             用于截取数据的XML路径(大文件):与大文件的处理相关

    最后说一下附件字段:一个是内容是获取文件;还有一个是行号。

    在字段中只要获取字段,然后选择自己输出的字段即可。最后的其他字段和之前将的都是相同的。

    在上面只说了从本地的目录或者文件中获取XML文件,下面说一下如何从上一个步骤中获取XML文件。这里我先通过自定义常量数据控件,定义了三个文件的路径。

    下面是需要勾选XML源是文件名这个选项。因为如果不勾选,就会将XML源字段名中的数据当做XML的源数据,而不是文件名。

    JSON文件输入

    JSON文件输入的使用方式与XML文件输入类似,主要是对JSON格式的数据源进行解析。下面的事例是从一个URL中获取JSON数据,然后传递给JSON文件输入进行解析。

    字段配置中路径要按照Json Path规则进行编写

    自定义常量数据Path数据。

    其他输入控件,比如SAP Input、XML输入流、Cube文件输入、Excel输入、LDAP输入、Yaml输入、邮件信息输入、生成随机数、获取子目录名、取资源库配置、配置文件输入、获取文件行数等,等以后用到了再添加。

    输出控件

    文本文件输出

    1. 启动Carte

    Excel输出

    将输出的记录以一定格式保留到Excel中。Excel输出的具体使用方式如下所示:

    先输入文件名,然后下面有很多选项,来共同组成一个文件的文件名,选择自己需要的即可。最后获取一下字段。

    执行一下查看结果

    Excel输出有两个版本,一个是上面的普通版本支持(65536的行数限制),一个是07年以后版本的支持

    表输出

    表输出还是比较复杂的控件,通过对表输出控件使用方式的讲解,应该会对输出控件使用规律有一定的了解,下面的是表输出控件的配置界面。

    上面我们可以看到头部最重要的配置就是数据库连接、目标表和指定数据库字段。在目标表中,我们可以选择一个表,然后通过DDL—使用当前连接生成一个新的表。

    指定数据库字段选项是让我们可以选择插入的字段。

    输入字段映射字段映射,使用猜一猜功能(如果映射有问题,手动再改一下)。这里有一个区别点获取字段在后面的流程中没有获取的字段就不会显示,如果是字段映射则仍然存在。

    这样一个简单的表输出就能使用了。还有这里要说明一点的是如果在主选项中选择了使用批量插入,那么忽略插入错误就不能使用;裁剪表的意思就是等于truncate table(清空表)。

    在主选项中选择返回一个自动产生的关键字选项,可以返回插入的数据的主键值,这样在下面的步骤讲不定就可以使用到了。

    选择表分区数据,可以进行数据库表的分区(分区表需要自己提前创建,例如async_user_201808、async_user_201809)。还有一个是要选择分区的字段,该字段需要是Date或者TimeStamp类型。Kettle表输出只能以时间分区(月/日)。

    删除

    删除其实就是数据库操作的DELETE操作。只要配置数据库、表和删除的条件即可。

    插入/更新

    该控件一般不推荐使用效率太低,直接使用表输出和更新替代(更新的使用也更简单,这里就不提了)。插入/更新操作也很简单,主要将一下关键字的匹配,如果找到匹配的值,就更新值;不存在就插入新值。

    数据同步

    MySql批量加载

    SQL文件输出

    根据选中的数据库类型,生成相应的 SQL 脚本(DDL和DML)。使用也很简单,如下所示:

    生成的SQL语句如下所示。

    XML输出

    XML输出和普通输出几乎差不多,这里主要说一下内容父XML元素和记录XML元素。

    如果元素名称不填,文件名称等于元素名称。

    输入后的结果如下所示。

    Hop的使用

    在Kettle中控件之间的连线叫做Hop(跳)。

    转换中Hop的状态

    在转换中,一般情况,控件和控件之间只有一个Hop,当然,如果需要的话,我们拖了2个控件出来,像这样:

     分发记录

    目标步骤轮流接收记录,其实就是你一条,我一条,轮着接收数据。

    我们执行下,看看这个结果试试,我们在步骤度量中可以看到a.txt和b.txt分别写入的数量:

    看看结果文件,就是这样的

    复制记录

    所有记录同时发送到所有的目标步骤。比如上面的例子,2个文本文件会接收到同样的所有的数据。

    结果文件的话,就是2个节点,接收到的数据都是一样的。

    作业中Hop的状态

    在作业中,Hop主要用来控制流程。

    有3种状态,一个锁,一个绿色的对号,一个红色的叉号

    简单来说,

    :表示无论上一步执行成功还是失败,都一定会执行下一步

    :表示上一步执行成功才会执行下一步

    :表示上一步执行失败执行下一步

    比如我们上面的例子,我们的转换执行成功后就结束了;如果转换执行失败了,我们就发送邮件。

    ===============================================================================

    | Kettle中文社区:http://www.ukettle.org

    | Kettle中文网:http://www.kettle.net.cn/

    | Kettle源码地址:https://github.com/pentaho/pentaho-kettle

    | Kettle 官方帮助文档:https://help.pentaho.com/Documentation/8.1

    ===============================================================================

     

    展开全文
  • kettle简介及下载

    千次阅读 2019-09-19 16:56:17
    ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少、介绍的ETL工具是Kettle。...
  • kettle的国内镜像下载

    2019-05-17 16:33:32
    转自:https://blog.csdn.net/u012848709/article/details/79339441 Talend使用总结:https://blog.csdn.net/qq_39602750/article/details/79209371 在Jupyter中安装R内核(途径二:Anaconda):...
  • kettle 教程(一):简介及入门

    万次阅读 2019-08-13 13:49:19
    kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。 kettle 的官网是 ...
  • Kettle — 安装和部署

    万次阅读 2018-09-11 16:47:35
    Kettle是纯Java编写的ETL开源工具,目前Kettle7和Kettle8都需要Java8或者以上才能正常运行。所以开运行Kettle前先检查Java环境是否正确配置,Java版本是否是8或者以上。 Kettle安装 1)创建Kettle的目录,并将...
  • kettle etl

    2018-12-10 09:54:16
    kettle使用,用来各个数据库之间ETL数据抽取,功能比较全面。
  • ETL工具Kettle简介和安装配置基本使用

    万次阅读 多人点赞 2017-11-15 18:35:58
    Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的...
  • ETL开源项目kettle总结

    千次阅读 2019-08-26 06:44:54
    Kettle 1、ETL概述 ETL数据抽取Extract、转换Transform清洗、加载Load到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节 数据...
  • 一、ETL基础 1. 数据仓库架构中的ETL 2. 数据抽取 (1)逻辑抽取 (2)物理抽取 (3)变化数据捕获 3. 数据转换 4. 数据装载 5. 开发ETL系统的方法 二、ETL工具 1. ETL工具的产生 2. ETL工具的功能 (1...
  • ETLKettle简介

    千次阅读 2011-05-05 15:35:00
    ETLKettle简介 ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理...
  • ETL工具Kettle

    2018-06-13 10:10:57
    转载自 https://www.cnblogs.com/SunHuaJ/p/7593239.htmlETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构...当前知道的ETL工具有informatica, datastage,kettle,ETL Automation...
  • 开源ETL工具kettle系列

    万次阅读 2008-05-29 17:45:00
    开源ETL工具kettle系列之常见问题摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案1. Join我得到A 数据流(不管是基于文件...
  • ETLkettle介绍

    千次阅读 2017-01-25 13:59:58
    ETl介绍,数据仓库清洗数据工具,以及kettle介绍
  • Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。基础转换,job则完成整个工作流的控制。本文ETL 工具kettle入门例子大全主要结合实际操作给大家讲解,快速提升战斗力
  • ETL利器Kettle实战应用

    万次阅读 2015-10-30 14:47:03
    一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】 二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】 三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】 本文...
  • ETL工具Kettle用户手册

    2019-03-29 17:19:40
    Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计 用来帮助你实现你的 ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水 壶,名字的起源正如该项目的主程序员 MATT 在...
  • ETL工具--kettle

    千次阅读 2018-08-24 11:09:03
    ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的...当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。这里我们聊聊kettle的学习吧(如果你有一定的kettle使用,推荐看...
  • 博文目录0. Oracle基础环境准备创建表空间(参考)拓展表空间... ETL项目开发 0. Oracle基础环境准备 创建表空间(参考) # EDW_ETL_DAT 。创建时指定temporary表示创建临时表空间 DROP [temporary] TABLESPACE EDW_E...
  • ETL工具KETTLE简介

    千次阅读 2019-06-16 21:30:35
    1、ETL简介: 2、KETTLE简介: 3、KETTLE常用功能: (1)全量数据迁移: (2)增量数据迁移: (3)解析xml文件(单个、批量): (4)解析JSON数据: (5)数据关联比对: (6)数据清洗转换: 4、KETTLE...
  • 还不会使用大数据ETL工具Kettle,你就真的out了!

    万次阅读 多人点赞 2020-04-28 23:53:21
    > **写在前面:** 博主是一名大数据初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,`写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段...
  • ETL工具之kettle

    2020-02-10 23:52:15
    Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 1.2 Kettle核心知识点 1.2.1 Kettle工程存储方式 1) 以XML形式存储 2) 以资源库方式存储(数据库...
  • 免费开源ETL工具KETTLE

    千次阅读 2019-04-25 17:01:08
    1.ETL概念 ETL:Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。...Kettle (正式名:Pentaho Data Integration)是一款基于JAVA开发的开...
  • 文章目录1、ETL及其常用工具2、kettle的下载安装2.1 kettle简介2.2 kettle下载安装3、kettle的使用3.1 kettle之转换的基本概念3.2 输入控件的使用3.3 输出控件的使用3.4 脚本控件的使用3.5 案例13.6 案例2 1、ETL...
  • ETL工具-Kettle Spoon教程

    万次阅读 多人点赞 2018-09-21 14:56:03
     ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,了解并掌握一种etl工具的使用,必不可少,支持图形化的GUI设计界面,...

空空如也

1 2 3 4 5 ... 20
收藏数 65,222
精华内容 26,088
关键字:

kettle