kettle_kettle正则表达式 - CSDN
kettle 订阅
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 展开全文
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
信息
产    品
Spoon、Pan、CHEF、Kitchen
最新版本
绿色无需安装
特    点
transformation和job,
中文名
水壶
外文名
Kettle
Kettle介绍
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。
收起全文
精华内容
参与话题
  • kettle从入门到精通,让你真正掌所掌商业智能的能力。了解真正的ETL过程 此系列课程共20集,有真实项目,本课为完整版。
  • KETTLE 使用教程

    万次阅读 2019-02-12 15:46:45
    Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比字段,若目标表不存在该字段,则新插入该条记录。若存在,则更新。 Kettle简介:Kettle是一款国外开源的ETL工具...

    Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比字段,若目标表不存在该字段,则新插入该条记录。若存在,则更新。

     

    Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。(引用百度百科

    1、Kettle的下载与安装(在本文中使用的kettle版本为6.1.0.1-196)

    2、打开kettle。

      首先解压下载下来的压缩包如:pdi-ce-6.1.0.1-196.zip

      然后打开Spoon.bat,如图所示:

      

      打开后请耐心等待一会儿时间。

    3、建立转换。

      在文件->新建装换。

      新建转换后在左边的主对象树中建立DB连接用以连接数据库。如图所示:

      

      建立数据库连接的过程与其他数据库管理软件连接数据库类似。

      注意:在数据库链接的过程中,可能会报某个数据库连接找不到的异常。那是因为你没有对应的数据库链接驱动,请下载对应驱动后,放入kettle的lib文件夹。

    4、简单的数据表插入\更新

      (1)新建表插入

      在左边的面板中选择“核心对象”,在核心对象里面选择“输入->表输入”,用鼠标拖动到右边面板。如图所示:

     

     

     

      双击拖过来的表,可以编辑表输入。

      选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。

     

      (2)通过插入\更新输出到表。

      在左边面板中选择核心对象、选择“输出->插入\更新”如图所示:

     

      编辑插入更新:

      首先:表输入连接插入更新。

        选中表输入,按住shift键,拖向插入更新。

      然后:双击插入更新,编辑它。

     

      到这里基本上,这个转换就要做完了,可以点击运行查看效果,看是否有误,这个要先保存了才能运行,可以随意保存到任何一个地方。

    5、使用作业控制上面装换执行。

      使用作业可以定时或周期性的执行转换,新建一个作业。并从左边面板拖入start 和转换。

      

      双击start可以编辑,可以设置执行时间等等

      点开装换,可以设置需要执行的转换任务,比如可以执行上面我们做的转换,XXX.ktr

      最后点击运行即可。

     

      到这里,一个简单的通过作业调度的kettle就算做完了。

    转自:https://blog.csdn.net/Install_/article/details/80252565

    展开全文
  • Kettle — 使用手册

    万次阅读 多人点赞 2018-09-11 17:35:42
    介绍 ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD...Kettle是ETL中其中一个开源工具,基于纯Java开发。 kettle有两种脚本transformation(转换)和Job(作业) Kettle有三个主要组件:Spoon、Kitchen、P...

    介绍

    ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环,也是工作量较大的一块。Kettle是ETL中其中一个开源工具,基于纯Java开发。

    kettle有两种脚本transformation(转换)和Job(作业)

    Kettle有三个主要组件:Spoon、Kitchen、Pan

             Spoon:是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。windows选择Spoon.bat;Linux选择Spoon.sh

             Kitchen:利用Kitchen可以使用命令行调用Job

             Pan:利用Pan可以用命令行的形式调用Trans

             Carte:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。

    声明

    1.Kettle最早叫做Kettle,后来该名为PDI,不过大多数人还是习惯于叫Kettle

    2.我们这里使用的版本是最新的Kettle 8.1的版本

    3.说明一下Kettle的帮助文档可以在Spoon中找到,如果有任何问题可以去帮组文档中查找

    运行PDI Client(Spoon)

    PDI Client启动分为两种:一种是安装包方式安装,然后在菜单栏中启动,这种方式并不是我们想要的。另外一种是通过解压zip包,然后通过启动脚本spoon.bat或者spoon.sh启动Spoon。

    如果正确启动,则出现的主界面应该是下面这样的。

    界面整体功能的介绍在Spoon的帮助文档中有详细的介绍,下图中的章节。

    Kettle的使用流程

    1.创建一个简单的转换

    首先这个转换的事例是把testdb数据库中的t_user表的数据拷贝到test表数据库中的user表。

    1)创建一个转换

    2)连接到testdb和test数据库

    连接好以后应该会在DB连接中出现两个数据库连接。

    3)在核心对象中拖入一个表输入

    并对表输入进行属性设置。

    4)然后在核心对象中拖入插入/更新组件

    5)按住shift从表输入到插入/更新

    6)然后在对插入/更新进行配置,在用来查询的关键字中需要设置连接的字段。

    7)最后保存,并运行这个转换,看看是否正确。

    2.创建一个简单的作业

    这个作业就是将之前的转换以定时执行的方式运行。

    1)拖入开始组件,这里设置的间隔时间的3分钟

    2)拖入转换组件,将刚刚保存的转换文件配置到Transformation属性中。

    3)点击运行按钮,运行配置的作业。

    3.连接资源库

    在实际的团队开发过程中,不可能将自己的转换、作业和调度等配置存放在自己的电脑中。而Kettle的资源库正可以将我们的转换、作业等存储下来,构成一种协作平台。

    转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。Kettle支持连接的资源库类型有三种:

             1.Pentaho Repository:使用的是Kettle公司自己的服务器,一般自己公司不会使用

             2.Database Repository:保存在数据库的资源库,通过用户名密码访问

             3.File Repository:保存的服务器硬盘的资源库,不用密码就可以使用

    1)连接资源库

    点击右侧的Connect按钮,打开资源连接的Dialog,这里我们需要选择Other Repository

    然后在选择Database Repository,如下所示。

    2)配置数据库连接,点击Database Connection进行配置

    3)完成配置后,点击finish即可。配置完成后,数据库中会多出一些表,选择Connect Now。

    4)选择连接后,我们需要输入用户名密码,即可连接到指定的资源库。注意,这里的用户名密码默认是admin/admin(管理员)或者guest/guest(访问者)。然后在title上会显示连接的资源库。

    注意:上面的连接配置不要使用中文,包括资源名等等。不然会出现资源库配置为灰色,而且没有Connect按钮。解决方案见Kettle常见错误。

    4.使用资源库进行协作开发

    1.转换或作业的导入导出

    1)导入

    当我们有转换或作业在外部需要导入到资源库时,我们可以选择文件—从XML文件导入,选择我们需要导入的文件。

    然后将文件保存,会弹出Save界面,选择保存的目录和文件名即可。

    2)导出

    当我们需要将资源库中的作业和转换保存到本地使用时,我们可以选择文件—导出,进行导出。

    2.探索资源库

    选择工具—资源库—探索资源库,可以连接到当前连接的资源库。

    下面就连接上的资源库。浏览Tab主要是资源库中存在的转换和作业

    在浏览的目录或者文件上可以进行以下的各种操作。在这里我实在是没有找不到access controll和历史版本查看的功能。

    3.资源连接库管理

    在右侧的显示个人信息地方我们可以管理资源库。

    展开全文
  • kettle精讲

    千人学习 2019-03-23 13:16:29
    kettle精讲,本节课程主要包括kettle基础的表输入、增量更新、同步更新、定时任务,学完可以基本满足企业的日常开发需要
  • kettle(一)概述

    万次阅读 2015-07-25 23:24:44
    最近两个月一直和kettle打交道,从开始的没听说过,到现在能够熟练运用,不得不说项目驱动下,学习东西是最快的。好了,虽然使用kettle应付项目的任务绰绰有余,但是还是想系统的学习一下,总结一下。例如job用的...

               最近两个月一直和kettle打交道,从开始的没听说过,到现在能够熟练运用,不得不说项目驱动下,学习东西是最快的。好了,虽然使用kettle应付项目的任务绰绰有余,但是还是想系统的学习一下,总结一下。例如job用的比较少,kettle的集群模式没有涉及到等等。


              说起kettle,还是先说说ETLExtract-Transform-load,即抽取,转换,加载)数据仓库技术,是用来处理将数据从来源(例如:单位基础服务器)经过抽取,转换,加载到达至目的端(正在做的项目)的过程。也就是新的项目需要使用以前项目数据库中的数据,ETL就是解决这个问题的。

     

              ETL实现共同注意点:正确性,完整性,一致性,完备性,有效性,时效性,可获取性等,也就是说无论我们使用什么工具,来实现ETL技术时,达到这几个方面,才算是质量过关的,失去其中任何一方面都是不过关的。


             ETL实现主要是转换的实现,包含几个方面(来自百科):

    1、空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。

    2、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。

    3、拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。

    4、验证数据正确性:可利用Lookup及拆分功能进行数据验证。例如,主叫号861082585313-8148,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。

    5、数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。

    6Lookup:查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。

    7、建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。

     

              而,kettle则是其中的一种工具,其它还有:InformaticaDatastage,OWB,微软的DTS等等。好,下边简单说说kettle。


         kettle是一款国外开源(受欢迎)的ETL工具,纯Java编写(Java开发很好集成),可以在Windows,Linux,Unix上运行(Linux服务器流行时代下,kettle更加受欢迎),数据抽取高效稳定(更更受欢迎了)。kettle中文名俗称“水壶”,开发目的是将各种数据放到一个壶中,然后经过各种处理加工,以特定的格式流出。


             kettle家族包括:Spoon,Pan,CHEF,Kitchen


        Spoon:是通过图形界面来设计ETL转换过程(Transformation(最常用)


             PAN:允许批量执行由Spoon设计的ETL转换(例如使用一个时间任务调度器)Pan是一个后台执行程序,没有图形界面。


             CHEF:允许创建任务(Job)。任务通过执行,每个转换,任务,脚本等,使其更加有利于完成更为复杂的任务。


             Kitchen:允许你批量使用由Chef设计的任务(例如使用一个时间调度器),也是后台执行程序。

     

             kettle转换的设计包括几个方面:资源库,数据库连接,作业(job),转换(trans),步骤(step)。形象的举一个例子:资源库相当于我们的一个Java项目 ,数据库连接相当于我们的Java项目中的连接数据库,Job相当于Java项目中的一条线,而Trans相当于Java的一个个类,Step则是类中的方法。所以从这个层面来看,其实Kettle还是非常简单的。需要我们做的就是建好资源库,连接好数据库,建立转换,写好类中的每个步骤,将转换连接起来组成任务(当然转换也可以独立执行)。

     

             好,最后看一下什么时候适合使用kettle。这样一个项目A,这个项目A需要实施到很多家企业,而项目A需要用到每家企业的数据库基础数据,例如员工,组织结构,客户,供应商等等一些基础数据,这时候kettle就可以很轻松的完成任务。也就是说,我们的项目需要用到大量的数据库之间迁移数据。


             好,kettle理论简介,后边看kettle简单使用。最后附一张kettle工具的界面图:


    展开全文
  • Kettle

    千次阅读 2019-06-12 15:43:43
    ETL-kettle (一)ETLKETTLE新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants...

    ETL

    ETL, 英文:Extract-Transform-Load的缩写,是一种将数据从来源端经过抽取(extract)、转置(transform)、加载(load)至目的端的过程。
    数据处理、转换、迁移等用etl工具会很方便

    KETTLE

    kettle是一个ETL(Extract,
    Transform and Load抽取、转换、载入)工具,ETL工具在数据仓库项目使用非常频繁,kettle也可以应用在以下一些场景:
    在不同应用或数据库之间整合数据
    把数据库中的数据导出到文本文件
    大批量数据装载入数据库
    数据清洗
    集成应用相关项目是个使用

    • 免费开源:开源、可视化的、功能强大的ETL工具,kettle完全是基于java进行开源的,所以就需要运行环境有java配置
    • 易配置: 可以在window、linux、Unix上运行,无需安装,数据抽取高效稳定
    • 允许多种数据源:ETL工具集,它允许你管理来自不同数据库的数据
    • 图形化界面
    • 免安装:下载地址,直接解压可用
    • 等等

    启动方式

    Spoon.bat : 图形界面方式启动作业和转换设计器。
    Pan.bat : 命令行方式执行转换。
    Kitchen.bat : 命令行方式执行作业。
    Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行。
    Encr.bat:密码加密

    DB配置文件

    除了每次手动添加具体的数据库信息,也可以提前将配置信息设置在相关配置文件的(C:\Users\Administrator.kettle\kettle.properties),例如:
    在这里插入图片描述
    在转换DB连接时配置:
    在这里插入图片描述
    这样可以动态的连接相关数据库

    转换和作业

    用Spoon.bat打开的界面:
    在这里插入图片描述

    1. 转换 ,对源数据进行各种处理;
    2. 作业,表示一个工作项,作业项中也可有多个作业,笼统来说就是可以定制很多业务任务;

    作业

    也可以把它当做一个定时任务,就是定时周期性的去执行一些job,即转换,如图:
    在这里插入图片描述
    此处Start表示一个总任务的开始节点(开关),这个任务下面有billorder、转换、转换2 三个任务,点击start将开始这三个转换任务,转换任务里面则是具体的数据处理规则。
    start总开关可以设置定时:
    在这里插入图片描述
    相当于定时任务去周期性的处理数据

    转换

    以上面billOrder为例
    在这里插入图片描述
    选中billorder右键选择Open Referenced Object -> Transformation 则进入创建好的转换文件:
    在这里插入图片描述
    这个目的是将源数据库huopan-post 中的bill_order表中的数据最后100条同步到huopan-test中的bill_order_test表中,
    (DB利用上面的DB配置文件设置了两个数据库配置:huopan-post 和 huopan-test)

    post 的配置:

    在这里插入图片描述
    如图:利用sql脚本简单的获取了最后100条数据

    插入更新

    在这里插入图片描述
    数据库选择huopan-test, 表是bill_order_test,(当左边的源数据连线到右边的目标数据,才会在此处获取到字段,)
    用来查询的关键字:保证两边数据在同步的时候通过唯一标识sys_seq_id进行数据统一,当两边这个字段的值一样的时候,则进行更新,反之添加。
    更新字段:指的是需要同步的字段数据,有的时候有些字段不需要更新,则将该字段删除选中行

    作业并行

    在这里插入图片描述
    选中Run Next Entries in Parallel ,则该总任务下的所有节点都会再启动时候并发进行,在这里插入图片描述

    作业串行

    要是有的任务需要以另个任务为前提才能执行的话,就放到依赖任务之后,例如上图转换3需依赖转换 才能执行,此处为串行执行

    作业下某节点失效

    在这里插入图片描述
    选中使节点失效,则该处的线则变成灰色的了在这里插入图片描述在启动总任务的时候,该处的转换任务则就不执行了

    展开全文
  • kettle介绍

    千次阅读 2016-05-17 20:42:57
    Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的 ETL需求:抽取、转换、加载数据;kettle翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员 MATT 在一个...
  • Kettle — 常用组件使用

    万次阅读 2019-07-14 20:11:03
    Kettle控件分为三种:转换控件、作业控件和Hop(跳)。 转换控件 输入控件 表输入 表输入控件是从数据库的表中读取数据的控件。我们可以在表中输入SQL语句(或者通过获取SQL查询语句获取)。比如我们通过获取...
  • kettle简介及下载

    千次阅读 2019-09-19 16:56:17
    ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少、介绍的ETL工具是Kettle。...
  • Kettle — 安装和部署

    万次阅读 2018-09-11 16:47:35
    Kettle是纯Java编写的ETL开源工具,目前Kettle7和Kettle8都需要Java8或者以上才能正常运行。所以开运行Kettle前先检查Java环境是否正确配置,Java版本是否是8或者以上。 Kettle安装 1)创建Kettle的目录,并将...
  • kettle 教程(一):简介及入门

    万次阅读 多人点赞 2018-08-29 18:13:25
    kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。 kettle 的官网是 https://community.hitachivantara....
  • kettle

    千次阅读 2018-05-31 16:45:04
    第一次接触kettle这个,记录一下其实自己还是从网上参考别人的网址:https://blog.csdn.net/u010066934/article/details/77852368?foxhandler=RssReadRenderProcessHandler
  • kettle调度监控平台(kettle-scheduler)开源

    万次阅读 多人点赞 2018-11-15 17:28:36
    Kettle作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。Pentaho官方都建议采用crontab(Unix平台)和计划任务(Windows平台)来完成调度功能。所以大家在...
  • 使用Kettle实现数据实时增量同步

    万次阅读 多人点赞 2018-05-30 16:16:20
    本文介绍了使用Kettle对一张业务表数据(500万条数据以上)进行实时(10秒)同步,采用了时间戳增量回滚同步的方法。关于ETL和Kettle的入门知识大家可以阅读相关的blog和文档学习。 1. 时间戳增量回滚同步 ...
  • Kettle

    千次阅读 2019-01-21 17:53:18
    一、kettle是什么? 1、通过我的学习和理解:kettle为java开发的一种对数据抽取的开发插件。 2、主要做的事:从数据库库中抽取相应的数据到相应的容器 二、kettle的简易操作使用 1、创建转换,在转换里面新建...
  • kettle案例九-----linux使用kettle

    万次阅读 多人点赞 2018-01-19 21:13:06
    我们之前学习的kettle操作都是在windows中进行可视化的操作,但是在使用过程中发现一些问题。 比如我们的数据文件是放在linux服务器中的,如果要清洗则需要把它们下载到本地,这样需要耗费一些时间,尤其是数据文件...
  • ETL工具Kettle简介和安装配置基本使用

    万次阅读 多人点赞 2017-11-15 18:35:58
    什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后...
  • Kettle性能调优汇总

    万次阅读 2017-03-21 14:28:49
    性能调优在整个工程中是非常重要的,也是非常有必要的。但有的时候我们往往都不知道如何对性能进行调优。其实性能调优主要分两个方面:一方面是硬件调优,一方面是软件...本章主要是介绍Kettle的性能优化及效率提升。
  • kettle安装包链接

    2018-01-08 14:49:59
    Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle...
  • Kettle初识

    千次阅读 2018-12-13 17:44:59
    Kettle初识 Kettle初识 [推荐]参考URL: https://www.jianshu.com/p/2a7ace927825 Kettle是一款采用纯JAVA实现的开源ETL工具,属于开源商务智能软件Pentaho的一个重要组成部分。Kettle提供一系列的组件用于完成...
1 2 3 4 5 ... 20
收藏数 19,062
精华内容 7,624
关键字:

kettle