精华内容
下载资源
问答
  • kettle web化通过Java API调用kettle核心代码,并基于Spring Boot提供简易的Web管理界面。背景在工作中,通过kettle这款ETL产品进行数据处理时,是通过kitchen命令调用kettle,会启动一个jvm程序处理。在运行时,...

    kettle web化

    通过Java API调用kettle核心代码,并基于Spring Boot提供简易的Web管理界面。

    背景

    在工作中,通过kettle这款ETL产品进行数据处理时,是通过kitchen命令调用kettle,会启动一个jvm程序处理。在运行时,如果几个任务同时跑,那么会占用比较高的内存。而且每次启动kettle时,会先初始化运行环境。

    因此,通过Java API调用kettle核心代码,在程序启动时只初始化一次运行环境,后续任务都提交到任务线程池处理,不需要每个任务都启动jvm实例,能单机的提高并发。

    项目地址

    特点

    Java API调用Kettle核心代码

    任务并行执行

    Web管理任务

    展示

    界面用Bootstrap3和jQuery简单撸了下。

    dashboard

    查看任务执行情况

    9f9201a8d9a1bfa6409a1c99b8860a0b.png

    任务

    定义任务(目前需要指定kjb的路径),执行任务

    e1156b43a3cf1037cc9e05124865c486.png

    任务历史

    查看历史任务,看日志

    013381d089cab3a2a2658e85319addb8.png

    计划任务

    通过定义cron表达式,计划执行任务

    a768b750fd4bd06537120af2587cb543.png

    已实现

    Java API调用Kettle核心代码(基于Kettle 7.1)

    kjb调用ktr

    Shell

    MySQL

    Oracle

    Hive

    JS代码

    Java代码

    Kettle其他功能暂未测试,目前测试覆盖的功能如下

    b04d0d65350a05c425226655f4510006.png

    任务并行执行

    Web管理任务

    任务监控dashboard

    任务组(分组管理)

    任务(任务定义,比如kjb路径)

    任务变量(将任务变量传入kjb,可在kjb中、或者ktr中获取到)

    任务历史(历史任务,任务执行日志)

    计划任务(定时调度)

    暂未实现

    Web管理任务

    任务失败预警

    任务失败重试

    更美观、友好的界面

    分布式任务执行、节点服务发现

    说明

    该系统暂未投入生产使用,想尝试的道友不妨在测试环境试试水,或者等发布稳定版。

    快速开始

    本项目为Spring Boot标准项目,clone到本地修改application.yml中的数据源配置即可。

    项目结构

    Spring Boot标准结构,利于二次开发。

    运行

    导入IDE,运行main方法

    执行mvn clean spring-boot:run

    打包mvn package,通过java -jar target/kettle-web-{version}.jar运行

    关于开源

    不足之处,请轻喷。欢迎志同道合的道友一起完善,谢谢~

    展开全文
  • 五人水壶系列 Pentaho Kettle系列,包括Kettle5,Kettle6的Eclipse原始环境,自定义Kettle插件包,Kettle Web管理端
  • Kettle Web版最新代码

    2018-10-04 07:00:17
    Kettle Web版最新代码;更新至2017.7月
  • kettle web

    2019-03-25 20:07:00
    kettle web化 通过Java API调用kettle核心代码,并基于Spring Boot提供简易的Web管理界面。 背景 在工作中,通过kettle这款ETL产品进行数据处理时,是通过kitchen命令调用kettle,会启动一个jvm程序处理。在运行时...

    kettle web化

    通过Java API调用kettle核心代码,并基于Spring Boot提供简易的Web管理界面。

    背景

    在工作中,通过kettle这款ETL产品进行数据处理时,是通过kitchen命令调用kettle,会启动一个jvm程序处理。在运行时,如果几个任务同时跑,那么会占用比较高的内存。而且每次启动kettle时,会先初始化运行环境。

    因此,通过Java API调用kettle核心代码,在程序启动时只初始化一次运行环境,后续任务都提交到任务线程池处理,不需要每个任务都启动jvm实例,能单机的提高并发。

    项目地址

    github

    特点

    • Java API调用Kettle核心代码
    • 任务并行执行
    • Web管理任务

    展示

    界面用Bootstrap3和jQuery简单撸了下。

    dashboard

    查看任务执行情况

    dashboard

    任务

    定义任务(目前需要指定kjb的路径),执行任务

    任务

    任务历史

    查看历史任务,看日志

    任务

    计划任务

    通过定义cron表达式,计划执行任务

    计划任务

    已实现

    • Java API调用Kettle核心代码(基于Kettle 7.1
      • kjb调用ktr
      • Shell
      • MySQL
      • Oracle
      • Hive
      • JS代码
      • Java代码
      • Kettle其他功能暂未测试,目前测试覆盖的功能如下
        kjb
    • 任务并行执行
    • Web管理任务
      • 任务监控dashboard
      • 任务组(分组管理)
      • 任务(任务定义,比如kjb路径)
      • 任务变量(将任务变量传入kjb,可在kjb中、或者ktr中获取到)
      • 任务历史(历史任务,任务执行日志)
      • 计划任务(定时调度)

    暂未实现

    • Web管理任务
      • 任务失败预警
      • 任务失败重试
      • 更美观、友好的界面
    • 分布式任务执行、节点服务发现

    说明

    该系统暂未投入生产使用,想尝试的道友不妨在测试环境试试水,或者等发布稳定版。

    快速开始

    本项目为Spring Boot标准项目,clone到本地修改application.yml中的数据源配置即可。

    项目结构

    Spring Boot标准结构,利于二次开发。

    运行

    • 导入IDE,运行main方法
    • 执行mvn clean spring-boot:run
    • 打包mvn package,通过java -jar target/kettle-web-{version}.jar运行

    关于开源

    不足之处,请轻喷。欢迎志同道合的道友一起完善,谢谢~

    转载于:https://www.cnblogs.com/bener/p/10596181.html

    展开全文
  • kettle web service xml

    2017-04-18 13:36:59
    kettle读取web service 分析并插入数据库
  • Kettle Web端的使用

    2019-09-12 19:14:31
    Web端使用二次开发的组件, 需要加载新开发组件路径: System.setProperty("KETTLE_PLUGIN_BASE_FOLDERS",path);//插件地址加载信息 还要注意一下属性的设置方法,这个是一个全局属性。 System.s...

    一:新增组件的加载

       在Web端使用二次开发的组件, 需要加载新开发组件路径:

    System.setProperty("KETTLE_PLUGIN_BASE_FOLDERS",path);//插件地址加载信息

       还要注意一下属性的设置方法,这个是一个全局属性。

    System.setProperty("","");

    二:JNDI的使用

        Kettle数据源有多种,项目都有自己的特殊的需要。我们要求使用JNDI的方式。

       1.使用kettle自己的Jndi,只需要指定Kettle 的Jndi的属性文件配置路径。

     System.setProperty("KETTLE_JNDI_ROOT","");

         

    data-integration\simple-jndi\jdbc.properties 
     
    ORA/type=javax.sql.DataSource
    ORA/driver=oracle.jdbc.driver.OracleDriver
    ORA/url=jdbc:oracle:thin:@localhost:1521:ORCL
    ORA/user=abc
    ORA/password=abc

        这里对于Jndi的名称为 ORA,属性文件的名称等无特殊的要求。可以自己设计,具体可以查看: simple-jndi.jar

    2.使用服务器自带的Jndi

       KettleEnvironment.init(false);//false--不加载自带的JNDI true--需加载自带的JNDI

     三:Kettle日志记录。

      

    Web项目一般都会使用log4j作为项目的日志组件,由于项目的特殊性、日志的连贯行与可读性的考虑。使用原始的日志记录。

    FileLoggingEventListener listener = new FileLoggingEventListener(path,true);//path日志路径
    KettleLogStore.getAppender().addLoggingEventListener(listener);

      也可以接入log4j的支持(项目下一步的方向)、可以考虑日志组件的开发。

     其中kettle也自带对Job、step都有数据库日志的记录,可以依据项目情况进行选择。


     四:kettle的性能监控

         作为一个服务端的项目,对于数据处理的情况,都是作为一个特殊处理的情况。此性能监控只是对于单机情况。集群环境不适用。

        由于转换执行的时候都会有自己的执行情况的“快照”,监控只需要去解析。基本上C/S上的UI上的日志信息都可以进行获取。

    List<StepMetaDataCombi> list = trans.getSteps();
    Map<String, List<StepPerformanceSnapShot>> snap = trans.getStepPerformanceSnapShots();
    for (int j = 0; j < list.size(); j++) {
       StepMetaDataCombi combi = list.get(j);
       StepInterface si = combi.step;
       List<StepPerformanceSnapShot> lp = snap.get(si.toString());
       ......

     只是提供大体的思路。

     

    转载于:https://my.oschina.net/hbt/blog/522053

    展开全文
  • 原本计划kettle专题写三五篇应该就够了,梳理的时候才发现功能太多了,精简了精简还是写了不少,但既然是入门就不能太多,今天最后一篇。之前执行配置的转换都是在spoon图形界面中执行的,但编辑好的转化任务实际都...

    原本计划kettle专题写三五篇应该就够了,梳理的时候才发现功能太多了,精简了精简还是写了不少,但既然是入门就不能太多,今天最后一篇。

    之前执行配置的转换都是在spoon图形界面中执行的,但编辑好的转化任务实际都是需要通过定时任务调用的。

    本篇就从创建两种类型的资源库开始,讲解pan和kitchen命令行程序的调用方法,掌握了这些知识后就能很容易的在网络中或者单机上通过crontab配置定时执行的任务。

    一、资源库的配置方法

    1、数据库类型的资源库

    7f6e34320bc7fed88172c87eed3e6f47.png

    点击上图红框位置,选择Repository Manager进行资源库创建

    e0db64da780ade6a764424a6e1afc990.png

    选择数据库类型的资源库,后续没有难度,只需要配置一个数据库链接,确认后自动创建资源管理需要的表,如图所示:

    b5d704056bf2cbb08a2fe1571d0874aa.png

    创建完成后就可以使用admin/admin登陆

    50e3bdf878131a34e58e9706732711bb.png

    如果需要增加用户或修改密码,需要点击菜单中的搜索资源库,按照下图进行操作。

    2d6bb51248e7f0480deb343351ef4f1c.png

    2、文件类型的资源库

    3be99d7c3f5b150935ae2a6742a62607.png

    文件资源库设置比较简单,只需要配置名字和路径即可,完成后会在指定的文件下创建.meta元数据文件夹。

    二、任务调度方法

    转换任务调度:

    创建的转化是以ktr为后缀名,如果调用这种转换时需要使用pan程序。

    pan程序参数说明可以直接在命令行中运行pan.bat或pan.sh即可显示。

    1645dd0a3f71e23075a912969c16cf39.png

    调度的方法如下:

    文件资源库:

    pan.bat /trans 邮件发送   /rep filerep

    其中转换任务不需要后缀名

    数据库资源库:

    pan.bat /trans 邮件发送   /rep dbrep /user test /pass test

    资源库的管理用户名和密码按照自己配置的进行填写

    作业任务调度:

    之前的内容我们主要讲转换任务,实际在spoon中可以创建两种任务,还有一种是作业,对于作业实际上是对转换任务的编排调度,相对比较简单,如图所示为一个简单的作业任务:

    1a8016cacdbd9845467fdb408de3a95a.png

    我们可以通过转换和作业两种控件进行作业任务制作,其中对于作业可以进行镶嵌调用。

    对于作业的调度使用kitchen完成:

    文件资源库:

    kitchen.bat /job 邮件发送作业   /rep filerep

    其中作业任务不需要后缀名

    数据库资源库:

    kitchen.bat /job 邮件发送作业   /rep dbrep /user test /pass test

    资源库的管理用户名和密码按照自己配置的进行填写

    执行结果如图:

    92466ab171324f0bd21fbec242e058a1.png

    三、关于任务调度的说明

    1、任务调度很多时候都是动态的,可以通过/param:name=value进行参数传递。

    2、可以在start中配置定时进行调度。

    3、对于多台机器进行任务调度,还是建议使用数据库的资源库模式,这样只要能够连接资源库都可以调用资源库中的任务,维护起来相对简单。

    其它文档阅读

    kettle专题1:一款免费的ETL工具

    kettle专题2:数据库操作

    kettle专题3:数据从哪里来

    kettle专题4:数据的目的地

    kettle专题5:数据转换

    kettle专题6:数据流控制

    kettle专题7:应用控件的使用

    kettle专题8:脚本能力

    f02bac935448359914a66c09aa4ba838.png  

    7d0c348958fb0d6ffb888ce0b70acefe.gif

    展开全文
  • KETTLE WEB管理控制台设计

    万次阅读 2016-01-22 06:40:05
    1 资源配置管理1.1 用例图1.2 用例叙述1.2.1 添加资源...2. 用户输入kettle资源库所在数据库的数据库类型、数据库实例、数据库IP地址、数据库用户名和数据库用户登录密码,并将用户输入信息提交给系统。 3. 系统核对信
  • Mac版Web服务器管理工具goPanel 2goPanel 2 for Mac是一款功能强大,直观易用的Web服务器管理工具。gopanel 2 mac提供了一个图形界面和自动化工具,旨在简化设置apache或nginx,mysql,php和邮件服务器的过程,并...
  • 日前,在「巨杉最具价值专家」技术交流会中,北京傲飞商智软件有限公司CEO初建军老师( jianjunchu@apache.org)对Apache Hop基于web的可视化流式批处理平台主题进行了详细的讲解。02什么是ApacheHopApache Hop是Hop ...
  • KettleWeb版分享

    千次阅读 2016-06-22 14:14:29
    KettleWeb版 有意参与开发的道友 请加QQ群:565815856 此项目已在github开源 https://github.com/kettle20160525/kettleWeb 作者ID: wind1373290 文章原版:http://www.oschina.net/question/2615834_2149419
  • kettle管理工具专门为kettle这款优秀的ETL工具开发的web端管理工具。项目简介kettle作为非常优秀的开源ETL工具得到了非常广泛的使用,一般的使用的都是使用客户端操作管理,但问题是当投入生产环境使用时,动辄上百...
  • /** 运行kettle软件的时候:* the kettle.properties file is located in* [home dir of user running kettle]/.kettle/kettle.properties* On a Mac: /Users/slawo/.kettle/kettle.properties* On Linux: /home/sla...
  • kettle_web.zip

    2019-06-19 17:31:42
    此包包含最新的8.2版本 kettle_webspoon 和一个扩展用例
  • 一、子程序功能和启动方式介绍Spoon...Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行。Encr.bat: 密码加密转换和作业:Kettle 的 Spoon 设计器用来设计转换(Transformation)和 作业(Job)。•转换主要是...
  • kettleweb版本,自己编译的war包,直接放到tomcat下运行,然后http://localhost:8080/spoon/spoon就可以访问 参考地址:https://github.com/HiromuHota/pentaho-kettle
  • 使用 Kettle 获取网页数据。当然,这里的网页数据主要指结构化数据,可能是 xml 格式、json 格式 或者 csv 文件等。以 http://services.odata.org/V3/Northwind/Northwind.svc/Products/ 为例,这是 odata 提供的...
  • Kettleweb抽取数据

    2018-09-09 18:29:57
    Kettleweb抽取数据 转自:http://blog.csdn.net/the_victory/article/details/47295619
  • 背景 Kettle作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。Pentaho官方都建议采用crontab(Unix平台)和计划任务(Windows平台)来完成调度功能。所以...
  • webkettle.rar

    2017-02-10 15:01:54
    webkettle源码
  • web应用集成kettle

    热门讨论 2015-12-05 17:45:53
    kettle集成值web应用中,不再需打开kettle窗口运行,并通过spring自动任务进行数据抽取,数据库采用数据源(jndi)的方式进行管理。配置简单方便。(之前需要kettle打开其运行环境,并配置数据库连接的相关信息)
  • Pentaho Data Integration Pentaho Data Integration ( ETL ) a.k.a Kettle Project Structure assemblies: Project distribution archive is produced under this module core: Core implementation dbdialog: ...
  • Kettle3.2的Webstart

    2019-07-13 02:19:26
    NULL 博文链接:https://cleaneyes.iteye.com/blog/748286
  • 1.3 Kettleweb抽取数据

    千次阅读 2015-08-05 13:10:46
    基于文本文件的web客户端抽取 由于kettle使用了Apache VFS系统,VFS系统可以像处理文本文件一样处理http文件,所以在‘文本文件输入’步骤中可以直接将URL作为文件名: 二. HTTP客户端使用HTTP client 步骤,它调用...
  • kettle 3.2的webstart

    千次阅读 2011-02-23 12:46:00
    在尝试Kettlewebstart方式运行时,遇到了一点问题,最终解决。   一、下载kettle 从http://sourceforge.net/projects/pentaho/files/下载pdi3.2(也就是kettle)。   二、ant web...
  • 如何通过java集成kettle实现远程调用kettle集群package com.hry;import org.pentaho.di.cluster.SlaveServer;import org.pentaho.di.core.KettleEnvironment;import org.pentaho.di.core.Result;import org.pentaho....

空空如也

空空如也

1 2 3 4 5 ... 14
收藏数 261
精华内容 104
热门标签
关键字:

kettleweb