精华内容
下载资源
问答
  • kettle抽取
    2020-12-21 19:16:26

    A:SPOON 启动时候内存较小,在spoon.bat这个启动文件中,配置的有JVM的内存XMX,("%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-           Xms8192m" "-Xmx8192m" "-XX:MaxPermSize=4096m"),默认这个是256M,512M  256M, 其中Xms是指JVM初始分配的堆栈的内存,Xmx是指JVM分配的堆栈的内存 (JAVA代码能涉及到的存储数据变量的内存)最大是多少,所以XMS必须要<= XMX,XX:MaxPermSize,是指JVM给自己分配的非堆栈内存(供虚拟机程序自己开销)我的因 为是在服务器上跑,因此改成了8192M\8192M\4096M,这个改不能是无限的加大,需要考虑总的内存大小,一般来说网上参考是最大堆栈内存不超过总内存的3/8有的也说是 一半,总之得有个度。---------已使用

    B:使用输入、输出时,新表不要建主键(允许为空--防止历史数据有为空的导致报错)---------已使用

    C:抽数的源数据库关键字段没有索引

    D:抽数的源数据库关键字段索引在SPOON里面失效  原因是用 > 号的时候,索引会失效,而用>=则不会

    E:如果进行大数据量的传输,将日志的级别调整为只输出错误日志  ---------已使用

    F:mysql表输出的时候出现减速的原因可能是因为网络链接的属性设置

    在此处添加参数:

    useServerPrepStmts=false

    rewriteBatchedStatements=true

    useCompression=true

    G:kettle 允许线程多开

    H:可以适当的提高数据集的大小

    I:可以并发处理job

    J:修改 “转换属性---杂项--记录集合里的记录数”中的数据,可以增加传输速率

    Kettle的数据库连接模式

    Kettle的数据库连接是一个步骤里面控制一个单数据库连接,所以kettle的连接有数据库连接池,你可以在指定的数据库连接里面指定一开始连接池里面放多少个数据库连接,在创建数据库连接的时候就有Pooling 选项卡,里面可以指定最大连接数和初始连接数,这可以一定程度上提高速度.

    更多相关内容
  • kettle抽取http请求,发送json参数示例
  • 20210511_kettle抽取mysql增量到ES中.zip20210511_kettle抽取mysql增量到ES中.zip20210511_kettle抽取mysql增量到ES中.zip20210511_kettle抽取mysql增量到ES中.zip20210511_kettle抽取mysql增量到ES中.zip20210511_...
  • 使用kettle(etl工具)将mysql的数据抽取到hadoop的文件系统中。
  • 这是我使用kettle的一点心得,适合新手入门。这个工具用来做数据迁移,数据定时处理、以及数据过滤非常方便。
  • kettle数据抽取流程整理
  • kettle抽取数据

    千次阅读 2021-09-29 17:33:19
    接下来,我们在kettle中创建一个名为csv_extract的转换,如图所示: 然后我们进入“csv文件输入”控件,点击浏览,添加我们要抽取的文件csv_extract.csv,然后点击下方的获取字段,如图所示: 然后点击确定,...

    1.抽取CSV文件csv_extract.csv中的数据保存到数据库extract的数据表csv中。

    首先我们在数据库extract中新建一个名为csv的表格,如图所示:

    接下来,我们在kettle中创建一个名为csv_extract的转换,如图所示:

    然后我们进入“csv文件输入”控件,点击浏览,添加我们要抽取的文件csv_extract.csv,然后点击下方的获取字段,如图所示:

    然后点击确定,完成“csv文件输入”控件的配置。

    之后,我们进入“表输入控件”,配置数据库连接,并且将目标表选择为数据库extract中的csv表,然后我们勾选“指定数据库字段输入”复选框,进入数据库字段选项,点击输入字段映射,将源字段与目标字段依次选中,点击确定,结果如图所示:

    然后我们点击确定,我们运行该转换,运行结果如图所示:

     显示该转换已经运行成功,接下来我们查看csv数据表中的数据,发现数据已经插入了该表中,如图所示:

    显然,我们将csv文件中的数据保存到了extract数据库的csv数据表中。 

    2.抽取JSON文件json_extract.js中的数据保存至数据库extract中的数据表json中。

    首先,新建一个名为json的数据表,如图所示:

     接下来,我们创建一个名为json_extract的转换,如图所示:

    我们进入JSON input控件,将我们要抽取的JSON文件添加到“选中的文件”处,如图所示:

    点击“字段”选项,添加要抽取的数据字段,如图所示:

     然后进入JSON input 2控件,选中“源定义在一个字段里”复选框,然后将“从字段获取源”改为data

    如图所示:

    我们选中“字段”选项,添加从data中抽取的字段,如图所示:

    最后我们进入“表输出”控件,配置数据库连接,并且将目标表选中为数据库extract中的json表,并且勾选“指定数据库字段”复选框,然后点击数据库字段,点击输入字段映射,点击“猜一猜”让kettle自动实现映射,如图所示:

    完成所以准备,最后运行该转换 ,如图所示:

    该转换已经运行成功,最后我们查看json表,发现数据已经插入了json表,如图所示

    可以看出,我们已经将json文件中的数据保存到了json数据表中。

    展开全文
  • 本资源实现了使用kettle工具将本地图片抽取到oracle数据库
  • 输入:配置源数据库及抽取的脚本 输出:配置目表数据库 及数据库字段对应映射 输入输出图如下: 5、开始执行 转换:nohup data-integration/pan.sh -file=xx.ktr -logfile=logs/xx.log >xx.out 2>&...

    1、下载kettle 包,启动Spoon.bat

     2、kettle界面

     3、创建作业或转换

    3、作业可为定时任务 

     4、转换可为单独一个流程

     输入:配置源数据库及抽取的脚本

    输出:配置目表数据库 及数据库字段对应映射

    输入输出图如下:

    5、执行命令:

     转换:nohup data-integration/pan.sh -file=xx.ktr -logfile=logs/xx.log >xx.out 2>&1 &

     作业:nohup data-integration/kitchen.sh -file=xx.kjb -logfile=xx.log >xx.out 2>&1 &

    6、out日志文件 出现finished。。。,则完成

    :::总结如有问题,欢迎指正

    展开全文
  • 1、整体页面截图: 1.1 web服务查询页面

    1、整体页面截图:

    1.1 web服务查询页面

     

    展开全文
  • 使用Kettle抽取Kafka消息并插入数据库

    千次阅读 2022-04-09 22:23:11
    需部署kafka、安装Kettle、准备一个json文件 2、通过Kafka Producer上传数据 首先新建一个转换 创建JSON input 点击浏览文件 再点击增加到选中的文件 选择字段页签,点击select fields获取需要转换的字段 在...
  • kettle数据抽取

    2018-10-26 17:14:39
    kettle数据抽取包含分组查询,列转行,排序记录,增加常量等
  • 在使用kettle做数据抽取到postgres的时候,出现数据格式报错,报错内容如下: 2022/06/20 21:02:26 - 表输出.0 - ERROR (version Unknown, build 0 from 2022/06/20 19:54:03.437 by admin) : Because of an error, ...
  • 1、整体抽取页面截图如下: 1.1 excel输入,文件选择 excel字段解析
  • 使用Kettle抽取数据时,出现中文乱码问题解决方案 使用Kettle在不同的数据库抽取数据时,有时会出现中文乱码问题:其解决方案如下: 1.查看数据库的字符集是否是UTF-8(最常用的字符集) 2.如果数据库设置正确仍然...
  • 一、失败方案 因为在之前文章sybase链接sqlserver中提到过sybse odbc的创建,所以在本文中直接对odbc进行使用。... 经查资料果断换kettle6能够支持jdk1.7,但是如果你想保留jdk1.8而且不想换环境变量,...
  • kettle抽取http请求,发送json参数.pdf
  • 1、使用kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现CSV文件数据的抽取功能,具体效果如下图所示: 2.配置“CSV文件输入”控件 (1)单击“CSV文件...
  • kettle 抽取数据入库中文乱码

    千次阅读 2017-09-21 17:08:22
    中文乱码是因为两个库的编码不一致导致 在job 的DB链接中设置数据库编码 characterEncoding utf8 或者gbk,根据自己的需求
  • Kettle实现Oracle两表之间进行增量抽取数据,不需要时间戳!
  • 在用kettle做多表级联操作时数据出现了中文乱码问题,问题如下图: 百度查了下至少有三种解决方案。编码格式和所连接的数据库编码格式相同,一般都为utf8,有些是gbk等。我的是utf8,所以就以此为例。 第一种:...
  • 使用kettle抽取oralce中包含clob字段的表 在使用kettle在oracle之间迁移数据表时,同一个表格同一个字段在两个库中的数据类型均为clob,却报错为不支持的类型 暂时的解决办法: 在源数据库select时对clob进行一次...
  • 使用Kettle抽取数据时,出现中文乱码问题解决方案
  • kettle抽取数据中文乱码

    千次阅读 2020-07-28 11:25:45
    打开kettle,双击表输出,点击数据库连接旁的编辑,进入数据库连接编辑页面。 再点击第二项:高级 在下方的空白处填入set names utf8。 接下来点击选项,在下面表格中填入characterEncoding utf8 。 接下来再...
  • kettle在查询mongodb的时候少不了会进行检索时间,查询某个时间段内的数据。比如~ [{ $match : { "createTime": { $lt: { "$date": "2019-10-19T16:00:00.000Z" }, $gt: { "$date": "2019-10-...
  • 2.数据仓库-kettle抽取Mysql数据

    千次阅读 2018-07-17 01:10:25
    1) 打开Spoon,Spoon界面如下图 2)点击左上角图标 3)点击下拉菜单的【转换】 4)点击【核心对象】中的 【输入】 5)在展开的菜单中双击【表输出】 6)双击【表输出】 7)点击【新建】 ......
  • Kettle实现多张表数据的定时删除全量抽取,删除旧shuju
  • 作业流程 开始组件 建时间戳中间表 获取中间表的时间戳,并设置为全局变量 删除目标表中时间戳及时间戳以后的数据 抽取两个数据表的时间戳及时间戳以后的数据进行比对,并根据比对结果进行删除、新增或修改操作 ...
  • Kettle 抽取源表数据加载到目标表中

    千次阅读 2020-09-18 12:35:30
    九月 18, 2020 11:31:41 上午 org.apache.commons.vfs.impl.StandardFileSystemManager info 信息: Using "C:\Users\ADMINI~1\AppData\Local\Temp\vfs_...2020/09/18 11:31:42 - 全量抽取数据 - 为了转换解除补丁开始

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,992
精华内容 1,996
关键字:

kettle抽取