精华内容
下载资源
问答
  • ETL工具

    2021-01-22 11:00:42
    它是一个ETL工具(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程) 1、下载地址 https://sourceforge.net/projects/pentaho/files/ 下载client-tools 2、启动 解压开后,windows下运行Spoon.bat .....

    Pentaho Data Integration(简称PDI),原名Kettle。它是一个ETL工具(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)

    1、下载地址
    https://sourceforge.net/projects/pentaho/files/
    下载client-tools

    2、启动
    解压开后,windows下运行Spoon.bat

    3、安装驱动包
    数据库用的是oracle,下载ojdbc的jar包,复制到\data-integration\lib文件夹下面,重新启动PDI
    根据jdk版本下载,如果是用jdk1.8, 一定要下载用jdk1.8编译的,比如:ojdbc8-19.9.0.0.jar

    4、建立数据库连接
    选择New file --> transformation,新建一个转换
    选择Database connections建立数据库连接

    注意Database Name填写数据库的SID
    点击下方的Test:

    5、抽取数据
    选择Design --> Input --> Table input

    将图标拖到右边,双击编辑

    点击Preview测试,数据已抽取到

    6、将记录转换成json格式并写入文件
    选择Design --> Output --> JSON output

    将图片拖到右边,双击编辑

    选择输入来自于前一个模块

    7、点击上面的Run,文件生成成功

    8、保存的转换文件test1.ktr,是一个xml格式
    包括数据库连接,用到的表名、字段名、保存目录都写在里面

    展开全文
  • etl工具

    2018-09-11 15:38:55
    http://bigdata.51cto.com/art/201702/530998.htm
    展开全文
  • ETL工具 ,基于Kettle实现的Web版ETL工具,实现简单的数据抓取功能
  • ETL – ETL工具介绍

    2021-01-20 12:30:03
    为什么要使用ETL工具? 实际生产环境中我们的数据源可能是不同的数据库或者文件,这时候需要我们先把文件整理成统一的格式再做处理这样的过程要用代码实现显然有些麻烦。 但数据来自不同的物理机,如果我们用SQL...
  • python ETL工具 pyetl

    2020-09-16 18:15:02
    pyetl是一个纯python开发的ETL框架, 相比sqoop, datax 之类的ETL工具,pyetl可以对每个字段添加udf函数,使得数据转换过程更加灵活,相比专业ETL工具pyetl更轻量,纯python代码操作,更加符合开发人员习惯。...
  • ETL工具【国外】1. datastage点评:最专业的ETL工具,价格不菲,使用难度一般下载地址:ftp://ftp.seu.edu.cn/Pub/Develop ... taStage.v7.5.1A-iSOBT种子下载:...

    一 ETL工具

    【国外】

    1. datastage

    点评:最专业的ETL工具,价格不菲,使用难度一般

    下载地址:ftp://ftp.seu.edu.cn/Pub/Develop ... taStage.v7.5.1A-iSO

    BT种子下载:http://pan.baidu.com/share/link?shareid=172289&uk=67437475

    ---------------------------------------

    2. informatica

    点评:专业程度如Datastage旗鼓相当,价格似乎比Datastage便宜。

    Informatica PowerCenter 8.6.1 for Win 32Bit

    服务端下载:http://pan.baidu.com/share/link?shareid=183214&uk=67437475

    客户端下载:http://pan.baidu.com/share/link?shareid=183217&uk=67437475

    Informatica PowerCenter 8.6.0 for Win 32Bit

    BT种子下载:http://pan.baidu.com/share/link?shareid=172290&uk=67437475

    Informatica PowerCenter 8.1.1 for Win 32Bit

    安装包下载:http://pan.baidu.com/share/link?shareid=183201&uk=67437475

    ---------------------------------------

    3. kettle

    点评:业界最有名的开源ETL工具。开源当然就免费,免费的有些东西使用就不是很方便。

    下载地址:http://kettle.pentaho.com/

    ---------------------------------------

    4. ODI

    点评:oracle数据库厂商提供的工具,有局限性,与oracle数据库耦合太深。

    下载地址: www.oracle.com/technetwork/cn/testcontent/index-091026-zhs.html

    ---------------------------------------

    5.Cognos

    下载地址:http://www.ibm.com/developerworks/cn/downloads/im/cognosbi/

    Cognos BI 8.3

    BT种子下载: http://pan.baidu.com/share/link?shareid=172287&uk=67437475

    Cognos BI 8.4

    BT种子下载:http://pan.baidu.com/share/link?shareid=172288&uk=67437475

    ------------------------------------------

    【国内】

    6. beeload

    点评: 最好的国产ETL工具,但产品化程度还有一定距离。

    下载地址: www.livbee.com

    ---------------------------------------

    二 专业调度工具

    有人说: ETL是BI的基础,而调度是ETL的灵魂,可见调度的重要性!

    调度原本是ETL技术的一个分支,但这些年, 调度越来似乎有走独立工具的趋势。虽然在ETL工具有调度功能,但与独立调度工具相比,ETL工具的调度就显得很弱了。

    【国外】

    1. Control-M

    点评:你当了大哥太多年,确实有点寂寞。不论是你的规模、价格、使用难度,都很伟大,但我一界平民,你对我只是传说。

    官网地址:www.bmc.com

    --------------------------------------

    【国内】

    2. taskctl

    点评:调度新秀。专业,而且设计独特、体验友好。易安装、易使用,看好其前景。

    下载地址:http://www.taskctl.com/html/2012 ... 8b57714a50a15a.html

    --------------------------------------

    3. ETS

    点评:专业化有待提升

    官网地址:http://www.etlschedule.com/

    --------------------------------------

    4. Moia

    点评:产品与项目是有区别的,不要总是在产品化与客户化之间徘徊。

    官网地址:http://www.adtec.com.cn/_d271218319.htm

    --------------------------------------

    5. ETL-Plus

    点评:功能全,遗憾的是东南倒塌。

    下载地址:[无]

    原文:http://www.itpub.net/forum.php?mod=viewthread&tid=1757788

    展开全文
  • ETL工具Kettle用户手册

    2021-02-25 15:26:31
    ETL工具Kettle用户手册
  • pyetl是一个纯python开发的ETL框架, 相比sqoop, datax 之类的ETL工具,pyetl可以对每个字段添加udf函数,使得数据转换过程更加灵活,相比专业ETL工具pyetl更轻量,纯python代码操作,更加符合开发人员习惯安装pip3 ...

    pyetl是一个纯python开发的ETL框架, 相比sqoop, datax 之类的ETL工具,pyetl可以对每个字段添加udf函数,使得数据转换过程更加灵活,相比专业ETL工具pyetl更轻量,纯python代码操作,更加符合开发人员习惯

    安装

    pip3 install pyetl

    使用示例

    数据库表之间数据同步

    from pyetl import Task, DatabaseReader, DatabaseWriter

    reader = DatabaseReader("sqlite:///db1.sqlite3", table_name="source")

    writer = DatabaseWriter("sqlite:///db2.sqlite3", table_name="target")

    Task(reader, writer).start()

    数据库表到hive表同步

    from pyetl import Task, DatabaseReader, HiveWriter2

    reader = DatabaseReader("sqlite:///db1.sqlite3", table_name="source")

    writer = HiveWriter2("hive://localhost:10000/default", table_name="target")

    Task(reader, writer).start()

    数据库表同步es

    from pyetl import Task, DatabaseReader, ElasticSearchWriter

    reader = DatabaseReader("sqlite:///db1.sqlite3", table_name="source")

    writer = ElasticSearchWriter(hosts=["localhost"], index_name="tartget")

    Task(reader, writer).start()

    原始表目标表字段名称不同,需要添加字段映射

    添加

    # 原始表source包含uuid,full_name字段

    reader = DatabaseReader("sqlite:///db.sqlite3", table_name="source")

    # 目标表target包含id,name字段

    writer = DatabaseWriter("sqlite:///db.sqlite3", table_name="target")

    # columns配置目标表和原始表的字段映射关系

    columns = {"id": "uuid", "name": "full_name"}

    Task(reader, writer, columns=columns).start()

    字段的udf映射,对字段进行规则校验、数据标准化、数据清洗等

    # functions配置字段的udf映射,如下id转字符串,name去除前后空格

    functions={"id": str, "name": lambda x: x.strip()}

    Task(reader, writer, columns=columns, functions=functions).start()

    继承Task类灵活扩展ETL任务

    import json

    from pyetl import Task, DatabaseReader, DatabaseWriter

    class NewTask(Task):

    reader = DatabaseReader("sqlite:///db.sqlite3", table_name="source")

    writer = DatabaseWriter("sqlite:///db.sqlite3", table_name="target")

    def get_columns(self):

    """通过函数的方式生成字段映射配置,使用更灵活"""

    # 以下示例将数据库中的字段映射配置取出后转字典类型返回

    sql = "select columns from task where name='new_task'"

    columns = self.writer.db.read_one(sql)["columns"]

    return json.loads(columns)

    def get_functions(self):

    """通过函数的方式生成字段的udf映射"""

    # 以下示例将每个字段类型都转换为字符串

    return {col: str for col in self.columns}

    def apply_function(self, record):

    """数据流中对一整条数据的udf"""

    record["flag"] = int(record["id"]) % 2

    return record

    def before(self):

    """任务开始前要执行的操作, 如初始化任务表,创建目标表等"""

    sql = "create table destination_table(id int, name varchar(100))"

    self.writer.db.execute(sql)

    def after(self):

    """任务完成后要执行的操作,如更新任务状态等"""

    sql = "update task set status='done' where name='new_task'"

    self.writer.db.execute(sql)

    NewTask().start()

    目前已实现Reader和Writer列表

    Reader

    介绍

    DatabaseReader

    支持所有关系型数据库的读取

    FileReader

    结构化文本数据读取,如csv文件

    ExcelReader

    Excel表文件读取

    Writer

    介绍

    DatabaseWriter

    支持所有关系型数据库的写入

    ElasticSearchWriter

    批量写入数据到es索引

    HiveWriter

    批量插入hive表

    HiveWriter2

    Load data方式导入hive表(推荐)

    FileWriter

    写入数据到文本文件

    总结

    到此这篇关于python ETL工具 pyetl的文章就介绍到这了,更多相关python ETL工具 pyetl内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

    时间: 2020-06-06

    展开全文
  • 阿里开源ETL工具DATAX

    2020-05-29 12:50:26
    阿里开源ETL工具DATAX
  • ETL-开源ETL工具-KETTLE-介绍.ppt
  • ETL工具数仓必备品.pdf

    2021-01-25 15:25:39
    回答:1、ETL 在数数据仓库角色 2、为什么建数据仓库需要ETL工具 3、如何选择ETL工具 4、ETL工具厂商的价值 5、拥有15年以上知名商用ETL工具历程
  • ETL工具SSIS的功能介绍

    2018-08-17 09:37:42
    ETL工具SSIS的功能介绍,ETL工具SSIS的功能介绍,ETL工具SSIS的功能介绍,ETL工具SSIS的功能介绍
  • 这些年,几乎都与ETL打交道,接触过多种ETL工具。现将这些工具做个整理,与大家分享。一 ETL工具【国外】1. datastage点评:最专业的ETL工具,价格不菲,使用难度一般下载地址:ftp://ftp.seu.edu....
  • ETL介绍与ETL工具比较
  • 这些年,几乎都与ETL打交道,接触过多种ETL工具。现将这些工具做个整理,与大家分享。一 ETL工具【国外】1. datastage点评:最专业的ETL工具,价格不菲,使用难度一般下载地址:ftp://ftp.seu.edu....
  • 常见的ETL工具有sqoop,nifi,kettle 等等,那么有了这些ETL工具,为什么还需要flink来做etl工作呢? 这是因为ETL工具只能做数据传输, flink则可以通过api或者udf/udaf/udtf做数据转化等工作
  • 数据仓库ETL工具箱 Data Warehouse ETL Toolkit.rar
  • Kettle 6.1 ETL工具

    2020-10-15 11:17:59
    Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
  • etl工具比较

    2020-01-17 11:39:58
    参考链接:《转载:开源ETL工具和商业ETL工具比较(译文)》https://blog.csdn.net/iteye_19311/article/details/82334793 六种 主流ETL 工具的比较 https://www.cnblogs.com/DataPipeline2018/p/11131723.html ...
  • ETL工具比较

    千次阅读 2019-05-10 11:16:18
    ETL工具比较 转:http://baijiahao.baidu.com/s?id=1601248654320751991&wfr=spider&for=pc 提取,转换和加载(ETL)工具使组织能够在不同的数据系统中访问,有意义且可用的数据。通常情况下,企业在了解...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,601
精华内容 1,840
关键字:

etl工具