精华内容
下载资源
问答
  • ETL数据处理

    千次阅读 2018-07-10 09:40:51
    ETL数据处理 推荐人 梅雨 推荐日期 7.8 完成日期 7.9 概要 ETL讲解 网址 ...type=note#/ 性质 读书笔记 备注 ETL数据处理 一、关键字分析 ETL(数据仓库技术):Extract-Transform-Loa...

    ETL数据处理

     

    推荐人

     梅雨

    推荐日期

    7.8

    完成日期

    7.9

    概要

    ETL讲解

    网址

     

    性质

    读书笔记

    备注

    ETL数据处理

     

     

     

     

    一、关键字分析

     

    ETL数据仓库技术):Extract-Transform-Load提取-转换-加载

    DBMS(Database Management System) 数据库管理系统

    DW:Data Warehouse 数据仓库

    ODBCOpen Database Connectivity)即开放数据库互连

    ODS操作型数据存储(operationaldatastore)是一种常被用作数据仓库临时区域的数据库

    二、ETL目的

    目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据构建数据仓库常用在数据仓库,但其对象并不限于数据仓库。DEL:用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端(数据仓库)的过程

    三、ETL作用

    ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去(数据源-----数据清洗----数据仓库模型-----数据仓库中去) 并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。ETL主要的一个技术手段

    四、数据治理步骤(ETL:抽取、转换和装载。

    4.1数据的抽取

      调研工作:1.数据是从几个业务系统中来2.各个业务系统的数据库服务器运行什么DBMS3.是否存在手工数据,手工数据量有多大4.是否存在非结构化的数据等等 5.当收集完这些信息之后才可以进行数据抽取的设计。

    1、对于与存放DW的数据库系统相同的数据源处理方法

      这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServerOracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select 语句直接访问。

    2、对于与DW数据库系统不同的数据源的处理方法

     (1)通过ODBC方式建立数据库链接——SQL ServerOracle之间。如果不能建立数据库链接

    2)通过工具将源数据导出成.txt.xls文件,然后再将这些源系统文件导入到ODS中。

    3)通过程序接口来完成。

    3、对于文件类型数据源(.txt,.xls),可以培训业务人员利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取。或者还可以借助工具实现。

    4、增量更新的问题

      对于数据量大的系统,必须考虑增量抽取。一般情况下,业务系统会记录业务发生的时间,我们可以用来做增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。

    4.2数据的清洗

      一般情况下,数据仓库分为ODSDW两部分。通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,在从ODSDW的过程中转换,进行一些业务规则的计算和聚合。

    1数据清洗

      数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

    不符合要求三类数据:不完整的数据、错误的数据、重复的数据

     

    (1)不完整的数据:主要是一些应该有的信息缺失对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时,补全后才写入数据仓库。

    (2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取

    (3)重复的数据:对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。

    4.3 数据转换

    (1)不一致数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码。

    (2)数据粒度的转换:业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。

    (3)商务规则的计算:不同的企业有不同的业务规则、不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用。

    五、 ETL日志、警告发送

    5.1ETL日志。

    1.是执行过程日志,这一部分日志是在ETL执行过程中每执行一步的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式。

    2.是错误日志,当某个模块出错的时候写错误日志,记录每次出错的时间、出错的模块以及出错的信息等。

    3.是总体日志,只记录ETL开始时间、结束时间是否成功信息。如果使用ETL工具,ETL工具会自动产生一些日志,这一类日志也可以作为ETL日志的一部分。

    记录日志的目的是随时可以知道ETL运行情况,如果出错了,可以知道哪里出错。

    5.2 警告发送

      如果ETL出错了,不仅要形成ETL出错日志,而且要向系统管理员发送警告。发送警告的方式多种,一般常用的就是给系统管理员发送邮件,并附上出错的信息,方便管理员排查错误。

    做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么长时间以来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量。可是在数据仓库系统中,ETL上升到了一定的理论高度,和原来小打小闹的工具使用不同了。究竟什么不同,从名字上就可以看到,人家已经将倒数据的过程分成3个步骤,

    其实ETL过程就是数据流动的过程,从不同的数据源流向不同的目标数据。但在数据仓库中,

    六、ETL特点

    6.1数据同步(经常性的,实时)

    它不是一次性倒完数据就拉到,它是经常性的活动,按照固定周期运行的,甚至现在还有人提出了实时ETL的概念。

    6.2是数据量

    一般都是巨大的,值得你将数据流动的过程拆分成ETL

    七.Kettle

    Kettle是一款国外开源的ETL工具,纯java编写,可以在WindowLinuxUnix上运行,数据抽取高效稳定

    Kettle家族目前包括4个产品:SpoonPanCHEFKitchen

    SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。

    PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)Pan是一个后台执行的程序,没有图形界面。

    CHEF 允许你创建任务(Job)。任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

    KITCHEN 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)KITCHEN也是一个后台运行的程序。

     


    展开全文
  • ETL数据处理工具-kettle

    2021-07-09 09:52:18
    时光数据处理工具(WebCarrier ETL)构建统一信息交换平台,实现对各应用系统的数据抽取,为新的系统应用、决策分析提供数据基础(数据仓库)。 建设统一的基础数据维护平台 WebCarrier ETL实现各应用子系统所共用的...

    ETL是什么
    ETL是Extract Transform Load三个英文单词的缩写 中文意思就是抽取、转换、加载。说到ETL就必须提到数据仓库。
    构建数据中心
    时光数据处理工具(WebCarrier ETL)构建统一信息交换平台,实现对各应用系统的数据抽取,为新的系统应用、决策分析提供数据基础(数据仓库)。

    建设统一的基础数据维护平台
    WebCarrier ETL实现各应用子系统所共用的基础信息的归纳整理,统一编码、统一维护、统一发布

    解决“信息孤岛” 问题
    WebCarrier ETL实现数据共享,统一原有异构系统的数据,挖掘潜在信息。

    展开全文
  • 接... ETL后的数据处理!!! 建表: 影音信息数据: create table gulivideo_ori( videoId string, uploader string, age int, category array<string>, length int...

    https://georgedage.blog.csdn.net/article/details/102996488

    ETL后的数据处理!!!

    建表:

    影音信息数据:

    create table gulivideo_ori(
    videoId string,
    uploader string,
    age int,
    category array<string>,
    length int,
    views int,
    rate float,
    ratings int,
    comments int,
    relatedId array<string>)
    row format delimited
    fields terminated by "\t"
    collection items terminated by "&"
    stored as textfile
    

     用户信息数据:

    create table gulivideo_user_ori(
    uploader string,
    videos int,
    friends int)
    row format delimited
    fields terminated by "\t"
    stored as textfile;

    show tables:

    +---------------------+--+
    |      tab_name       |
    +---------------------+--+
    | gulivideo_ori       |
    | gulivideo_user_ori  |
    +---------------------+--+

    导入数据:

    load data inpath "/guiliVideo/output/video/2008/0222" into table
    gulivideo_ori;

     

    load data inpath "/guiliVideo/user/2008/0903" into table gulivideo_user_ori;
    

    验证一下:

    业务分析:

    先来个图示:

    #1、统计视频观看数 Top10
    select videoId,views from gulivideo_ori order by views desc limit 10;

    结果展示:

    #2、统计视频类别热度 Top10

    即统计每个类别有多少个视频,显示出包含视频最多的前 10 个类别。

    所以根据之前https://georgedage.blog.csdn.net/article/details/102905208的经验

    需要列转行

    select videoId,category_name from gulivideo_ori lateral view explode(category) table_tmp as category_name limit 10;

    列转行结果: 

    然后根据这条语句在进行操作

    select  category_name as category,count(t.videoId) as hot 
    from (select videoId,category_name from gulivideo_ori lateral view explode(category) table_tmp as category_name) t 
    group by t.category_name 
    order by hot desc 
    limit 10;

    结果展示: 

    出现了问题,目前没有解决,后续再更!!!

    beeline下提交任务,报出Error: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

    展开全文
  • 针对传统抽取、转换、装载(ETL)架构在数据处理过程控制方面和数据产品开发效率方面的不足,提出一种基于大数据处理ETL架构。通过分析主流的ETL工具--Datastage的工作原理和ETL过程的特点,设计ETL元数据描述模块...
  • 对于不同的系统的数据数据形式多样,如bat文件、excel文件形式等,对于这些数据,我们后期需要如何取校对数据? 1、后台数据和前端的业务系统进行较多,如: (1)在后台找到一些例子,在前端进行查询,多个校对,...

    我们在做项目有很多时候,数据都是来自不同的系统。对于不同的系统的数据,数据形式多样,如bat文件、excel文件形式等,对于这些数据,我们后期需要如何取校对数据?
    1、后台数据和前端的业务系统进行较多,如:
    (1)在后台找到一些例子,在前端进行查询,多个校对,结果前后端一致,那么我们可以默认这是与系统一致的数据。
    注:这是针对系统的一些维度表,是以编码形式存在的,我们可以通过这种方式进行查找到对应的字段的含义。
    (2)可以对后台数据库中的表进行count()查询总体的数据量,用后台表的数据量和前端的数据量进行对比
    (3)对后台表中的分类字段进行count(
    ),可根据数据量来初步判断数据是否有问题

    select project_type ,count(*) from  project_info;
    

    (4)对于数据中字段的选择,尤其是关联字段,所选的关联字段是否会出现空值(因为数据仓库,很多时候都不会设置主键),若存在空值,那么就有可能是错了

    展开全文
  • 数据处理过程之核心技术ETL详解

    万次阅读 2016-05-24 11:29:54
    ETL (数据转换)就是对数据的合并、清理和整合。通过转换,可以实现不同的源数据在语义上的一致性。抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论ETL...
  • ETL数据抽取工具

    万次阅读 2018-06-19 16:20:51
    ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理数据挖掘的基础。旗鼓相当:Datastage与Powercenter...
  • 数据ETL

    千次阅读 2019-10-24 13:22:53
    1. ETL数据清洗 数据清洗的概念:“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理(OLAP)、数据挖掘和关键绩效指标(KPI)所产生的报表。”数据清洗, 是整个数据...
  • ETL数据分析流程

    千次阅读 2019-11-24 22:34:13
    认识ETL数据分析流程 一、商业BI中的应用 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目...
  • ETL数据抽取方案

    2020-10-07 14:01:15
    ETL 过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能,ETL 工具会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。 一、数据抽取 数据抽取是从数据源...
  • ORACLE ETL数据抽取

    千次阅读 2014-01-06 16:29:13
    数据仓库中的ETL详细的分为四个阶段:提取,传输,转换,装载。我先简单的介绍一下提取和传输的分类和方法:  一:提取  提取可以分为逻辑提取,和物理提取。  1:逻辑提取按照规模分为:完全提取,增量提取。...
  • etl数据仓库技术

    千次阅读 2017-02-09 08:56:55
    回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升到了一定的理论高度,和...
  • ETL 数据加载机制概述

    千次阅读 2018-10-29 15:00:08
    ETL数据抽取(Extract)、转换(Transform)、加载(Load)的简写,它的功能是从数据源抽取出所需的数据,经过数据清洗和转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去,是构建数据仓库最...
  • ETL数据抽取策略

    千次阅读 2011-02-04 23:21:00
    ETL的抽取策略 本文所提到的数据加载策略为OLTP系统作为源系统,并进行ETL数据加载到OLAP系统中所采用的一般数据加载策略。依循数据仓库的工作方式,原始资料由源数据库被抽取出来后,将在中间过程被写入...
  • ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。数据仓库是数据库的...
  • ETL数据采集方法

    千次阅读 2018-03-05 11:01:00
    该方式是根据抽取要求,在要被抽取的源表上建立插入、修改、删除3个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个增量日志表,ETL的增量抽取则是从增量日志表中而不是直接在源表中抽取...
  • ETL数据来源,处理,保存 1.ETL  数据来源:HDFS  处理方式:Mapreduce  数据保存:HBase   2.为什么保存在Hbase中  数据字段格式不唯一/不相同/不固定,采用hbase的动态列的...
  • ETL数据清洗概述

    千次阅读 2020-06-30 15:44:47
    一、数据清洗简介 数据清洗(Data Cleaning)原理即通过...数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数.
  • Oracle BI基础之ETL数据增量抽取方案

    万次阅读 2015-12-11 10:05:52
    ETL数据增量抽取方案 一、 ETL 简介 数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从而提供全面的数据共享,是企业商务智能、数据仓库系统的重要组成部分。ETL 是企业数据集成的主要...
  • ETL问题处理流程

    2019-08-08 13:48:24
    ¨问题陈述:在产险综合业务系统中存在保单信息不一致的问题。 ¨问题分解:保单表中的一些保单在保费信息表中没有。 ¨问题举例:保单表中有保单...¨问题影响:造成基础层保单及相关的业务数据均不入库。 ...
  • Spark 数据ETL

    万次阅读 2016-04-26 01:12:54
    Spark 数据ETL         说明 ...1、本文翻译自《Machine Learning with Spark》书中第三章第3,4节内容。...3、大家如果有看不懂的地方可以参考原书(网上可以搜到)。...数据处理以及转化 1、
  • 在 QCon 旧金山 2016 会议上,Neha Narkhede 做了“ETL 已死,而实时流长存”的演讲,并讨论了企业级数据处理领域所面临的挑战。该演讲的核心前提是开源的 Apache Kafka 流处理平台能够提供灵活...
  • 对一些数据,我们不能直接从数据库抽取到数据仓库,而是以另一种形式存在,如bat文件、txt文本等,那么对于这些文件数据该如何处理。 方法:(1)利用Oracle的SQL plus工具,对数据进行写入到原始的数据表(即再数据...
  • 认识ETL数据分析流程

    千次阅读 2019-07-10 16:39:26
    常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,愈偏向使用ELT,以便运用目的端数据库的平行处理能力。 一、商业BI中的应用 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,...
  • ETL数据更新

    千次阅读 2012-08-27 17:23:50
    很长一段时间,对informatica的数据加载方式,比较迷惑,只是大致知道怎么去使用,直到现在的工作环境中,看到有人在使用Update Strategy这个组件,目的只是为了能使数据得到更新(组件中,只是写这dd_update),个人...
  • ETL数据校验测试点

    2020-03-18 14:06:22
    ETL 一、 extract 从源系统提取数据。 需关注:  数据更新: 数据是否实时更新; 如果定时更新需校验更新时间,时间有开闭区间; 校验是全量更新还是增量更新; 更新后数据库与前端是否表现一致; 更新耗时是否过...
  • 大数据技术之数据采集ETL: 这里不过多的说数据采集的过程,可以简单的理解:有数据库就会有数据。 这里我们更关注数据ETL过程,而ETL前期的过程,只需要了解其基本范畴就OK。 在数据挖掘的范畴了,数据...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 37,728
精华内容 15,091
关键字:

etl数据处理