精华内容
下载资源
问答
  • 【数据治理】数据质量探查

    千次阅读 2019-05-28 15:42:54
    结合这段时间做数据质量分析的过程,构思了数据质量探查工具的实现思路(下图)。简单来说,这个工具应该是基于对表数据的分析结果,归纳并定义出质量检查规则,这两个过程应该是反复迭代进行。其中, 数据探查部分...

    结合这段时间做数据质量分析的过程,构思了数据质量探查工具的实现思路(下图)。简单来说,这个工具应该是基于对表数据的分析结果,归纳并定义出质量检查规则,这两个过程应该是反复迭代进行。其中,

    • 数据探查部分是要实现一个对表数据进行探索式分析的功能,将与质量检查相关的内容内置为分析项,由用户根据字段元数据进行选择分析项目,最后根据分析数据确定是否要纳入质量检查范畴,并设计检查规则;
    • 质量规则部分允许用户在分析数据的过程中,随时将归纳出来的质量规则加入每个表的质量检查规则库。同时也支持用户在查看质量报告的过程中,随时下钻查看问题数据。

    在这里插入图片描述

    展开全文
  • 因此很多企业迫切的需要一款数据质量探查工具来提升数据质量,那么,一款数据质量探查工具应该具备哪些功能才能称之为优秀的工具呢? 一、这款工具需要提供开箱即用的功能,数据初次导入即自动进行数据内容剖析: ...

    当前越来越多的企业认识到了数据的重要性,数据仓库、大数据平台的建设如雨后春笋。但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。因此很多企业迫切的需要一款数据质量探查工具来提升数据质量,那么,一款数据质量探查工具应该具备哪些功能才能称之为优秀的工具呢?

    一、这款工具需要提供开箱即用的功能,数据初次导入即自动进行数据内容剖析:

    • 字段中非重复值的个数、所有值的个数
    • 字段中值出现的频率及占比
    • 字段中空值个数及占比
    • 字段中Null的个数及占比
    • 字段中值的最大最小值
    • 字段中值的数据模式个数、出现频率及占比
    • 字段中值按不同数据占位格式的个数、出现频率及占比
    • 值为数值类型时 的标准方差
    • 值为数值类型时百分位 为数值类型时百分位 分析
    • 值为数值类型时自动 求和 、计算 平均值 平均值

    二 、它需要能对数据见的关系进行剖析:

    1) 主键分析

    数据质量探查工具在数据导入时自动进行主键分析,发现所有满足或接近满足唯一性的主键字段,帮助数据管理员和业务人员可以进一步判断确定主键。

    2) 字段间依赖分析

    数据质量探查工具在数据导入时自动进行表内字段间依赖分析,分析字段间值的冲突情况。帮助数据管理员和业务人员可以进一步判断确定字段间依赖是否正常,并且分析结果可下钻到具体的详细记录。

    3) 表间关系分析

    数据质量管理平台可发现表间可能的关联关系,分析两表间相同/不相同的值个数及记录数量,能通过维恩图直观方便地进行结果展示,并生成E-R(实体关系模型)

    三、数据质量探查工具需要支持多人协:

    数据质量探查工具提供Notes(注释)、Bookmarks(电子书签)和时间日志(Event Logs)进行数据分析的跟踪、记录。方便查看发现的突出问题,所关心的地方和检查点等,方便团队进行问题沟通和解决。

    • 书签:在分析数据的时候可以创建书签,并且将共享给其他人后续需要查看点击。
    • 笔记:对发现的问题进行归类, 并评估业务影响度对发现的问题进行归类, 并评估业务影响。
    • 权限控制:可以设置不同的人员,比如财务人员能看到数据,其他不如财务人员能看到数据
    • 回退和钻取:数据质量探查工具提供自带的回退和下钻功能,方便进行剖析结果和诊断结果追踪,比如通过某个字段值的数据模式,可以轻松准确地钻取到相匹配的详细记录,可通过后退按钮显示之前的结果。

    四、业务规则管理:

    1) 数据质量探查工具提具有务规则管理功能,进行数据合规性检查,标准性检查等数据诊断工作,可创建、修改、删除、运行、快速查找业务规则,可快速定位业务规则所影响的实体表,有助于业务规则变更影响分析。

    2) 数据质量探查工具具有业务规则库管理模式,可对业务规则进行分类、优先级管理,支持多种格式导入导出,支持业务规则重用。

    3) 数据质量探查工具具有业务规则提供通过率阈值的灵活配置,方便企业灵活配置自己的数据质量诊断标准,快速适应企业不断变化的业务需求。

    4) 数据质量探查工具具有对业务规则重复多次运行,可对业务规则结果进行查看分析,可从符合/不符合业务规则记录数钻取到详细信息,进行具体的数据问题分析和定位。结果元数据与其他剖析元数据一样存储在数据质量管理平台资料库里,非常方便导入到Excel或报表工具中进一步进行图形可视化分析。

    五,提供可视化报表

    数据质量探查工具提供可视化报表,让数据将诶过一目了然。

    当然,若能提供调度配置,可对时序类数据进行作业调度及监控,做到异常数据的预警就完美了。

    华矩数据诊所在数据导入时及完成数据的完整性、一致性、准确性、唯一性、合规性等的探查与剖析,为企业的系统实用化,数据价值最大化提供了保障,协助用户构建了完善的数据质量管理体系,实现了数据服务平台对于数据质量管理的要求。

    华矩数据诊所依托华矩数据质量探查工具,通过界面向导式操作方式,通过简单配置即可完成数据质量检测规则的定义,无需编码,无需拼写SQL,数据质量检测工作由研发工程师转移到业务工程师,释放研发资源,降低项目人员成本,提高项目实施进度,同时兼顾项目成本与实施效率,为数据价值最大化奠定坚实的基础。

    展开全文
  • 行业分类-物理装置-一种表数据质量探查方法及装置.zip
  • python数据探查

    2021-01-29 11:12:25
    python数据探查
  • 这两天项目正在接入新的数据,包括户籍人口数据、学校数量、医院数量等,上午简单浏览了每个表的结构及数据内容,发现有几个数据与网上公开...一是数据汇聚难,汇聚上来的数据质量差。对接上来的各委办局的数据,以...

    这两天项目正在接入新的数据,包括户籍人口数据、学校数量、医院数量等,上午简单浏览了每个表的结构及数据内容,发现有几个数据与网上公开报道存在冲突,应该是问题数据,比如,北京市出租车公开报道是6.6万辆,但接入表数据显示有20多万辆出租车。其它几个问题也是类似的,与网上公布的数值差异较大。参与了近三个月的政府大数据项目,有几个体会:

    • 一是数据汇聚难,汇聚上来的数据质量差。对接上来的各委办局的数据,以汇总数据为主,字段内容普遍较少,缺少业务日期、空值、重复数据的情况屡见不鲜,这些浅层次的数据质量问题通过校验规则容易发现;
    • 委办局众多,业务领域分散,数据正确性难以判断。省级的政府波及到上百个委办局,每个委办局的业务系统又有好几个,对接上来的数据除了显性的质量问题容易判断之外,深层次的准确性难以判断,比如,户籍人口数量、医院数量等;
    • 数据清洗无从下手。由于大数据平台处于初建期,数据融合、统一维度还没有开始推进,因此,一旦出现数据项缺失、数据不一致等问题时,数据清洗是巧妇难为无米之炊,实现不了数据的自动较正,数据清洗也就仅限于剔重去空等。

    要解决上述几个问题,一方面要提高数据质量检查的智能化程度,通过爬取网上公开报道的各类统计数值,构建政府行业的指标库,通过与公开数据比对,发现接入数据存在的准确性瓿;另一方面要丰富政府行业的标准代码库,通过标准代码库去修正接入数据中相关代码存在的缺陷问题。上述两个指标库和标准代码库,可以通过SAAS的方式对外提供服务,既能提高实施项目的效率,也可以尝试数据运营。

    展开全文
  • 通过执行多种数据剖析规则,对目标表(或一段SQL语句)进行数据质量探查,从而得到其数据质量情况。目前支持以下几种数据剖析类型,分别是:数字值分析、值匹配检查、字符值分析、日期值分析、布尔值分析、重复值...

    通过执行多种数据剖析规则,对目标表(或一段SQL语句)进行数据质量探查,从而得到其数据质量情况。目前支持以下几种数据剖析类型,分别是:数字值分析、值匹配检查、字符值分析、日期值分析、布尔值分析、重复值检查、表达式匹配、参照完整性检查、值分布分析。数据剖析完成后可以通过日志中的链接查看其产生的剖析报告。数据剖析任务可以加入到作业流程中,以支持日常的增量数据探查,任务执行完后每个剖析规则均会返回剖析结果变量,可根据变量的值进行下一步的操作,比如发邮件通知数据的维护人员。

    1.) 设定剖析规则

    在任务管理中选择新建数据剖析任务,进入任务编辑页面,剖析对象页签中填写源连接和源表,也可在源表查询语句中输入一段SQL,可以对数据进行转换、过滤、获取增量等操作,语句支持嵌入变量。在剖析规则页签中添加多个剖析规则,选择要剖析的字段以及剖析类型,右侧的编辑按钮可进入高级设置页面。

    剖析任务在执行成功后,会产生一组剖析结果变量,主要是统计的异常值行数,可以在成功条件页签中判断变量的值,从而进行后续的处理工作。

    clipboard

    2.) 运行数据剖析

    和其它任务一样,数据剖析任务可以添加到作业流程中,可以串行或并行执行,剖析完成的行数将实时显示在日志的插入列中,执行成功后,可以点击执行信息栏中的剖析结果打开剖析报告页面。

    clipboard

    3.) 查看剖析报告

    点击日志中的剖析结果超链接,将弹出剖析报告页面,可查看所有规则的概要信息以及各规则的明细分析结果。

    clipboard

    点击左侧规则列表,查看各规则的详细分析数据,比如查看值匹配分析:

    clipboard

    点击红色箭头可以进一步查看明细数据,如点击其空值行数,将显示空值行数的明细数据:

    clipboard

    转载于:https://www.cnblogs.com/haohedi/p/9672867.html

    展开全文
  • Hive 数据质量检测

    2021-02-01 14:13:31
    可以检测Hive的元数据,比如Hive表元数据存在Mysql中,可以在Mysql中查询 mysql> desc TBLS; +--------------------+--------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | ...
  • 一、前言数据质量保障的关键的步骤是数据质量规则、数据质量指标,数据探查,数据保障机制和数据清洗,不管是在做数据质量或者打算做数据质量工作的朋友都可以详细研究下,应该会有帮助。本篇包含数质量...
  • 数据治理系列(四):数据质量管理

    千次阅读 2021-01-13 14:09:53
    数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得...
  • 数据质量SQL

    2020-05-18 18:55:32
    –聚合函数 select MAX(a.c) maxs,MIN(a.c) mins,SUM(a.c) sums,AVG(a.c) avgs,VAR_POP(a.c) pops from (select name as c from woker) a; –字段重复数 select max(a.c) repeats from (select COUNT(1) as c from ...
  • 数据探查

    2021-01-13 16:43:29
    如果当前数据质量无法支撑需求实现,寻求新的替代方案或项目回退。 内容 源表数据主键字段重复数。 源表字段空值/异常值的统计数。 源表之间关联关系。 源表字段的数据格式。 源表增量规则。 探查方式 字段探查 //...
  • 数据治理】自定义数据治理规则

    千次阅读 2019-07-22 16:02:26
    数据治理包括数据质量探查、数据清洗、数据脱敏等,这几个动作实际上都是针对表数据的判断或转换,为了增加系统的灵活性和扩展性,可以将其抽象为规则,通过Java Script等形式允许用户自定义扩展,概念图如下: ...
  • 数据探索之数据质量分析

    千次阅读 2018-03-13 15:33:50
    数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指的是不符合要求,以及不能直接进行相应分析的数据。数据的质量分析侧重于脏数据的发现,而数据清洗则是对这些脏数据的修正或者丢弃。一般情况下...
  • 数据质量管理过程是一个没有终点的过程,也没有统一架构原则。这里提供的是一种针对数据仓库项目可以简单实现的、可扩展的、一种相对比较完善的捕捉数据质量事件,同时对其进行量度和控制的方法。  本文提供一个...
  • 数据探查分析

    千次阅读 2021-05-27 15:56:00
    BeeDI提供任意数据的探查分析功能,通过探查可快速了解数据属性取值分布状况(有效值数,空值数、不同属性值数量百分比等),优化改善数据质量。通对数据量化分析可多维显示数据总数、算术和、平均值、最大值、...
  • 抓住以下几点,指标的命名一般不成问题:指标名称“名副其实”和“简洁易懂”遵照一定的行业惯例或者规范(如财务指标、电商经营指标)当业务规模大,相似的职能线多,相似的部门多了后,数据对齐的难度陡增(这一定...
  • python数据质量检查

    千次阅读 2018-10-24 14:25:59
    数据质量检查是在完成宽表数据开发后进行的,主要包括四个方面:重复值检查、缺失值检查、数据倾斜问题、异常值检查。1. 重复值检查1.1 什么是重复值重复值的检查首先要明确一点,即重复值的定义。对于一份二维表...
  • 虽然数据质量管理方法的价值似乎不言自明,然而太多的组织采用不明确的数据质量方案,从而导致问题被混淆、细节被忽视、工作重复多余而且效果欠佳。 一个战略性和系统性的方法能帮助您正确研究您的数据质量项目,...
  • 数据仓库之数据质量建设(深度好文)

    千次阅读 多人点赞 2021-09-24 11:17:29
    数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的...
  • 数据探查(一)

    千次阅读 2012-11-30 23:06:45
    上周接触了一下数据探查,发现数据探查对于数据质量是非常重要的一个环节,它是决定最后数据正确性的非常关键的一步。 数据探查阶段为ETL团队提供了指导,告诉他们需要使用多少数据清洗机制,并且使他们不会因为...
  • 数据质量管理--数据抽取和清洗

    万次阅读 2016-05-06 11:23:37
    web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。...3数据质量管理(TDQM) 我在公司
  • Python-数据质量分析

    千次阅读 2019-09-16 15:50:46
    数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。只有可信的数据才能保证数据挖掘的可靠。 数据质量分析的任务 数据质量分析的主要任务是检查...
  • 数据探查(三)

    千次阅读 2014-06-30 15:28:05
    昨天去面试,被问到数据探查心得,想了想,自己理解的数据探查还是比较浅显的,只是意识到了对于表内数据探查,即表内数据量、空值、关键字段、类型、数据格式等的探查,而没有站在更高的角度去想数据探查。   数据...
  • 文章摘自7月9日,华矩科技数据治理系列讲座,华矩科技创始人及董事长CEO带来分享:企业如何进行数据质量管理,从数据质量认知的发展入手,分析业务和IT建设中所隐藏的常见数据质量问题,从而引出企业数据质量管理的...
  • 数据质量管理

    2021-01-22 11:23:24
    数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和...
  • 主要探查表的数据量与数据质量,根据业务需求形成审计表 可以利用状态值来表示核心字段的覆盖情况 变化数据捕获系统 一般思路: 建立审计列,通过审计列判断 定时抽取T+1不是好的方案:时间戳(弱点:要求业务系统...
  • 银行金融监管与数据质量管理

    千次阅读 2020-09-29 10:13:28
    本文根据张春锐女士在【DQMIS 2020第四届数据质量管理国际峰会】现场演讲内容整理而成。 图1.1 某大型商业银行数据管理部统计处处长张春锐 演讲嘉宾介绍 - 张春锐 1997年加入某大型商业银行,曾从事城综网...
  • 数据探查(二)

    千次阅读 2013-02-28 23:23:41
    前些天写了一篇博客:数据探查(一),简要介绍了一下数据探查。但那时候只是刚刚接触,没有意识到数据探查的真正的重要性。  项目中,我们需要给其他系统对抽表数据,对抽表的数据就是将源表中的数据,完全对抽到...
  • 中国数据质量管理现状及发展趋势

    千次阅读 2020-09-29 10:14:49
    本文根据谭海华先生在【DQMIS 2020第四届数据质量管理国际峰会】现场演讲内容整理而成。 图1.1 华矩科技创始人及董事长 CEO 谭海华 演讲嘉宾介绍 - 谭海华 华矩科技创始人及董事长 CEO 中国管理科学...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,551
精华内容 1,020
关键字:

数据质量探查