精华内容
下载资源
问答
  • 数据质量

    千次阅读 2014-02-20 20:07:57
    1. 何谓数据质量 何谓数据质量可从两个方面来理解: 1.1. 数据本身的数据质量 l 数据的真实性。 数据必须真实准确的反映实际发生的业务。 l 数据的完备性。 数据的完备性是说数据是充分的,任何有关操作的数据...
    1. 何谓数据质量
    何谓数据质量可从两个方面来理解:
    1.1. 数据本身的数据质量
    l 数据的真实性。
    数据必须真实准确的反映实际发生的业务。
    l 数据的完备性。
    数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。
    l 数据的自洽性。
    数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。
    数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。

    除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量。


    1.2. 数据的过程质量
    l 数据的使用质量
    数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。
    l 数据的存贮质量
    数据的存贮质量是指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,包括异地备份和双机备份等,美国的9.11事件和2004年底发生的印度洋海啸事件使越来越多的企业领导意识到备份尤其是异地备份的重要性;所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出。
    l 数据的传输质量
    数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。
    2. 数据质量和数据一致性
    在工作中我们发现,很多用户甚至一些数据仓库项目的开发人员经常将数据质量和数据仓库项目开发中的ETL过程的数据一致性混为一谈,错误的认为数据仓库项目(也即ETL过程)能够修复数据以提高数据质量,其实数据质量和ETL过程的数据一致性是两个不同的概念。
    ETL过程的数据一致性是指根据相同的业务理解(基于源系统模型和基于数据仓库模型),在源系统查询和统计的信息与在数据仓库中得到的结果在各个细节层次(包括明细层次)上都是相同的。数据一致性是ETL过程必须保证的。
    数据质量是存在于企业的源系统中的,如常见的客户代码的不规范,同一个客户在不同的系统中(例如业务处理系统和财务系统)有不同的代码,甚至同一个客户在同一个系统中也有不同的代码,以保险公司的业务处理系统为例,同一个客户先后在同一个保险公司投保,不同的业务员可能会输入不同的客户代码;更常见的是那些没有实现大集中的分布式的应用,同一个客户(如工商银行)在不同的分公司(如河南分公司和湖北分公司)投保,业务员很可能会输入不同的代码;再如,在业务处理系统中,有些录入人员为了录入的方便,常常将一些内容不输或者采用默认值,造成一些重要录入信息的缺失或错误。这些数据质量问题对我们的数据分析系统造成严重的干扰和破坏。
    数据仓库项目虽然不能够修复数据以提高数据质量,但能发现存在的部分问题从而提醒用户哪些数据是有质量问题的,给出用户一些改进的建议,同时在分析和决策时应降低对这些数据的依赖程度,也可以提供辅助的方法跟踪、监测数据质量问题。
    3. 数据质量的重要性
    数据信息是企业重要的战略资源,合理有效的使用正确的数据能指导企业领导作出正确的决策,提高企业的竞争力。不合理的使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。
    现在很多大型企业已意识到数据信息和数据质量的重要性,专门成立了数据中心来管理数据方面的工作。
    4. 数据质量不高的原因
    我们的数据来自于数据录入人员通过信息技术手段(开发计算机处理系统)输入到系统中的,因此数据质量不高来源于下面的两方面:
    4.1. 信息技术手段
    现代信息技术已足以保证数据的存贮和传输质量,不是本文讨论的重点,不过多论述。造成我们的计算机处理系统得到的数据质量不高的原因,很多情况是我们的计算机处理系统的用户界面不友好,不方便用户的录入,或是不符合用户常规的操作习惯,导致用户容易出错或是录入工作量大;对重要的录入信息没有加强效验。
    4.2. 数据录入人员
    由于数据录入人员的输入失误,或是违反操作流程(故意或不是故意的),是造成数据质量不高另一个重要原因。这个问题,可以从两个方面来看待:
    l 数据录入人员的责任心不强和业务素质不高。
    l 基层领导对数据质量的不重视。业务收入是基层的生命线,基层领导不会投入大量的人力和物力来抓数据质量,由于市场竞争的激烈,有时基层领导为了争夺客户甚至会让录入员作出一些违规的操作,基层领导对数据的认识与管理与高层领导对数据的需求形成矛盾,这一矛盾是造成数据质量不高的一个核心矛盾。
    5. 如何做好数据质量的管理工作
    如何做好数据质量的管理工作,笔者认为可以从三个方面抓起:
    5.1. 提高对数据的认识
    我们只有认识到数据在管理中的重要作用,才会反过来重视数据质量问题。要让企业的每一个员工都能认识到数据是企业重要的战略资源,企业的一切决策都来源于数据。没有正确的高质量的数据,就没有正确的决策。国外有一个谚语“Garbage in,garbage out”(进去的是垃圾,出来的还是垃圾),试问,我们决策时使用的是垃圾,又怎能期待得到好的决策呢?!
    5.2. 信息技术保证
    采用先进的开发技术,开发出用户界面比较友好的系统,减少操作员的录入工作量和出现错误的可能性;同时在开发前要充分考虑用户的需求,防止出现业务处理软件不能满足客户要求、操作员采取违规操作的现象。
    开发数据检测、检查工具,及时的发现数据质量问题,及时纠正,要知道,发现问题越早纠正的成本就会越低,一个蚁穴不及时修补会造成千里之的溃决。
    5.3. 完善的制度管理

    在企业上下建立起完善的数据负责制度,并与员工的绩效和奖惩挂钩,有条件的企业可以成立专门的组织和机构负责数据管理工作。


    http://zhidao.baidu.com/link?url=x355Citpwr_eYZaVXX2y-FkhYaKXt8NgI0IaFdXI5XIuYAQmzfjmx3EjLMU-elLof-K8NgcZrZ7VFIl3y5P1va


    统计数据质量

    http://wiki.mbalib.com/wiki/%E7%BB%9F%E8%AE%A1%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F

    展开全文
  • 数据质量数据质量八个维度指标

    千次阅读 2020-03-30 11:34:34
    数据质量数据质量八个维度指标 数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还...

    在这里插入图片描述
    数据质量与数据质量八个维度指标

    数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是企业经营管理数据治理的关键所在。
    数据的质量可以从八个方面进行衡量,每个维度都从一个侧面来反映数据的品相。八个维度分别是:准确性、真实性、完整性、全面性、及时性、即时性、精确性和关联性。
    在这里插入图片描述
    我们在比较两个数据集的品相的时候往往采用这种图形表示。比如说,常规来讲内部数据采集的准确性、真实性、完整性高,而全面性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重视程度以及采用的技术手段的先进性有关;外部数据集,比如说微博数据、互联网媒体数据等,其全面性、及时性和即时性都可以通过技术手段,如网络爬虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控制,在关联性方面取决于数据采集和挖掘的相关技术。
    我们也可以用这个模型来衡量公司内部各个职能部门数据的品相。下图是个示意,通过数据质量8大指标的评价,我们可以对企业内部数据治理有针对性地采取措施去提高企业的数据质量。
    在这里插入图片描述
    1.4.1 数据的准确性
    数据的准确性(Accuracy)是指数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。数据的准确性由数据的采集方法决定的。

    • 1.4.2. 数据的精确性
    数据的精确性(Precision)是指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。精确性,也可以叫精准性。精确性与我们数据采集的精度有关系。精度高,要求数据采集的粒度越细,误差的容忍程度越低。
    测量人的身高,我们可以精确到厘米,多次测量差异只会在厘米级别;测量北京到上海的距离,我们精确到公里,多次测量结果间的差异会在公里级别;采用游标卡尺测量一个零件的厚度,可以精确到1/50毫米,多次测量的结果间的误差也只会在1/50毫米间。采用的测量方法和手段直接影响着数据的精确性。

    • 1.4.3 数据的真实性
    数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取决于数据采集过程的可控程度,可控程度高,可追溯情况好,数据的真实性容易得到保障,而可控程度低或者无法追溯,数据造假后无法追溯,则真实性难以保证。
    为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集数据的真实性,减少人为干预,减少数据造假,从而让数据更加正确地反应客观事物。

    • 1.4.4 数据的及时性
    数据的及时性(In-time)就是数据能否在需要的时候得到保证。我们月初会对上个月的经营和管理数据进行统计汇总,这些数据能否及时处理完成,财务能否在月度关账后及时核算。数据的及时性是我们数据分析和挖掘及时性的保障。如果公司的财务核算复杂,核算速度缓慢,上个月的数据在月中才能统计汇总完成,等需要调整财务策略的时候,已经到了月底了,一个月已经快过完了。特别是公司做大了之后,业务覆盖多个市场、多个国家,数据不能及时汇总,会影响到高层决策的及时程度。
    数据的及时性与企业数据处理的速度和效率有直接的关系,为了提高数据的及时性,越来越多的公司采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,能够在数据上传系统之后自动完成绝大部分报表,从而保证数据处理的效率。计算机自动处理中间层数据是提高企业数据处理效率的有效手段。
    除了保证数据采集的及时性和数据处理的效率问题外,还需要从制度和流程上保证数据传输的及时性。数据报表完成了,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间。

    • 1.4.5 数据的即时性
    数据的即时性是指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据即时性就稍差。
    微博的数据采集,当用户发布了微博,数据立即能够被抓取和加工,会生成即时微博数据报告,并随着时间推移,数据不断变化,我们可以称作是即时采集和处理的。一个生产设备的仪表即时反应着设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作是即时数据。而当设备的即时运行数据存储下来,用来分析设备运行状况与设备寿命的关系,这些数据就成为历史数据。

    • 1.4.6 数据的完整性
    数据的完整性是从数据采集到的程度来衡量的,是应采集和实际采集到数据之间的比例。一条信息采集12个数据点,如我们采集员工信息数据的时候,要求填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间等12项信息,而某一员工仅仅填写了部分信息,如只填写了其中的5项,则该员工所填写数据的完整性只有一半。
    一个公司数据的完整性体现着这个公司对数据的重视程度。要求采集数据而实际上并未完整采集,只采集了一部分,这就是不完整的,往往是公司对数据采集质量要求不到位导致的。公司要求每个人都填写完整的个人信息表,而有部分员工拒绝填写,公司2000员工,只有1200人填写了完整的个人信息表,则这个数据集就是不完整的。
    另外,对于动态数据,我们可以从时间轴上去衡量数据采集的完整性。比如,我们要求每小时采集一次数据,每天会形成24个数据点,记录为24条数据,但是员工渎职,只记录了20次,那么这个数据集也是不完整的。

    • 1.4.7 数据的全面性
    数据的全面性和完整性不同,完整性衡量的是应采集和实际采集的差异。而全面性指的是数据采集点的遗漏情况。比如说,我们要采集员工行为数据,我们只采集了员工上班打卡和下班打卡的数据,上班时间的员工行为数据并未采集,或者没有找到合适的方法来采集。那么,这个数据集就是不全面的。
    我们描述一个产品的包装,仅仅描述了产品包装的正面和背面,没有记录产品包装的侧面,则就是不全面的。我们记录一个客户的交易数据,我们只采集了客户订单中的产品、订单中产品的价格和数量,而没有采集客户送货地址、采购时间,这个数据采集就是不全面的。
    腾讯QQ和微信的用户数据记录了客户交流沟通的数据;阿里和京东的用户数据记录了用户的购买交易数据;百度地图记录了用户出行的数据;大众点评和美团记录了客户餐饮娱乐的数据。对于全面描述一个人的生活的衣食住行各方面,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据。所以说,数据的全面性说一个相对的概念。过度追求数据的全面性说不现实的。

    • 1.4.8 数据的关联性
    数据的关联性是指各个数据集之间的关联关系。比如员工工资数据和员工绩效考核数据是通过员工这个资源关联在一起来的,而且绩效数据直接关系到工资的多少。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来。
    其实,我们本书探讨的企业大数据,每个数据集都是相关关联的,有些是直接关联的,比如员工工资数据和员工绩效数据,有些是间接关联的,比如说物料采购订单数据与员工工资数据。这些数据的关联关系是由公司的资源,包括人、财、物和信息等,连接起来的。如果有任何的数据集不能连接到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业数据关联性不足导致的。而数据的关联性直接影响到企业数据集的价值。

    展开全文
  • 不论是高校还是其他行业,管理信息系统数据质量的重要性不言而喻。在业务层面,数据质量问题不仅会影响单点业务的正常开展,还会影响与该业务相关的其他业务顺利开展;在决策层面,数据质量问题会直接影响到管理层的...

      不论是高校还是其他行业,管理信息系统数据质量的重要性不言而喻。在业务层面,数据质量问题不仅会影响单点业务的正常开展,还会影响与该业务相关的其他业务顺利开展;在决策层面,数据质量问题会直接影响到管理层的决策依据是否准确、客观。

      高校各类业务较多,应用系统繁杂,在系统建设过程中往往会忽视数据质量的重要性,没有采取足够的措施,导致随着系统和数据的逐步深入应用,数据质量问题一点点暴露出来,比如数据的有效性、准确性、一致性等。最坏的结果就是用户感觉系统和数据是不可信的,最终放弃了使用系统,这样也就失去了建设系统的意义。

      从高校数据质量管理工作进展情况来看,在思想上目前还没有引起高校CIO的足够重视,在管理制度、技术措施等方面还没有开展更多有效工作。数据质量是一个非常复杂的系统性问题,解决数据质量问题应该从数据质量管理制度、应用系统建设、数据质量监控三个方面开展,并且三者要有机结合形成联动,单靠某一方面的努力是不够的。我们要清楚一点,再完美的系统都存在数据质量问题,数据质量监控只是一种必不可少的补充手段,已经到了解决问题的下游。本文主要介绍一种基于规则库的数据质量自动监控平台实现方法及其在推动数据质量管理方面的重要作用。

    监控平台架构

      数据质量监控平台主要包括三个部分:数据层、功能层和应用层,平台架构如图1所示。

     

      1.数据层

      数据层定义了数据质量监控的对象,主要是各核心业务系统的数据,如人事系统、教学系统、科研系统、学生系统等。

      2.功能层

      功能层是数据质量监控平台的核心部分,包括数据质量检查规则的定义、数据质量检查规则脚本、检查规则执行引擎、数据质量检查规则执行情况监控等。

      3.应用层

      数据质量检查结果可以通过两种方式访问:一种是通过邮件订阅方式将数据质量检查结果发给相关人员,另一种方式利用前端展示工具(如MicroStrategy、Cognos、Tableau等)开发数据质量在线分析报表、仪表盘、分析报告等。前端展示报表不仅能够查看汇总数据,而且能够通过钻取功能查看明细数据以便业务人员能够准确定位到业务系统的错误数据。

     

    数据质量监控规则库是监控平台的核心,用来存放用户根据数据质量标准定义的数据质量检查规则脚本,供监控引擎读取并执行,同时将检查产生的结果存放到监控结果表中,表1是监控规则表的数据结构,其中的核心字段解释如下:

      system_flag:系统标识,用来标记监控规则属于哪个业务系统。

      scan_rule:监控规则,是可执行的SQL脚本,监控规则主要分两类,一类是单纯的数据校验规则,如检查是否为NULL、是否与字典表一致等;另一类是业务校验规则,有些数据从数据库角度出发是没有问题的,但是不一定符合业务逻辑,如项目的结项时间早于立项时间等。

      scan_rule_desc:监控规则描述信息,用来准确说明监控规则脚本的检查内容、检查逻辑等信息,供业务人员和技术人员详细了解监控规则含义。

      scan_object:监控对象,用来说明监控规则检查的数据对象或业务实体。

      check_type_name:检查类型名称,指监控规则检查数据质量的哪一种问题,如完整性、有效性、准确性、唯一性、一致性、合理性。

      scan_period:扫描周期,指该监控规则执行的频率,如每天、每周、每月。

      status:规则状态,指该监控规则是否启用,1表示启用,0表示关闭,监控引擎不会执行已经关闭的规则。

      last_scan_date:最近扫描时间,记录该规则上一次执行时间,用来和扫描周期联合计算当前时间该监控规则是否可执行。

      output_result:输出结果,指监控规则执行后输出的内容,让数据质量管理人员准确知道是什么数据存在问题,方便在业务系统中查找、修改。

      scan_scope:扫描范围,指监控规则扫描哪些业务数据,有并不是所有的业务数据都需要去检查,扫描范围在监控规则脚本中也有相应的体现。

      rule_level:规则级别,指该监控规则对应的数据质量问题对业务的影响程度,一般可分为高、中、低三个级别,高级别的数据质量问题必须在第一时间解决,否则会影响业务的正常开展。

      module_name:系统模块名称,指监控规则对应业务系统中哪个功能模块,主要用来将问题数据按系统功能模块来分类。

      charger_email:数据质量负责人邮箱,可以将该规则检查的结果发生到负责人邮箱中,方便查看问题数据。

      表2是监控结果表的数据结构,该表用来存放某监控规则在相应的扫描时间点检查出来的结果数据,通过scan_rule_id与监控规则表相关联就能知道结果数据的详细信息。

      表3是监控规则库中教学系统相关的一些监控规则实例,由于排版问题只列出规则的核心字段。

    监控引擎

      监控引擎是数据质量监控平台的发动机,负责执行监控脚本并产生监控结果,监控引擎是一个可供调度程序定时执行的存储过程,需要部署在一个具有读取其他业务库的数据库用户下,监控引擎执行流程如图2所示,具体执行过程说明如下:

      1.通过调度程序定时触发监控引擎执行,监控引擎可以根据实际情况灵活设置调度时间,一般设置在凌晨调度,减少对业务系统的影响。

      2.监控引擎顺序读取规则库中的数据质量检查规则,判断规则是否有效、判断规则是否满足扫描周期。满足条件后执行检查规则,并将检查结果输出到结果表中。

      3.一条规则执行完成后,更新该规则的last_scan_date(最近扫描时间)字段。

      4.将监控规则执行是否成功记录到日志表,尤其是执行失败的规则,并将日志发送给系统管理员,以便及时修复问题。

      5.执行完最后一条规则结束监控引擎的一次运行,同时将检查结果以报告的形式发送给相关业务人员。

    监控结果展现

      数据质量监控结果可以通过两种方式提供给相关业务人员,一种是在线可视化展示,业务人员可以随时直观地了解数据质量整体情况和详细情况,便于整改问题数据;另一种是通过邮件方式定期为业务人员推送数据质量报告。图3是用数据可视化工具Tableau开发的数据质量结果汇总仪表盘,通过该仪表盘可以查看当天每个系统、每条规则数据质量情况,通过钻取功能可以查看明细数据,方便准确定位具体的问题数据,以便在业务系统中修改。

      图4是数据质量变化趋势仪表盘,该仪表盘可以展示每个系统、每条规则近30天数据质量变化趋势,有助于业务人员了解业务系统数据质量的变化情况,并采取相应的整改措施。

      本文介绍的数据质量监控平台具有灵活部署、规则库动态扩展、调度按需配置等特点,技术人员根据具体数据问题可以灵活地自定义监控规则,对系统运行中发现的数据质量问题进行统一监控和管理。数据质量监控平台是解决数据质量问题的有效手段之一,为技术人员和业务人员提供了一个了解数据质量的便捷途径,能够有效地支持业务人员整改问题数据。高质量的数据不仅能够支撑日常业务顺利开展,还能够为决策支持系统的建设打下良好基础,该平台将成为打造绿色数据生态环境的有力支撑工具。

     

    展开全文
  • 数据质量管理

    千次阅读 2018-07-19 16:28:11
    数据质量问题 常见的数据质量问题包括 数据无法匹配 数据不可识别 数据不一致 数据沉余重复 实效性不强 精度不够 数据质量管理的目标 通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容,解决...

    数据质量问题

    常见的数据质量问题包括

    • 数据无法匹配
    • 数据不可识别
    • 数据不一致
    • 数据沉余重复
    • 实效性不强
    • 精度不够

    数据质量管理的目标

    通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容,解决数据质量问题,使数据的质量得以改善,使其满足数据需求方对数据质量的规则要求。

    数据质量评估

    包括但不止以下6个方面

    • 完整性 Completeness:度量哪些数据丢失了或者哪些数据不可用。
    • 规范性 Conformity:度量哪些数据未按统一格式存储。
    • 一致性 Consistency:度量哪些数据的值在信息含义上是冲突的。
    • 准确性 Accuracy:度量哪些数据和信息是不正确的,或者数据是超期的。
    • 唯一性 Uniqueness:度量哪些数据是重复数据或者数据的哪些属性是重复的。
    • 关联性 Integration:度量哪些关联的数据缺失或者未建立索引。

    数据质量评估模型

    要素分别为:基础模型、数据质量定义模型、数据质量控制模型、数据质量评价模型、数据质量辅助模型。

    1.基础模型。

    其他模型必须以基础模型中的计划和标准为依据。基础模型主要是映射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范。

      数据标准:分两部分,一部分是直接映射应用中的标准,例如源数据库标准;另一部分是针对新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准(例如是取英文还是汉语拼音,取几个字符)、值域定义标准等等新增表准的建立规范;
      采集计划:采集单位的每月上载的日度、月度、年度的采集计划;
      约束规则定义规范:主要描述质量定义模型中的语法构成;
      控制规则定义规范:针对服务器负载和采集表的及时性,要求建立的后台执行过程的控制方式的使用说明;
    2.数据质量定义模型。

    以基础模型为前提对数据质量的统一规范的定义,是数据质量分析评价的依据和基础。数据质量定义模型可以使用质量特性描述。数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性。
      (1一致性的量化评价指标:字段一致率、表间字段一致率、表间记录一致率。
      (2准确性的量化评价指标:准确率、差错率、问题字段个数、问题记录覆盖率
      (3)及时性的量化评价指标:采集项目及时率;单位入库及时率
      (4)完整性的量化评价指标:字段缺失数、缺失记录覆盖率、计划完成率。
    3.数据质量控制模型。

    数据质量控制模型以数据质量定义模型为基础,按照定义的检查范围和时间以自动或手工方式完成对数据质量的检查工作。在质量控制过程中违反了数据质量定义的,视为数据质量问题,数据质量问题直接通过数据质量的关键特性和指标反映出来。数据质量控制模型的控制内容表现在:对数据检查对象、数据检查频度、数据检查时间、数据检查方式等方面进行控制。
      (1)数据检查对象:是指根据采集计划设定需要检查的用户、专业数据表、数据库实体。
      (2)数据检查频度;是指根据数据表的采集计划和实际发生的频度,设定存储过程的检查执行频率。
      (3)数据检查时间:是指根据每日生产应用的密集时间以及数据发生到采集入库的密集时间,综合设定一个检查开始执行的时刻。
      (4)数据检查方式:是指执行检查过程的方式可以由后台过程自动控制,每间隔2小时自动检查一次;也可以由人工干预手动检查,任意时刻都可以执行检查(当然尽量选择数据库流量比较低的时候)。
    4.数据质量评价模型。

    数据质量评价模型,是以数据质量定义模型为依据,由数据质量控制模型操控执行,根据反馈的质量检查结果表,评议出数据质量的关键指标,实现对数据质量的量化诊断和评价。
      数据质量分析评价模型功能核心是,通过对基础模型中的采集计划和质量定义模型中的约束规则的处理,由控制模型调用可以实现检查分析的后台存储过程在实体库中执行检查,形成查询结果,再由分析程序进行分析、计算、分类、汇总,生成反映采集计划完成情况和数据质量量化指标的结果,存储到分析结果表中,从前台调用这个分析结果表,就可以生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告,展现所评估实体库的数据入库的及时率、数据上报的完整性、数据采集的一致性、数据入库的准确率。
      5.数据质量辅助管理模型
      数据质量辅助管理包括报告模版管理、权限管理、数据库资源占用情况等等。

    展开全文
  • 数据质量监控

    千次阅读 2019-04-20 22:10:03
    数据质量监控 原创: 木东居士 木东居士 4天前 0x00 概述 随着大数据时代的带来,数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效...
  • 数据治理之数据质量管理

    千次阅读 2020-04-02 16:56:33
    一.数据质量基本概念 数据质量管理是指为了满足信息利用... 数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善。 为什么有这么多人强调改善数据质量管理的重要性,用一种很抽象的比喻描述,如果...
  • 数据质量的理解 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越...
  • 本文根据汪广盛先生在【DQMIS 2020第四届数据质量管理国际峰会】现场演讲内容整理而成。 图1.1 DAMA(国际数据管理协会)中国区主席 汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会(DAMA)中国区主席,...
  • 目录数据质量检测完整性一致性准确性及时性 数据质量检测 数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个...
  • 数据质量分析

    千次阅读 2019-05-25 10:32:02
    数据质量分析是数据探索阶段重要一环, 数据不是完美的, 往往存在缺少数据、异常数据,不一致数据、噪声数据等。没有可信的数据,再好的模型性能都不太可能好, “垃圾进,垃圾出”。 数据分析方面的分析, 主要...
  • 数据质量评估方法

    千次阅读 2019-01-17 16:48:46
    数据质量评估方法数据质量评估方法数据质量评估具体检测的内容数据完整性检测数据准确性检测数据有效性检测数据时效性检测数据一致性检测数据质量评估流程 数据质量评估方法 数据质量评估体系主要参考以下指标: ...
  • 数据分析之数据质量分析

    千次阅读 2018-11-19 11:03:35
    数据分析的前提就是数据的质量,一个好的数据质量才是数据分析可靠性的必要保障。今天就来讨论一下数据质量的分析: 数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接...
  • 数据仓库中数据质量评价标准

    千次阅读 2020-06-07 17:33:42
    1、数据质量的定义 数据质量是指在特点情况下,数据的特性满足明确的和隐含的要求的程度。 2、数据评价标准框架 说明: 规范性:数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。 完整性:按照...
  • 利用元数据管理数据质量

    千次阅读 2018-01-18 14:45:35
    Apsara Clouder大数据专项技能认证:利用元数据管理数据质量通过本认证学习,学员可掌握数据仓库元数据的应用及核查方法,通过记录核查表,利用元数据,分析数据产生问题的原因,制定解决方案,提升数据质量。...
  • 谈谈ETL中的数据质量

    万次阅读 2020-05-29 14:08:57
    数据质量监控背景 当我们把数据导入数据仓库时,ETL中的每个步骤中都可能会遇到数据质量错误。比如与源系统的连接错误,抽取数据可能会失败。由于记录类型冲突,数据转换可能会失败。即使的ETL任务成功,提取的记录...
  • 数据质量监控笔记

    2019-05-04 22:58:53
    目录前言目标一、数据质量相关概念1、什么是数据质量:2、什么是数据质量管理3、为什么进行数据质量管理二、数据质量影响因素:1、需求过程引发2、数据源引发3、统计口径引发4、系统自身三、数据质量问题类型1....
  • 大数据之数据质量

    千次阅读 2019-06-01 13:54:12
    大数据之数据质量一、数据质量评估1. 完整性2. 准确性3. 及时性4. 一致性二、如何提升数据质量1. 事前定义数据的监控规则2. 事中监控和控制数据生产过程3. 事后分析和问题跟踪 一、数据质量评估 1. 完整性 2. 准确性...
  • 数据质量评估的六个主要维度 DAMA版权所有, 翻译修订by大数据庞涛13811850730 摘要 本文描述了评估数据质量的六个方面,由英国DAMA工作组制作 定义评估数据质量的维度 背景 ‘数据质量维度’这个词已经被广泛的...
  • 数据质量控制与数据治理

    千次阅读 2018-09-29 17:18:08
    数据质量控制与数据治理 背景 对于一个公司来说,最重要的资产是数据,数据的核心价值可以理解为核心商业价值,我个人认为是体现在两方面,一是能为企业带来更多的盈利,二是能为企业规避风险。 实现数据价值就需要...
  • 数据质量保证和数据质量检测

    千次阅读 2011-10-12 15:05:37
    数据质量保证和数据质量检测: 数据质量保证:无论是检测原始库或者是数据仓库,都是要有一个有质量保证的数据库。 以检测数据仓库的质量为例: 原始数据在抽取进入数据仓库后,通过检测数据仓库质量问题来修正...
  • 数据探索之数据质量分析

    千次阅读 2018-03-13 15:33:50
    数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指的是不符合要求,以及不能直接进行相应分析的数据。数据的质量分析侧重于脏数据的发现,而数据清洗则是对这些脏数据的修正或者丢弃。一般情况下...
  • 数据仓库(六)之数据质量

    万次阅读 多人点赞 2018-09-26 23:04:51
    数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较...
  • 数据质量评估标准

    万次阅读 2018-05-31 21:44:55
    数据质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。完整性完整性指的是数据信息是否存在缺失的...
  • 【数据治理】数据质量探查

    千次阅读 2019-05-28 15:42:54
    结合这段时间做数据质量分析的过程,构思了数据质量探查工具的实现思路(下图)。简单来说,这个工具应该是基于对表数据的分析结果,归纳并定义出质量检查规则,这两个过程应该是反复迭代进行。其中, 数据探查部分...
  • 数据质量与信息质量

    千次阅读 2014-11-13 13:33:10
    数据质量VS信息质量   最近在阅读的时候一直对数据质量和信息质量这两个词非常的困惑,Google之后对它们的区别做了一个整理。 数据是数字化的事实,比如考试分数为95分。所以数据质量的第一要素为正确性,如果95...
  • 数据仓库的的数据质量管理思路

    千次阅读 2019-06-30 13:55:05
    一、大数据的数据仓库数据质量 源端业务系统数据库 ---- > 数据仓库 中间有可能丢数据: 源端(100条) 数据仓库(90条) 中间有可能多数据: 源端(90条) 数据仓库(100条) 不丢数据: 源端(100条) 数据仓库...
  • 数据仓库的数据质量

    千次阅读 2013-11-06 09:32:55
    (一)数据质量的衡量标准、好处和问题   数据质量的好坏是决定一个数据仓库成功的关键,但是需要从那些方面衡量数据仓库中数据的质量呢? 可以从下列方面衡量系统中的数据质量:  准确性:存储在系统中的...
  • 1.数据质量的重要性 在日常工作中,我们经常会遇到各种数据问题。往往大项目会有专人去做持续的数据治理工作,而体量较小的项目其实也可以做一些轻数据治理-数据质量监控工作。 数据最终是要服务于业务价值的,那么...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 42,221
精华内容 16,888
关键字:

数据质量