精华内容
下载资源
问答
  • 2019-01-17 16:48:46

    数据质量评估方法

    数据质量评估体系主要参考以下指标:

    1. 数据完整性
    2. 数据准确性
    3. 数据有效性
    4. 数据时效性
    5. 数据一致性

    依据以上指标,针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执行中进行取舍。

    数据质量评估具体检测的内容

    数据完整性检测

    完整性,描述数据信息缺失的程度,是数据质量中最基础的一项评估标准。数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。数据完整性检测的步骤是

    1. 对于数据信息记录缺失的检测,可以通过对比源库上的表数据量和目的库上对应表的数据量来判断数据是否存在缺失。
    2. 对于字段信息记录缺失的检测,选择需要进行完整性检查的字段,计算该字段中空值数据的占比,通常来说表的主键及非空字段空值率为0%。空值率越小说明字段信息越完善,空值率越大说明字段信息缺失的越多。

    数据准确性检测

    准确性,用于描述一个值与它所描述的客观事物的真实值之间的接近程度,通俗来说就是指数据记录的信息是否存在异常或错误。例如业务员在上报系统上填写客户信息时,手误输错了某一信息,造成了数据库里存在的信息与客观事实不一样。数据准确性的检测较为困难,一般情况下很难解决。在某些特定的情况下,例如性别,年龄,出生日期,籍贯等信息可以通过校验身份证号来检测,前提是确保身份证号码是正确的。

    数据有效性检测

    有效性,描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。数据有效性检测的步骤是用户选择需要进行有效性检测的字段,针对每个字段设定有效性规则。有效性规则包括类型有效、格式有效和取值有效等。类型有效检测字段数据的类型是否符合其定义,例如可以通过求和来判断是否是数值型,通过时间操作来判断是否是时间类型。格式有效性检测可以通过正则表达式来判断数据是否与其定义相符。取值有效检测则通过计算最大最小值来判断数据是否在有效的取值范围之内。

    数据时效性检测

    时效性, 是指信息仅在一定时间段内对决策具有价值的属性。数据从生成到录入数据库存在一定的时间间隔,若该间隔较久,就可能导致分析得出的结论失去了借鉴意义。例如当天的交易数据生成后没有及时的录入数据库或者源库与目的库之间的同步延迟,则会导致统计结果和真实结果存在一定误差。

    数据一致性检测

    把待检测的表作为主表,首先用户确定一致性检测的主表字段,然后选择需要给定检测的从表和从表字段,设置好主表和从表之间的关联项,关联项可以是多个字段,但是关联项必须是拥有匹配值的相似字段。匹配关联之后检查主表和从表相同或者类似字段字段值是否一致。

    数据质量评估流程

    数据质量的评估流程首先确定要检测的数据质量指标和评估规则,然后编写相应的 SQL 脚本来检测分析数据,最后计算满足各个规则的数据的百分比得分。系统的综合得分的计算可以通过把每条规则的得分计算出来,然后综合后取平均值,但更为合理的方法就是可以把每条规则的得分按照给定的权重进行评价,做出一个合理的数据质量评价等级。由用户规定每个检测规则的权重,做出一个权重方案,然后按照各个检测规则的权重进行整体的计算统计,得到一个合理的数据质量评估得分。

    更多相关内容
  • 4.电子病历分级评价数据质量评估具体要求-2021年修订.pdf
  • 数据质量评估框架.pdf

    2019-07-03 11:15:39
    数据治理 资产盘点 监控质量标准。数据治理 资产盘点 监控质量标准 数据治理 资产盘点 监控质量标准
  • 数据质量评估作为数据质量管理中的必要前提和基础,目前缺乏一种定量的系统的方法对网管数据质量进行评估。针对这种情况,本文提出了一种网管系统数据质量评估模型,并阐述了该模型的构造方法和计算方法。
  • 广域航空监视系统多雷达数据质量评估,刘天宝,蒋砚军,本文旨在对广域航空监视系统中的多部雷达信息特点进行研究,提出一种雷达数据质量评估的方法,通过该方法获取的评估结果能够有效
  • 文章提出基于交互验证的数据质量评估方法,在最小均方误差准则下,建立最优的交互验证模型,对数据质量作评估。最后,通过对成都市的生活用水量的实证分析表明,运用交互验证方法,可使数据质量的评估更加合理,符合实际...
  • 数据质量评估体系构建与评估治理实践.pptx
  • 到目前为止,国际上既没有形成系统化的数据质量评估标准,也没有建立完整的数据质量评估体系。通过对国际和国内数据质量相关内容的研究,分析了大型企业对数据质量的需求,提出了一个数据质量元模型框架结构,构建了...
  • 数据质量评估的六个主要维度 DAMA版权所有, 翻译修订by大数据庞涛13811850730 摘要 本文描述了评估数据质量的六个方面,由英国DAMA工作组制作 定义评估数据质量的维度 背景 ‘数据质量维度’这个词已经被广泛的...

    数据质量评估的六个主要维度
    原文下载: https://download.csdn.net/download/bigdatapang/12125767

    	DAMA版权所有, 翻译修订by大数据庞涛13811850730
    

    在这里插入图片描述

    摘要
    本文描述了评估数据质量的六个方面,由英国DAMA工作组制作

    定义评估数据质量的维度

    背景

    ‘数据质量维度’这个词已经被广泛的在业内使用了很多年,然后一直没有一个统一的标准。

    数据质量从业者也总是感到困惑,而商业组织的领导们就更迷惑了。

    哲人苏格拉底说:智慧从定义术语开始。因此本文旨在定义关键质量维度并给出上下文,以便能形成大家一致的共识。

    卡尔·R·波普爵士说过:“我没有说定义事物不能帮助链接具体问题,但是我强调的是一个术语能否可以定义出来和大多数问题确实不相关”。基本上,大家相互理解是非常非常必需的。这再次强调了本文的维度定义是帮助我们如何交流数据质量,而不是为了说明数据本身的含义和如何展现。

    2012五月, DAMA UK 召集志愿者参加一个工作组来考虑出版和发布一些最佳实践,得到了大家的热烈响应,同时印证了本项工作的意义。

    其他数据管理职业组织也一直支持本项工作,如 Julian Schwarzenbach, Chair of the BCS Data Management Specialist Group和 Gary Palmer, charter member of IAIDQ to join the working group.

    目录

    定义评估数据质量的维度 1
    背景 1
    什么是数据质量维度? 3
    上下文 3
    应用 3
    如何使用数据质量维度指标 4
    六个核心数据质量维度 5
    完整性 6
    独特性 7
    时效性 (时序性) 7
    有效性 8
    准确性 9
    一致性 10
    术语表 12
    作者 12
    参考文献 13

    什么是数据质量维度?

    一个数据质量 (DQ)维度是数据管理从业者基于已有的一些标准用来评估和衡量数据质量的一个特征*方面。
    例如:

    • 测试数据有93%,还差7%,这是完整度;
    • 测试数据的准确度是84%

    一个DQ 维度不能和另外一个DQ维度类似和混淆。如:
    • 其他数据管理的方面如数据仓库重的维度或数据立方体中的维度;
    • 物理学中描述一个结构或物体的时间或空间维度

    上下文

    本文列出的最佳实践案例可以帮助数据质量从业者给他们的组织查看和描述他们的数据质量.

    本文定义了六个通用的标准的数据质量维度.这可以帮助在考量数据质量的时候消除不一致的理解,消除理解上的困惑.建议数据质量从业者采用这些维度和定义作为评估和描述数据质量的通用标准.当然,某些场景里不是所有的维度都能全部用的上.

    企业组织使用这些维度来评估贫乏的数据的冲击,从费用,声誉和法律法规等角度来看.

    应用

    本文提供了一个数据质量评估的检查列表,它不是一个强制性的列表.这个列表会根据不同的商业和工业需求而不同.

    为了帮助应用本文的这些评估维度,每个维度都给出了一个仔细设计的学院样例. 这样例是精心挑选出来的,具有普遍的应用意义.

    在尝试使用本文数据质量维度之前,这个组织需要为要评估的数据质量达成一致的质量规则. 这些规则基于这六个数据质量维度来开发,基于本组织的数据需求和如果不遵照这个质量规则会带来什么影响.比如:

    • 错误的和空缺的电子邮箱地址对任何一个市场活动都有巨大的影响;
    • 不精确的个人信息细节可能会导致丢失销售机会或者增加客户抱怨;
    • 货物可能被运算到错误的地址;
    • 不正确的产品测量数据会导致严重的运算问题,比如产品装不进卡车或者预定了过多的卡车;

    数据一般只有在能支持业务过程或者组织决策时才有真正的价值。大家共识的数据质量规则应该考虑到数据能提供的价值。如果确认这些数据在特定场景有重大价值,那么在该场景下需要更加严谨精确的数据质量规则。

    如何使用数据质量维度指标

    选择数据质量的维度和相关指标应该基于商业场景,需求,和风险水平等。注意每一个维度都有不同的权重,同时未来获得更准确的数据质量,特变需要确定每一个维度对于整体数据质量的影响有多少。

    一个典型的数据质量评估方法可以如下:
    确定哪一个数据项需要为了数据质量进行评估,典型的就是那些对于业务运行和管理报告起到关键作用的数据项。

    1. 评估应该哪一个数据质量维度以及相关权重;
    2. 对于每一个数据维度,数值定义和取值范围代表着数据质量好坏。请注意,一个数据集可能支持多种需求,可能还需要多种数据质量评估手段;
    3. 对数据项应用评估标准;
    4. 审查结果并且决定数据质量是不是可接受的;
    5. 数据清洗和数据处理过程优化(防止错误重复)
    6. 阶段性重复上述过程来监测数据质量趋势

    数据质量审计的结果可以判断出该数据支持特定商业场景的好与坏。要看数据是不是很好地支持特定的商业需求会需要多种不同的数据质量检查。如果一个商业需求不能够足够地反映到数据质量规则里,那么数据质量检查就不能提供有效地评估。同样的,当要重复做数据质量检查的时候,一定要看商业数据的需求是否与上次发生了改变。

    尽管大部分数据质量维度可以通过分析数据本身获得,但是准确评估数据只能通过下面两种:
    • 针对代表事实的数据进行评估,如员工何时考察一个项目;
    • 针对权威数据集进行评估,如通过投票列表来检查客户详情;

    在这里插入图片描述

    图1-不同数据维度应用的范例

    六个核心数据质量维度

    1. 完整性
    2. 独特性
    3. 时效性
    4. 有效性
    5. 准确性
    6. 一致性

    完整性

    主题 完整性
    定义 针对’百分百完整’获取数据的比例
    参考 定义什么是百分百完整的商业规则
    度量 非空/非奇异点数据的比例
    范畴 0-100% , 针对衡量的关键数据,记录,或数据集数据库等
    度量单位 百分比
    度量类型:
    • 描述型
    • 连续型
    • 离散型 描述型
    相关维度 有效性和准确性
    其他 如果一个数据项至关重要,要获取到100%的完整性, 有效性和准确性还将会检查数据是不是正确地获得了100%完整.
    举例 学校新生的父母需要完成一个调研表,包括健康状况,紧急联系方式,并确认姓名年龄家庭住址和学生生日等.

    场景:

    秋季学期第一个星期末,针对联系表做了一个数据分析’首要紧急联系人电话号码’.学校有300个学生,294个人有记录,所有完整性是294/300=98%
    编程逻辑 Count ‘First Emergency Contact Telephone Number’ where not blank in the Contact table/ count all current students in the Contact table.

    注脚: 1. 先考察关键数据的完整性, 非关键数据是否完整或许不那么重要

    独特性

    主题 独特性
    定义 如何唯一确定一件事至关重要
    参考 数据自身的度量,或它的对标数据项或数据库
    度量 分析真实世界和数据集里面的数据记录的可比性. 真实世界的事务可以由更可信的数据集或相关外部比对来决定.
    范畴 用单一数据集去比对所有数据集(译者加:看有没有重复或可被替代)
    度量单位 百分比
    度量类型
    • 描述型
    • 连续型
    • 离散型 离散型 (译者加: 男/女, 是/否等)
    相关维度 一致性
    其他 取决于环境因素
    举例 一个学校现有120的学生和380个以前的学生(总共500人).可是学生数据库显示有520个不同的学生的记录.这可能包括Fred Smith和Freddy Smith算成了不同的人,事实上学校只有一个叫Fred Smith. 这代表了500/520 x 100 = 96.2%的独特性.
    编程逻辑 (Number of things in real world)/(Number of records describing different things)
    外部参考 IAM 资产信息质量手册
    数据管理原理, Keith Gordon

    注脚: 1. 独特性就是首先要检查重复度有多少

    时效性 (时序性)

    主题 时效性
    定义 数据从时间的角度所反映的现实
    参考 真实世界记录事件的时间.
    度量 时间差
    范畴 任何数据项,记录,数据集和数据库
    度量单位 时间
    度量类型
    • 描述型
    • 连续型
    • 离散型 描述型和连续型
    相关维度 准确度,因为准确度肯定会因为时间而减弱
    其他 取决于业务的需求
    举例 Tina Jones 2013年6月1日提交了紧急联系人的细节,但是6月4日才被更新到学生数据库.这显然有了三天的延迟,因为系统变更的服务时间是两天.
    编程逻辑 Date emergency contact number entered in the Student database (4th June 2013) minus the date provided (1st June 2013) = a 3 Day delay.

    注脚: 1. 每个数据集会有一部分因时间变化的动态数据,也会有比较稳定静态的数据.

    有效性

    主题 有效性
    定义 数据只有服从业务属性(格式,类型,范围)才是有效的
    参考 数据库,元数据或文档规则,相关的数据类型(字符串,整数型,浮点型,指针型等), 格式(长度,数量等)和范围(最小,最大,或在允许的数值范围内)
    度量 数据元数据或文档对比的结果
    范畴 所有数据都需要验证有效性,有效性原则适用于所有层级
    度量单位 百分比:有效数据集比数据集
    度量类型
    • 描述型
    • 连续型
    • 离散型 描述型,连续型,离散型
    相关维度 准确性,完整性,一致性和独特性
    其他 强制性的
    应用性
    举例 英国中学的每个班级都会有个班号,包括三个教师名字首字母和两个年份,如AAA99,三个大写字母两个数字.

    场景 1:
    一个9年级新老师, Sally Hearn (没有中间名字), 只有两个名字首字母.那必须决定怎么应用两个首字母,否则就不符合数据库的入库规则,’SH09’这样的班号就入不了库.后来决定补充个’Z’字母凑成: “SZH09”, 不过这样就不够精确了.更好的解决方案是修改数据库入库规则来接受两个或三个首字母和一个或两个数字.
    场景 2:
    英国小学的入学年龄是填在入学申请表上的.输入数据库的时候检查规则是4-11岁,如果表上填有14岁或者空着,数据库就认为是无效数据而禁止入库.
    编程逻辑 Scenario 1:
    Evaluate that the Class Identifier is 2 or 3 letters a-z followed by 1 or 2 numbers 7 – 11.

    Scenario 2:
    Evaluate that the age is numeric and that it is greater than or equal to 4 and less than or equal to 11.

    准确性

    主题 准确性
    定义 数据描述真实世界对象或要描述的事件的正确程度
    参考 理想的真实世界的事实是通过严格的科研建立起来的.可是科学研究不容易,通常使用的第三方参考数据来源于公认的同年的可信材料.
    度量 数据能够反映出真实世界对象或者事务的真实度.
    范畴 任何真实世界物体或者能够被数据描述的,可以被转化为数据项,记录,数据集或数据库
    度量单位 通过数据准确性检测的百分比.
    度量类型
    • 描述型
    • 连续型
    • 离散型 描述型,如关键研究或对对可信数据的参考说明
    连续型,如学生年龄
    离散型,如记录的年龄
    相关维度 有效性是直接相关的质量维度,因为不有效就谈不上准确.
    其他 必须, 如果不准确就不能应用
    应用
    举例 一个欧洲学校从每年九月报名人员收到申请书,同时要求在入学年的8月31日以前年满5周岁.

    在这种情况下,美国公民在申请欧洲学校的时候填写的生日用美国日期格式月/日/年,而欧洲的格式是日/月/年, 这就导致了月和日的顺序颠倒. 结果,生日是09/08/YYYY实际上是08/09/YYYY的孩子就符合了8月31日前五周岁的入学要求.

    这个现象,实际上是区域格式的差别,经常会导致数据不够准确.
    编程逻辑 ((Count of accurate objects)/ (Count of accurate objects + Counts of inaccurate objects)) x 100
    Example: (Count of children who applied aged 5 before August/YYYY)/ (Count of children who applied aged 5 before August 31st YYYY+ Count of children who applied aged 5 after August /YYYY and before December 31st/YYYY) x 100

    一致性

    主题 一致性
    定义 当对比两个或更多的事件代表数据时根据定义口径没有差异
    参考 本数据的度量或跟它对应的另一组的数据集或数据库
    度量 模式分析或数值频率
    范畴 跨多数据集的一致性分析或跨多数据项的数据值和格式的检查.处理过程包括:人为手工,自动,电子或文本处理.
    度量单位 百分比
    度量类型
    • 描述型
    • 连续型
    • 离散型 描述型和离散型
    相关维度 有效性, 准确性和独特性
    其他 数据一致不代表有效和准确
    举例 学校行政: 学生的生日和存在学生数据库里面的数据格式和数值是一样的.
    编程逻辑 Select count distinct on ‘Date of Birth’

    其他数据质量的考量因素
    理解和使用好六个核心维度是至关重要的.然而,还会有一些其他因素会影响到有效使用数据.甚至六个数据质量维度都满足,该数据还是可能不会有预期分析结果.
    数据可能比较完美地符合完整性,独特性,时效性,有效性,准确性和一致性. 然而如果数据都是英文的而使用者又不懂英文也就没有用了.

    针对数据询问如下问题或许能有所帮助:

    数据可用性 – 它好理解吗? 简单吗? 有关联性吗? 能访问可维护吗?是在某个层级上也准确吗?

    时间问题(不是时效和时序问题) – 法规执行如果有变化(比如到期了),这些数据还能有效吗?

    数据灵活性 - 能兼容和与其他数据进行比对吗? 能复用吗?能复制吗?

    数据置信度 – 有数据治理,保护和安全机制吗? 数据的口碑怎么样? 可以得到确认和证实吗?

    数据代价 – 该数据性价比好吗? 能数尽其用吗? 会侵犯公众隐私和公共安全吗? 会影响公司的法律责任吗? 会破坏企业形象和口碑吗?

    术语表

    术语 定义
    维度 通常是一个深思熟虑总结出来的通用属性
    描述型 由算法检查, 产生于公认的数据或应用研究. 比如’最长’,模式序列, 公认的数据如邮政编码,或专家讨论等.
    连续型 周期性地检查,如年龄,体重,身高,随时间还会变化.
    离散型 检查数据是不是孤立的绝对值,如性别,生日,出生地
    数据项 数据记录的一个独立字段,一般指数据库中的一列.
    记录 一个数据记录就是一组相关数据,一般是数据库的一行数据
    数据集 一个数据集就是一组数据,一般就是一个二维数据表
    数据库 有组织地大批数据
    度量 建立该维度的程度范围的计算单位
    范畴 该维度的应用范围
    度量单位 计算的方式方法的程度和范围
    相关维度 定义相关联的质量维度
    可选 是不是必须要求的
    事务 ? 数据项,数据集,数据库等
    参考 针对要考量的维度找出关联的
    编程逻辑(伪码) 用简单的英语表示出如何编写一个符合逻辑的程序

    原文下载: https://download.csdn.net/download/bigdatapang/12125767
    作者

    • Nicola Askham - The Data Governance Coach; DAMA UK Committee Member
    • Denise Cook - Senior Manager, Data Governance, Security & Quality, Lloyds Banking Group, Fellow of the BCS
    • Martin Doyle - CEO, DQ Global
    • Helen Fereday - Data Management Consultant, Aviva UK Health
    • Mike Gibson - Data Management Specialist, Aston Martin
    • Ulrich Landbeck - Data Management Architect, Microsoft Corporation
    • Rob Lee - Group Head of Information Architecture, Lloyds Banking Group
    • Chris Maynard - Director, Transforming Information Ltd
    • Gary Palmer - Chief Alchemist, Information Alchemy; Charter Member IAIDQ
    • Julian Schwarzenbach - Director, Data and Process Advantage; Chair, BCS Data Management Specialist Group

    参考文献

    • DAMA Body of Knowledge – First Edition
    • DAMA Dictionary of Data Management DAMA Body of Knowledge – First Edition • DAMA Dictionary of Data Management - 2nd Edition
    • IAIDQ Glossary
    • Institute of Direct Marketing Award in Data Management
    • Institute of Asset Management Asset Information Quality Handbook
    • Siemens Industry Online Support
    • Wikipedia Data Consistency Entry
    • Execution - MiH
    • The Practitioner’s Guide to Data Quality Improvement - David Loshin
    • The TIQM Quality System for Total Information Quality
    • Management – Larry English (MIT Information Quality Industry Symposium, July 15-17, 2009)
    • Data Quality, The Accuracy Dimension - Jack E Olson
    • Improving Data Warehouse and Business Information Quality - Larry English

    This paper represents the views of DAMA UK and the Data Quality Dimensions Working Group and not necessarily the viewpoint of the organisations which the authors work for.

    |–|--|
    | | |

    展开全文
  • 镇街生产总值统计指标数据质量评估办法.doc
  • 大数据-算法-基于匹配性的GDP数据质量评估研究.pdf
  • 通用数据质量评估模型及本体实现 张晓冉 袁 满 (东北石油大学计算机与信息技术学院 黑龙江大庆 163318)
  • 基于粗糙集和BP神经网络的试验数据质量评估.pdf
  • 做过大数据的伙伴应该都清楚,数据的质量是直接影响着数据的价值,...环比数据相比正常 最终,在根据实际的业务情况对数据质量规则进行梳理完成之后,就可以输出一个数据质量校核规则梳理的文件(可以是Excel格式)。

    做过大数据的伙伴应该都清楚,数据的质量是直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是企业经营管理数据治理的关键所在。

    而最近我们在所进行的数据治理项目的过程中就对数据质量标准和质量规则进行了梳理,数据的质量是从六个维度进行衡量,每个维度都从一个侧面来反映数据的品相。
    根据检验复杂的程度由低到高,这六个维度分别是:完整性、及时性、唯一性、一致性、规范性和准确性。

    在这里插入图片描述
    那么,相应的每一个检核维度又可以参考以下的质量规则来对数据进行校核:
    完整性

    • 空值或者无效:检查字段是否为空;检查数值是否为0
    • 记录数异常:检查源表和目标表的记录条数是否一致

    及时性

    • 时间切片缺失:检查是否有缺失日期数据

    唯一性

    • 存在冗余:检查是否有重复数据(技术主键和业务主键)

    一致性

    • 映射异常:源表和目标表中直接映射的字段值相同
    • 无法关联:检查外键是否正确
    • 违反交叉验证规则:数值交叉校验规则和特定值交叉校验规则

    规范性

    • 违反码值规范:值域约束——代码表值域约束
    • 违反格式规范:日期格式是否正确;利用通用格式规则对字段进行检核,如身份证

    准确性

    • 值域异常:值域约束(指定有业务含义的数值值域和文本值域)
    • 时序波动异常:单一维度分布稳定性校验(维度/度量);环比数据相比正常

    最终,在根据实际的业务情况对数据质量规则进行梳理完成之后,就可以输出一个数据质量校核规则梳理的文件(可以是Excel格式)。

    展开全文
  • 基于Android的ECG数据质量评估系统.pdf
  • 最好是免费的,有试用版也ok,开源的也可以。最好是那种对数据质量评估/分析有量化结果的表格的,谢谢各位。
  • 数据质量评估 无家可归者管理信息系统 (HMIS) 的数据质量评估工具
  • 针对基于微聚集技术的匿名数据,提出了一个质量评估模型,该模型从匿名数据的可用性、安全性以及两者的权衡三个角度来评估匿名数据的综合质量。实验结果表明,所提出的模型可以有效地评估基于微聚集的匿名数据的质量...
  • 数据质量评估标准

    万次阅读 2018-05-31 21:44:55
    数据质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。完整性完整性指的是数据信息是否存在缺失的...

    数据质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。

    完整性

    完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量更为基础的一项评估标准。

    数据质量的完整性比较容易去评估,一般我们可以通过数据统计中的记录值和值进行评估。例如,网站日志日访问量就是一个记录值,平时的日访问量在 1000 左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。再例如,网站统计地域分布情况的每一个地区名就是一个值,我国包括了32个省和直辖 市,如果统计得到的值小于32,则可以判断数据有可能存在缺失。

    一致性

    一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。

    数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,例如手机号码一定是13位的数字,IP地址一定 是由 4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在0到1之间的。

    一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的值映射到标准的值上就可以了。

    准确性

    准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。更为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。


    数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用较大值和最小值的统计量去审核。

    一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。

    当然如果统计的数据异常并不显著,但依然存在着错误,这类值的检查是更为困难的,需要通过复杂的统计分析对比找到蛛丝马迹,这里可以借助一些数据分析工具,那么具体的数据修正方法就不在这里介绍了。

    及时性

    及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义



    展开全文
  • 简介二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC。此外速度超快的fastp也特别推荐,而且包括质量评估、质量控制等功能,可以说是国产软件之光,详见下方详...
  • 小号:用于转录组指导的m6A-seq数据质量评估的R包 动机:甲基化的RNA免疫沉淀测序(m6A-seq或MeRIP-seq)已被广泛用于分析RNA N6-甲基腺苷甲基化的转录组范围内的分布。 但是,由于RNA分子的固有特性和该技术的复杂...
  • 数据质量评估框架

    2012-05-22 17:06:52
    国际货币基金组织于2003 年7 月发布的数据质量评估框架
  • 大数据环境下数据质量指标体系

    千次阅读 2022-02-19 01:14:53
    来源:大数据技术团队一、数据质量评价现状1、数据质量评价模型现状为了清晰表达一些复杂和抽象的概念,构建科学的模型或框架是开展数据质量评价工作的首要任务,多数学者在研究时均从不同角度提出了数...
  • 基于大数据的电力系统信息质量评估方法研究.pdf
  • ISO / IEC 25012:2008可用于建立数据质量要求,定义数据质量措施或计划和执行数据质量评估。 例如,可以使用它 - 在数据生产,采集和集成过程中定义和评估数据质量要求, - 确定数据质量保证标准,这对于重新设计...
  • 该部分阐述了数据质量描述的基本原理,详细说明了识别及报告数据质量信息的基本方法,规范了数据质量评价的过程、方法及数据质量评价报告的内容。 该部分适用于中国科学院“数据应用环境建设和服务”各种数据的...
  • 业内评估训练数据质量的基本方法是benchmark(aka gold standard),一致性和检查。作为AI数据科学家,工作中一个重要任务就是如何有效组合应用这些数据质量保证方法。 在这边文章中,你会学到: *数据...
  • 数据治理数据质量数据模型数字化转型数据成熟度评估体系 XXX公司-数据质量管理办法 基于产品资料体系BOM项目建设 企业数据质量管理的核心要素和技术原则 企业数字化转型成熟度模型IOMM 数据仓库逻辑数据模型方案 ...
  • 电压质量评估模型(内含数据与python代码)。 提供给最终用途设备的电力质量取决于公用事业公司提供的电压质量。如果电压在额定频率下具有额定值,则称其具有质量,而没有任何偏差。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 133,971
精华内容 53,588
关键字:

数据质量评估