精华内容
下载资源
问答
  • 数据质量控制与数据治理

    千次阅读 2018-09-29 17:18:08
    数据质量控制与数据治理 背景 对于一个公司来说,最重要的资产是数据,数据的核心价值可以理解为核心商业价值,我个人认为是体现在两方面,一是能为企业带来更多的盈利,二是能为企业规避风险。 实现数据价值就需要...

    数据质量控制与数据治理
    背景
    对于一个公司来说,最重要的资产是数据,数据的核心价值可以理解为核心商业价值,我个人认为是体现在两方面,一是能为企业带来更多的盈利,二是能为企业规避风险。
    实现数据价值就需要进行业务数据分析和价值挖掘,对于大多数数据分析师来说,数据分析方法和技术都不存在问题,只要有干净完备的数据,数据价值都可以得到呈现,但是如果数据本身是错的,分析出来的结论未必有用,保证数据质量是大数据为企业带来价值的先决条件。但是大部分企业尤其是传统型企业,对于数据资源没有质量管理意识,也不懂得如何进行数据治理,导致数据质量很差,主要体现在以下几方面:数据缺失、数据孤岛、数据失真等,导致无法利用数据资源获取更多的商业价值。
    数据是资源、数据分析是工具、数据结论是价值。工欲善其事必先利其器,同样,资源不储备好,再牛逼的工具也无从下手,下文重点讨论企业如何做数据质量管理和数据治理。
    如何做数据质量控制和数据治理
    首先说一下怎么评估企业数据质量好坏呢?从数据分析的角度或者叫数据价值的角度理解,优质数据需要在任何时候都可以被企业所信任,并且满足所有业务需求。
    重点在于两点:第一是可被信任的,要求数据必须真实可靠,能够真实的记录企业运营情况;第二是可以满足需求,要求数据服务于业务,从最基础的业务监控到商业决策,都可以通过数据给出答案。
    数据质量评估六要素:完整性、规范性、一致性、准确性、唯一性、关联性;
    数据质量控制和数据治理就是以元数据为基础,实现企业数据优化的循环管理过程,起点是业务需求,重点是满足业务需求。
    数据质量控制与治理方法论:
    在这里插入图片描述
    质量问题来源
    任何质量问题改善都建立在评估的基础上,知道问题在哪里才能实施改进。数据质量问题来源按照不同的分类有不一样的问题定位,本文中关于数据质量控制与数据治理借助数据流图来说明。
    数据流图也称为数据流程图date flow diagram , DFD,是一种便于用户理解和分析系统数据流程的图形工具,他摆脱了系统和具体内容,精确的在逻辑上描述系统的功能、输入、输出和数据存储等,是系统逻辑模型的重要组成部分。它从数据传递和加工的角度,以图形的方式刻画数据流从输入到输出的移动变换过程,所以它可以用来做数据质量问题定位。
    标准化的系统设计,数据流图会在系统需求分析阶段完成,但是大部分的系统开发都没有进行标准化的数据流图,需求后期进行完善,具体的数据流图画法不做赘述。
    案例分享
    以某公司CRM系统数据为例,目前一个业务需求为分析什么样的客户特征(toB类型)可以带来更高的收益,因为业务特殊性和行业有很大的关系,就以行业数据来说明。把业务需求转化到数据需求就是一批高质量的数据(包含市场活动表、客户表、商机表、签单表等);确认数据逻辑,画出数据流图(只做简单说明): 在这里插入图片描述
    数据质量评估,客户行业数据一致性不足40%,无法确定哪个步骤的行业输入更加准确,数据分析可信度不高,业务影响大;问题定位在一个属性数据多个输入,无修改纠正,多个数据并存;整改方案经过沟通确定如下,通过市场部获取的客户已市场部输入为准,后续步骤默认填充,销售自己渠道获取的客户以销售输入为准,后续步骤默认填充。方案实施改进,宣导至所有干系人;对历史数据经过数据加工进行处理,后续数据采用新逻辑,评估改进后的数据一致性,确认能否满足业务需求。

    展开全文
  • 基于python的MODIS数据质量控制------以MOD11A1为例

    千次阅读 热门讨论 2020-02-13 22:14:34
    使用python基质量控制文件(Qc)对MODIS产品掩膜提取-以MOD11A1为例 MODIS数据简介 我们拿到的MODIS数据,多数人认为只要有值的地方,就是准确数据,我们直接就可以拿来使用,只有空值的区域,数据才会异常(多数...

    MODIS质量控制文件,对MODIS产品进行提取

    MODIS数据简介

    我们拿到的MODIS数据,多数人认为只要有值的地方,就是准确数据,我们直接就可以拿来使用,只有空值的区域,数据才会异常(多数本科生是这样认为的);然而并非如此,往往一个MODIS产品一个像元处,只有当所有输入的反演参数都为异常值时,这个像元才会被设置为异常,即设置为空值。 因此,我们所能看到的拥有像元值的地方,就会因为输入的反演参数都为异常程度,会有不同的质量。MODIS数据的生产商,也考虑到了数据生产过程中的数据异常情况,为了让客户能够更好的使用数据,为此提供了质量空值文件(Qc,Qa)。这些信息的进一步了解,可以查看官方提供的pdf文档,如 MOD11_User_Guide_V6.pdf. 质量空值文件多以二进制形式进行编码,并且将多个数据图层的质量控制参数,编写在HDF文件的一个数据集中.本文章以MOD11A1陆表温度日产品为例,使用python读取二进制文件数据,以掩膜的形式将满足要求的栅格值,提取到一个新的TIF文件中,供后续进一步使用。下图分别为一个HDF数据的图层(数据集)分布和QC_Day白天质量控制文件。

    MODIS HDF 文件数据集分布
    QC的二进制解译

    每一个产品像元对应一个质量控制图层的像元.每个质量控制像元包含一个8位的整型数值,我们需要将其转化位二进制数值,才能进行读取\解译.下图为解译的示意图:

    字节的二进制解译

    如图所示,从左开始0\1位代表Mandatory QA flags,2\3位代表Data quality flag,4\5位为Emis Error flag,6\7位代表LST LST Error flag。(在python代码中,0位在最左边)。基于上面的理论,我们使用python读取QC_Day的tif文件(由于前期涉及到镶嵌\投影等步骤,所以使用MRT软件,将HDF数据图层,转化为TIF文件,然后再使用python代码进行批量处理。)

    代码

    下面贴上代码:
    
    #!/usr/bin/python
    # -*- coding: utf-8 -*-
    """
    
        本代码,将质量控制文件,进行提取,将满足要求的保存为tif。
        质量 LST error flag  <= 1k
    
    @version: Anaconda
    @author: LeYongkang
    @contact: 1363989042@qq.com
    @software: PyCharm
    @file: 12_CombineLst_PredictedAndModis.py
    @time: 2020/2/5 0005 下午 11:10
    """
    import numpy as np
    from osgeo import gdal
    import os
    import pandas as pd
    
    def opentif(filepath):
        """
            输入文件名,返回数组、宽度、高度、仿射矩阵信息、投影信息
        :param filepath: 文件的完整路径
        :return: im_data,im_width,im_height,im_geotrans,im_proj
        """
        dataset = gdal.Open(filepath)
        im_width = dataset.RasterXSize #栅格矩阵的列数
        im_height = dataset.RasterYSize #栅格矩阵的行数
        data = dataset.ReadAsArray(0,0,im_width,im_height)#获取数据
        # data = dataset.ReadAsArray()  # 获取数据
        im_data = np.array(data)
        print("opentif的shape")
        print(im_data.shape)
    
        im_geotrans = dataset.GetGeoTransform()#获取仿射矩阵信息
        im_proj = dataset.GetProjection()#获取投影信息
        return(im_data,im_width,im_height,im_geotrans,im_proj)
    
    def savetif(dataset,path,im_width,im_height,im_geotrans,im_proj):
        """
            将数组保存为tif文件
        :param dataset: 需要保存的数组
        :param path: 需要保存出去的路径,包含文件名
        :param im_width: 数组宽度
        :param im_height: 数组宽度
        :param im_geotrans: 仿射矩阵信息
        :param im_proj: 投影信息
        :return:
        """
        print(dataset)
        driver = gdal.GetDriverByName("GTiff")
        outdataset = driver.Create(path, im_width, im_height, 1, gdal.GDT_Float32)
        print(path)
        outdataset.SetGeoTransform(im_geotrans)  # 写入仿射变换参数
        outdataset.SetProjection(im_proj)  # 写入投影
        outdataset.GetRasterBand(1).WriteArray(dataset)
        outdataset.GetRasterBand(1).SetNoDataValue(0)
        print("yes")
    
    if __name__ == "__main__":
        inDir = r"I:\2018_Parper2\MYD_2018\MYD11A1\.GeoTif_Mosaic\.Tif"
        # inFile = "MOD11A1.A2018001.QC_Day.tif"
        Out_Dir = r"I:\2018_Parper2\MYD_2018\MYD11A1\.GeoTif_Mosaic\.Tif_Masked"
        # 获取LST质量控制文件的列表
        InList_Qc = [infile for infile in os.listdir(inDir) if infile.endswith(".QC_Day.tif")]
    
        for InFile in InList_Qc:
            ##################################################################################################
            if not os.path.exists(Out_Dir +
                                  os.sep + InFile[:-10] + "LST_Day_1km.tif"):
            ##################################################################################################
    
                # 获取完整路径
                in_Full_Dir = inDir + os.sep + InFile
                # 打开TIF文件,获取TIF文件的信息
                InData = opentif(in_Full_Dir)
                in_Array = InData[0]
                in_Array= np.array(in_Array,dtype = np.uint8)
    
                print(in_Array)
                print("   ")
                # 将十进制转回到二进制
                binary_repr_v = np.vectorize(np.binary_repr)
                new = binary_repr_v(in_Array, 8)
                print(new)
                # 6-7位,是控制LST质量的字段,‘00’代表 LST error flag  <= 1k
                # start=0,end=2:代表 LST LST Error flag
                # start=2,end=4:代表 Emis Error flag
                # start=4,end=6:代表Data quality flag
                # start=6,end=8:代表Mandatory QA flags
                Error_mask = np.char.count(new,'00',start=0,end=2) == 1
                print(Error_mask)
    
                # 打开LST文件,获取文件名
                # G:\2018\MODIS\MOD11A1\.GeoTif_Mosaic_10000\Tif\MOD11A1.A2018002.QC_Day.tif         质量控制文件
                # G:\2018\MODIS\MOD11A1\.GeoTif_Mosaic_10000\Tif\MOD11A1.A2018002.LST_Day_1km.tif    LST文件
                in_Full_Dir_Lst = in_Full_Dir[:-10] + "LST_Day_1km.tif"
                Lst_Array = opentif(in_Full_Dir_Lst)[0]
                # 将满足质量条件的提取出来,不满足条件的设置为0,后续设置为nodata
                Out_Lst_Array = np.where(Error_mask,Lst_Array,0)
                print(Out_Lst_Array)
    
                print(in_Full_Dir_Lst.split("\\")[-1])
                # 将masked后的LST保存,将 0 设置为SetNoDataValue()
                if not os.path.exists(Out_Dir + os.sep + in_Full_Dir_Lst.split("\\")[-1]):
                    print(os.path.exists(Out_Dir + os.sep + in_Full_Dir_Lst.split("\\")[-1]))
                    savetif(Out_Lst_Array,
                            Out_Dir + os.sep + in_Full_Dir_Lst.split("\\")[-1],
                            InData[1],InData[2],InData[3],InData[4])
    

    代码运行结果

    运行结果展示
    上图为运行结果展示,彩色为 Lst error flag <= 1k,底图为未使用代码提取的所有LST像元点。

    官方也提供了基于arcgis的python工具箱方法(arcgis-modis-python-toolbox-v1.0)\LDOPE-1.7软件,但是本人短时间也没搞明白批量处理. 此博客,为本人第一次编写,若有错误不妥之处,还望批评指正。此外,本人较多使用python对地理数据进行处理,对地理模块相对熟悉,大家可以联系我,一起学习。

    展开全文
  • 数据治理系列5:浅谈数据质量管理

    万次阅读 多人点赞 2019-08-10 16:31:51
    通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展”。   一、数据质量问题盘点 接下来...

    本文原创地址:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA,请手机扫描文章末尾的二维码,关注我们。

    题外话:看过之前的文章的小伙伴不难发现,文章开篇几乎都是定义、概念,这已成了笔者写文章的一个习惯。本着对专业知识和技术的敬畏以及对文章主题的聚焦,笔者认为文章的开篇是非常有必要先把概念或定义交待清楚的。

    另外,写公号、写博客目的是对自己临散的知识有一个系统化的总结,并希望与业内的各路大神沟通交流,从而在总结和交流中提升自己。所以,欢迎您的点赞和拍砖!

    欢迎转载,转载请注明出处和作者

    作者 | 石秀峰

     

    数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”——以上内容摘自百度百科。

     

    笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展”。

     

    一、数据质量问题盘点

    接下来我们盘点下企业一般都会遇到哪些数据质量问题:

    • 数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。

    • 数据准确性:准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。

    • 数据唯一性:用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。

    • 数据完整性:数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。

    • 数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

    • 数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。

    • 数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

     

    二、数据质量问题根因分析

     

    说到数据质量问题的原因,做过BI或数仓项目的小伙伴肯定都知道,这是一个业务和技术经常扯来扯去、互相推诿的问题。在很多情况下,企业都会把数据质量问题推给技术部门,让技术部门去查找和处理。但是企业的数据质量问题真的都是技术引起的吗,技术部门人一定会说:“这个锅我不背!”

     

     

    其实,影响数据质量的因素主要就技术、业务、管理三个方面,下面我们就来从这三方面分析下产生数据质量问题都有哪些原因。

     

     

    1、技术方面

     

    • 数据模型设计的质量问题,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。

    • 数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。

    • 数据采集过程质量问题, 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。

    • 数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。

    • 数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。

    • 数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。

    • 业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重。

     

    2、业务方面

     

    • 业务需求不清晰,例如:数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。

    • 业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。

    • 业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。

    • 数据作假,对,你没看错,就是数据作假!操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。

     

    3、管理方面

    • 认知问题。企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。

    • 没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到负责人。

    • 缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。

    • 数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。

    • 缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。

    • 缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。

     

    小结:影响数据质量的因素,可以总结为两类,客观因素和主观因素。客观因素:在数据各环节流转中,由于系统异常和流程设置不当等因素,从而引起的数据质量问题。主观因素:在数据各环节处理中,由于人员素质低和管理缺陷等因素,从而操作不当而引起的数据质量问题。

     

    三、数据质量管理的方法论

     

    在数据治理方面,不论是国际的还是国内的,我们能找到很多数据治理成熟度评估模型这样的理论框架,作为企业实施的指引。而说到数据质量管理的方法论,其实业内还没有一套科学、完整的数据质量管理的体系。很多企业对数据质量的重视程度还不够,即使部分企业在朝着这个方向努力,也是摸着石头过河。

     

    数据是数字化时代企业的重要资产,数据可以以产品或服务的形态为企业创造价值。既然数据可以是产品、可以是服务,那问题就简单了。虽然数据质量管理没有成熟方法论支撑,但是产品和服务的质量管理体系却已非常的成熟了,何不尝试用产品和服务的质量管理体系来管理数据质量?!那国际上最权威的质量管理体系IOS9001是否也适用于企业的数据质量管理呢?

     

    下图是ISO9001基于PDCA的质量管理核心思想,其重点强调以客户为关注焦点、领导作用、全员参与、过程方法、持续改进、循证决策和关系管理。

    注:图中的数字代表的是本标准在ISO9001的相关章节,无业务含义。以下内容是根据笔者对质量体系相关资料的查阅和粗浅理解,给出数据质量管理的方法论,不免有所偏误,欢迎拍砖和指正。

     

    依据ISO9001以及企业在数据治理方面的相关经验,笔者认为企业数据质量管理应从以下几个方面着手:

     

    1、组织环境

    我们在数据治理框架、主数据管理、数据标准管理等章节,都提到了组织机构的设置,这里再次强调一个强有力的数据管理组织的建设是数据治理项目成功的最根本的保证。其作业是两个层面:一是在制度层面,制定企业数据治理的相关制度和流程,并在企业内推广,融入企业文化。二是在执行层面,为各项业务应用提供高可靠的数据。

     

    2、数据质量管理方针

    为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。数据质量问题是影响系统运行、业务效率、决策能力的重要因素,在数字化时代,数据质量问题影响的不仅仅是信息化建设的成败,更是影响企业降本增效、业务创新的核心要素,对于数据质量问题的管理,深度执行的总体策略“垃圾进,垃圾出(garbage in,garbage out)”,采用事前预防控制、事中过程控制、事后监督控制的方式进行数据质量问题的管理和控制,持续提升企业数据质量水平。

     

    3、数据质量问题分析

    关于质量问题的分析,笔者推荐采用经典的六西格玛(缩写:6σ 或 6Sigma),六西格玛是一种改善企业质量流程管理的技术,以“零缺陷”的完美商业追求,以客户为导向,以业界最佳为目标,以数据为基础,以事实为依据,以流程绩效和财务评价为结果,持续改进企业经营管理的思想方法、实践活动和文化理念。六西格玛重点强调质量的持续改进,对于数据质量问题的分析和管理,该方法依然适用。

     

    根据六西格玛的DMAIC模型,我们可以将数据质量分析定义为六个阶段:

     

     

    (1)定义阶段(D阶段)。界定数据质量治理的范围,并将数据质量改进的方向和内容界定在合理的范围内。通过使用主数据识别法、专家小组法、问卷调查法、漏斗法等方法,定义出数据治理的对象和范围。企业数据质量治理对象一般主要包括两类数据:一类是操作型数据,例如:主数据、参照数据和交易数据。另一类是分析型数据,例如:主题数据、指标数据等。注:根据笔者经验以及80/20法则,企业的数据质问题80%是由于管理不当或业务操作不规范引起的,参考:《主数据的3大特点、4个超越和三个80/20原则》。

     

    (2)测量阶段(M阶段)。在定义出数据治理对象和内容后,需要选取以下若干个指标来作为数据质量评价指标,建立数据质量评估模型,对企业的数据进行评估和测量。常用的数据质量评价指标就是我们上述提到的:数据唯一性、数据完整性、数据准确性、数据一致性、数据关联性、数据及时性等。

     

     

    (3)分析阶段(A阶段)。基于数据质量评估模型,执行数据质量分析任务,通过数据分析,找到发生数据质量问题的重灾区,确定出影响数据质量的关键因素。数据治理和大数据分析是密不可分的,数据治理的目标是提升数据质量从而提高数据分析的准确性,而大数据分析技术也可反向作用于数据治理,通过大数据分析算法和大数据可视化技术,能够更准确、更直观的定位到发生数据质量问题的症结所在。该阶段可以用的大数据技术包括:回归分析、因子分析、鱼骨图分析、帕累托分析、矩阵数据分析等。

     

    (4)改进阶段(I 阶段)。通过制定改进管理和业务流程、优化数据质量的方案,消除数据质量问题或将数据质量问题带来的影响降低到最小程度。我们一直在强调数据质量的优化和提升,绝不单单是技术问题,应从管理和业务入手,找出数据质量问题发生的根因,再对症下药。同时,数据质量管理是一个持续优化的过程,需要企业全员参与,并逐步培养起全员的数据质量意识和数据思维。该过程主要用到方法:流程再造、绩效激励等。

     

    (5)控制阶段(C阶段)。固化数据标准,优化数据管理流程,并通过数据管理和监控手段,确保流程改进成果,提升数据质量。 主要方法有:标准化、程序化、制度化等。

     

    4、数据质量监控

    数据质量监控可以分为数据质量的事前预防控制、事中过程控制和事后监督控制:

     

    事前预防控制

    建立数据标准化模型,对每个数据元素的业务描述、数据结构、业务规则、质量规则、管理规则、采集规则进行清晰的定义,以上的数据质量的校验规则、采集规则本身也是一种数据,在元数据中定义。面对庞大的数据种类和结构,如果没有元数据来描述这些数据,使用者无法准确地获取所需信息。正是通过元数据,使得数据才可以被理解、使用,才会产生价值。构建数据分类和编码体系,形成企业数据资源目录,让用户能够轻松地查找和定位到相关的数据。实践告诉我们做好元数据管理,是预防数据质量问题的基础。

     

     

    数据质量问题的预防控制最有效的方法就是找出发生数据质量问题的根本原因并采取相关的策略进行解决。

    1)确定根本原因:确定引起数据质量问题的相关因素,并区分它们的优先次序,以及为解决这些问题形成具体的建议。

    2)制定和实施改进方案:最终确定关于行动的具体建议和措施,基于这些建议制定并且执行提高方案,预防未来数据质量问题的发生。

     

    事中过程控制

    事中数据质量的控制,即在数据的维护和使用过程中去监控和处理数据质量。通过建立数据质量的流程化控制体系,对数据的新建、变更、采集、加工、装载、应用等各个环节进行流程化控制。数据质量的过程控制,要做好两个强化:

     

    (1)强化数据的标准化生产,从数据的源头控制好数据质量,该过程可以采用系统自动化校验和人工干预审核相结合的方式进行管理,数据的新增和变更一方面通过系统进行数据校验,对于不符合质量规则的数据不允许保持,另一方面采集流程驱动的数据管理模式,数据的新增和变更操作都需要人工进行审核,只有审核通过才能生效。

     

    (2)强化数据质量预警机制,对于数据质量边界模糊的数据采用数据质量预警机制。数据预警机制是对数据相似性和数据关联性指标的重要控制方法。针对待管理的数据元素,配置数据相似性算法或数据关联性算法,在数据新增、变更、处理、应用等环节调用预置的数据质量算法,进行相识度或关联性分析,并给出数据分析的结果。数据预警机制常用在业务活动的交易风险控制等场景。

     

    事后监督控制

    是不是我们最好了事前预防控制和事中过程控制,就不会再有数据质量问题的发生了?答案显然是否定的。而事实上,不论我们做了多少预防措施、多严格的过程控制,总是还有数据质量问题的“漏网之鱼”,你会发现只要是人为干预的过程,总会存在数据质量的问题。数据质量问题一旦产生就已经是“木已成舟”,为了避免或减低其对业务的影响,我们需要及时的发现它。这里,数据质量的事后监督控制就尤为重要了。

     

    定期开展数据质量的检查和清洗工作应作为企业数据质量治理的常态工作来抓。

     

    1)设置数据质量规则。基于数据的元模型配置数据质量规则,即针对不同的数据对象,配置相应的数据质量指标,不限于:数据唯一性、数据准确性、数据完整性、数据一致性、数据关联性、数据及时性等。

    2)设置数据检查任务。设置成手动执行或定期自动执行的系统任务,通过执行检查任务对存量数据进行检查,形成数据质量问题清单。

    3)出具数据质量问题报告。根据数据质量问题清单汇总形成数据质量报告,数据质量报告支持查询、下载等操作。

    4)制定和实施数据质量改进方案,进行数据质量问题的处理。

    5)评估与考核。通过定期对系统开展全面的数据质量状况评估,从问题率、解决率、解决时效等方面建立评价指标进行整改评估,根据整改优化结果,进行适当的绩效考核。

    笔者观点:数据治理的“常态化”才是数据质量问题的最好解决方式,而要实现常态化治理就需要改变原来的企业组织形式、管理流程、转变观念,以适应这种变化。数据治理的“常态化”要经得起折腾,所以千万不能老做些重新发明轮子的亊情!

     

    5、数据全周期管理

    数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。企业的数据质量管理应贯穿数据生命周期的全过程,覆盖数据标准的规划设计、数据的建模、数据质量的监控、数据问题诊断、数据清洗、优化完善等方面。

     

     

    (1)数据规划。从企业战略的角度不断完善企业数据模型的规划,把数据质量管理融入到企业战略中,建立数据治理体系,并融入企业文化中。

    (2)数据设计。推动数据标准化制定和贯彻执行,根据数据标准化要求统一建模管理,统一数据分类、数据编码、数据存储结构,为数据的集成、交换、共享、应用奠定基础。

    (3)数据创建。利用数据模型保证数据结构完整、一致,执行数据标准、规范数据维护过程,加入数据质量检查,从源头系统保证数据的正确性、完整性、唯一性。

    (4)数据使用。利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据输入端的正确性;数据质量提供了事前预防、事中预警、事后补救的三个方面措施,形成完整的数据治理体系。

     

    四、总结

    数据质量管理是企业数据治理一个重要的组成部分,企业数据治理的所有工作都是围绕提升数据质量目标而开展的。要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。对于数据质量问题采用量化管理机制,分等级和优先级进行管理,严重的数据质量问题或数据质量事件可以升级为故障,并对故障进行定义、等级划分、预置处理方案和Review。量化的数据质量使得我们可以通过统计过程控制对数据质量进行监测。一旦发现异常值或者数据质量的突然恶化,便根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节,然后采用六西格玛流程改善中的经典分析方法对业务进行完善,真正的做到有的放矢。

    (文:石秀峰 2019年5月)

    展开全文
  • 数据质量管理

    千次阅读 2018-07-19 16:28:11
    数据质量问题 常见的数据质量问题包括 数据无法匹配 数据不可识别 数据不一致 数据沉余重复 实效性不强 精度不够 数据质量管理的目标 通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容,解决...

    数据质量问题

    常见的数据质量问题包括

    • 数据无法匹配
    • 数据不可识别
    • 数据不一致
    • 数据沉余重复
    • 实效性不强
    • 精度不够

    数据质量管理的目标

    通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容,解决数据质量问题,使数据的质量得以改善,使其满足数据需求方对数据质量的规则要求。

    数据质量评估

    包括但不止以下6个方面

    • 完整性 Completeness:度量哪些数据丢失了或者哪些数据不可用。
    • 规范性 Conformity:度量哪些数据未按统一格式存储。
    • 一致性 Consistency:度量哪些数据的值在信息含义上是冲突的。
    • 准确性 Accuracy:度量哪些数据和信息是不正确的,或者数据是超期的。
    • 唯一性 Uniqueness:度量哪些数据是重复数据或者数据的哪些属性是重复的。
    • 关联性 Integration:度量哪些关联的数据缺失或者未建立索引。

    数据质量评估模型

    要素分别为:基础模型、数据质量定义模型、数据质量控制模型、数据质量评价模型、数据质量辅助模型。

    1.基础模型。

    其他模型必须以基础模型中的计划和标准为依据。基础模型主要是映射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范。

      数据标准:分两部分,一部分是直接映射应用中的标准,例如源数据库标准;另一部分是针对新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准(例如是取英文还是汉语拼音,取几个字符)、值域定义标准等等新增表准的建立规范;
      采集计划:采集单位的每月上载的日度、月度、年度的采集计划;
      约束规则定义规范:主要描述质量定义模型中的语法构成;
      控制规则定义规范:针对服务器负载和采集表的及时性,要求建立的后台执行过程的控制方式的使用说明;
    2.数据质量定义模型。

    以基础模型为前提对数据质量的统一规范的定义,是数据质量分析评价的依据和基础。数据质量定义模型可以使用质量特性描述。数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性。
      (1一致性的量化评价指标:字段一致率、表间字段一致率、表间记录一致率。
      (2准确性的量化评价指标:准确率、差错率、问题字段个数、问题记录覆盖率
      (3)及时性的量化评价指标:采集项目及时率;单位入库及时率
      (4)完整性的量化评价指标:字段缺失数、缺失记录覆盖率、计划完成率。
    3.数据质量控制模型。

    数据质量控制模型以数据质量定义模型为基础,按照定义的检查范围和时间以自动或手工方式完成对数据质量的检查工作。在质量控制过程中违反了数据质量定义的,视为数据质量问题,数据质量问题直接通过数据质量的关键特性和指标反映出来。数据质量控制模型的控制内容表现在:对数据检查对象、数据检查频度、数据检查时间、数据检查方式等方面进行控制。
      (1)数据检查对象:是指根据采集计划设定需要检查的用户、专业数据表、数据库实体。
      (2)数据检查频度;是指根据数据表的采集计划和实际发生的频度,设定存储过程的检查执行频率。
      (3)数据检查时间:是指根据每日生产应用的密集时间以及数据发生到采集入库的密集时间,综合设定一个检查开始执行的时刻。
      (4)数据检查方式:是指执行检查过程的方式可以由后台过程自动控制,每间隔2小时自动检查一次;也可以由人工干预手动检查,任意时刻都可以执行检查(当然尽量选择数据库流量比较低的时候)。
    4.数据质量评价模型。

    数据质量评价模型,是以数据质量定义模型为依据,由数据质量控制模型操控执行,根据反馈的质量检查结果表,评议出数据质量的关键指标,实现对数据质量的量化诊断和评价。
      数据质量分析评价模型功能核心是,通过对基础模型中的采集计划和质量定义模型中的约束规则的处理,由控制模型调用可以实现检查分析的后台存储过程在实体库中执行检查,形成查询结果,再由分析程序进行分析、计算、分类、汇总,生成反映采集计划完成情况和数据质量量化指标的结果,存储到分析结果表中,从前台调用这个分析结果表,就可以生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告,展现所评估实体库的数据入库的及时率、数据上报的完整性、数据采集的一致性、数据入库的准确率。
      5.数据质量辅助管理模型
      数据质量辅助管理包括报告模版管理、权限管理、数据库资源占用情况等等。

    展开全文
  • 测序数据质量控制

    千次阅读 2015-12-31 17:23:00
    SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30。Raw Data通常以...
  • 使用Plink对SNP数据进行质量控制

    千次阅读 2020-05-06 17:28:25
    在做和基因相关的分析时,拿到基因型数据,首先要进行质量控制。 在使用Plink进行质量控制时,一般包含以下几步: individual and SNP missingness,(筛选个体和SNP) inconsistencies in assigned and genetic sex...
  • 数据质量管理的流程

    千次阅读 2018-07-27 13:47:38
    明确数据质量管理的重点、时机和目标,来指导整个项目期间的所有工作。 目标: 1.明确信息环境-数据、流程、人员、组织以及与业务情况相关的技术。 2.按顺序排列并最终确定项目重点关注的业务问题。 输入: ...
  • 如果是自己做的芯片的数据,是一定要进行芯片质量控制的。虽然厂家会提供芯片质量分析的结果,但如果有可能的话,最好还是自己也进行质量分析。根据分析的结果,决定排除哪些芯片的数据,甚至重做也是有可能的。一定...
  • 数据质量管理十步流程

    千次阅读 2016-12-30 17:21:18
     明确数据质量管理的重点、时机和目标,来指导整个项目期间的所有工作。 目标:  1.明确信息环境-数据、流程、人员、组织以及与业务情况相关的技术。  2.按顺序排列并最终确定项目重点关注的业务问题。 输入...
  • 久其BI数据质量管控解决方案

    千次阅读 2016-08-25 00:21:29
    企业对数据的依赖程度也在加大,数据质量的好坏直接关系到信息的准确程度,也影响了企业的生存和竞争能力。因此,数据质量作为影响管理层决策正确性的基础元素,已经越来越多地为企业领导者所关注。 但在长期的系统...
  • MODIS产品质量控制文件使用方法

    千次阅读 2020-05-18 00:51:13
    质量指标 在生产过程中生成的CoreMetadata.0全局属性QA 中的元数据对象以及质量控制(QC)SDS中给出,或者在数据产品的产品后科学和质量检查中给出。CoreMetadata.0中的 QA元数据对象全局属性是AutomaticQualityFlag...
  • 业内评估训练数据质量的基本方法是benchmark(aka gold standard),一致性和检查。作为AI数据科学家,工作中一个重要任务就是如何有效组合应用这些数据质量保证方法。 在这边文章中,你会学到: *数据...
  • 数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格,后面大部分指标都可以通过;如果这两项不合格,其余都会受到影响。 其中一些指标并不适合所有数据,例如DNA测序数据与RNA...
  • 数据质量: 数据生命周期: 数据安全: 数据分析与建模: 大数据治理审计: 大数据服务: 名词术语: ​  数据治理概念: 对业务的数据管理和利用,为用户创造价值。 Data Governance 数据治理架构: ...
  • 1,拿到原始数据后,首先用软件 FastQC 看一下数据质量 得到html文件,打开后如图 如图红叉部分是我们进行质量控制的关键,如Per base sequence content,现在是这样的 此处需要处理,方法是trim掉前15bp...
  • 数据质量管理的三个要素2. 数据质量管理的技术关键点3. 数据质量管理实战“十三五”,规划提出了国家的大数据战略,指出了企业实现以数字化驱动业务发展,实现数据开放共享,创新业务发展的新思路。现阶段大中型...
  • 深度学习-如何提高数据质量

    千次阅读 2019-05-17 17:11:49
    写这篇写博客的目的是,大家做深度学习进行图片收集的时候,都会遇到数据质量不高的情况,如何尽可能的提高数据质量呢?我在这里进行探讨和学习。也希望大家多多给我留言和帮助。 《Python将文件大小以概率分布...
  • MODIS地表温度数据11A2的质量控制

    千次阅读 2020-12-09 10:53:08
    地表温度是地球系统的重要参数,最近对地表温度数据进行了详细的了解,这里记录一下。 下载就不说了:https://ladsweb.modaps.eosdis.nasa.gov/ 关于地表温度产品可以看
  • Bark是eBay开发的一种应用于分布式数据系统中的开源数据质量解决方案,例如在Hadoop, Spark, Storm等分布式系统中,Bark提供了一整套统一的流程来定义、测量数据集的质量并及时报告问题。 主要特性: 1.精确...
  • 前一篇文章介绍了数据质量的一些基本概念,数据质量控制作为数据仓库的基础环节,是保障上层数据应用的基础。数据质量保证主要包括数据概要分析(Data Profiling)、数据审核(Data Auditing)和数据修正(Data ...
  • 数据质量管理的一些思考

    千次阅读 2018-07-11 11:55:11
    当我们拿到数据开始进行一些初步探索的时候,发现导入平台的数据质量存在一定的问题:例如一些用于数据分析的关键字段的值为空、一些本应该有主从关系的数据对应不上、数据分类混乱等。这些问题直接影响到了对...
  • 数据仓库(六)之数据质量

    万次阅读 多人点赞 2018-09-26 23:04:51
    概述 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对... 数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。 数据质量维度  ...
  • 数据仓库之数据质量监控

    万次阅读 2020-08-21 17:36:22
    数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进,进而保证数据的恰当使用。 数据质量维度 也有说是6个维度的,本文是5个维度 完备性(也可以理解为准确性) 有效性 及时性 一致性 ...
  • 再谈IMU数据处理(滤波器)

    千次阅读 2019-05-25 14:22:51
    上一篇文章最后提到了卡尔曼滤波器用来做一维数据的数字滤波处理,最终的实验结果说:该模型下的卡尔曼滤波处理与二阶IIR低通滤波处理效果几乎一致。有网友指出是错误的,卡尔曼滤波一定比二阶IIR要好。这里特别做个...
  • 高通量测序数据质控神器Trimmomatic

    千次阅读 2019-03-19 08:24:46
    高通量测序下机的原始数据中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。Trimmomatic就是一个高通量测序数据质控...
  • 软件质量控制基础

    千次阅读 2020-04-10 11:43:27
    1、软件质量控制的理念 高质量的过程产生高质量的产品。建立好的软件工程过程模型,监督在项目实施过程中与该模型的一致性,通过控制开发过程的质量实现最终的软件质量目标。 质量不是指定给某个人或某个...
  • 大数据之数据质量

    千次阅读 2019-06-01 13:54:12
    大数据之数据质量一、数据质量评估1. 完整性2. 准确性3. 及时性4. 一致性二、如何提升数据质量1. 事前定义数据的监控规则2. 事中监控和控制数据生产过程3. 事后分析和问题跟踪 一、数据质量评估 1. 完整性 2. 准确性...
  • 医疗数据治理——构建高质量医疗大数据智能分析数据基础阮彤,邱加辉,张知行,叶琪 华东理工大学计算机科学与技术系,上海 200237摘要:以专病真实世界研究为背景,分析了...
  • 如何提高数据质量

    千次阅读 2017-08-16 11:25:33
    转载请注明出处: 如何提高数据质量? 大数据的时代,数据资产及其价值利用能力逐渐成为构成企业核心竞争力的关键要素;然而,大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误...
  • 数据质量监控工具-Apache Griffin

    万次阅读 多人点赞 2019-01-12 15:40:58
    文章目录一、概述二、Apache Griffin2.1 特性2.1.1 数据质量指标说明2.2 优势2.3 工作流程2.4 系统架构2.5 数据验证逻辑2.6 Demo2.7 后台提交监控任务 一、概述 随着业务发展和数据量的增加,大数据应用开发已成为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 301,152
精华内容 120,460
关键字:

数据质量控制