精华内容
下载资源
问答
  • 数据治理系列3:数据标准管理

    万次阅读 多人点赞 2019-05-30 16:39:48
    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到“标准”二字,我们...而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范...

    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

    导读:提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保标准、物流配送标准等,这些标准有国际标准、国家标准、行业标准、企业标准等。而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范化体系。

    数据标准是什么?

    数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。——维基百科。

    笔者理解:数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

    企业数据标准管理的内容

    1、数据模型标准,即元数据的标准化。自己从事IT行业10多年,一路走来,曾经做开发的时候一度认为数据模型没什么,只不过就是表结构、存储过程的设计,后来接触了数据集成ETL、ESB,虽然也知道ETL脚本本身也是元模型的一部分,但对其重要程度也没放在心上。

    后来慢慢发现之前的想法还过于简单,如果把企业信息化比作是人体的话,数据模型就是其骨架,数据之间的关系和流向是其血管和脉络,数据是其血液,数据模型的标准化是其数据血液能够正常流动和运行的根本。数据模型标准是元数据管理的主要内容,是企业数据治理的基础。请参考《数据治理系列2:元数据管理—企业数据治理的基础

    2、主数据和参照数据标准。主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,被誉为企业的“黄金数据”。参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据元的域值范围。参照数据一般是有国标可以参照的,固定不变的,或者是用于企业内部数据分类的,基本固定不变的数据。个人认为主数据与参照数据的标准化是企业数据标准化的核心。请参考《主数据管理实施四部曲概论

     

     

    3、指标数据标准。指标数据是在实体数据基础之上,增加了统计维度、计算方式、分析规则等信息加工后的数据。指标数据标准是对企业业务指标所涉及的指标项的统一定义和管理。企业的财务、销售、采购、生产、质量、售后等各业务域均分布都有其相应的业务指标。这些指标不仅需要在业务系统中统计和展现还需要在数据分析系统中展现,有的指标数据需要多个从不同的业务系统中进行获取。

     

    没有指标数据标准化,你可以想象在每次数据平台有新分析主题构建或旧的分析主题变革,都需要从所涉及的各个系统、库表中进行分析和定义,需要耗费的成本巨大。同时,目前大数据分析都提倡业务人员的自助化分析,没有指标数据标准,业务人员要从不同系统中拿到自己想要的数据进行分析几乎是不可能的。

     

    企业数据标准的梳理

    企业数据标准项目的实施,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。需要从企业业务域、业务活动、对象实体、实体关系等方面层层递进,逐步展开。对于数据梳理的方法主要用到IRP(企业信息资源规划)和数据仓库的数据梳理法。这两种方式我在《主数据管理实施四部曲概论》的文章进行过分享,有兴趣可以关注。

     

    企业数据标准梳理一般需要以下步骤:

     

     

    首先,对企业业务域进行定义,并对每个业务域中的业务活动进行梳理,同时需要收集各类业务单据、用户视图,梳理每个单据和用户视图的数据对象。

     

    其次,针对数据对象的进行分析,明确每个数据实体所包含的数据项,同时,梳理并确定出该业务域中所涉及的数据指标和指标项。分析并定义每个数据实体或指标的数据项标准,包括:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围、管理部门等。

     

    第三,梳理和明确所有数据实体、数据指标的关联关系,并对数据之间的关系进行标准化定义。数据关系也是数据标准管理的内容。

     

    第四,通过以上梳理、分析和定义,确定出主数据标准管理的范围。

     

    数据标准梳理和建设的方法并不难掌握,关键是建设过程中需要收集并整理大量的业务规范、制度章程、法律法规、监管规定、国家标准,并将这些规定具象到数据标准定义的信息项中。对于一个从未做过数据标准的实施团队而言,这将意味着巨大的工作量。

     

    数据标准管理组织

    数据标准管理是企业数据治理的一部分,数据标准管理是一个涉及范围广、业务复杂、数据繁杂的工程。数据标准管理的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,制定企业数据战略和实施路线图,明确各阶段数据标准工作的目标和内容,并监督及考核数据标准的贯彻与执行。

     

    数据标准管理组织或数据治理组织从职能划分上可以分为三层,如下图所示:

     

    1、数据标准管理委员会,即数据治理的决策层,主要负责制定企业数据战略、把控数据治理的总体策略,审查数据标准的贯彻执行情况。

    2、数据标准管理办公室,是数据治理的经营管理层,主要负责企业数据标准的制定、审查数据质量,贯彻数据标准落地。

    3、数据标准执行层或业务操作层,主要负责数据标准的贯彻执行,并为数据标准的编制和优化提供数据和意见。

     

    数据标准设计流程

    数据标准的设计从需求发起到落地执行,一般需要经过标准编制、标准审查、标准发布、标准贯彻四个阶段:

     

     

    1. 数据标准编制:数据标准管理办公室根据数据需求开展数据标准的编制工作,确定数据数据项,数据标准管理执行组根据所需数据项提供数据属性信息,例如:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围等。数据标准管理办公室参照国际、国家或行业标准对这些数据项进行标准化定义并提交审核。注:如没有参考标准,则数据标准管理办公室可根据企业情况制定相应的企业级数据标准。

     

    2. 数据标准审查:数据标准管理委员会对数据标准初稿进行审查,判断数据标准是否符合企业的应用和管理需求,是否符合企业数据战略要求。如数据标准审查不通过,则有数据标准管理办公室进行修订,直到满足企业数据标准的发布要求。

     

    3. 数据标准发布:数据标准审查通过后,由数据标准管理办公室面向全公司进行数据标准的发布。该过程数据标准管理执行组需要配合进行数据标准发布对现有应用系统、数据模型的影响评估,并做好相应的应对策略。

     

    4. 数据标准贯彻:把已定义的数据标准与业务系统、应用和服务进行映射,标明标准和现状的关系以及可能影响到的应用。该过程中,对于企业新建的系统应当直接应用定义好的数据标准,对于旧系统应对一般建议建了相应的数据映射关系,进行数据转换,逐步进行数据标准的落地。

     

    企业进行数据标准化时,除了对数据本身标准化规则构建外,相当大一部分需要考虑标准化流程的管理。而在管理过程中必然会涉及到新旧系统、不同部门、不同业务的冲突,这些冲突如果解决不好将会直接导致标准化的失败。所以,数据标准落地过程要充分做好影响评估和各干系方的沟通。

     

    数据标准管理价值总结:

    一个数据一般有业务属性、技术属性和管理属性组成,例如:数据项的业务定义、业务规则、质量规则为该数据的业务属性;数据项的名称、编码、类型、长度等为该数据的技术属性;数据的存储位置、管理部门、管理人员为该数据的管理属性。而数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。

     

    数据标准目标是为业务、技术和管理提供服务和支持。

    业务方面:通过对实体数据的标准化定义,解决数据不一致、不完整、不准确等问题,消除数据的二义性,使得数据在企业有一个全局的定义,减少了各部门、各系统的沟通成本,提升企业业务处理的效率;标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。

    技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据元为新建系统提供支撑,提升应用系统的开发实施效率;数据标准化清晰定义数据质量规则、数据的来源和去向、校验规则,提升数据质量。

    管理方面:通过数据的标准化定义,明确数据的责任主体,为数据安全、数据质量提供保障;统一、标准的数据指标体系为各主题的数据分析提供支持,提升数据处理和分析效率,提供业务指标的事前提示、事中预警、事后提醒,实现数据驱动管理,让领导能够第一时间获取决策信息。

     

    数据标准与主数据、元数据、数据质量的关系

     

    数据治理项目的根本诉求在于提升数据质量

     

    数据标准与主数据的关系

    从范围上看,数据标准包括数据模型标准、主数据标准、参照数据标准、数据指标标准和其他数据元标准,主数据是数据标准的一个子集;从数据梳理和识别、能力成熟度评估、数据标准编制、数据管理和应用、管理体系建设、实施涉及的业务面等方面,数据标准和主数据都是基本相同的。企业在数据治理项目中,有整体建设的,包含了:元数据、主数据、数据标准等领域;也有分开建设的,例如:主数据项目单独立项,数据标准管理和数据仓库放在一起实施;企业应根据自身的实际情况和需求,明确实施范围和内容,制定适合企业发展需要的数据治理路线图。

     

    数据标准与元数据的关系

    元数据是数据标准的基础,企业在制定数据标准的时候最先需要明确的就是数据业务属性、技术属性和管理属性,而这三类属性就是我们所说的业务元数据、技术元数据和管理元数据。基于元数据的数据标准管理,为业务实体的定义、关系和业务规则到IT实现之间提供清晰、标准的语义转换,提高业务和IT之间的一致性,保障IT系统能够真实反映业务事实。并为数据标准系统与其他业务系统的集成,提供有关数据标准、数据映射关系和数据规则的描述,为业务系统的集成提供支撑。

    数据标准与数据质量的关系

    没有标准化就没有信息化,那就更谈不上数据质量了。通过对数据标准的统一定义,明确数据的归口部门和责任主体,为企业的数据质量和数据安全提供了一个基础的保障。通过对数据实体、数据关系以及数据处理阶段,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量校验有据可依,有法可循,为企业数据质量的提升和优化提供支持。

    (文:石秀峰 2019年5月)

    注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

    欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

    展开全文
  • 数据标准化/归一化normalization

    万次阅读 2018-10-05 08:22:40
    这里主要讲连续型特征归一化的常用方法。 连续型特征还有一种处理方式是,先分桶/分箱(如等频/...离散数据处理参考[数据预处理:独热编码(One-Hot Encoding)]。 基础知识参考: [均值、方差与协方差矩阵] [...

    http://blog.csdn.net/pipisorry/article/details/52247379

    这里主要讲连续型特征归一化的常用方法。

    连续型特征还有一种处理方式是,先分桶/分箱(如等频/等距的分)[待写]进行离散化后再使用离散数据的处理方法。

    离散数据处理参考[数据预处理:独热编码(One-Hot Encoding)]。

    基础知识参考:

    [均值、方差与协方差矩阵]

    [矩阵论:向量范数和矩阵范数]

    数据的标准化(normalization)和归一化

        数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

        目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循。

    其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。

    归一化的目标

    1 把数变为(0,1)之间的小数
            主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
    2 把有量纲表达式变为无量纲表达式
            归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 比如,复数阻抗可以归一化书写:Z = R + jωL = R(1 + jωL/R) ,复数部分变成了纯数量了,没有量纲。
    另外,微波之中也就是电路分析、信号系统、电磁波传输等,有很多运算都可以如此处理,既保证了运算的便捷,又能凸现出物理量的本质含义。

    归一化后有两个好处

    1. 提升模型的收敛速度

    如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏)


    2.提升模型的精度

    归一化的另一好处是提高精度,这在涉及到一些距离计算的算法时效果显著,比如算法要计算欧氏距离,上图中x2的取值范围比较小,涉及到距离计算时其对结果的影响远比x1带来的小,所以这就会造成精度的损失。所以归一化很有必要,他可以让各个特征对结果做出的贡献相同。

        在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

        在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。

    从经验上说,归一化是让不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

    3. 深度学习中数据归一化可以防止模型梯度爆炸。

    数据需要归一化的机器学习算法

    需要归一化的模型:

            有些模型在各个维度进行不均匀伸缩后,最优解与原来不等价,例如SVM(距离分界面远的也拉近了,支持向量变多?)。对于这样的模型,除非本来各维数据的分布范围就比较接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据dominate。
            有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logistic regression(因为θ的大小本来就自学习出不同的feature的重要性吧?)。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型,最好也进行数据标准化。

            有些模型/优化方法的效果会强烈地依赖于特征是否归一化,如LogisticReg,SVM,NeuralNetwork,SGD等。

    不需要归一化的模型:

        (0/1取值的特征通常不需要归一化,归一化会破坏它的稀疏性。)

        有些模型则不受归一化影响,如DecisionTree。

        ICA好像不需要归一化(因为独立成分如果归一化了就不独立了?)。

        基于平方损失的最小二乘法OLS不需要归一化。

    [线性回归与特征归一化(feature scaling)]

    皮皮blog

     

     

    常见的数据归一化方法

    最常用的是 min-max标准化 和 z-score 标准化。

    min-max标准化(Min-max normalization)/0-1标准化(0-1 normalization)/线性函数归一化/离差标准化

    是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

    其中max为样本数据的最大值,min为样本数据的最小值。

    def Normalization(x):
        return [(float(i)-min(x))/float(max(x)-min(x)) for i in x]

    如果想要将数据映射到[-1,1],则将公式换成:

    x* = x* * 2 -1

    或者进行一个近似

    x* = (x - x_mean)/(x_max - x_min), x_mean表示数据的均值。

    def Normalization2(x):
        return [(float(i)-np.mean(x))/(max(x)-min(x)) for i in x]

    这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

    z-score 标准化(zero-mean normalization)

    最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,spss默认的标准化方法就是z-score标准化。

    也叫标准差标准化,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。

    经过处理的数据符合标准正态分布,即均值为0,标准差为1,注意,一般来说z-score不是归一化,而是标准化,归一化只是标准化的一种[lz]。

    其转化函数为:

    x* = (x - μ ) / σ

    其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

    z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。该种标准化方式要求原始数据的分布可以近似为高斯分布,否则效果会变得很糟糕。

    标准化的公式很简单,步骤如下

      1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
      2.进行标准化处理:
      zij=(xij-xi)/si
      其中:zij为标准化后的变量值;xij为实际变量值。
      3.将逆指标前的正负号对调。
      标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

     
    1. def z_score(x, axis):

    2. x = np.array(x).astype(float)

    3. xr = np.rollaxis(x, axis=axis)

    4. xr -= np.mean(x, axis=axis)

    5. xr /= np.std(x, axis=axis)

    6. # print(x)

    7. return x

    为什么z-score 标准化后的数据标准差为1?

    x-μ只改变均值,标准差不变,所以均值变为0

    (x-μ)/σ只会使标准差除以σ倍,所以标准差变为1

    这两种最常用方法使用场景:

    1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,第二种方法(Z-score standardization)表现更好。

    2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。
    原因是使用第一种方法(线性变换后),其协方差产生了倍数值的缩放,因此这种方式无法消除量纲对方差、协方差的影响,对PCA分析影响巨大;同时,由于量纲的存在,使用不同的量纲、距离的计算结果会不同。而在第二种归一化方式中,新的数据由于对方差进行了归一化,这时候每个维度的量纲其实已经等价了,每个维度都服从均值为0、方差1的正态分布,在计算距离的时候,每个维度都是去量纲化的,避免了不同量纲的选取对距离计算产生的巨大影响。
    [再谈机器学习中的归一化方法(Normalization Method) ]

    皮皮blog

    log函数转换

    通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下:

    看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。

    atan函数转换

    用反正切函数也可以实现数据的归一化。

    使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上,而并非所有数据标准化的结果都映射到[0,1]区间上。

    Decimal scaling小数定标标准化

    这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。

    将属性A的原始值x使用decimal scaling标准化到x'的计算方法是:
    x'=x/(10^j)
    其中,j是满足条件的最小整数。
    例如 假定A的值由-986到917,A的最大绝对值为986,为使用小数定标标准化,我们用每个值除以1000(即,j=3),这样,-986被规范化为-0.986。
    注意,标准化会对原始数据做出改变,因此需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化。

    Logistic/Softmax变换

    [Sigmod/Softmax变换 ]

    模糊量化模式

    新数据=1/2+1/2sin[派3.1415/(极大值-极小值)*(X-(极大值-极小值)/2) ] X为原数据

    皮皮blog

     

    数据标准化/归一化的编程实现

    python库实现和调用

    [Scikit-learn:数据预处理Preprocessing data ]

    from: http://blog.csdn.net/pipisorry/article/details/52247379

    --------------------- 本文来自 -柚子皮- 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/pipisorry/article/details/52247379?utm_source=copy

    展开全文
  • 数据治理之——数据标准体系建设示例

    万次阅读 多人点赞 2019-04-29 14:11:31
    1.1.1 数据标准体系建设 ...配合数据标准落地搭建相关的数据标准管理平台,用户管理和维护数据标准,并提供数据标准的查询浏览和导出等相关功能,标准监控通过数据质量监控平台完成。如下图所示: 图 6...

    1.1.1 数据标准体系建设
    数据标准是企业级的业务规范,用于指导各业务系统及数据仓库的建设依据,元数据是系统级的描述手段,更多的反映系统建设情况;数据标准指导系统建设的成果可以通过元数据来反映,系统的建设反过来可促进数据标准的完善。
    配合数据标准落地搭建相关的数据标准管理平台,用户管理和维护数据标准,并提供数据标准的查询浏览和导出等相关功能,标准监控通过数据质量监控平台完成。如下图所示:

    图 6.1 2数据标准制定流程
    1.1.1.1 数据标准的编制
    目前XX区各部门的电子政务系统建设,主要是以功能为核心,体现的是部门级的管理要求和管理水平,缺乏区一级的数据标准,各系统建设难免出现异构现象。数据格式、类型不一致,数据质量问题突出,难以提供信息共享和业务协同的数据支撑。建立完整、系统、准确、合规的区级数据标准是实现信息系统逻辑集中,实现有效深度智能挖掘的必要条件,充分发挥标准化建设的“统一规范”作用,有效瓦解并防范“信息孤岛”和条块分割的重复信息系统建设。
    数据标准体系建设涉及部门多,且存在跨部门、跨系统的数据交换,各系统建设难免出现异构现象,数据格式、类型不一致,数据质量问题突出。统一标准是各局点之间互联互通、信息共享、业务协同的基础,结合电子政务建设的实践体会,运用先进适用的信息技术建设区数据中心,通过顶层设计和统筹规划,建立针对区数据中心的大数据标准体系,从根本上解决各部门各系统数据存在的不标准、不完整、重复、错误、不一致等数据质量问题,使数据在整合、应用的过程中实现统一标准的管理,达到提升整体数据质量、实现信息共享、信息交换、信息关联的目的。
    1.1.1.1.1 标准制定思路
    按照遵从上位标准、完善本地标准、补充空白标准、标准指导应用的原则,数据标准建设总体思路如下图所示:

    图 6.1 3数据标准体系建设思路
    1、遵从上位标准:数据标准编制前,要对现有各类数据标准进行梳理,包括:业务涉及到的国家标准、地方标准和行业标准,以及XX区已经颁布的标准;
    2、完善本地标准:对XX区现有标准不完善的地方进行补充和升级,以适应业务发展需要;
    3、补充空白标准:对于XX区各部门业务执行过程中约定俗成的各种数据分类和标准进行梳理和提取,新建标准;
    4、指导应用:数据标准的制定是用来指导应用的。根据国家标准规范要求,数据标准核心内容主要由数据元目录和代码集两部份组成,其中数据元目录用于指导平台的元数据库建设,代码集用于指导平台的标准维度库建设,这两个数据库是平台的基础库,所有经过标准化清洗,进入平台的数据都由这两个库中的数据进行登记和描述,即,所有入库数据必须遵循数据标准。
    1.1.1.1.2 数据元目录建设
    数据元是通过定义、标识、表示以及允许值等一系列属性描述的数据单元。通过对数据元及其属性的规范化和标准化,不同用户可以对数据拥有一致的理解、表达和标识,可以有效实现和增进跨系统和跨环境的数据共享。
    XX区电子政务业务数据元是在一定的业务环境中最小的数据单元,是将政务业务主体(如人口、法人、房屋)、政务数据行为(如证照内容、领取登记)、业务处理状态(如审核、批复、冻结)作为对象,对其在电子政务管理中应用到的特性(如项目的类别、行政事项类别等)和表示(如名称、代码、金额)进行标准化的结果,如“项目类别名称”、“资金性质代码”等。数据元目录是以目录形式排列的电子政务数据元的集合。为了便于数据元的理解和应用,应当将政务管理工作中用来表示业务对象的基本概念(如“项目”)作为政务管理中的一个术语加以规范化,给出标准、规范的说明或描述。
    数据对象举例如下:
    表 6.1 1数据对象
    序号 数据对象 数据元
    1 人口 姓名、身份证件名称、身份证件号码、照片、性别、性别代码、民族、民族代码、出生日期、婚姻状况、健康状况、国籍、从业状况、职业、工作单位、月收入、专业技术职务、职务、政治面貌等。
    2 法人 机构名称、组织机构代码、工商注册号、国税税务登记号、地税税务登记号、机构类型、经济类型、行业名称、行业代码、隶属关系、负责人、法定代表人等
    3 日期/时间 日期、时间、期限、年季度
    4 公文 秘密等级、保密期限、紧急程度、发文机关标识、发文机关、发文机关代字、发文年号、发文序号、成文日期、签发人、公文标题、公文正文等
    5 其他 货币名称、金额、银行名称、账户名称、支票号等
    数据元举例说明(以“姓名”为例):
    表 6.1 2数据元
    序号 数据元项 描述
    1 中文名称 姓名
    2 内部标识符 01001
    3 英文名称 name
    4 中文全拼 xing-ming
    5 定义 在公安户籍管理部门正式登记注册、人事档案中正式记载的中文姓氏名称。
    6 对象类词 人
    5 表示词 名称
    6 数据类型 字符型
    7 数据格式 a…30
    8 版本 记录版本
    9 备注 人的姓和名中间不应存在空格。
    1.1.1.1.3 代码集建设
    代码表是能够完整表达特定业务对象某个特性的全部值的集合,在XX区政府业务管理中,代码表一般与对应的数据元配套使用,作为数据元表示中的值域,可以对值域进行简洁和统一的表示和管理。代码表可以说是在电子政务数据元规范化和标准化过程中产生的,同时又有助于电子政务数据元的理解和应用的配套标准。例如,将项目按照规定的类别进行分类,并为每一类赋予一个代码,形成项目类别代码表。代码集是以目录形式表达的数据元目录中代码型值域所使用的代码表的集合,其中,每一个代码表除了规定每一项的名称、代码以及必要的说明外,还应根据需要给出必要的分类原则和编码方法。
    代码表项举例说明:
    表 6.1 3性别代码
    代码 数据元名称 代码 数据元名称
    0 未知的性别 2 女
    1 男 9 未说明的性别

    表 6.1 4民族代码
    代码 名称 代码 名称
    01 汉族 29 柯尔克孜族
    02 蒙古族 30 土族
    03 回族 31 达斡尔族
    04 藏族 32 仫佬族
    05 维吾尔族 33 羌族
    06 苗族 34 布朗族
    07 彝族 35 撒拉族
    08 壮族 36 毛南族
    09 布依族 37 仡佬族
    10 朝鲜族 38 锡伯族
    11 满族 39 阿昌族
    12 侗族 40 普米族
    13 瑶族 41 塔吉克族
    14 白族 42 怒族
    15 土家族 43 乌孜别克族
    16 哈尼族 44 俄罗斯族
    17 哈萨克族 45 鄂温克族
    18 傣族 46 德昂族
    19 黎族 47 保安族
    20 傈僳族 48 裕固族
    21 佤族 49 京族
    22 畲族 50 塔塔尔族
    23 高山族 51 独龙族
    24 拉祜族 52 鄂伦春族
    25 水族 53 赫哲族
    26 东乡族 54 门巴族
    27 纳西族 55 珞巴族
    28 景颇族 56 基诺族

    表 6.1 5身份证件类型代码
    代码 数据元名称 代码 数据元名称
    0 中华人民共和国居民身份证 1 户口簿
    2 护照 3 军官证
    4 士兵证 5 港澳居民来往内地通行证
    6 台湾同胞来往内地通行证 7 临时身份证
    8 外国人居留证 9 警官证
    10 港澳台身份证 11 回乡证
    12 驾驶证 13 社会保障卡
    14 居住证 999 其他
    1.1.1.1.4 数据标准编制过程
    1.1.1.1.4.1 国标、地标、行业数据标准等收集
    依据国标、地标、行业数据标准规范要求,结合XX区政务数据的实际情况,收集、整理、编制政务数据,例如GB11643-1999《公民身份号码》、GB/T3304-1991《中国各民族名称的罗马字母拼写法和代码》、GB/T4658-1984《文化程度代码》、GB/T4754-2002《国民经济行业分类》、GB/T4761-1984《家庭关系代码》、GB/T4762-1984《政治面貌代码》分别对公民身份号码、民族、文化程度、国民经济行业分类、家庭关系、政治面貌的编码及规则做出了规定。
    相关标准清单如下:
    表 6.1 6标准清单
    序号 标准号 标准名称
    1 GB/T2260-2002 中华人民共和国行政区划代码
    2 GB/T2261.1-2003 个人基本信息分类与代码第1部份:人的性别代码
    3 GB/T2261.2-2003 个人基本信息分类与代码第2部份:婚姻状况代码
    4 GB/T2261.3-2003 个人基本信息分类与代码第3部份:健康状况代码
    5 GB/T2261.4-2003 个人基本信息分类与代码第4部份:从业状况(个人身份)代码
    6 GB/T3304-1991 中国各民族名称的罗马字母拼写法和代码
    7 GB/T4658-1984 文化程度代码
    8 GB/T4754-2002 国民经济行业分类
    9 GB/T4761-1984 家庭关系代码
    10 GB/T4762-1984 政治面貌代码
    11 GB/T4880.2-2000 语种名称代码第2部份:3字母代码
    12 GB/T6565-1999 职业分类与代码
    13 GB/T6864-2003 中华人民共和国学位代码
    14 GB/T6865-1986 语种熟练程度代码
    15 GB/T7408-2005 数据元和交换格式信息交换日期和时间表示法
    16 GB/T8561-2001 专业技术职务代码
    17 GB11643-1999 公民身份号码
    18 GB11714-1997 全国组织机构代码编制规则
    19 GB/T12402-2000 经济类型分类与代码
    20 GB/T12407-1990 干部职务级别代码
    21 GB13000.1-1993 信息技术通用多八位编码字符集(UCS)第一部份:体系结构与基本多文种平面
    22 GB/T14946-2002 全国干部、人事管理信息系统指标体系分类与代码
    23 GB/T16835-1997 高等学校本科、专科专业名称代码
    24 GB/T16987-2002 组织机构代码信息数据库(基本库)数据格式
    25 GB/T19488.1-2004 电子政务数据元第1部份:设计和管理规范
    26 GB/T2260-2007 中华人民共和国行政区划代码
    27 GB/T20091-2006 组织机构类型
    28 GB/T4754-2011 国民经济行业分类
    29 GB/T12406-2008 表示货币和资金的代码
    30 GB/T2659-2000 世界各国和地区名称代码
    31 GB/T4658-2006 学历代码
    32 GB/T22120-2008 企业信用数据项规范
    33 GB/T50353-2005 建筑工程建筑面积计算规范
    34 GB12408-1990 社会兼职代码
    35 GB24315-2009 校车标识
    36 GB/T4657-2009 中央党政机关、人民团体及其他机构代码
    37 GB/T3181-2008 漆膜颜色标准
    38 GB/T9417-1988 汽车产品编号规则
    39 GA324.1-2001 人口信息管理代码第1部份:户口类别代码
    40 GA324.5-2001 人口信息管理代码第5部份:兵役状况代码
    41 GA324.6-2001 人口信息管理代码第6部份:血型代码
    42 GA/T114-2003 消防车产品型号编制方法
    43 GA36-1992 中华人民共和国机动车号牌
    44 GA523-2004 警车外观制式涂装用定色漆
    45 GA37-2008 中华人民共和国机动车行驶证
    46 GA214.12-2004 常住人口管理信息规范第12部份:宗教信仰代码
    47 GA324.5-2001 人口信息管理代码第5部份兵役状况代码
    48 GB50352-2005 民用建筑设计通则
    49 GB50368-2005 住宅建筑规范
    50 GB/T17986.1-2000 房产测量规范第1单元:房产测量规定
    51 SZDB/Z26-2010 建筑物基本指标、功能分类及编码
    52 SZDB/Z3.3-2006 社区服务与综合管理信息化技术规范第三部份:代码规范
    53 SZDB/Z4-2006 统一空间基础网格
    54 DB11/T124-2007 社会保障信息系统指标体系代码与数据结构
    1.1.1.1.4.2 XX区现有数据标准整理
    依据XX区织网工程、城管系统、综合执法平台、政府投资建设等区级已建立的数据标准进行收集、梳理,建立具有XX区特色的数据标准体系。
    该部份数据根据项目实施情况继续收集整理,融入本次平台建设的数据标准体系中。
    1.1.1.1.4.3 新建数据标准整理
    对于未覆盖国标、地标、行业数据标准和XX区现有数所标准这两种数据标准,需根据XX区具体业务的特色,建立新的数据标准。
    举例说明,城市部件,在XX区是有以下标准:
    表 6.1 7城市部件
    大类代码 大类名称 小类代码 小类名称 大类代码 大类名称 小类代码 小类名称
    01 公共设施 01 上水井盖 02 道路交通 12 存车支架
    02 污水井盖 13 路名牌
    03 雨水井盖 14 交通信号设施
    04 雨水箅子 15 道路信息显示屏
    05 电力井盖 16 道路隔音屏
    06 路灯井盖 17 交通岗亭
    07 通讯井盖 03 市容环境 01 公共厕所
    08 电视井盖 02 化粪池
    09 网络井盖 03 公厕指示牌
    10 热力井盖 04 垃圾间(楼)
    11 燃气井盖 05 垃圾箱
    12 公安井盖 06 灯箱霓虹灯
    13 消防设施 07 广告牌匾
    14 无主井盖 08 环保监测站
    15 通讯交接箱 09 气象监测站
    16 电力设施 10 污水口监测站
    17 立杆 11 噪声显示屏
    18 路灯 04 园林绿化 01 古树名木
    19 地灯 02 行道树
    20 景观灯 03 护树设施
    21 报刊亭 04 花架花钵
    22 电话亭 05 绿地
    23 邮筒 06 雕塑
    24 信息亭 07 街头坐椅
    25 自动售货机 08 绿地护栏
    26 健身设施 09 绿地维护设施
    27 中水井盖 10 喷泉
    28 公交井盖 05 房屋土地 01 宣传栏
    29 输油(气)井盖 02 人防工事
    30 特殊井盖 03 公房地下室
    31 民用水井 06 其他设施 01 重大危险源
    32 供水器 02 工地
    33 高压线铁塔 03 水域附属设施
    34 变压器(箱) 04 水域护栏
    35 燃气调压站(箱) 05 港监设施
    36 监控电子眼 06 防汛墙
    37 售货亭 07 房屋 01 住宅
    38 治安岗亭 02 办公楼
    02 道路交通 01 停车场 03 商铺
    02 停车咪表 04 厂房
    03 公交站亭 08 扩展部件
    04 出租车站牌
    05 过街天桥
    06 地下通道
    07 高架立交桥
    08 跨河桥
    09 交通标志牌
    10 交通信号灯
    11 交通护栏
    以上关于城市部件的标准融入到本平台的数据标准体系中。
    该部份需要根据平台实施情况继续收集整理、完善,建立XX区特有的数据标准体系。
    1.1.1.1.4.4 数据标准体系编写
    根据国家标准规范要求以及其他地区政务数据标准建设经验,开展本标准体系的编制。
    一、《XX区政务数据标准体系》文档编制应包括但不限于以下部份组成:
    第一部份:数据元(目录)
    1.范围
    2.规范性引用文件
    3.术语和定义
    3.1 技术术语
    3.2 业务术语
    4.数据元描述方法及规则
    4.1 数据元的属性
    4.2 数据元属性规范
    4.2.1 标识符
    4.2.2 中文名称
    4.2.3 英文短名
    4.2.4 说明
    4.2.5 同义名称
    4.2.6 语境
    4.2.7 数据类型
    4.2.8 表示格式
    4.2.9 值域
    4.2.10 备注
    4.2.11 版本
    5.数据元的使用
    5.1 直接使用
    5.2 扩展使用
    6.政务数据元目录
    6.1 人口
    6.2 法人
    6.3 房屋
    6.4 ……
    6.5 ……
    6.6 ……
    第二部份 代码集目录:
    1.范围
    2.规范性引用文件
    3.分类与编码的基本原则与方法
    4.代码集
    4.1 日期时间
    4.2 行政区划
    4.3 单位信息
    4.4 预算科目
    4.5 项目管理
    4.6 ……
    4.7 ……
    4.8 ……
    第三部份:维护与管理(目录)
    1.范围
    2.规范性引用文件
    3.术语和定义
    4.相关机构的设置及职责
    4.1 注册(维护)机构
    4.2 提交、主管机构
    5.技术评审原则
    6.技术评审规则
    6.1 形式审查审核表
    6.2 技术审查审核表
    7.技术评审程序
    7.1 数据元目录和代码集的维护
    7.2 数据元和代码维护请求的提交
    7.3 技术评审审核
    7.4 技术评审结论处理
    8.数据的更新与发布
    附录A:(规范性附录)数据元注册维护请求表
    附录B:(规范性附录)代码表数据维护请求表
    二、数据标准编制流程如下:
    对数据标准编制需建立明确的标准化组织架构,成立数据标准领导小组,具体架构如下图所示:

    图 6.1 4数据标准成员
    由数据标准体系领导小组对标准体系的整体规划,顶层设计进行审核发布。各项标准的起草将经历标准框架、标准草案、标准工作组讨论稿、标准征求意见稿、标准送审稿、标准报批稿及标准发布稿等阶段。
    标准比对:将XX区政务数据经过与国标、地标、行业标准逐一比对、去重、合成,形成一套可行的、完整的、具有XX区政务特色的数据标准体系草案。
    标准草案:经过对国内外相关情况,以及规范主编单位的深入讨论,形成标准草案,阐述标准将要规定的大概内容、适用范围,关键技术要点等。标准草案将作为向数据标准体系领导小组申请立项标准的申请材料之一。
    标准工作组讨论稿:在数据标准体系领导小组立项后,由主编单位牵头召集相关单位,成立标准编制工作组,建立日常工作机制,定期或不定期召开标准讨论会或组织调研、专家论证、试验等工作。
    在此期间,标准工作组将对本规范的内容进行反复讨论修改,形成总体上科学合理、技术上具有可操作性、格式上符合GB/T1.1规定的标准文本。同时,标准工作组将起草相应的标准编制说明。
    标准征求意见稿:在本标准体系的各项标准工作组讨论稿及编制说明文稿成熟后,经标准工作组内部达成一致无意见后,向数据标准体系领导小组提出,由数据标准体系领导小组公开向社会征求对标准的意见,并由标准工作组负责汇总整理反馈的意见和建议。
    标准送审稿:完成标准征求意见及意见汇总后,标准工作组将对反馈意见进行逐条处理,对于合理意见应予以采纳,并在标准文本中做相应修改。对于不采纳的意见,标准工作组将给出不采纳的理由,在此基础上形成标准送审稿和意见反馈处理表。
    标准报批稿:在形成送审稿后,标准工作组将向数据标准体系领导小组申请召开标准审查会。由数据标准体系领导小组组织专家,由审查会专家组对标准送审稿进行逐条审查,并表决该规范是否通过审查。标准通过审查后,将根据审查会专家组在会上提出的意见对本规范的文本进行逐条修改,形成标准报批稿,并与编制说明、意见汇总处理表等文件共同形成标准报批材料,一并向数据标准体系领导小组提交。在标准报批之前,本规范的主编单位将确定各参与起草单位及起草人在本规范前言中的署名及排名。
    标准发布稿:数据标准体系领导小组对标准的报批材料进行形式审查之后,将按照其规定发布本标准的正式文本并公开发行。
    1.1.1.2 数据标准应用
    根据XX区的政务数据特点,将《XX区政务数据标准体系规范》应用于本次项目的数据治理中实施,依据数据元目录与代码集的整理,指导了元数据库与标准维度库的建立,从两个基础的数据库中,为数据治理与交换平台提供了综合数据库建设的基础,标准规范体系的指引,形成XX区政务的“黄金数据”,让数据可使用、可管理、可控制。数据标准使用流程如下图所示:

    图 6.1 5数据标准使用流程
    1.1.1.2.1 指导生成元数据
    在数据标准中规定了相关业务实体(人口、法人、房屋、事件等)的基础元属性(实体本身的基本属性,如:人口的姓名、性别、民族、身份证号码等)和扩展元属性(与实体相关的其他属性,如:人口的教育、民政、计生、户籍等)。这些元属性包括了名称、标识符、数据类型、数据格式、计量单位、值域、关联关系等内容,这些内容用于指导平台元数据的建设,是平台建设数据元模型的信息来源之一。
    1.1.1.2.2 指导生成维度库
    数据标准中规定了各类数据元代码集(民族代码、国家和地区代码、身份证类型、血型代码等),它是对元数据值域的规范性分类标准,即对业务实体的属性(维度)的分类标准,因此这些内容可指导平台维度库的建设,即描述业务实体的维度和维度值可依据代码集建设。
    1.1.1.3 数据标准管理
    1.1.1.3.1 基本功能

    1. 标准新增
      支持数据标准的采集方式:标准数据手工录入、标准文件导入、标准文档在线编辑、定时同步引用公共的标准库。
      支持数据标准的采集格式:文本文件、DOC/DOCX、PDF、EXCEL。
    2. 标准修改
      对未发布的标准(草稿),标准管理员可以直接编辑修改,对已发布执行的标准,需要经过授权管理员审批后方可对外发布。
    3. 标准删除
      对未发布的标准(草稿),标准管理员可以直接删除,对已发布执行的标准,需要经过授权管理员审批后方可执行删除。
    4. 标准审批
      提供统一的审批操作界面和审批流程浏览视图。实现如下图所示标准审批流程。如下图所示:

    图 6.1 6数据标准审批
    5. 标准发布
    提供标准发布操作界面,执行对外公开发布标准操作,同时更新标准版本库信息。
    1.1.1.3.2 标准版本管理
    保留历史版本以及每次变更(新增、修改、删除)的记录,提供界面可以对历史版本检索浏览。标准版本管理具体实现如下功能:

    1. 数据标准版本建立
      实现数据标准版本库功能,对平台所有新增的数据标准建立版本信息,变更过的数据标准建立历史版本,对删除后的标准建立历史版本。
    2. 数据标准版本差异对比
      可以比较数据标准中的任何两个版本的差别。
    3. 数据标准版本删除
      对删除后的标准建立的历史版本,可以永久删除该历史版本。
    4. 数据标准版本展示
      实现版本浏览视图,对数据标准版本进行概览和列表展示。
    5. 数据标准版本备份与恢复
      实现数据标准版本的备份与恢复功能,可以将数据标准恢复到指定的历史版本。
    6. 数据标准版本历史变更管理
      记录数据标准的操作日志,版本变更历史,可以回溯数据标准的历史变更过程。
      1.1.1.3.3 数据标准浏览
      提供数据标准查询功能,对已发布的主数据标准、代码数据标准、指标数据标准进行查询、浏览。可支持目录浏览查询、关键字模糊查询。数据标准浏览具体实现如下功能:
    7. 数据标准浏览
      按部门、类别、版本、分类、标签多个维度对平台内所有数据标准进行浏览。
    8. 数据标准统计
      统计平台内所有数据标准的数据、大小、版本数、标准变更次数、被引用的次数等。
    9. 数据标准查询
      提供数据标准查询功能,可以按指定维度查询,也可以按关键词进行模糊查询和全文检索。
    10. 数据标准版本历史视图
      支持全部主数据标准、代码数据标准、指标数据标准的按历史版视图方式进行查阅和维护。
      1.1.1.3.4 数据标准导出
      提供界面供用户选择特定标准,并支持将选定标准按照规定格式一键导出。数据标准导出具体实现如下功能:
    11. 数据标准导出
      支持导出的格式:文本文件、DOC/DOCX、PDF、EXCEL
      支持导出权限管理、下载权限管理。
      支持导出流程管理:实现导出流程,对数据标准的导出操作,按申请、管理员审核、审核通过后才能下载的全流程管理。
    12. 数据标准导出日志
      生成数据标准导出日志,从日志中查询数据被导出的记录。

    1.1.1.4 人口类数据主要来源
    人口基础信息来源如下所示,按照信息来源和信息归属划分,包括公安户籍信息、教育信息、民政信息、人保信息、住房信息、人口统计信息、卫生信息、计生信息、税务信息、住房公积金信息等。如下图所示:

    图 4.2 1人口类数据来源示意图
    1.公安户籍信息
    公安户籍信息来源于市公安局,包括:身份证号码、姓名、性别、民族、出生日期、出生地、户口类别、常住户口所在地、户籍登记地址、户口所在地邮政编码、死亡标识、死亡日期、死亡登记日期、曾用名、籍贯、户主身份证号码、与户主关系、姓氏、名字、曾用姓氏、曾用名字。
    2.教育信息
    教育信息来源于区教育局,包括:最高学历、最高学历毕业学校、最高学历毕业时间、最高学历毕业专业、学位、学位授予时间、其他所学专业、所学外语语种、外语语种熟练程度、学生学籍号。
    3.民政信息
    民政信息来源于区民政局,包括:婚姻状况、婚姻登记时间、救济人员分类、享受定期定量救济金额、社会福利机构收养人员分类、享受定期抚恤补助状况、定期优抚金额。
    4.人保信息
    人保信息来源于区人社局,包括:劳动就业信息、社会保险信息、医疗保险信息、养老保险信息、失业保险信息、工伤保险信息、生育保险信息。
    (1)劳动就业信息:包括:职业资格等级、参加工作时间、职业类别、职业名称、就业状况、资格审批单位名称、取得资格时间、就业经历。
    (2)社会保险信息:包括:个人参保日期、个人参保状态、险种类型、社会保险登记证号码、缴费地区代码、缴费单位名称、缴费人员类别。
    (3)医疗保险信息:包括:医疗保险证号、医疗参保人员类别、基本医疗保险个人帐户建立日期、定点医疗机构代码。
    (4)养老保险信息:包括:离退休时间、离退休人员类别、领取养老金标识、曾经冒领养老金标识、曾经冒领养老金金额。
    (5)失业保险信息:包括:享受失业保险起始日期、失业待遇类别、应领取失业保险金月数、失业原因。
    (6)工伤保险信息:包括:发生工伤状态、发生工伤时间、伤害部位、工伤认定申请号、伤残等级、终止工伤保险待遇关系标志、工伤待遇类别。
    (7)生育保险信息:包括:生育待遇类别、享受起始时间、享受终止时间。
    5.住房信息
    住房信息来源于区住房保障和房地产管理局,包括:产权证号、产权类型、房屋地址、住房来源、购房日期、建筑面积。
    6.人口统计信息
    人口统计信息来源于区统计局,包括:公民身份证号码、姓名、性别、民族、出生日期、出生地、户口类别、户籍登记地址、家庭主要成员姓名。
    7.卫生信息
    卫生信息来源于区卫生局,包括:身高、体重、血型、健康状况、家族病史、家族病史发病时间、慢性病史、慢性病史发病时间、传染病史、传染病史发病时间、药物过敏及其他过敏史、药物过敏及其他过敏史发病时间。
    8.计生信息
    计生信息来源于区人口和计划生育委员会,包括:公民身份证号、姓名、生育情况、健康情况、生殖情况。
    9.税务信息
    税务信息来源于区地税局,包括:欠缴税款标识、欠缴税款滞纳金标识。
    10.住房公积金信息
    住房公积金信息来源于区公积金管理中心,包括:公积金帐号、参加公积金时间、本年缴存额、本年支取额、上年结转本金、上年结转利息、金额。
    1.1.1.5 法人单位类数据来源
    本项目涉及的法人基础信息按照信息来源和信息归属划分,包括质监部门信息、工商部门信息、国税部门信息、地税部门信息、编办信息、民政部门信息、发改部门信息、公安部门信息、人社部门信息、卫生部门信息、商务部门信息、统计部门信息、教育部门信息、文化部门信息、安监部门信息、食药监部门信息、海关信息部门等。具体如下:
    1、质监部门
    (1)组织机构代码赋值信息:包括企业注册号、组织机构代码、机构名称、机构注册类型、颁证日期;
    (2)组织机构代码变更信息:组织机构代码、机构名称、变更事项、变更内容、变更日期;
    (3)组织机构代码废置信息:组织机构代码、机构名称、废置日期;
    (4)代码对照表:注册号(营业执照注册号、事业单位法人登记号、民间组织登记证号)、组织机构代码、机构名称、注册类型。
    2、工商部门
    (1)开业登记信息:企业注册号、企业名称、法定代表人、身份证件号码、住所、邮政编码、联系电话、前置许可经营项目、一般经营项目、行业代码、企业类型、成立日期、登证机关;
    (2)变更登记信息:组织机构代码、企业注册号、变更事项、变更内容、核准日期;
    (3)注销登记信息:企业名称、企业注册号、注销事由、注销日期、注销机关;
    (4)吊销营业执照信息:企业名称、企业注册号、吊销原因、吊销日期;
    (5)年检信息:企业注册号、企业名称、年检年度、年检情况。
    3、国税部门
    (1)税务登记信息:企业注册号、组织机构代码、纳税人识别号、纳税人名称、法定代表人、注册地址、税务登记日期、税务登证机关、纳税人类型、纳税人状态;
    (2)注销税务登记信息:组织机构代码、企业注册号、纳税人识别号、纳税人名称、注销原因、注销日期、注销机关;
    (3)税务登记验证、换证信息:组织机构代码、企业注册号、纳税人识别号、纳税人名称、验换证日期
    (4)非正常户信息:组织机构代码、企业注册号、纳税人识别号、纳税人名称、非正常户认定日期、非正常户解除日期、
    (5)提请工商行政管理部门吊销营业执照信息:企业注册号、企业名称、提请吊销原因、提请吊销日期;
    (6)行政处罚信息:组织机构代码、企业注册号、纳税人识别号、纳税人名称、违法违章手段、行政处罚结果、行政处罚日期;
    (7)无照经营企业信息:企业名称、住所。
    4、地税信息
    (1)税务登记信息:企业注册号、组织机构代码、纳税人识别号、纳税人名称、法定代表人、注册地址、税务登记日期、税务登证机关、纳税人类型、纳税人状态;
    (2)注销税务登记信息:组织机构代码、企业注册号、纳税人识别号、纳税人名称、注销原因、注销日期、注销机关;
    (3)税务登记验证、换证信息:组织机构代码、企业注册号、纳税人识别号、纳税人名称、验换证日期
    (4)非正常户信息:组织机构代码、企业注册号、纳税人识别号、纳税人名称、非正常户认定日期、非正常户解除日期、
    (5)提请工商行政管理部门吊销营业执照信息:企业注册号、企业名称、提请吊销原因、提请吊销日期;
    (6)行政处罚信息:组织机构代码、企业注册号、纳税人识别号、纳税人名称、违法违章手段、行政处罚结果、行政处罚日期;
    (7)无照经营企业信息:企业名称、住所。
    5、编办
    (1)设立登记信息:事业单位法人登记号、事业单位名称、住所、法定代表人、业务范围、电话、事业单位类别、经费来源、登记日期、登记机关名称;
    (2)变更登记信息:事业单位法人登记号、事业单位名称、变更事项、变更内容、变更日期;
    (3)注销登记信息:事业单位法人登记号、事业单位名称、注销原因、注销日期;
    (4)年检情况:事业单位法人登记号、事业单位名称、年检结果、年检日期。
    6、民政
    (1)民间组织登记信息:民间组织的名称、登记证号、住所、联系电话、法定代表(负责人)、身份证号、业务范围、活动(开办)资金、成立登记日期、登记机关名称、组织机构代码;
    (2)民间组织变更信息:民间组织的名称、登记证号、变更事项、变更内容、变更日期、组织机构代码;
    (3)民间组织注(撤)销信息:民间组织的名称、登记证号、注销(撤)原因、注销(撤)日期、组织机构代码;
    (4)民间组织年检信息:民间组织的名称、登记证号、年检结果、年检日期;
    (5)社会团体信息:登记时间、年检时间、业务主管部门、分支机构代表机构数、从业人数、志愿者数、住所、电话、邮编;
    (6)民办非企业单位信息:登记时间、年检时间、业务主管部门、开办资金、性质、单位负责人数、类别、从业人数、是否新成立、注销撤销取缔情况、注撤取缔时间、住所。
    7、发改部门
    (1)企业基本信息:企业名称、企业注册号、组织机构代码、法定代表人姓名、法定代表人身份证件号;
    (2)固定资产投资项目备案证信息:项目编号、申请备案时间、组织机构代码、股东、申请单位经济类型、建设类别、建设性质、所属行业代码、所属区县代码、建设规模、总投资。
    8、公安部门
    (1)企业基本信息:企业名称、企业注册号、组织机构代码、法定代表人姓名、法定代表人身份证件号;
    (2)治安处罚信息:监管日期、监管部门、企业名称、监管原因、监管结果;
    (3)危险物品管理:单位名称、负责人、地址、守卫人员、主管部门、保管人员、批准单位、批准时间、四邻距离、核定储存量;
    (4)消防管理:申报单位、消防安全负责人、消防安全管理人、申报事项、场所或活动名称、地点、拟定使用、开业或者举办日期、建筑物耐火等级、座位(人)或摊位数、安全出口数量、是否经消防设计审核合格、是否经消防验收合格、(疏散通道、安全出口、疏散指示)标志是否符合规定、消防设施;
    (5)重点消防单位预案管理:单位名称、单位地址、道路或小区名称、起始门牌、终止门牌、邻近道路、辖区中队、概况、措施、出动预案、备注。
    9、安监部门
    (1)企业基本信息:企业名称、企业注册号、组织机构代码、法定代表人姓名、法定代表人身份证件号;
    (2)主要化学危险品生产、经营或使用单位信息:单位名称、单位地址、业务范围、使用化学危险品情况、负责人、联系电话;
    (3)重点矿山企业管理:企业名称、企业地址、经营或生产范围、负责人、联系电话、备注。
    10、人社部门
    (1)社保信息:组织机构代码、纳税人识别号、企业名称、企业地址、法定代表人、单位编码、发证日期、参保日期、社会保障代码、各参保险种人数、年份。
    (2)医保信息基本信息:企业名称、法定代表人、企业注册号、组织机构代码、分中心、经办人员、单位名称、联系电话、单位类别、隶属关系、所属行业、档案编号、所属系统、开户银行、所属地区、单位人数、邮政编码、所在部门、通讯地址、生育缴费比例、户名、工商缴费比例、投保日期、公务缴费比例;
    (3)医保单位员工信息:在职职工、在职医疗保险情况、退休(职)医疗保险情况、退休医疗保健人员、下岗职工、离休人员(老红军)、参加险种、退休人员(老红军)、参加日期、副省级以上干部、险种单位代码、二等乙级以上革命伤残军人。
    11、卫生部门
    (1)盈利性、非盈利性医疗机构管理:医疗机构名称、注册登记号码、法人代表、联系电话、夜间值班电话、所有制形式、核发性质、服务对象、服务方式、诊疗科目、病房总数、急救病床数、床位总数、医疗设备情况、医生人数、护士人数、擅长专科内容、疫苗储备情况、地址、有效期限;
    (2)戒毒医疗机构资质:医疗机构名称、法人代表、联系电话、所有制形式、床位、卫技人数、地址;
    (3)食品生产经营卫生许可:企业名称、法定代表人、经营范围、注册地址、卫生许可证号、颁发日期、终止日期。
    12、教育部门
    (1)学校基本信息:学校代码、学校中文名称、学校英文名称、学校地址、所在地行政区划码、学校校长、党委负责人、建校年月、校庆日、学校性质码、学校办学类型码、学校举办者码、学校主管部门名称、学校主管部门码、211工程院校状况、重点院校状况、设立研究生院状况、附设网络学院状况、附设成教学院状况、学科门类数、招生规模、在校人员总数、邮政编码、联系电话、传真电话、电子信箱、主页地址、组织机构代码、批准机关、批准文号、批准时间、历史沿革;
    (2)校办企业信息:企业名称、企业地址、法人代表、开业日期、经济类型、经营范围、经营方式、投资方、投资金额、利润分配、联系人、联系电话。
    13、商务部门
    (1)对外贸易经营者备案信息:编号、经营者中文名称、经营英文名称、组织机构代码、经营者类型、住所、经营场所(中文)、经营场所(英文)、联系电话、邮政编码、注册日期、注册号、企业法定代表人姓名、有效证件号;
    (2)进出口经营权企业基本信息管理:进出口企业代码、进出口经营权、企业名称、企业类型、组织机构代码、批准文号、批准日期、发证日期、发证机关、企业英文名称、主管机关、企业地址、主管部门、法定代表人、企业所有制、经营年限、投资总额、投资币制、注册资本金、注册资金币制、经营范围、进出口商品目录、投资者、投资方式、投资金额、到位资金、投资日期、投资国别、投资者英文名称、投资者注册地、合作方、合作方投资比例、就业人数、安置城镇下岗、待业人员数量;
    (3)重点企业经营情况信息:企业名称、工业总产值、产品销售收入、利润总额、利税总额、产成品存货、应收帐款、流动资产平均余额、产销率、两金占用比例、资产负债率;
    (4)危险化学用品管理:危险化学品名称、储存方式、运输工具、分布情况、使用单位名称、经营单位名称、经营单位地址、经营单位许可证号;
    (5)药厂管理:企业名称、企业地址、法人代表、企业行业分类、企业经济类型、所属省份、主管部门、注册资本(万元)、经营年限、单位类型、单位编号;
    14、统计部门
    (1)法人单位基本情况:组织机构代码、单位名称、法定代表人(负责人)、单位所在地及行政区划、联系方式、行业类别、机构类型、营业状态、年末从业人员数;
    (2)产业活动单位基本情况:组织机构代码、单位名称、单位负责人、单位所在地及行政区划、联系方式、单位类别、行业类别、机构类型、归属法人单位情况、开业(成立)时间、企业营业状态、年末从业人员数;
    (3)年度书面审查信息:组织机构代码、代码、企业名称、审查结果、审查机关、审查日期。
    15、文化部门
    演出公司及文化场所管理:名称、地址、经营范围、负责人、负责人身份证号。
    16、食药监部门
    (1)药品经营许可信息:证号、企业名称、经营方式、注册地址、经营范围、法定代表人、企业负责人、质量负责人、仓库地址、有效日期、发证机关、发证日期、注销日期;
    (2)开办药品生产企业资格审批:企业名称、注册地址、邮政编码、电话、生产地址、邮政编码、电话、隶属单位、企业性质、法人代表、生产范围、生产品种、注册资本、企业名称、地址、邮政编码、经济性质、经营方式、电话、法人代表、经营范围、固定资产;
    (3)开办医疗器械生产企业:企业名称、注册地址、邮政编码、电话、生产地址、邮政编码、电话、隶属单位、企业性质、法人代表、生产范围、生产品种、注册资本、企业名称、地址、邮政编码、经济性质、经营方式、电话、法人代表、经营范围、固定资产;
    (4)麻醉药品、精神药品经营单位资格审核:企业名称、注册地址、邮政编码、电话、企业性质、法人代表、经营品种、规格、数量;
    (5)放射性药品生产许可、经营企业许可证核发:企业名称、地址、邮政编码、电话、企业性质、法人代表、经营品种、规格、数量;
    (6)药用罂粟壳经营企业批准及购进计划审核:企业名称、地址、邮政编码、电话、企业性质、法人代表、经营品种、规格、数量。

    1.1.1.6 信用信息来源:
    定期从工商总局、质检总局、民政部、中央编办、全国组织机构统一社会代码数据库等代码编制主管部门采集相关代码数据,以及定期从全国各省信用平台采集已完成转换的统一社会信用代码、注册登记号、组织机构代码等代码数据,分类存储到数据库中
    1.1.1.7 电子证照基本信息库
    1.电子证照库的构建
    建立区级电子证照库,包括政府部门和取得法定资质的第三方服务机构依法形成出具的具有法律效力的各类批文、证件、执(牌)照、鉴定报告、证明材料等文件。遵循相关安全和技术规范的可信任的、数字形态的证照,由计算机等电子设备形成、办理、传输和存储的证照信息记录。面向证照使用部门提供证照目录管理,各部门按照目录进行电子证照的交换共享,并面向业务办理部门提供证照管理,查询功能,为企事业个人提供服务。
    2.信息来源
    电子证照库信息来源于政府部门和取得法定资质的第三方服务机构。信息来源包括了经信、教育、民政、财政、国土、环保等。
    3.电子证照库建设内容
    电子证照库信息包括政府部门和取得法定资质的第三方服务机构依法形成出具的具有法律效力的各类批文、证件、执(牌)照、鉴定报告、证明材料等文件。
    4.电子证照库的更新和维护模式
    大数据中心负责自己建立的大数据中心电子证照库的更新和维护,负责电子证照备份库的更新和维护。
    5.电子证照库对内对外提供的功能
    电子证照库具备导入导出、查询、调用接口、提供数据元和元数据、服务的目录及服务等。

    展开全文
  • 机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒...

    数据缺失

    一、缺失值产生的原因

    缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。

    二、缺失值的类型

    缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。完全随机缺失(missing completely at random,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。随机缺失(missing at random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。完全非随机缺失(missing not at random,MNAR)指的是数据的缺失依赖于不完全变量自身。

    从缺失值的所属属性上讲,如果所有的缺失值都是同一属性,那么这种缺失成为单值缺失,如果缺失值属于不同的属性,称为任意缺失。另外对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失。

    三、缺失值的处理方法

    对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。对于主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。

    1.删除含有缺失值的个案

    主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量,那么这种方法可以有效减小偏差。如果解释变量和权重并不相关,它并不能减小偏差。对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法并不理想。

    2.可能值插补缺失值

    它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。常用的有如下几种方法。

    (1)均值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。

    (2)利用同类均值插补。同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。假设X=(X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。

    (3)极大似然估计(Max Likelihood ,ML)。在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization,EM)。该方法比删除个案和单值插补更有吸引力,它一个重要前提:适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。

    (4)多重插补(Multiple Imputation,MI)。多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。

    多重插补方法分为三个步骤:①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。

    假设一组数据,包括三个变量Y1,Y2,Y3,它们的联合分布为正态分布,将这组数据处理成三组,A组保持原始数据,B组仅缺失Y3,C组缺失Y1和Y2。在多值插补时,对A组将不进行任何处理,对B组产生Y3的一组估计值(作Y3关于Y1,Y2的回归),对C组作产生Y1和Y2的一组成对估计值(作Y1,Y2关于Y3的回归)。

    当用多值插补时,对A组将不进行处理,对B、C组将完整的样本随机抽取形成为m组(m为可选择的m组插补值),每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计,然后基于这m组观测值,对于这m组样本分别产生关于参数的m组估计值,给出相应的预测即,这时采用的估计方法为极大似然法,在计算机中具体的实现算法为期望最大化法(EM)。对B组估计出一组Y3的值,对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提,估计出一组(Y1,Y2)。

    上例中假定了Y1,Y2,Y3的联合分布为正态分布。这个假设是人为的,但是已经通过验证(Graham和Schafer于1999),非正态联合分布的变量,在这个假定下仍然可以估计到很接近真实值的结果。

    多重插补和贝叶斯估计的思想是一致的,但是多重插补弥补了贝叶斯估计的几个不足。

    (1)贝叶斯估计以极大似然的方法估计,极大似然的方法要求模型的形式必须准确,如果参数形式不正确,将得到错误得结论,即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论,在数据挖掘中的数据量都很大,先验分布将极小的影响结果,所以先验分布的对结果的影响不大。

    (2)贝叶斯估计仅要求知道未知参数的先验分布,没有利用与参数的关系。而多重插补对参数的联合分布作出了估计,利用了参数间的相互关系。

    以上四种插补方法,对于缺失值的类型为随机缺失的插补有很好的效果。两种均值插补方法是最容易实现的,也是以前人们经常使用的,但是它对样本存在极大的干扰,尤其是当插补后的值作为解释变量进行回归时,参数的估计值与真实值的偏差很大。相比较而言,极大似然估计和多重插补是两种比较好的插补方法,与多重插补对比,极大似然缺少不确定成分,所以越来越多的人倾向于使用多值插补方法。
    3.重复值检测

    四、小结

    插补处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实。以上的分析都是理论分析,对于缺失值由于它本身无法观测,也就不可能知道它的缺失所属类型,也就无从估计一个插补方法的插补效果。另外这些方法通用于各个领域,具有了普遍性,那么针对一个领域的专业的插补效果就不会很理想,正是因为这个原因,很多专业数据挖掘人员通过他们对行业的理解,手动对缺失值进行插补的效果反而可能比这些方法更好。缺失值的插补是在数据挖掘过程中为了不放弃大量的信息,而采用的人为干涉缺失值的情况,无论是那种处理方法都会影响变量间的相互关系,在对不完备信息进行补齐处理的同时,我们或多或少地改变了原始的数据的信息系统,对以后的分析存在潜在的影响,所以对缺失值的处理一定要慎重。

    数据异常

    在数据分析工作中,我们面对的原始数据都是存在一些肮脏数据的,其中异常值就是肮脏数据中的一种。所以说,我们在进行数据分析工作的时候一定要对数据中的异常值进行处理,那么大家是否知道数据清洗中的异常值是如何清洗的吗?下面我们就给大家介绍一下如何处理数据清洗中的异常值。

    首先我们需要对异常值有个理解,一般来说,异常值通常被称为“离群点”,对于异常值的处理,通常使用的方法有很多种,第一就是简单的统计分析,第二就是使用3∂原则处理,第三就是箱型图分析,第四就是基于模型检测,第五就是基于距离检测,第六就是基于密度检测,第七就是基于聚类。下面我们就分别为大家介绍一下这些方法。

    首先给大家介绍一下简单的统计分析,当我们拿到数据后可以对数据进行一个简单的描述性统计分析,譬如最大最小值可以用来判断这个变量的取值是否超过了合理的范围,不合常理的为异常值。

    第二就是3∂原则,如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

    第三就是箱型图分析,一般来说,箱型图提供了识别异常值的一个标准:如果一个值小于QL01.5IQR或大于OU-1.5IQR的值,则被称为异常值。QL为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR为四分位数间距,是上四分位数QU与下四分位数QL的差值,包含了全部观察值的一半。一般来说,箱型图判断异常值的方法以四分位数和四分位距为基础,四分位数具有鲁棒性:25%的数据可以变得任意远并且不会干扰四分位数,所以异常值不能对这个标准施加影响。因此箱型图识别异常值比较客观,在识别异常值时有一定的优越性。

    在这篇文章中我们给大家介绍了关于数据清洗的相关方法,通过对这些方法的介绍我们不难发现这些方法都是十分经典的,由于篇幅原因我们就给大家介绍到这里了,在后面的文章中我们会继续为大家介绍数据清洗的方法。

    作者:CDA数据分析师培训 链接:https://www.jianshu.com/p/8692df30766e 来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    简要总结针对数据缺失、数据异常、数据冲突、数据维数过多、数据标准化的方法。

    数据缺失:
    主要是由于数据收集过程中人为、设备故障或是隐私数据不公开,再者是
    not applicable(不适用性NA)造成。缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。删除缺失值主要有简单删除法和权重法。缺失值插补主要是针对客观数据,它的可靠性比较有保证。常用的有如下几种方法:1)均值插补2)利用同类均值插补3)极大似然估计(Max Likelihood ,ML)4)多重插补(Multiple Imputation,MI)。
    数据异常:
    一般来说,异常值通常被称为“离群点”,对于异常值的处理,通常使用的方法有很多种,第一就是简单的统计分析,第二就是使用3∂原则处理,第三就是箱型图分析,第四就是基于模型检测,第五就是基于距离检测(LOF方法计算相对距离,值越大是离群点的概率越大),第六就是基于密度检测,第七就是基于聚类,第八是利用关联规则:具有高度置信度和支持的关联规则定义了一种不同的模式。
    重复值检测:
    针对具体通数据不同领域和不同环境进行具体分析,消除重复记录可以针对两个数据集或者一个合并后的数据集,首先需要检测出标识同一个现实实体的重复记录,即匹配过程。检测重复记录的算法主要有:基本的字段匹配算法,递归的字段匹配算法,Smith—Waterman算法,Cosine相似度函数。 数据冲突:需要根据不同的数据冲突类型进行具体分析具体处理。
    数据冲突:
    (1)对于那些包含大量空值的列的数据冲突问题,为每一列计算该列中的空值所占的比例,并以此为依据来确定该列是否应该被删除。
    (2)对于那些只有几个单一-状态的列的数据问题,为每一列计算出该列的单值的个数,并以这些信息为依据来决定是否删除那些似乎没有用的列.
    (3)对于那些超出某列正态分布的记录的数据(极端数据)问题计算该列中极端数据(outlier)个数.并将那些极端数据所在的行标油出来然后决定如何处理它们
    (4)对于那些不符合特定格式的行可以通过格式转换将其转换为正确格式最好是在建业数据仓库时就将格式统一
    (5)对于那些与同记录的不同属性比较时就失去意义的列,通过计算列与列之间的各种关系(大于,小于,等于)的数量比例,查看那些数量较小的关系,然后根据列于列的含义决定。
    数据维数过多:
    解决思路:降维
    (1)主成分分析
    (2)随机森林
    数据标准化:
    规范化方法也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。
    1) 正规化方法这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。spss默认的标准化方法就是z-score标准化。
    2) 归一化方法。
    3) min-max标准化
    4) z-score 标准化
    5) 最小-最大-0-均值-小数定标

    展开全文
  • 数据标准化是数据仓库建立过程中的另一个难点和重点。可以说如果企业没有建立自己的数据标准,基本上是无法建立统一的、整合的数据仓库模型的。数据标准有很多理论标准的,比如,国家标准有一个叫《数据元的规范与...
  • python数据预处理 :数据标准

    万次阅读 多人点赞 2018-11-25 17:14:41
    在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化...
  • 在Python中如何进行数据标准化? 一、Z标准化:实现中心化和正态分布; 二、Min-Max:归一化; 三、MaxAbs:最大绝对值标准化; 四、RobustScaler。 Python实例 z-score; Min-Max; MaxAbs; RobustScaler。 数据...
  • 【R语言】数据标准化处理

    万次阅读 2020-06-10 11:29:20
    1、标准化——数据处理 preProcess(x, method = c("center", "scale"), thresh = 0.95, pcaComp = NULL, na.remove = TRUE, k = 5, knnSummary = mean, outcome = NULL, fudge = 0.2, numUnique = 3, ...
  • 数据标准】数据指标体系建立

    万次阅读 多人点赞 2019-10-15 22:03:22
    数据分析常遇到挑战 问题出在哪里? 当一个决策分析类项目(如商务智能、数据仓库、大数据分析等)开始筹划的时候,往往面临着如何选择分析场景的问题。有一些业务人员非常有想法,目标明确,直接请实施厂商来做就...
  • 企业数据标准规划、建设和应用

    千次阅读 2016-11-29 10:32:21
    什么是数据标准,业界数据标准体系架构,数据标准具体表现形式是什么样的,数据标准包含内容有哪些; 第二部分结合我们数据标准实施经验,介绍标准如何建立、落地、维护的整个流程;并介绍几个标准落地的几个关键点...
  • 几种常用数据标准化方法

    千次阅读 2021-01-14 14:49:03
    目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据...
  • 三种常用数据标准化方法

    万次阅读 多人点赞 2018-08-17 16:21:28
    而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:z-score 标准化(zero-meannormalization)也叫标准差标准化,经过处理的数据符合标准正态分布...
  • 机器学习Author:louwillMachine LearningLab 一直都有朋友在做机器学习模型时有疑问:我的数据要不要做标准化处理? 这个问题笔者也...
  • 一、数据标准化(归一化) 首先,数据标准化处理主要包括数据同趋化处理(中心化处理)和无量纲化处理。同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑...
  • 数据标准化处理

    千次阅读 2019-03-28 21:11:36
    数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成...
  • 一、数据标准化 / 归一化的作用 提升模型精度:标准化 / 归一化使不同维度的特征在数值上更具比较性,提高分类器的准确性。 提升收敛速度:对于线性模型,数据归一化使梯度下降过程更加平缓,更易正确的收敛到最优...
  • 数据标准化【0~1标准化和Z标准化】

    千次阅读 2020-05-29 15:37:58
    数据标准化 一、Z标准化 经过处理后,数据的均值为0,标准差为1。 二、0~1标准化 1.自定义函数: """ 1.0~1标准化:也称离差标准化,它是对原始数据进行线性变换, 使结果落到 [0,1] 区间. X=(x - min)/(max -...
  • 数据标准化的三种最常用方式总结(归一化)

    万次阅读 多人点赞 2019-01-13 23:05:24
    1.介绍   在大型项目的数据分析中,由于数据来源的不同通常会导致数据的量纲、数据的量级产生差异,为了让这些数据具备可比性,需要采用标准化方法来...数据标准化最典型的就是数据的归一化处理,即将数据统一映...
  • 数据标准化 Data Normalization

    万次阅读 多人点赞 2017-05-09 21:48:59
    很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。
  • 数据标准化处理方法

    千次阅读 2017-10-31 11:56:53
    数据标准化处理方法 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个...
  • 在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理。这里通过使用sklearn....标准化后的数据的均值=0,标准差=1,因而标准化的数据可正可负。二、使用sklearn进行标准化和标准化还...
  • Pandas之数据标准

    千次阅读 2018-05-21 19:34:55
    数据标准化:将数据按比例缩放,使之落入到特定区间,一般我们使用0-1标准化。公式:X=(x-min)/(max-min)from pandas import read_csv; df = read_csv("E:\\pythonlearning\\datacode\\firstpart\\4\\4.14\\...
  • Python3实现常用数据标准化方法

    万次阅读 多人点赞 2018-06-16 12:32:50
    常用数据标准化方法python实现 数据标准化是机器学习、数据挖掘中常用的一种方法。包括我自己在做深度学习方面的研究时,数据标准化是最基本的一个步骤。数据标准化主要是应对特征向量中数据很分散的情况,防止小...
  • 在数据分析与挖掘、算法建模的都会用到数据标准化。数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的...
  • 数据标准

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,748,862
精华内容 1,099,544
关键字:

数据标准

友情链接: zhiwen.zip