精华内容
下载资源
问答
  • 数据治理系列2:元数据管理—企业数据治理的基础

    万次阅读 多人点赞 2019-05-13 20:11:04
    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元...元数据管理是企业数据治理的基础。 认识元数据 元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据...

     

    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。元数据管理是企业数据治理的基础。

    认识元数据

    元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。这么说对于没有技术背景的人来说还是比较抽象的,我给大家举几个例子。

     

     

    在我之前写的一篇文章《关于“数据”的一些概念的整理和总结》中,有一个关于元数据的例子,歌曲《小芳》中有一段台词:“村里有个姑娘叫小芳,长得好看又善良” 这首耳熟能详的歌,我们分析一下,姓名:小芳、性别:姑娘(女)、长相:好看、性格:善良,住址:村里。这里面,小芳是被描述的对象也就是我们所谓的实体数据,而姓名、性别、长相、性格、住址就是描述“小芳”的元数据。

    再举个栗子:元数据就像“户口本”,户口本中除了有姓名、出生日期、住址、民族等信息外,还有家庭的血缘关系,父子关系、兄弟关系等。这些信息就构成了对这个人的详细描述,那这些信息就是描述这个人的元数据。

    再举个栗子:元数据好比“字典”,针对每个字都注音、含义、组词、举例等信息,同时也有关于字体结构、相关引用、出处等。另外,我们可以通过拼音、偏旁部首都能查到这个字。所有的这些信息都是对这个字的详细描述,那这些信息就是描述这个字的元数据。

    再举个栗子:元数据就如“地图”,通过这张“地图”能够找到你所处的地点,以及你从哪来来,到哪里去,途中都需要路过哪些地方……

    这下大家理解了吧,元数据是对数据的结构化描述,使得数据更容易理解、查找、管理和使用。

    元数据的分类

    根据数据的性质特点,业内一般将元数据划分为三类:业务元数据、技术元数据和管理元数据。

     

     

    业务元数据是描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等。

    技术元数据是对数据的结构化,方便计算机或数据库之间对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员对数据的存储、结构更明确,从而为应用的开发和系统的集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员能够更快速的找到想要的数据,进而对数据的来源去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等。

    管理元数据描述了数据的管理属性,包括管理部门、管理责任人等,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。常见的管理元数据包括:数据所有者、数据质量定责、数据安全等级等。

     

    表:元数据分类实例

    元数据类型

    元数据描述

    元数据实例

     业务定义

     数据的含义

     客户的完整名称,并具有法律效力

     业务规则

    数据录入规则

     企业的营业执照、组织机构代码证书,统一社会信用代码证书等具有法律效力的证明文件中的中文名称全称

     

     识别规则

    企业的组织机构代码或者统一社会信用代码或者统一纳税号必须完全匹配,则认为是同一客户。

     

     质量规则

     客户名称为非空,并且与营业执照的中文名称一致

    存储位置

    数据的存储什么地方

    ERP系统

    数据库表

    存储数据的库表名称和路径

    ERP/Customers

    字段类型

    数据的技术类型

    字符型

    字段长度

    数据存储的最大长度

    [200]

    更新频率

    数据的更新频率

    每年更新一次

    管理部门

    数据责任部门

    客户管理部

    管理责任人

    数据责任部门

    客户管理部业务员

     

    元数据管理成熟度

    在实施元数据管理的过程中,可以参照元数据管理的成熟度模型确定企业当前元数据管理所在层次,并根据业务需要制定路线图实现元数据管理水平的提升。下图是元数据管理成熟度模型:

     

     

    元数据管理成熟度评估模型

    • L0: 初始状态

    元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用。在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。这些元数据会永远保存在某个人那儿,一旦这个人调离,这些元数据将永远消失。

    • L1: 从属于业务系统

    在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来。业务元数据可能分散在各种业务规章、流程规定、需求、需求分析和概要设计等文档以及业务系统中,技术元数据可能分散在详细设计、模型设计和部署方案等各种文档和各种中间件以及业务系统中。由于各个业务系统处于一个个竖井之中,元数据之间互通互联困难,如果需要获取其他系统的元数据,除了调阅各种文档外,对分散在各种中间件和业务系统中的技术元数据需要一定的集成方式实现互通互联。

    • L2:元数据统一存储

    元数据依然在局部产生和获取,但会集中到中央存储库进行存储,业务元数据会手工录入到中央存储库中,技术元数据分散在文档中的部分也通过手工录入到中央存储库中,而散落在各个中间件和业务系统中的技术元数据则通过数据集成的方式被读取到中央存储库中。业务元数据和技术元数据之间全部或部分通过手工方式做了关联。中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。缺点是,元数据仍然在各业务系统上维护,然后更新到中央存储库,各业务竖井之间仍然使用不同的命名法,经常会造成相同的名字代表不同意义的事情,而同一件事情则使用了多个不同的名字,有些没有纳入业务系统管理的元数据则容易缺失。元数据没有有效的权限管理,局部元数据更改后也不自动通知其他人。

    • L3: 元数据集中管理

    在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。局部元数据的修改完成后将被广播给其他人。和其他中间件和应用系统的交互,仍然通过桥集成的方式进行,中央存储库中的业务元数据和技术元数据之间还是通过手工方式进行映射。

    • L4:元模型驱动管理

    在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。业务词汇表(业务元数据)包含与企业相关的词汇、词汇业务含义以及词汇与信息资产(技术元数据)的关系,可以有效帮助企业用户了解其业务元数据和技术元数据对应的业务含义。分类是基于主题领域的层次结构,用以对业务术语归类。和其他中间件和应用系统的交换,通过基于 CWM 的适配器方式进行连接。

    • L5: 元数据管理自动化

    在 L5 元数据管理是高度自动化的,当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。元数据中的任何变化将触发业务工作流,以便其他业务系统进行相应的修改。由于各个业务系统遵照相同的业务词汇表和分类系统(元模型),他们之间的关系可以通过知识本体进行推断,因此各个应用系统之间的数据格式的映射自动产生。

     

    元数据管理平台架构

    元数据管理平台从应用层面,可以分类:元数据采集服务,应用开发支持服务,元数据访问服务、元数据管理服务和元数据分析服务。

     

     

    元数据采集服务

    在数据治理项目中,通常涉及到的元数据还包括:数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据等等。元数据采集服务提供各类适配器满足以上各类元数据的采集,并将元数据整合处理后统一存储于中央元数据仓库,实现元数据的统一管理。这个过程中,数据采集适配器十分重要,元数据采集要能够适配各种DB、各类ETL、各类DW和Report产品,同时还需要适配各类结构化或半结构化数据源。目前市场上的主流元数据产品还没有哪一家能做到“万能适配”,都需要在实际应用过程中做或多或少的定制化开发。

    元模型驱动的设计与开发

    通过元数据管理平台实现对应用的逻辑模型、物理模型、UI模型等各类元模型管理,支撑应用的设计和开发。应用开发的元模型有三个状态,分别是:设计态的元数据模型,通常由ERWin、PowerDesigner的等设计工具产生。测试态的元数据模型,通常是关系型数据:Oracle、DB2、Mysql、Teradata等,或非关系型数据库:MongDB、HBase、Hive、Hadoop等。生产态的元模型,本质上与测试态元数据差异不大。通过元数据平台对应用开发三种状态的统一管理和对比分析,能够有效降低元数据变更带来的风险,为下游ODS、DW的数据应用提供支撑。另外,基于元数据的MDD(代码生成服务),可以通过模型(元数据)完成业务对象元数据到UI元数据的关联和转换,自动生成相关代码,表单界面,减少了开发人员的设计和编码量,提升应用和服务的开发效率。

     

    元数据管理服务

    市场上主流的元数据管理产品,基本都包括:元数据查询、元模型管理、元数据维护、元数据版本管理、元数据对比分析、元数据适配器、元数据同步管理、元数据生命周期管理等功能。此类功能,各家产品大同小异,此处不再赘述。

    元数据访问服务

    元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。

     

    元数据分析服务

     

    血缘分析:是告诉你数据来自哪里,都经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系,追根溯源,快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。这个功能常用于数据分析发现数据问题时,快速定位和找到数据问题的原因。

     

    影响分析:是告诉你数据都去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系,向下追踪,快速找到都哪些应用或数据库使用了这个数据,从而避免或降低数据问题带来的更大的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用应用的影响分析。

     

    冷热度分析:是告诉你哪些数据是企业常用数据,哪些数据属于“僵死数据”。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度,以便更好的驾驭数据,激活或处置“僵死数据”,从而为实现数据的自助式分析提供支撑。

     

    关联度分析:是告诉你数据和其他数据的关系以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度,如:表与ETL 程序、表与分析应用、表与其他表的关联情况等。本功能可以用来支撑需求变更的影响评估。

     

    数据资产地图:是告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。通过元数据可以对企业数据进行完整的梳理、采集和整合,从而形成企业完整的数据资产地图。数据资产地图支持以拓扑图的形式进行可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的数据查询和辅助分析需要。

     

    元数据管理价值

     

    一图在手,天下我有

    通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,有助于发现分布在不同系统、位置或个人电脑的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本信息,存储位置信息、数据结构信息、各数据之间关系信息,数据和人之间的关系信息,数据使用情况信息等,使数据资源信息详细、统一、透明,降低“找数据”的沟通成本,为数据的使用和大数据挖掘提供支撑。

     

    追根溯源,发现数据问题本质

    企业在做数据分析的时候,数据分析结果不正确,原因可能是数据分析过程出现数据问题,也可能是数据源本身就有问题,还可能是数据在加工处理过程中出现了数据问题……。通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响。

     

    模型驱动,敏捷开发

    基于元数据模型的数据应用规划、设计和开发是企业数据应用的一个高级阶段。当企业元数据管理达到一定水平(实现自动化管理的时候),企业中各类数据实体模型、数据关系模型、数据服务模型、数据应用模型的元数据统一在元数据平台进行管理,并自动更新数据间的关联关系。基于元数据、可扩展的MDA,才是快速满足企业数据应用个性化定制需求的最好解决方案。通过将大量的业务进行模型抽象,使用元数据进行业务描述,并通过相应的模型驱动引擎在运行时驱动,使用高度抽象的领域业务模型作为构件,完成代码转换,动态生成相关代码,降低开发成本,应对复杂需求变更。

     

     

    总结:

    元数据是企业数据资源的应用字典和操作指南,元数据管理有利于统一数据口径、标明数据方位、分析数据关系、管理数据变更,为企业级的数据战略规划、数据模型设计、数据标准管理、主数据管理、数据质量管理、数据安全管理以及数据的全生命周期管理提供支持,是企业实现数据自服务、推动企业数据化运营的可行路线。企业以元数据为抓手进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。

    注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

    欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

     

    展开全文
  • 在BATJ等互联网大厂大肆推广中台建设成果的当下,各个行业的企业似乎都想做数字化转型,建设业务中台,但是中台到底是啥,需要我们提前了解和学习,本文是我学习张旭老师《数据中台架构:企业数据化最佳实践》一书的...

    写在前面:我是「云祁」,一枚热爱技术、会写诗的大数据开发猿。昵称来源于王安石诗中一句 [ 云之祁祁,或雨于渊 ] ,甚是喜欢。


    写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/数仓开发 感兴趣,可以关注我的动态 https://blog.csdn.net/BeiisBei ,让我们一起挖掘大数据的价值~


    每天都要进步一点点,生命不是要超越别人,而是要超越自己! (ง •_•)ง

    一、前言

    数据中台可以说是当下非常火热的话题,在BATJ等互联网大厂大肆推广中台建设成果的当下,各个行业的企业似乎都想做数字化转型,建设业务中台,但是中台到底是啥,需要我们提前了解和学习。本文是我学习张旭老师《数据中台架构:企业数据化最佳实践》一书的总结,阅读之后初步地了解所谓的中台战略,但又还是停留在感性层次,有点浅尝辄止之感。

    在这里插入图片描述

    当前的数据中台定义是宽泛的,这与数据中台目前所处的实际业务阶段相符合。书中作者张旭老师认为数据中台至少首先是一个分布式的数据仓库,同时包含相对应实施的方法论和方案,介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。

    可以说,数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。

    但数据中台这个东西,现在业界并没有一个完整的标准定义,每个人的经验和视角也不同,因此可能一百个学习者心中会有一百个中台,这里我主要结合我关于数据中台的学习做个总结:

    (1)中台是什么?

    企业级能力复用平台!

    (2)如何构建中台?

    一句话概括:“以用户为中心,从战略入手,愿景为指引,用科学有效的方法,步步为营沉淀企业级能力,辅以必要的组织与系统架构调整,方得中台。

    (3)中台的价值是啥?

    中台为前台而生,专注于为前台赋能,沉淀企业的能力与复用,提升企业的客户响应力。

    (4)如何成为数据中台的参与者?

    数据中台围绕数据技术开展。除了编程技术、应用开发技术与传统的IT应用技术具有部分的重合,数据中台还有自己的技术体系,比如大数据开发技术、数据仓库建模技术、数据分析体系、数据应用技术体系等。

    二、中台的发展历程

    了解一个东西,需要首先了解它的发展史,又或者说看看它的过去,这里我们就先看看中台的发展历程:

    • 2008~2015:孕育期

      • 2008年阿里巴巴开始战略调整,重复建设与烟囱架构问题出现

      • 阿里共享事业部诞生,前台系统中的公共部分开始平台化改造

    • 2015:中台战略诞生

      • 马云带领阿里高官走访芬兰游戏公司Supercell受到触动

      • 阿里巴巴正式启动中台战略“大中台、小前台”

    • 2017:横空出世

      • 互联网大厂集体发声,各自分享中台建设经验
    • 2018:全面爆发

      • 互联网大厂集体宣布组织架构调整,正式将中台推上舞台
    • 2019:迷雾仍存

      • 中台的热度越发高涨,跟进企业越来越多,但问题不降反增

    从2015年阿里提出了“大中台,小前台”的中台战略,提出之初阿里有近 4 亿用户,为超过 1000万各类企业提供服务,业务种类繁多,业务之间相互网状依赖。同时,阿里部门也越来越多,分工越来越细,沟通过多,相互依赖,创新成本非常高,对业务响应也越来越慢。

    阿里需要找到能够对外界变化快速反应,整合阿里各种基础能力,高效支撑业务创新的机制,于是“中台”的概念就出现了。

    如今,不管是身处浪潮一线的互联网大厂,还是传统行业的转型企业,似乎在2020年都有建设一个中台的需求(至少都在采取行动或开始学习),不管真的想进行能力沉淀复用 还是 追概念来个弯道超车,中台正在被越来越多的人熟知。

    在这里插入图片描述

    三、数据中台实践

    以下是我阅读《数据中台架构:企业数据化最佳实践》一书的学习笔记,所有内容出自张旭老师的这本书。

    3.1 第一步:数据资源的盘点与规划

    数据化的基础是信息化或者信息化所产生的数据。这些数据本就有数据化的含义,同时这些数据又会进入数据化框架体系,继续通过计算产出更多的数据和更大的价值。所以,对企业数据资源的盘点是数据化建设的前提和基础。一份完整、准确的数据资源是后续数据化建设的有力保障。

    数据资源的盘点与规划需要达到以下目的:

    (1)对现有数据资源盘点和统计。

    (2)对企业可以拥有或者应该拥有的数据资源进行规划。

    (3)构建盘点体系并使用必要工具,保证盘点的成果能够始终与真实情况相符。

    3.2 第二步:数据应用规划与设计

    企业要基于现有的技术条件和方案,进行相对完整的数据应用规划。这个步骤可以回答如下问题。

    企业中有哪些数据需求

    我们要从业务线、业务层级到最细粒度的岗位,梳理数据需求。

    企业应该构建哪些数据应用

    我们要围绕数据需求进行数据应用的整体规划和设计。

    应该按照什么顺序实现这些数据应用

    我们要对数据应用建立评估模型,评估的维度包括数据应用是否可以实现、数据应用的业务价值、数据应用的实现成本这三个主要方面。通过评定结果,我们可以确定数据应用的实现路径。

    3.3 第三步:数据资产建设

    数据资产的建设要依托数据中台的核心产品完成。数据资产是企业数据化建设的关键基础。所有的数据化建设最后都以数据资产为基础,并且围绕这个基础展开。数据资产将是企业在全面数据化建设前期中投入最多、见效最慢的基础层模块。关于数据中台的种种探讨和争议以及妥协的很大一部分原因是这个基础建设庞大、复杂和投入高。

    数据资产建设的内容包括以下几个方面:

    技术建设

    (1)产品选型。产品选型包括如何选择数据中台产品、数据中台产品应该具备的功能以及技术参数指标。

    (2)技术架构设计。技术架构设计包括数据中台产品如何部署、如何替换传统的数据仓库或者与之并行、数据中台如何抽取当前的应用数据。

    标准和数据仓库模型构建

    (1)建模及开发规范。建模及开发规范包括数据仓库模型设计规范的制定,数据开发规范的制定,如何避免当前较为常见的数据开发混乱、难以运维的情况。

    (2)数据建模。数据建模包括进行数据仓库模型构建,并提交评审。

    数据抽取、数据开发、任务监控与运维

    (1)数据抽取。数据抽取包括从数据资源层抽取数据进入ODS层。

    (2)数据开发。数据开发包括进行数据任务开发,进行数据清洗、数据计算。

    (3)任务监控与运维。任务监控与运维包括监控所有数据任务,对异常和错误任务进行必要的人工干预和处理。

    数据质量校验

    数据质量校验包括对当前发现的数据质量问题进行校验和处理,推动数据治理工作开展和持续优化。

    数据应用支撑

    数据应用支撑包括为当前的数据应用开发提供支撑开发平台。

    3.4 第四步:数据应用的详细设计与实现

    不管是使用瀑布模型还是敏捷模型,数据应用的设计大体上都可以遵循传统信息化应用设计的过程和理念。数据应用中的数据开发一般在数据库或者数据仓库中完成。数据应用的内容展示可以采用BI分析工具展现,例如可视化大屏或者定制化开发应用。数据应用还可以通过API接口服务提供数据成果,让其他外部应用按需调用。数据应用的开发与传统信息化应用的开发有以下不同之处。

    数据应用关注数据源的内容和质量

    我们在数据应用实施前应该充分了解企业当前的数据源情况,包括数据种类、每种数据的具体属性、数据内容的质量等问题。大部分落地失败的数据应用,都是由数据源的各种问题引起的,比如数据缺失或者数据质量问题。

    复杂的数据开发需要不断调优和迭代

    随着机器学习、深度学习等算法的引入,数据模型的构建手段越来越丰富。但是在通常情况下,最终业务价值的产生是一个复杂的过程,不仅需要数据的支撑,还需要管理的配合。

    数据应用的结果数据的验证工作量占比高

    论证数据结果的正确与否或者评估数据应用的效果,是一项费时、费力的工作。即使相对简单的指标计算,最后也经常会占用全部过程中1/3以上的时间进行正确性验证。甚至很多算法类项目,需要提前构建成果评估模型,并首先获得甲方企业的认可,然后才能开始进行数据开发。

    数据应用的运维难度大

    因为数据中的各种异常情况往往是不可知或者意想不到的,所以数据运维需要有强大的人工保障,以保持任务的运转。

    数据应用的成果需要运营

    数据应用的开发完成只是数据发挥价值的第一步,如何让业务部门理解模型、用好数据才是后续的关键。尤其是在刚刚引入新的数据,且尚未显现业务价值的时候,企业更需要对数据进行深入运营。

    3.5 第五步:数据化组织规划

    企业数据化应该是在未来一个时期内具有企业战略高度的事情,数据化需要一个具有同等战略高度的组织负责推进。无论是从传统的IT部门转型还是由战略部门或者类似部门介入都是很好的选择。组织是保障数据中台顺利落地的一个核心,也是推动企业数据化进程的人员抓手。

    四、总结

    张旭老师在书中一个观点我是非常赞同的:“数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。”如果用技术语言总结就是:“前台聚合,中台解耦,数据融合,业务创新”。

    随着大数据和人工智能的进一步普及,几乎所有的传统企业都在拥抱并推动自身数字化转型。作为一本数据中台实践,内容基本上覆盖了企业数字化实战的方方面面,对方法论、实施路径、平台、数据应用等方面都有阐述,有着一定的借鉴价值。

    展开全文
  • 企查查app新增企业数据抓取

    千次阅读 2019-07-09 10:53:53
    企查查每日新增企业数据抓取 尚未完成的工作: 需要自行抓包获取设备id,appid,sign等等 sign和时间戳保持一致即可 把所有的数据库、redis配置 无法自动登录,账号需要独立 redis数据转存mysql 企查查限制,每分钟...

    企查查每日新增企业数据抓取
    尚未完成的工作:

    • 需要自行抓包获取设备id,appid,sign等等
      sign和时间戳保持一致即可
      把所有的数据库、redis配置
      无法自动登录,账号需要独立
      redis数据转存mysql
      企查查限制,每分钟请求大概不能超过30次,所有功能未加并发,请不要使用代理并发,会封账户的
      有些工作尚未完成,需要自己进行继续开发,可以找我要app的脱壳源代码,继续分析。
    • 已经完成工作
      每天定时抓取
      自动刷新token
      省份、市的所有代码
      token自动刷新
      根据地址自动将省份、市、区县进行分割
      所有数据存到redis里面
      所有代码已经发在github上边
      https://github.com/zhaoboy9692/qccspider
      每日技术交流,每日爬虫学习,关注我的技术公众号吧
      在这里插入图片描述
    展开全文
  • 企业数据标准规划、建设和应用

    千次阅读 2016-11-29 10:32:21
    今天我分享的内容,整体包括三个部分:第一部分主要介绍为什么要建标准,建设数据标准带来价值是什么;什么是数据标准,业界数据标准体系架构,数据标准具体表现形式是什么样...一、企业数据建设现状长久以来,大多...

    今天我分享的内容,整体包括三个部分:

    第一部分主要介绍为什么要建标准,建设数据标准带来价值是什么;什么是数据标准,业界数据标准体系架构,数据标准具体表现形式是什么样的,数据标准包含内容有哪些;
    
    第二部分结合我们数据标准实施经验,介绍标准如何建立、落地、维护的整个流程;并介绍几个标准落地的几个关键点;
    
    第三部分给出了一个案例,描述典型的数据标准实施路径,供参考。
    

    一、企业数据建设现状

    图片描述

    长久以来,大多数的系统都是在某些业务需求的基础上建立,没有考虑与其他系统的功能重复和数据重复,数据一致性和可用性的矛盾突出。由于缺乏这种对数据整体设计考虑,造成多种数据问题:

    数据需求缺乏规范,造成数据对象多份存储,存储结构各异,严重影响数据共享。
    

    例如:某金融公司客户信息存在于财务和产品两个系统中,由于建设时期和团队不同,其中对客户代码长度的定义不一致,财务系统中定义为4位,产品系统中定义为6位,导致同样的数据要素在财务系统和客户系统中标准不一致,造成同一客户财务和产品信息不能很好打通。

    数据标准依据各异,造成统计口径无法匹配。
    

    例如:某金融公司原有系统,业务类型采用业界标准包括资产收购与经营、投资、融资顾问等;由于公司发展,开展了新的业务,因此后来的系统中采用公司新标准,出现了商业收购、阶段性投融资等业务类型。结果新旧系统在业务类型上不一致,业务人员要人为的做关联。

    业务口径不统一,造成沟通困难,发生歧义。
    

    例如:某业务部门,需要财务部门提供一份月报表,由于对“余额”一词有不同的理解,一个认为是“期初余额”,而另一个认为是“期末余额”,造成统计结果大相径庭。经过多次沟通,才达到满意效果。

    数据缺乏标准造成的问题还有很多,总的来说,需要从数据对象、代码、业务指标等多方面实现标准化,才能从根本上减少这些数据问题。那数据标准能给我们带来什么?

    图片描述

    标准可以在业务、技术、管理多个方面给我们提供支撑。

    业务方面:

    提升业务规范性
    

    通过标准可以明确很多数据业务含义,使得不同业务部门之间,以及业务与技术之间沟通更加通畅,避免歧义。

    例如通过客户数据标准,我们在讲客户的时候,大家理解的是一致的,只有办了银行卡的人,才是银行客户。而不会再有认为在网站注册、或者通过本行转账的人都是客户的理解。

    提升数据对业务分析支持度
    

    通过数据标准,可以明确的把某个数据主题(例如客户)信息分为多类,例如基本信息、联系信息、财务信息等,为多维度分析和深度挖掘提供依据。

    通过数据标准,实现数据信息统一一致,使得数据更容易在各业务部门之间流转。
    

    技术方面:

    首先,相同结构的数据,才更容易实现共享和交换;因此公司内部标准促进数据在企业内部流转,行业标准促进数据在企业之间流转;
    
    其次,相同的数据标准,减少大量的转换、清洗工作,极大的提升数据处理效率;数据处理过程中也会减少出差几率,提升问题质量。
    

    管理方面:

    数据标准更多的是能提供完整、及时、准确、高质量的数据,为决策支持、精细化管理等提供支撑。
    

    那么,到底什么是数据标准呢?

    图片描述

    一般我们直观认为数据标准就是几个文档,描述了一些规范和要求,需要大家去遵守。

    更严谨一点定义,数据标准是为了使企业内外部使用和交换的数据是一致和准确的,经协商一致制定并由相关主管机构批准,共同使用和重复使用的一种规范性文件。

    而我们认为数据标准又不仅仅是一套规范,而是一套由管理规范、管控流程、技术工具共同组成的体系,是通过这套体系逐步实现信息标准化的过程。数据标准化是通过一整套的数据规范、管控流程和技术工具来确保的各种重要信息,例如产品、客户、机构、账户等在全公司内外的使用和交换都是一致、准确的过程。

    另外,数据标准也不仅仅是技术或者业务一个部门的事情,它是在数据层面上对重要业务主题的统一规范,也是业务规范在数据层面上的实现。数据标准实施依赖于业务部门之间的共识,以及业务和技术之间的配合。

    那么业界常用的数据标准体系是什么样的呢?标准长什么样,包含哪些内容?下面我会对数据标准的分类和参考体系、内容和形式做一下简单介绍,可以做一个直观的理解。

    图片描述

    首先,数据标准根据不同的数据域分为基础、分析类和专有类三类

    基础类数标是企业日常业务开展过程中所产生的具有共同业务特征的基础性数据,如客户、产品、财务等;
    
    分析类数标是为满足公司内部管理需要及外部监管要求,在基础性数据基础上按一定统计、分析规则加工后的数据;
    
    专有类数标是公司架构下子公司在业务经营及管理分析中所涉及的特有数据。
    

    其中,针对基础类数标,可以看一下金融行业经常用的数据标准十大主题模型。该模型是以主题组织数据,包括客户、资产、机构、产品等主题。

    那么针对某个数据主题,数据标准到底由那几部分组成呢?

    图片描述

    一般数据标准会包括:主题定义、信息项、标准代码三个文档,其中:

    标准主题定义文档:主要是记录数据标准的定义、分类,用于规范和识别数据的主题归属;
    
    标准信息项文档:记录数据主题的信息项业务属性(分类、业务含义、业务逻辑)和技术属性(类型、长度、默认规则);
    
    标准代码文档:记录信息项固定码值的编码、分类、使用规则等。
    

    信息项文档是数据标准的核心。内容包括分类、业务描述和技术描述,一般由信息大类、信息小类、信息项、信息项描述、信息类别、长度共6项组成。当然这些内容也可以调整,例如信息大类、小类,可以合并,或者拆除更多层级。

    信息大、小类是对信息项的常规分类,例如:例如客户信息大类包括基本信息、联系信息、关联信息、财务信息、风险信息、评价信息、往来信息七大类;信息小类,包括:客户编号、名称、证件、地址、评级信息、模型评分、等级、开办业务等;

    信息项是用来描述一个事物的最基本元素。表示一个事物的识别、限制、数量、分类、状态,或者事物间的关系,例如客户信息的名称、年龄、性别等;

    信息项描述是描写或者规范信息项的具体业务描述及界定;

    信息类别是根据业务需求,定义相应的信息项在数据库中所需要的技术格式。例如:编号、标志、代码、金额、日期、数值、文本等;

    长度是信息项的数据长度,供各系统建设参考使用。

    二、如何建设数据标准

    图片描述

    一般数据包标准包括制定、落地、维护等过程。其中制定过程包括规划、调研、设计;落地过程通过映射、标准执行等实现;维护过程保证了数据标准的持续更新。

    1、首先,在标准制定过程中的第一个阶段,标准规划阶段,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。

    例如,在金融行业,以金融行业十大主题为依据开展,通过业务了解,确定产品、客户、财务等几个主题是关键主题,其他主题业务关联性很弱;因此,确定实施范围,并根据紧迫度、资金等因此确定了实施计划,分多期建立。
    

    2、接下来,在调研阶段,通过制定调查问卷、安排现场访谈、收集文档资料等手段,针对各个业务系统以及应用系统进行调研,了解跟标准相关的内容,包括现有定义、使用习惯、数据分布、数据流向、业务规则、服务部门等,形成调研报告,分析问题,并讨论解决方案。

    实施过程中,如果多个部门不清楚项目意义和项目目标,首先需要对各部门做项目宣讲,让他们有充分了解。
    
    然后,通过调研问卷方式进行初步了解沟通,同期开始大批量研究企业现有的文档了解业务和数据集。
    
    最后,通过当面访谈深入了解信息,并讨论问题与解决方案。最终通过开评审会方式确定解决方案,并给出分析报告。
    

    3、有了素材,接下来就是开始标准设计工作。

    在这个阶段主要是在方法论指导下,完成数据标准设计和定义工作,包括数据业务描述定义(业务属性)、类型长度定义(技术属性)、其他标准信息定义。
    
    设计出定义与分类、信息项、标准码等文档,并通过各部门的评审验证。最终达成一致,形成企业级标准。
    

    到此,标准制定工作完毕。

    4、接下来主要是标准如何落地工作。把已定义的数据标准与业务系统、业务应用进行映射,标明标准和现状的关系以及可能影响到的应用。

    标准落地一般通过两种方式:
    
    1)新系统建设,直接参考数据标准;
    
    2)旧系统通过标准映射,实现数据关系转换,以及指导后续数据平台建设。
    

    5、做完数据标准映射,接下了就是标准落地执行。

    这个过程一般需要借助专业的工具实现标准落地检查。标准执行一般有两个过程
    
    1)第一步分析出来现有问题,例如数据缺失、数据不一致等;
    
    2)第二步修正,例如补录数据、修改系统、新建系统等。
    
    通过这些措施,逐步规范数据建设过程,实现数据标准的落地。
    

    6、数据标准也不是一成不变的,随着业务发展,有些标准需要不断的修订和完善。因此数据标准还有一个关键的管理环节,那就是需要能持续维护改进。

    在数据标准维护阶段,需要有相应的需求收集、需求评审、变更评审、发布等多个步骤,并能对所有的修订做版本管理,以方便将来问题查找。
    

    以上讲了数据标准管理的全过程,接下来我对数据标准落地的几个关键点做一个简单介绍。

    图片描述

    第一条关键点:数据标准应该只管理核心数据定义

    首先,标准不是模型,标准是可落地的核心元素。
    
    企业实际数据模型中有上万个字段,有些模型还会经常变换更新,如果把这些信息全部纳入到标准体系中,并且和数据标准建立映射,管理起来非常困难,很难真正实现落地。
    
    因此要实现数据标准落地,不能一味追求大而全,更多的是应该关注在众多数据中挑选出的核心数据,只管理这些核心数据定义,依照核心数据建立标准,就可以实现企业数据治理的目标,还能提升数据治理的效率。 
    
    其次,针对核心数据标准主题选择要多维度考虑。
    
    数据标准只会关注跟业务关联度高的,能够促进业务的规范管理的数据。因此,数据标准制定,选择标准主题很重要。
    
    在这里,我们通过业务影响度、系统关联度和可实施性等三个方面对各主题做分析,获取各数据主题建设的重要、紧迫程度。
    
    其中,
    
    1、针对业务影响度,可以通过组织集中讲解、面谈解答以及调查问卷等多种调研活动;获得主题涉及的问题数量、问题影响业务数量、问题影响业务的重要性;
    
    2、应用系统关联度,可以通过分析各部门关注次数、各系统和系统模块使用次数;并通过对应用系统功能梳理,提炼相关实体;以及对相关实体,进行数据主题归结,形成主题在系统中的分布情况;
    
    3、可实施分析,可以通过产品手册、各业务部门体系文件,获得主题定义和分类,以及信息项情况;分析获得数据差异性;获得数据定义不一致程度、业务规则整合难度。
    

    通过分析,每个主题关系的业务系统数量不同,业务关注程度也不同,可实施程度不同(差异量,技术等),最终形成主题选择分析图表。在这里每一个度量维度都有加权,通过评分确定实施优先级,例如其中评分在满分的50%以上的,作为本期实施的依据,最终选定实施范围。例如上面的产品、财务、机构、客户四个主题。

    图片描述

    第二条关键点:数据标准要包括技术与业务两种属性

    1、数据标准主要是针对业务,企业很多业务的语义十分依赖业务人员的人工梳理,难度大效率低,很可能出现因为梳理人员没有及时梳理,而造成业务语义难以被及时发现和管理的问题。

    未来企业将会面临数字化转型,从非结构化的文档中,将大部分业务语义抽取出来,并统一管理,成为未来的发展趋势,这种能力可以通过自然语言分析技术来实现,企业可以通过综合多个材料中对同一业务的描述,分析出最新与最广泛认可的业务定义,由业务人员确认之后,识别出业务语义,这样大大减少了业务人员的工作量,提升了业务人员梳理业务语义的积极性。

    2、在企业数据治理中,任何一个数据标准,如果没有对应的技术手段,都将难以落地,所以企业建立数据标准时,需要加入信息项的英文名称,来和实际数据库表中的字段相对应。

    在数据标准中加入信息项的英文名称能给企业数据治理带来两方面的好处:

    在做模型设计的时候,标准可以直接与模型设计工具集成,设计模型时就可以直接引用标准。
    
    对已有系统,标准能够通过英文名称直接和应用系统的相关字段对应,自动发现与不符合标准的字段,并通过元数据直接通知给相应的系统。
    

    3、标准中有了技术和业务信息,还需要有效的关联才能发挥效用。对于企业数据管理来说,技术能弄懂业务的前提是技术与业务之间要有对应,这种对应不能靠大量的人工梳理完成,否则业务部门负担很重,积极性不高。需要能够通过技术手段,利用数据治理工具提供商的行业实践积累,形成业务与技术的自动关联库,自动完成业务与技术对应,将能大大减少业务人员的工作量,同时提升技术与业务关联的准确度,消除业务与技术之间的鸿沟。

    图片描述

    第三条关键点:数据标准要持续更新

    对于企业数据治理来说,有很多数据标准建立以后,往往只是一套书,没有根据企业业务发展及时做出更新,时间长了就成为了摆设,实际上,数据标准是需要随着企业的业务变化而不断进行修订的,比如在企业拓展新业务的时候,需要增加相应的标准进去,对于没有价值的标准,也要及时废弃。只有这样,才能保证数据标准一直能适应业务发展需要,促进标准落地。

    三、数据标准实施案例

    图片描述

    一般企业数据标准建设完,只停留在册子和书本上,缺乏落地手段,不能有效执行;另外,针对数据标准本身缺乏管理,不能有效适应新业务发展。

    某银行数据管理建设思路侧重于事前预防,将各领域数据管理的要求融入到系统研发当中,从需求编写和需求分析等数据产生源头进行管理。严格按照数据标准进行需求编写,结合数据质量管理、元数据管理串联整个软件生命周期。同时在这个过程中,不断的验证和修订数据标准,使得数据标准一直能够适应新业务的发展需要。

    通过项目实施:

    借助技术手段实现了数据标准的实施落地。在需求、开发、上线等各阶段都会有数标检查,实现全生命周期数据管控;
    
    通过系统管理,推进了数标的持续更新,保持了数据标准生命力。
    

    普元云计算专区:http://primeton.csdn.net/m/zone/primeton/index#

    普元公众号:

    图片描述

    展开全文
  • 解析企业数据中心整体解决方案

    千次阅读 2018-04-08 13:44:27
    随着云计算和大数据逐渐成熟,...为“绿色数据中心”量身打造从大型主机到小型机(UNIX),从小型机到客户机/服务器(client/server),从客户机/服务器到今天的移动互联,如见的企业数据中心超大规模扩展过程中,仅用一...
  • 【python实现网络爬虫21】天眼查企业数据获取

    千次阅读 多人点赞 2020-09-15 14:34:25
    天眼查企业数据获取1. 目标网址及爬取要求2. 网页过渡3. 具体数据的获取4. 扩展及全部代码 1. 目标网址及爬取要求 根据搜索进行相应公司具体信息数据的爬取,第一步是进入天眼查的官网,然后输入公司的名称,然后在...
  • 企业数据报告分析的10种思维和技巧

    千次阅读 2018-01-19 07:28:07
    企业数据报告分析的10种思维和技巧随着时代的发展,人们每天在互联网上产生大量的数据,对于企业来讲这些数据都是十分宝贵的资源。企业可通过数据挖掘进行战略调整以及营销部署,尤其是对于互联网公司而言,用户行为...
  • 企业数据可视化管理下的实践

    千次阅读 多人点赞 2016-07-26 15:31:18
    随着大数据利用的火热,越来越多的成功案例警醒着企业数据利用的重要性,数据可视化作为大数据生态链的最后一公里,也是最能直接感知信息的环节。
  • 谈到数据,大家都喜欢拿大数据说事儿...不过,在选工具之前可以先问自己这样一个问题:我要用这些企业数据,做什么样的分析? 帆软数据报表 采用数据分析的逻辑,这里关于“如何分析企业数据”也设定两个维度:价值和
  • 某电力企业数据备份方案解析

    千次阅读 2011-11-30 21:28:14
    企业的大量信息包含在数据中,如何保护企业的数据,在现代企业管理中,已经越来越重要。...某电力企业数据备份方案解析   “9.11”事件除了造成人员伤亡以外,另一个结果就是许多在世贸中心的企业的
  • 就是企业数据总线的意思,他的核心功能就是兼容各种协议接口,可以将数据在各种协议之间进行流转,并且可以针对数据格式进行编排转换。(格式转换、协议转换、代理、编排、安全控制、监控、不支持高并发,类似于...
  • 目录:一、航空业数据治理现状二、航空业大数据治理的三个发展趋势三、规划企业数据架构的两种模式四、规划企业数据架构的三个关键技术五、总结一、航空业数据治理现状目前航空行业数据治理已经逐步在开展起来,驱动...
  • 集团企业数据信息系统建设方案

    千次阅读 2016-01-04 09:39:15
    开发报表的过程中,必须结合企业流程和企业内部的系统数据,进行统一搭建,最终要求开发出一个结合了各个系统数据的报表决策平台。开发过程中坚持“契合需求,方便高效”的原则,为企业员工、管理者以及决策者提供一...
  • 收藏!企业数据安全防护5条建议

    千次阅读 2020-02-29 14:31:25
    引言:数据安全对企业生存发展有着举足轻重的影响,数据资产的外泄、破坏都会导致企业无可挽回的经济损失和核心竞争力缺失,而往往绝大多数中小企业侧重的是业务的快速发展,忽略了数据安全重要性。近年来,企业由于...
  • 作者介绍刘庆会,主要负责普元大数据治理产品的实施,十年大型企业信息...声明:本文转自EAWorld(eaworld)公众号目录大纲:1、航空业数据治理现状2、航空业大数据治理的三个发展趋势3、规划企业数据架构的两种模式4
  • 大数据下的企业数据仓库建设

    千次阅读 2017-09-05 22:34:18
    避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据 屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单 数据来源...
  • ER/Studio企业数据建模

    千次阅读 2007-10-22 17:49:00
    ER/Studio企业数据建模 更新时间:2004-05-12
  • 开发报表的过程中,必须结合企业流程和企业内部的系统数据,进行统一搭建,最终要求开发出一个结合了各个系统数据的报表决策平台。开发过程中坚持“契合需求,方便高效”的原则,为企业员工、管理者以及决策者提供一...
  • “我的企业目前在数据应用上处于什么水平?接下来应该朝哪个方向努力?”本文试图帮助企业决策者和IT负责人解答这一问题。 今天,数据之于企业的重要性已经勿须多言,建设数据驱动型企业已成为众多企业的战略目标之...
  • 企业数据湖与大数据 Lambda 架构

    千次阅读 2019-11-07 09:31:44
    目录 ...数据系统的本质 3.1.数据的本质 3.1.1.数据的特性:When & What 3.1.2.数据的存储:Store Everything Rawly and Immutably 3.2.查询的本质 4.Lambda架构 4.1.Batch Layer ...
  • 企业数据(从天眼)抓取

    千次阅读 2017-03-09 23:38:07
    亲自实践天眼数据抓取,以平安数据为例 两类数据 ... java可以使用jsoup实现 会用正则表达式,jsoup中...-二,ajax请求直接返回json格式 专业数据抓取QQ:3684170(各种企业信息数据 比赛实时数据 专利数据等各种类型数据.)
  • 企业数据的利用有三个阶段:响应运营,响应业务,创造业务。数据中台解决的是响应业务的问题,第三阶段“创造业务”,则需要AI中台。36大数据已获得转载授权。原文作者:白发川...
  • 企业数据防泄漏解决方案的介绍!

    千次阅读 2018-09-29 11:48:14
    随着企业信息化的蓬勃发展,企业信息文档安全保护和知识产权保护方面面临着越来越严峻的挑战。...因此,如何用现有的技术手段来防护企业的核心数据,让企业的创新不被有意或无意泄露,从而保障企业的核心竞争力。
  • 为什么企业数据化运营很重要?

    千次阅读 2016-11-15 17:13:11
    那么,一个企业如何从一开始的单机系统到后来的数据可视化决策,这里分享中兴精密集团的信息化建设案例,原文是中兴精密集团信息部高级经理陈钧波在帆软大会上的演讲。关于中兴精密集团中兴精密集团如今的产业模块
  • 企业数据防泄密

    千次阅读 2012-08-28 17:40:16
    目前,中国加密软件已经成为一个行业,几百家加密软件厂商在大江南北,长城内外攻城略地,国外数据泄露防护(DLP)产品也大举进入中国市场,形成了有中国特色的中国数据泄露防护市场。根据中国独立数据调查公司ESN...
  • 供应链管理,阿米巴管理,能源化工行业四大业务特点,六大管理现状,管理经营数据化五大问题,能源化工行业数据四大特点,基于能源行业业务、管理、数据特点的数据决策管理支持方案(PC端集成、移动办公、微信集成、...
  • 模型表示企业数据和业务规则 控制器接受用户的输入并调用模型和视图去完成用户的需求
  • 数据质量管理实战“十三五”,规划提出了国家的大数据战略,指出了企业实现以数字化驱动业务发展,实现数据开放共享,创新业务发展的新思路。现阶段大中型企业已经开始了数据化运营的实践。在这个环境和趋势中,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 138,951
精华内容 55,580
关键字:

企业数据