精华内容
下载资源
问答
  • 元数据管理工具atlas初探

    万次阅读 2018-05-31 16:49:42
    元数据管理工具atlas初探 安装: Ambari添加服务(略) Hive配置: 将atlas主节点/usr/hdp/2.6.3.0-235/atlas/hook拷贝到其他节点。 自定义hive-env,HIVE_AUX_JARS_PATH =/usr/hdp/2.6.3.0-235/atlas/hook...

    元数据管理工具atlas初探


    安装:

    • Ambari添加服务(略)

    Hive配置:

    • 将atlas主节点/usr/hdp/2.6.3.0-235/atlas/hook拷贝到其他节点。

    • 自定义hive-env,HIVE_AUX_JARS_PATH =/usr/hdp/2.6.3.0-235/atlas/hook /hive。

    • /usr/hdp/2.6.3.0-235/atlas/conf/atlas-application.properties,拷贝到所有节点/usr/hdp/2.6.3.0-235/hive/conf/下。

    • 重启。

    快速开始

    • python /usr/hdp/2.6.3.0-235/atlas/bin/quick_start.py(python2.7)

    • 点击search或者tags可查看导入的元数据。

    这里写图片描述

    hive建表

    • create table test(name string);

    • atlas中查看:

    这里写图片描述

    • 点击test,可看到该表的详细信息

    这里写图片描述

    展开全文
  • 元数据管理工具 Apache Atlas元数据管理工具构建和安装Apache Atlas构建Apache Atlas打包Apache Atlas使用嵌入式Apache HBase和Apache Solr打包Apache Atlas使用Apache Cassandra和Apache Solr打包Apache AtlasAtlas...

    Apache Atlas

    元数据管理工具

    构建和安装Apache Atlas

    构建Apache Atlas

    下载 Apache Atlas 1.0.0 发行版源码, apache-atlas-1.0.0-sources.tar.gz, 从 downloads 下载. 然后按照以下说明构建Apache Atlas。

    tar xvfz apache-atlas-1.0.0-sources.tar.gz
    cd apache-atlas-sources-1.0.0/
    export MAVEN_OPTS="-Xms2g -Xmx2g"
    mvn clean -DskipTests installxxxxxxxxxx tar xvfz apache-atlas-1.0.0-sources.tar.gzcd apache-atlas-sources-1.0.0/export MAVEN_OPTS="-Xms2g -Xmx2g"mvn clean -DskipTests installtar xvfz apache-atlas-1.0.0-sources.tar.gzbash
    

    打包Apache Atlas

    要创建Apache Atlas软件包以在具有功能的Apache HBase和Apache Solr实例的环境中进行部署,请使用以下命令进行构建:

    mvn clean -DskipTests package -Pdist
    
    • 注意:
      • 删除选项“ -DskipTests”以运行单元和集成测试
      • 要构建没有缩小的js,css文件的发行版,请使用* skipMinify *配置文件进行构建。
        默认情况下,最小化js和css文件。

    上面将为具有功能性HBase和Solr实例的环境构建Apache Atlas。需要在以下环境中设置Apache Atlas,才能在此环境中运行:

    • 配置atlas.graph.storage.hostname(请参见[配置](http://atlas.apache.org/1.0.0/Configuration.html)部分中的“图形持久性引擎-HBase”)
    • 配置atlas.graph.index.search.solr.zookeeper-url(请参见[配置](http://atlas.apache.org/1.0.0/Configuration.html)部分中的“图形搜索索引-Solr”)。
    • 将HBASE_CONF_DIR设置为指向有效的Apache HBase配置目录(请参见[配置](http://atlas.apache.org/1.0.0/Configuration.html)部分中的“图形持久性引擎-HBase”)。
    • Create indices in Apache Solr (see “Graph Search Index - Solr” in the Configuration section).

    使用嵌入式Apache HBase和Apache Solr打包Apache Atlas

    要创建包含Apache HBase和Apache Solr的Apache Atlas软件包,请使用Embedded-hbase-solr配置文件进行构建,如下所示:

    mvn clean -DskipTests package -Pdist,embedded-hbase-solr
    

    使用Embedded-hbase-solr配置文件将配置Apache Atlas,以便与Apache Atlas服务器一起启动和停止Apache HBase实例和Apache Solr实例。

    注意:此分发配置文件仅旨在用于单节点开发,而不能用于生产环境。

    使用Apache Cassandra和Apache Solr打包Apache Atlas

    要创建包含Apache Cassandra和Apache Solr的Apache Atlas软件包,请使用Embedded-cassandra-solr配置文件进行构建,如下所示:

    mvn clean package -Pdist,embedded-cassandra-solr
    

    使用Embedded-cassandra-solr配置文件将配置Apache Atlas,以便与Atlas服务器一起启动和停止Apache Cassandra实例和Apache Solr实例。

    注意:此分发配置文件仅旨在用于单节点开发,而不能用于生产环境。

    Atlas 打包

    Build将创建以下文件,这些文件用于安装Apache Atlas。

    distro/target/apache-atlas-${project.version}-bin.tar.gz
    distro/target/apache-atlas-${project.version}-hbase-hook.tar.gz
    distro/target/apache-atlas-${project.version}-hive-hook.gz
    distro/target/apache-atlas-${project.version}-kafka-hook.gz
    distro/target/apache-atlas-${project.version}-sources.tar.gz
    distro/target/apache-atlas-${project.version}-sqoop-hook.tar.gz
    distro/target/apache-atlas-${project.version}-storm-hook.tar.gz
    

    安装 & 运行 Apache Atlas

    安装 Apache Atlas

    从您要安装Apache Atlas的目录中,运行以下命令:

    tar -xzvf apache-atlas-${project.version}-bin.tar.gz
    cd atlas-${project.version}
    
    使用本地Apache HBase和Apache Solr运行Apache Atlas

    使用本地Apache HBase和Apache Solr运行Apache Atlas

    export MANAGE_LOCAL_HBASE=true
    export MANAGE_LOCAL_SOLR=true
    
    bin/atlas_start.py
    
    使用Apache Atlas
    • 要验证Apache Atlas服务器是否已启动并正在运行,请运行curl命令,如下所示:
      curl -u username:password http://localhost:21000/api/atlas/admin/version
    
      {"Description":"Metadata Management and Data Governance Platform over Hadoop","Version":"1.0.0","Name":"apache-atlas"}
    
    • 快速启动以加载样本模型和数据
      bin/quick_start.py
      Enter username for atlas :-
      Enter password for atlas :-
    
    停止Apache Atlas服务器

    要停止Apache Atlas,请运行以下命令:

    bin/atlas_stop.py
    

    配置Apache Atlas

    默认情况下,Apache Atlas使用的配置目录为* {package dir} / conf *。
    要将设置的环境变量ATLAS_CONF覆盖到conf目录的路径。

    可以在conf目录的* atlas-env.sh *文件中设置运行Apache Atlas所需的环境变量。
    在执行任何命令之前,此文件将由Apache Atlas脚本获取。
    可以设置以下环境变量。

    # The java implementation to use. If JAVA_HOME is not found we expect java and jar to be in path
    #export JAVA_HOME=
    
    # any additional java opts you want to set. This will apply to both client and server operations
    #export ATLAS_OPTS=
    
    # any additional java opts that you want to set for client only
    #export ATLAS_CLIENT_OPTS=
    
    # java heap size we want to set for the client. Default is 1024MB
    #export ATLAS_CLIENT_HEAP=
    
    # any additional opts you want to set for atlas service.
    #export ATLAS_SERVER_OPTS=
    
    # java heap size we want to set for the atlas server. Default is 1024MB
    #export ATLAS_SERVER_HEAP=
    
    # What is is considered as atlas home dir. Default is the base location of the installed software
    #export ATLAS_HOME_DIR=
    
    # Where log files are stored. Defatult is logs directory under the base install location
    #export ATLAS_LOG_DIR=
    
    # Where pid files are stored. Defatult is logs directory under the base install location
    #export ATLAS_PID_DIR=
    
    # Where do you want to expand the war file. By Default it is in /server/webapp dir under the base install dir.
    #export ATLAS_EXPANDED_WEBAPP_DIR=
    

    支持大量元数据对象的设置

    如果计划存储大量的元数据对象,建议您使用调整后的值以提高JVM的GC性能。

    以下值是服务器端的常用选项:

    export ATLAS_SERVER_OPTS="-server -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+CMSClassUnloadingEnabled -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=dumps/atlas_server.hprof -Xloggc:logs/gc-worker.log -verbose:gc -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1m -XX:+PrintGCDetails -XX:+PrintHeapAtGC -XX:+PrintGCTimeStamps"
    

    The -XX:SoftRefLRUPolicyMSPerMB 发现该选项对于调节具有许多并发用户的繁重工作负载的GC性能特别有用.

    对于JDK 8,建议使用以下值:

    export ATLAS_SERVER_HEAP="-Xms15360m -Xmx15360m -XX:MaxNewSize=5120m -XX:MetaspaceSize=100M -XX:MaxMetaspaceSize=512m"
    

    **对于Mac OS用户请注意 *如果您使用的是Mac OS,则需要配置ATLAS_SERVER_OPTS(如上所述)。在 {package dir} /conf/atlas-env.sh*中,取消注释以下行

    #export ATLAS_SERVER_OPTS=
    

    并将其更改为如下所示

    export ATLAS_SERVER_OPTS="-Djava.awt.headless=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="
    

    将Apache HBase配置为Graph Repository的存储后端

    默认情况下,Apache Atlas使用[JanusGraph](http://atlas.apache.org/1.0.0/JanusGraph.html)作为图形存储库,并且是当前唯一可用的图形存储库实现。当前支持的Apache HBase版本是1.1.x。有关在Apache HBase上配置Apache Atlas图持久性的详细信息,请参阅[配置](http://atlas.apache.org/1.0.0/Configuration.html)部分中的“图持久性引擎-HBase”。

    可以使用以下配置来设置Apache Atlas使用的Apache HBase表:

    atlas.graph.storage.hbase.table=atlas
    atlas.audit.hbase.tablename=apache_atlas_entity_audit
    

    将Apache Solr配置为Graph Repository的索引后端

    默认情况下,Apache Atlas使用[JanusGraph](http://atlas.apache.org/1.0.0/JanusGraph.html)作为图形存储库,并且是当前唯一可用的图形存储库实现。要配置[JanusGraph](http://atlas.apache.org/1.0.0/JanusGraph.html)以与Apache Solr一起使用,请按照以下说明进行操作

    • 如果尚未运行,请安装Apache Solr。支持的Apache Solr版本是5.5.1。
      可以从http://archive.apache.org/dist/lucene/solr/5.5.1/solr-5.5.1.tgz安装

    • 在云模式下启动Apache Solr。

    SolrCloud模式将ZooKeeper服务用作群集管理的高度可用的中央位置。
    对于小型集群,可以使用现有的ZooKeeper仲裁运行。
    对于较大的群集,您需要运行至少三个服务器的单独的多个ZooKeeper仲裁。
    注意:Apache Atlas当前仅在“云”模式下支持Apache Solr。不支持“ http”模式。
    有关更多信息,请参阅Apache Solr文档-https://cwiki.apache.org/confluence/display/solr/SolrCloud

    • 例如,要启动在机器上端口8983上侦听的Apache Solr节点,可以使用以下命令:
     $SOLR_HOME/bin/solr start -c -z <zookeeper_host:port> -p 8983
    
    • 从SOLR_BIN(例如$ SOLR_HOME / bin)目录运行以下命令,以在Apache Solr中创建与Apache Atlas使用的索引相对应的集合。
      如果Apache Atlas和Apache Solr实例位于2个不同的主机上,则首先将所需的配置文件从Apache Atlas实例主机上的ATLAS_HOME / conf / solr复制到Apache Solr实例主机上。
      下文提到的命令中的SOLR_CONF指的是Apache Solr主机上已将Apache Solr配置文件复制到的目录:
      $SOLR_BIN/solr create -c vertex_index -d SOLR_CONF -shards #numShards -replicationFactor #replicationFactor
      $SOLR_BIN/solr create -c edge_index -d SOLR_CONF -shards #numShards -replicationFactor #replicationFactor
      $SOLR_BIN/solr create -c fulltext_index -d SOLR_CONF -shards #numShards -replicationFactor #replicationFactor
    

    注意:如果未指定numShards和ReplicationFactor,则它们的默认值为1,如果您在单个节点实例上尝试使用ATLAS进行solr,就足够了。
    否则,请根据Solr集群中的主机数量和maxShardsPerNode配置指定numShards。
    分片的数量不能超过!SolrCloud群集中Solr节点的总数。

    副本数(replicationFactor)可以根据所需的冗余设置。

    还要注意,如果设置了SOLR_BIN和SOLR_CONF环境变量并将搜索索引后端设置为’solr5’,则在启动Apache Atlas服务器时将自动调用Apache Solr创建索引。

    • 更改ATLAS配置以指向Apache Solr实例设置。请确保将以下配置设置为
    • ATLAS_HOME / conf / atlas-application.properties中的以下值
     atlas.graph.index.search.backend=solr
     atlas.graph.index.search.solr.mode=cloud
     atlas.graph.index.search.solr.zookeeper-url=<the ZK quorum setup for solr as comma separated value> eg: 10.1.6.4:2181,10.1.6.5:2181
     atlas.graph.index.search.solr.zookeeper-connect-timeout=<SolrCloud Zookeeper Connection Timeout>. Default value is 60000 ms
     atlas.graph.index.search.solr.zookeeper-session-timeout=<SolrCloud Zookeeper Session Timeout>. Default value is 60000 ms
    

    或有关[JanusGraph](http://atlas.apache.org/1.0.0/JanusGraph.html)solr配置的更多信息,请参考http://docs.janusgraph.org/0.2.0/solr.html

    在云模式下运行Apache Solr的前提条件内存-Apache Solr占用大量内存和CPU。
    确保运行Apache Solr的服务器具有足够的内存,CPU和磁盘。
    Apache Solr可以在32GB RAM上很好地工作。
    计划为Apache Solr进程提供尽可能多的内存
    磁盘-如果需要存储的实体数量很大,请计划在Apache Solr用来存储索引数据的卷中至少有500 GB的可用空间

    • SolrCloud支持复制和分片。
      强烈建议将SolrCloud与至少两个在启用了复制功能的不同服务器上运行的Apache Solr节点一起使用。
      如果使用SolrCloud,则还需要安装ZooKeeper并配置3个或5个ZooKeeper节点

    将Elasticsearch配置为图存储库的索引后端(技术预览)

    默认情况下,Apache Atlas使用[JanusGraph](http://atlas.apache.org/1.0.0/JanusGraph.html)作为图形存储库,并且是当前唯一可用的图形存储库实现。
    要配置[JanusGraph](http://atlas.apache.org/1.0.0/JanusGraph.html)以使用Elasticsearch,请按照以下说明进行操作

    • -安装Elasticsearch集群。
      当前支持的版本是5.6.4,可以从以下网站获取:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.6.4.tar.gz

    • 为了进行简单测试,可以使用Elasticsearch发行版的bin目录中的“ elasticsearch”命令启动单个Elasticsearch节点。

    • 更改Apache Atlas配置,以指向Elasticsearch实例设置。
      请确保将以下配置设置为ATLAS_HOME / conf / atlas-application.properties中的以下值

     atlas.graph.index.search.backend=elasticsearch
     atlas.graph.index.search.hostname=<the hostname(s) of the Elasticsearch master nodes comma separated>
     atlas.graph.index.search.elasticsearch.client-only=true
    

    有关用于Elasticsearch的[JanusGraph](http://atlas.apache.org/1.0.0/JanusGraph.html)配置的更多信息,请参阅http://docs.janusgraph.org/0.2.0/elasticsearch.html

    配置 Kafka Topics

    Apache Atlas使用Apache Kafka在运行时从其他组件获取元数据。
    在[体系结构页面](http://atlas.apache.org/1.0.0/Architecture.html)中对此进行了详细描述。
    根据Apache Kafka的配置,有时您可能需要在使用Apache Atlas之前显式设置主题。
    为此,Apache Atlas提供了一个脚本“ bin / atlas_kafka_setup.py”,可以从Apache Atlas服务器运行该脚本。
    在某些环境中,在安装Apache Atlas服务器本身之前,可能首先会开始使用这些挂钩。
    在这种情况下,可以使用类似的脚本“ hook-bin / atlas_kafka_setup_hook.py”在安装了挂钩的主机上运行主题。
    这两个都使用atlas-application.properties中的配置来设置主题。
    有关这些详细信息,请参考[配置页面](http://atlas.apache.org/1.0.0/Configuration.html)。

    Setting up Apache Atlas

    有一些步骤可以设置Apache Atlas的依赖性。其中一个示例是在所选的存储后端中设置[JanusGraph](http://atlas.apache.org/1.0.0/JanusGraph.html)模式。
    在简单的单服务器设置中,当服务器首次访问这些依赖项时,将使用默认配置自动设置它们。

    但是,在某些情况下,我们可能希望明确地将设置步骤作为一次性操作运行。
    例如,在使用[高可用性](http://atlas.apache.org/1.0.0/HighAvailability.html)的多服务器方案中,最好是第一次从一个服务器实例运行安装步骤,
    然后启动服务。

    要一次运行这些步骤,请从单个Apache Atlas服务器实例执行命令 bin / atlas_start.py -setup

    但是,Apache Atlas服务器确实负责设置步骤的并行执行。
    同样,多次运行设置步骤也是幂等的。
    因此,如果为了方便起见选择在服务器启动过程中运行设置步骤,则他们应通过在配置选项中将其定义为值true来启用配置选项“ atlas.server.run.setup.on.start”。
    atlas-application.properties文件。

    示例:调用Apache Atlas REST API

    以下是通过curl命令调用Apache Atlas REST API的几个示例。

    • List the types in the repository
      curl -u username:password http://localhost:21000/api/atlas/v2/types/typedefs/headers
      [ {"guid":"fa421be8-c21b-4cf8-a226-fdde559ad598","name":"Referenceable","category":"ENTITY"},
        {"guid":"7f3f5712-521d-450d-9bb2-ba996b6f2a4e","name":"Asset","category":"ENTITY"},
        {"guid":"84b02fa0-e2f4-4cc4-8b24-d2371cd00375","name":"DataSet","category":"ENTITY"},
        {"guid":"f93975d5-5a5c-41da-ad9d-eb7c4f91a093","name":"Process","category":"ENTITY"},
        {"guid":"79dcd1f9-f350-4f7b-b706-5bab416f8206","name":"Infrastructure","category":"ENTITY"}
      ]
    
    • 列出给定类型的实例
      curl -u username:password http://localhost:21000/api/atlas/v2/search/basic?typeName=hive_db
      {
        "queryType":"BASIC",
        "searchParameters":{
          "typeName":"hive_db",
          "excludeDeletedEntities":false,
          "includeClassificationAttributes":false,
          "includeSubTypes":true,
          "includeSubClassifications":true,
          "limit":100,
          "offset":0
        },
        "entities":[
          {
            "typeName":"hive_db",
            "guid":"5d900c19-094d-4681-8a86-4eb1d6ffbe89",
            "status":"ACTIVE",
            "displayText":"default",
            "classificationNames":[],
            "attributes":{
              "owner":"public",
              "createTime":null,
              "qualifiedName":"default@cl1",
              "name":"default",
              "description":"Default Hive database"
            }
          },
          {
            "typeName":"hive_db",
            "guid":"3a0b14b0-ab85-4b65-89f2-e418f3f7f77c",
            "status":"ACTIVE",
            "displayText":"finance",
            "classificationNames":[],
            "attributes":{
              "owner":"hive",
              "createTime":null,
              "qualifiedName":"finance@cl1",
              "name":"finance",
              "description":null
            }
          }
        ]
      }
    
    • 搜索实体
      curl -u username:password http://localhost:21000/api/atlas/v2/search/dsl?query=hive_db%20where%20name='default'
        {
          "queryType":"DSL",
          "queryText":"hive_db where name='default'",
          "entities":[
            {
              "typeName":"hive_db",
              "guid":"5d900c19-094d-4681-8a86-4eb1d6ffbe89",
              "status":"ACTIVE",
              "displayText":"default",
              "classificationNames":[],
              "attributes":{
                "owner":"public",
                "createTime":null,
                "qualifiedName":"default@cl1",
                "name":"default",
                "description":
                "Default Hive database"
              }
            }
          ]
        }
    

    排除故障

    安装问题

    如果Apache Atlas服务的安装由于任何原因失败,则进行下一次安装(通过显式调用atlas_start.py -setup或启用配置选项atlas.server.run.setup.on.start )将失败,并显示一条消息,例如“以前的安装运行可能未完全完成。”。 在这种情况下,您需要手动确保安装程序可以运行并删除/ apache_atlas / setup_in_progress`上的Zookeeper节点,然后再尝试再次运行安装程序。

    如果由于Apache HBase模式设置错误而导致安装失败,则可能需要修复Apache HBase模式。
    如果尚未存储任何数据,则还可以禁用和删除Apache Atlas使用的Apache HBase表,然后再次运行安装程序。

    展开全文
  • 图形文件元数据管理工具exiv2
    图形文件元数据管理工具exiv2

    图形文件通常都包含多种元数据,如Exif、IPTC、XMP。这些信息往往是渗透人员收集的目标。为了便于管理这些信息,Kali Linux内置了专用工具exiv2。该工具支持24种文件格式,包括JPEG、TIFF、PNG、GIF、PSD、TGA、BMP等常见格式。该工具可以不仅可以显示和提取这些文件的元数据,还可以添加、修改、删除对应的元数据项。同时,该工具还可以篡改文件时间,避免被其他人员发现文件曾经被修改过。
    展开全文
  • exiv2是一款用于管理图片元数据的C++库和命令行工具。它能够读写多种图像元数据格式,如支持 Exif, IPTC和XMP格式的图像元数据。可应用于拍摄图片后,添加相应拍摄位置的GPS信息到该图片的元数据
  • 转载本文需注明出处:微信公众号EAWorld,违者必究。在各种数字化的影响下,将企业环境中的各种元数据整合利用至关重要。对于企业来说,选择适合自己的元数据管理工具将能最大...
        

    转载本文需注明出处:微信公众号EAWorld,违者必究。


    在各种数字化的影响下,将企业环境中的各种元数据整合利用至关重要。对于企业来说,选择适合自己的元数据管理工具将能最大化发挥元数据的作用,以协助企业完成在数据方面的战略目标。


    企业中不同角色对元数据工具的期望可能有所不同,但这些期望基本都可以映射到元数据管理工具的十大能力上,当然这些能力背后少不了关键技术的支撑。


    本文分为三部分,在第一部分,我们会先根据企业中的不同角色,列出不同角色对元数据管理的期望;然后在第二部分,总结在理想情况下元数据管理工具需要具备的十大能力,并将这些能力与不同的角色做关联,以便不同企业可以根据自身情况选择合适的元数据管理工具;最后在第三部分,将给出几种现阶段实现元数据管理的关键技术。


    目录:


    一、不同角色对元数据管理的期望不同

    二、如何选择适合自己的元数据工具?

    三、元数据管理的关键技术?

    四、总结


    一、不同角色对元数据管理的

    期望不同


    为了站在不同角色的角度回答这个问题,我们先把企业中与元数据管理项目相关的几种角色列一列,这里暂且将这些角色分为企业高管、数据开发人员、数据分析人员、数据管理人员、运维人员、其他业务用户几种。


    640?wx_fmt=jpeg

    图 1:与元数据管理相关的角色


    企业高管:在数据越来越重要的形势下,高管们比较关心的是企业的整个数据全貌以及数据在全企业中的使用状况(或者可以说是更注重数据资产与应用层面),但是没有一个人能直接告诉领导企业中的数据是什么样,具体的使用流通情况是什么,有效的元数据管理能很好地回答企业高管的这些问题。


    数据开发人员:对于数据开发来说,最常见的问题就是大量的重复工作:明明已经有了一模一样的接口或者脚本,但是因为是别人写的,没有统一标识并管理起来,所以根本就找不到,即使找到了可能也会因为缺少相关的解释说明,根本无法重复利用,降低数据开发效率的同时也造成了大量的冗余。元数据管理能方便数据开发人员查找想重复利用的信息,而解释说明恰好可以通过业务元数据管理来实现。


    数据分析人员:数据分析人员通常需要通过较高级的数据统计分析实现公司与战略决策、业务或考核相关的目标。对于他们来说,错综复杂的数据关系、参差不齐的数据质量和业务元数据的缺失是主要问题。元数据管理降低了这些信息的获取门槛,也为数据质量的问题追溯提供了支持。


    数据管理人员:数据管理人员通常需要负责数据从设计、测试到部署交付的全生命周期管理。对于他们来说,通常需要管理各种版本的数据信息,并管理企业数据的生命周期,如何控制各状态下数据的协调一致和及时判断数据处于什么周期需要做什么操作是目前急需解决的问题。这可以通过管理企业元数据来实现。


    运维人员:对于运维人员来说,需要时刻保证系统的稳定性,尤其是当企业模型发生变更时,要不断判断变更带来的影响,显然人工判断的方式在准确性和实时性上都很难保证,而且对运维人员的业务能力要求较高,很大程度上增加了系统风险。通过元数据管理,当系统变更时,可以根据已经获取到的系统、表等对象间关系自动分析出变更带来的影响,用自动化的方式降低维护成本,提升用户体验。


    其他业务人员:由于业务人员对业务规则、业务流程比较熟悉,通常不需要对技术细节有很深入的了解,技术门槛往往导致业务人员获取和理解数据难,因为不了解数据存储情况,也很难技术沟通业务需求,往往最终难到手的数据也不是自己想要的,难以匹配业务的快速发展。


    二、如何选择适合自己的

    元数据工具?


    通过以上可以看出,不同用户对元数据管理工具寄予着不同的期望(见图2)


    640?wx_fmt=jpeg

    图 2 :不同用户对元数据管理工具寄予着不同的期望


    企业开展元数据管理项目可能需要解决的是其中一类用户或者其中几类用户的问题,我们先列出一些元数据管理工具的基本能力,然后再将这些能力与上文中的期望对应起来,企业可以通过参考二者之间的对应关系,来指向性地选择适合自己的元数据管理工具。


    通过大量元数据项目的实践,我总结出了在理想情况下,元数据管理工具需要具备的十种能力,如下:


    640?wx_fmt=jpeg


    图 3:元数据管理工具的十种能力


    • 元数据采集能力

    从错综复杂的企业环境中自动实时解析和采集各种元数据的能力,为应对各种数据环境,这个环节通常需要使用各种技术和语法来支持大数据平台、关系型数据库、第三方工具、存储过程、脚本、文本文件、表格文件的自动化采集。


    • 元数据存储能力

    将采集过来的元数据进行统一存储的能力,为支持各种元数据以及元数据之间关系的存储,元数据存储需要灵活可扩展的架构支撑,另外,能够实时更新存储也是很重要的一点。


    • 元数据查找能力

    提供统一的端口对元数据进行查找的能力,完善的元数据管理工具应该能支持按照企业的各种分类方法来对元数据进行查找(有一部分分类方式蕴含在元数据本身中,需要通过对元数据进行分析之后获得)。比如你可能会按照系统、表、指标、接口等不同维度查找信息,甚至会根据自己的查找习惯新建一个完全不同的类别。


    • 血缘分析/关系分析能力 

    分析数据的来源和数据的流向,揭示数据的上下游关系,在元数据管理工具中分析、描述并可视化其中的细节,方便用户对关键信息进行跟踪。完善的血缘分析需要是横向(当前)和纵向(历史)双向可用的,以方便对同一时期不同对象的分析和不同时期同一对象的变化。


    • 基于角色的访问控制和分层

    元数据的增删改等权限的控制是元数据管理工具中需要特别注意的地方,工具中应该支持访问权限的控制。比如,数据管理员具有所有权限,开发人员可能更关注开发环境、测试环境元数据,而企业管理者可能只关注生产环境的元数据情况,总经理级别的用户可以访问企业多种环境下的元数据,而部门负责人可能只关注与本部门相关的元数据。


    • 业务元数据管理能力

    采集企业环境中的业务元数据,并完成业务元数据与技术元数据的映射,为元数据赋予业务属性,这也是发挥元数据管理工具业务价值的一个关键。


    640?wx_fmt=jpeg

    图 4:技术元数据与业务元数据的对应


    • 元数据变更控制能力

    当元数据需要变更时,提供变更审核能力,明确元数据版本,保存元数据的历史状态,在发生任何问题时可以自动恢复到之前的版本。在某个元数据项发生变更时,可能还需要对该次变更将要产生的影响进行分析和评估。


    • 元数据对比分析能力

    对不同环境中的元数据进行对比分析,分析其中的异同,必要时还能根据分析结果产出相应的分析报告。


    • 数据生命周期管理能力

    在理想状态下,元数据管理工具应该保留数据从创建、存储,到过时被删除/备份等各种状态下的元数据,从而管理数据在整个生命周期中的流动。作为一项规则,较新的数据和那些很可能被更加频繁访问的数据,应该存储在容易被访问的位置,而那些不是很重要的数据则可以备份存储在比较便宜的,稍微慢些的媒介上。


    640?wx_fmt=jpeg

    图 5:数据生命周期


    • 与其他系统的集成能力

    要想让元数据管理系统发挥业务价值,还有非常重要的一点就是元数据管理工具与其他系统的集成能力。


    这些能力与刚开始提出的几种需求之间的对应关系整理如下(鉴于元数据采集与元数据存储是几乎每种需求都需要的基本能力,所以我把这两项单独拿出来不参与对应),企业可根据对应关系来选择元数据管理工具:


    640?wx_fmt=jpeg

    图 6:角色与十大能力的对应关系


    三、元数据管理的关键技术?


    一般来说,元数据管理项目需要用到众多技术,在这里讲四种:高度灵活可扩展的架构、角色访问控制和分层、业务元数据与技术元数据对应、与其他系统的集成。


    640?wx_fmt=jpeg

    图 7:元数据管理的关键技术


    • 高度灵活可扩展的架构


    企业数据环境中的数据杂乱,形态多样,标准不一,若要实现所有元数据的有效采集或者自动化采集和存储,必须有高度灵活可扩展的架构支撑,也意味着元数据的架构要能和企业的各种模型进行“交流”,这在之前王轩的文章《大数据治理技术核心,可扩展的元数据架构设计》中提及到了具体方法,在这里不再多说。


    • 角色访问控制和分层


    如上文所述,企业元数据管理涉及到很多不同的人员,优秀的元数据管理工具应该做好角色访问控制,具体实现方法可以归结为两种:


    1、在平台汇总建立角色分层机制/角色组,将企业中的不同角色按照具体需求分类到不同的角色组中,对不同角色组展示不同的功能。


    2、在工具内部建立角色与功能之间的映射,并且支持根据企业情况进行灵活配置(毕竟各企业的角色和所对应的功能不尽相同),根据映射对不同角色展示不同的功能。


    • 业务元数据与技术元数据的对应

    这是企业从数据管理向知识管理转变的关键,关于业务元数据与技术元数据的对应,可以参考我们之前写过的文章。另外我认为除了领域本体构建,编织模型(Weaving Model,V. Stefanov提出)未来也可能会成为对应二者之间关系的一种技术,这种方式通过编织模型来存储和管理企业不同模型之间的关系,例如,通过建立星型模型/雪花型模型与业务流程模型、企业组织架构等之间的关系,可以自动获取到数据所对应的业务信息和管理者信息等。 


    • 与其他系统的集成

    随着各种数据政策的出台,元数据成为企业各种流程中不可或缺的重要部分,人们对元数据驱动的呼声越来越高,而要实现元数据驱动,除了元数据分类和模型的标准化,元数据管理工具是否与企业的其他系统(比如,CRM、ERP、SCM、OA等系统,还有同与数据管理相关的数据标准系统、数据质量系统)集成,为其他系统提供元数据服务,是主要的关键点。一种方法是向企业中的不同角色、不同用户、不同系统提供可以灵活配置的接口,实现全企业的而高效协作;另一种方法是将元数据管理工具直接集成到企业的portal中,在企业其他信息系统中保留元数据存储库的入口。


    640?wx_fmt=jpeg

    图 8:元数据管理的需求-能力-技术模型


    不同的企业对元数据管理有不同的需求,企业要选择最适合自身情况的元数据管理工具。本文给出了基于角色的元数据管理需求,以及这些需求与元数据管理十大能力之间的映射关系,这种映射关系可以帮助企业选择具有特定能力的元数据管理工具,在最后,对几种支撑这些能力关键技术做出了解释。


    参考文献


    1.王轩. 大数据治理技术核心,可扩展的元数据架构设计[EB/OL]. http://www.cbdio.com/BigData/2016-07/12/content_5076844.htm.

    2.V Stefanov. Explaining Data Warehouse Data to Business Users.[EB/OL]. http://aisel.aisnet.org/cgi/viewcontent.cgi?article=1070&context=ecis2007.

    3.KM, Hüner. Collaborative management of business metadata[EB/OL]. https://www.sciencedirect.com/science/article/pii/S0268401210001817.


    640?wx_fmt=jpeg关于作者:龚菲,现任普元数据治理团队产品工程师,3年数据治理经验,负责国内外数据治理趋势研究、普元数据治理产品研究与推广,掌握国内外数据治理产品的发展趋势,编写了一系列数据治理文章。先后参与了华夏人寿、海通证券、东方航空等数据项目,尤其是对元数据相关理论与业界产品有深入了解,擅长业务元数据管理、本体构建等元数据相关领域知识。


    640?wx_fmt=png关于EAWorld微服务,DevOps,数据治理,移动架构原创技术分享,长按二维码关注

    640?wx_fmt=jpeg

    展开全文
  • 对于企业来说,选择适合自己的元数据管理工具将能最大化发挥元数据的作用,以协助企业完成在数据方面的战略目标。 企业中不同角色对元数据工具的期望可能有所不同,但这些期望基本都可以映射到元数据管理工具的...
  • PowerDesigner 15.0 Repository--元数据管理工具的新特性 pdf
  • Marquez,开源的元数据管理工具

    千次阅读 2020-07-06 18:56:03
    Marquez是一款开源的元数据服务,用于数据生态系统元数据的收集、汇总... 集中式元数据管理支持: 数据血缘(Data Lineage) 数据治理(Data governance) 数据健康检查(Data health) 数据发现+探索(Data...
  • 中国科学院科学数据库通用元数据管理工具用户使用手册
  • Dogg3rz(发音为Dog-erz)是用于元数据的去中心化版本控制管理工具。 Dogg3rz致力于解决数字知识基础架构中逻辑与数据开发之间存在的差异。 通过使用Git作为催化剂的开源,软件开发社区可以不受限制地访问众多软件...
  • #export ATLAS_EXPANDED_WEBAPP_DIR= 支持大量元数据对象的设置 如果计划存储大量的元数据对象,建议您使用调整后的值以提高JVM的GC性能。 以下值是服务器端的常用选项: export ATLAS_SERVER_OPTS="-server -XX:...
  • 元数据管理工具——Atlas

    千次阅读 2020-11-28 00:03:23
    第1节 数据仓库元数据管理 元数据(MetaData)狭义的解释是用来描述数据的数据。广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。如数据库中表...
  • 数据治理工具-元数据管理

    千次阅读 2020-04-07 18:40:33
    数据治理里面最关键的元数据管理,元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义...
  • 公司里面的很多部门都在广泛的采用元数据管理,也采用了公司内部开发的元数据管理工具,有些部门的实施效果一直非常好,而有些部门的效果则差强人意。这个问题,其实和软件系统开发完成进入维护阶段后成本居高不下的...
  • 在数据仓库系列之元数据管理中我们了解到元数据可以被称为是数据仓库系统的“灵魂”,正是元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但是对于元数据的...
  • 数据仓库元数据管理

    2013-08-26 09:40:51
    专业点就用专门的元数据管理工具; 数据字典--> 数据知识库 业务元数据,技术元数据,管理元数据 参照:SAP元数据管理平台:按业务(角色)分类,按技术类型分类(特征,关键值,DSO,InfoCube),数据流程图   ...
  • 元数据管理是企业数据治理的基础。企业以元数据为抓手进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。今天就带大家深度解析下元数据管理。认识元数据和元数据管理...
  • 产品是一款基于 WEB 方式的元数据管理工具,采用这个工具能够整合游离于企业各环 节的元数据资产,便于用户浏览及分析元数据。产品有助于帮助用户了解和管理信息和加工 处理过程的来源,也有助于用户理解信息与加工...
  • 传统数据情况下,有过多种相对成熟的元数据管理工具,而大数据时代,基于hadoop,最为成熟的,与Hadoop兼容性最好的元数据治理平台则是Apache Atlas。本文是《Apache Atlas元数据管理从入门到实战》系列博文的第1篇...
  • 尽管元数据一词只有几十年的历史,然而几千年的图书馆管理员们一直在工作中使用着元数据,只不过我们先所谓的“元数据”是历史上被称为"图书馆目录信息"。01从图书目录说起图书目录中的信息解决了一个十分...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,070
精华内容 828
关键字:

元数据管理工具