精华内容
下载资源
问答
  • 本文描述利用更适合应用的“概念模型”来处理数据库的数据内容应用程序模型vs.存储架构数据库架构规范化表达继承ADO.NET实体进入ADO.NET实体框架一个应用程序的模型查询概念模型嵌套结果不同应用程序的不同视图将...
  • 应用Kano模型的闭环产品聚类配置方法.pdf
  • 数据模型(Data Model)是2113数据特征的5261抽象。数据(Data)是描述事物的符号记录,模型(4102Model)是现实世界的抽象。数据1653模型从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息...

    数据模型(Data Model)是数据特征的抽象。数据(Data)是描述事物的符号记录,模型(Model)是现实世界的抽象。数据模型从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供了一个抽象的框架。数据模型所描述的内容有三部分:数据结构、数据操作和数据约束。

    扩展资料:

    数据模型所描述的内容包括三个部分:数据结构、数据操作、数据约束。

    1、数据结构:数据模型中的数据结构主要描述数据的类型、内容、性质以及数据间的联系等。数据结构是数据模型的基础,数据操作和约束都建立在数据结构上。不同的数据结构具有不同的操作和约束。

    2、数据操作:数据模型中数据操作主要描述在相应的数据结构上的操作类型和操作方式。

    3、数据约束:数据模型中的数据约束主要描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。


    首先,先介绍一下,什么是数据模型?
    数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型是数据库中数据的存储方式,是数据库系统的基础。在数据库中,数据的物理结构又称数据的存储结构,就是数据元素在计算机存储器中的表示及其配置;数据的逻辑结构则是指数据元素之间的逻辑关系,它是数据在用户或程序员面前的表现形式,数据的存储结构不一定与逻辑结构一致。
    数据模型的分类有三种:

    第一种:层次模型 层次模型是数据库系统最早使用的一种模型,它的数据结构是一棵“有向树”。根结点在最上端,层次最高,子结点在下,逐层排列。
    第二种是:网状模型 网状模型以网状结构表示实体与实体之间的联系。网中的每一个结点代表一个记录类型,联系用链接指针来实现。网状模型可以表示多个从属关系的联系,也可以表示数据间的交叉关系,即数据间的横向关系与纵向关系,它是层次模型的扩展。
    第三种是:关系模型 系模型以二维表结构来表示实体与实体之间的联系,它是以关系数学理论为基础的。关系模型的数据结构是一个“二维表框架”组成的集合。每个二维表又可称为关系。在关系模型中,操作的对象和结果都是二维表。关系模型是目前最流行的数据库模型。
    为什么要建立数据模型?
    当今的商业决策对对数据依赖越来越强烈。然而,正确而连贯的数据流对商业用户做出快速、灵活的决策起到决定性的作用。建立正确的数据流和数据结构才能保证最好的结果。
    如何进行数据模型设计?
    1:首先是要了解业务然后建立概念模型,确定实体以及实体关系。
    2:在概念模型的基础上生成逻辑模型,确定实体属性,标准化数据(消除多值字段达到第一范式;消除部分依赖达到第二范式;消除传递依赖达到第三范式)。
    3:模型验证:通过具体的业务来验证模型是否能满足要求。
    4:在逻辑模型的基础上生产物理模型。
    在建立数据模型的时候需要注意:
    1.三少 整个模型中表应该尽量的少;在一个表中字段应该尽量的少同时复合主键字段应尽量的少
    2.如果在大数据量或者高并发的情况下,要充分考虑数据库的压力,事先要考虑哪些表可能是热表。要尽量的降低模块的耦合。如果使用的是oracle RAC 的话要考虑一下多实例竞争的问题,不同的模块访问不同的实例。
    3.一定要做压力测试、要做充分的压力测试,要不上线后会死的很惨,移动总部的一个web项目应为没有做充分的压力测试,导致上线后不的不挂维护页面,动用了n多的资源去解决问题。
    4.在做模型设计的时候要考虑项目的各个生命周期阶段对模型的要求,不能仅仅把眼光限制在功能的实现,例如要考虑模型对以后维护的支持,对于大表的数据如何进行清除、转历史,显然delete、insert是首先可以想到的但是不可行的方法,建议做分区转换。
    5.数据模型设计对系统可变性的支撑:业务系统的变化点通常是流程相关部分,这部分会随着不同的公司、公司的不同发展阶段而变化,因此最好将这部分单独建模,独立于系统核心模型之外。

    展开全文
  • 这里就需要有良好的数据分区和数据模型,那数据分区在第三部分数据架构中已经介绍,本节将介绍如何进行数据模型的设计。 1、各数据分区的模型设计思路: 数据架构部分中提到了在数据仓库中主要分为以下区域,那.....

            数据仓库作为全行或全公司的数据中心和总线,汇集了全行各系统以及外部数据,通过良好的系统架构可以保证系统稳定性和处理高效性,那如何保障系统数据的完备性、规范性和统一性呢?这里就需要有良好的数据分区和数据模型,那数据分区在第三部分数据架构中已经介绍,本节将介绍如何进行数据模型的设计。

    1、各数据分区的模型设计思路:

           数据架构部分中提到了在数据仓库中主要分为以下区域,那各数据区域的主要设计原则如下:

           (1)主数据区:主数据区是全行最全的基础数据区,保留历史并作为整个数据仓库的数据主存储区,后续的数据都可以从主数据区数据加工获得,因此主数据区的数据天然就要保留所有历史数据轨迹。

            1) 近源模型区:主要是将所有入数据仓库的数据表按历史拉链表或事件表(APPEND算法)的方式保留所有历史数据,因此模型设计较简单,只需要基于源系统表结构,对字段进行数据标准化后,增加保留历史数据算法所需要的日期字段即可。

            2)整合模型区:该模型区域按主题方式对数据进行建模,需要对源系统表字段按主题分类划分到不同的主题区域中,并主要按3范式的方式设计表结构,通过主题模型的设计并汇总各系统数据,可以从全行及集团角度进行客户、产品、协议(账户、合同)分析,获得统一视图。比如说,全行有多少客户、有多少产品?通过主题模型事先良好的设计和梳理,可以很快获得相关统计数据。

           主数据区的模型设计按顶层设计(自上而下)为主,兼顾应用需求(自下而上)的方式,即需要有全局视角,也要满足应用需求。那顶层设计主要是需要从全行数据角度对源系统的主要业务数据进行入仓,获得全行客户、业务数据的整体视角,同时又保存所有交易明细数据,满足后续的数据分析需求;应用需求指源系统数据的入仓也需要考虑当前集市、数据应用系统的数据需求,因为数据需求是千变万化的,但是只要保留全面的基础的业务数据,就有了加工的基础,当前的数据需求只是考虑的一部分,更多的需要根据业务经验以及主题模型进行数据入仓和模型设计。

            主数据模型的设计主要自上而下,近源模型层虽然比较简单,但设计步骤和整合模型类型,分为以下几个步骤:

          步骤1:系统信息调研,筛选入仓的系统并深入了解业务数据;

          步骤2:对入仓系统进行表级筛选和字段筛选,并将字段进行初步映射;

          步骤3:根据入仓字段按一定规范设计逻辑模型;

          步骤4:对逻辑模型进行物理化;

           (2)集市区:集市区的设计表结构设计主要按维度模型(雪花模型、星形模型)进行设计,主要是为了方便应用分析,满足数据应用需求,集市区一般以切片的形式保留结果历史数据,但保留期限不会太长,比如只保留月末数据以及当前月份的每日切片数据。

           数据集市需要从数据仓库获得基础数据,对于仓内集市,可以直接访问或通过视图访问,减少数据存储,仓外集市则需要从数据仓库获得批量数据作为基础数据进行存储加工。因此仓外集市还需要设计基础数据的保留策略。

          集市区的设计步骤如下:

          (3)接口区:接口区的设计完全根据数据应用系统的接口方式来进行,一般也是维度模型(事实表+维度表)方式,接口区之前也提到过,不做复杂计算,只做简单关联,可以将复杂计算放到集市或指标汇总层加工。

     

          (4)指标汇总区:作为集市接口区和主数据区的中间层,主要是提供基于各集市和接口数据的共性需求,基于主模型区数据进行统一加工。即面向所有的应用需求来设计,那中间层一般采用维度模型,按从细粒度到粗粒度的方式逐步汇总。由于各数据应用及集市的需求不断变化,指标汇总区也是不断进行完善,许多一开始在集市的加工由于其它集市或应用也需要,则会从集市转移到指标汇总层。常见的数据就是客户、账户、合同等常用的数据实体的宽表(事实表),统一进行汇总后供各数据应用使用。

            另外指标汇总层也包括共性指标的加工,指标可以通过基础指标配置指标计算加工方式获得衍生指标,那这些基础指标和衍生指标的定义、口径以及加工方式可以由指标管理系统来维护并集成到数据标准系统和元数据管理系统中。

            指标汇总区设计步骤如下:

            (5)非结构化数据存储区:非结构化存储区的设计不仅需要考虑非结构化数据本身的存储,同时需要考虑非结构化数据所带有的结构化属性,因此在设计时主要考虑以下几点:

             1)存储路径规划:是需要将非结构化数据按源系统、类型、日期、外部来源等角度进行存储路径的规划,分门别类,便于管理。

             2)对非结构化数据的元数据建立索引:比如对于凭证的影像,需要有账户、流水号、客户名等相关结构化数据,以便完整描述影像图片的来源,通过对这些结构化数据建立索引,方便查找。

             3)对部分文档内容建立索引:对于部分文档如合同电子版、红头文件PDF需要建立内容索引,以便快速搜索查找文件内容,一般可用支持HADOOP的ElasticSearch来实现。

             4)设立计算区和结果区:由于非结构化数据往往需要使用MAPREDUCE或程序化语言进行处理,也会产生中间临时文件和结果数据,因此需要规划计算区和结果区来存放这些数据。

     

            (6)历史数据存储区:历史数据区作为历史数据的归档,即包括结构化数据,也包括非结构化数据,对于历史数据除了存储也需要方便查找,历史数据区的规划设计需要考虑非结构化数据存储区的存储、索引设计外,还需要考虑以下几点:

            1)压缩,由于历史数据使用频率低,可以选择压缩率较高的算法,降低存储空间。

             2)容量规划:由于历史数据归档会越来越大,因此需要提前进行容量规划以及历史数据清理。比如10年以上的数据进行删除。

             3)可设计一个管理系统对历史数据进行归档、查找以及管理。

     

            (7)实时数据区:实时数据区需要使用部分批量数据来和实时流数据进行关联加工,因此可从主数据区获得所需要的数据后进行存放在实时数据区的关联数据区,同时对于加工结果不仅可以推送到KAFKA等消息中间件,同时也可输出到实时数据区的结果区进行保留。

     

            (8)在线查询区:在线查询区主要在线提供计算结果查询,常用HBASE来实现,设计按照接口来分别存放到不同的HBASE表,字段内容也主要是接口字段内容。HBASE表可以根据应用或者接口类型进行分目录和分用户。由于在线查询区和实时数据区考虑到作业的保障级别以及资源竞争,往往会单独建立一套集群,与批量作业集群进行隔离,在线查询的结果计算可以在批量集群计算后加载到在线查询区。

     

           后续将分别对主数据区、集市及汇总指标层模型设计进行介绍,敬请关注。

    目前字节跳动数据团队(上海)有内推职位,主要面向字节所有产品数据仓库及大数据开发岗位,如tiktok等,包括社招,校招,实习,大家可在2021年5月23号之前私信联系,内推方式成功率更高,机会有限,先到先得!

    展开全文
  • 数据异常检测方法以及实际应用

    千次阅读 2019-05-28 20:35:17
    文章目录前言一、应用场景二、检测方法1、概率统计模型2、机器学习方法3、业务经验,逻辑规则4、判定规则三、实际应用1、从3 Sigma准则说起2、BOX-COX转化3、幂律分布(Power Law Distribution)...

    转载于:

    已获得作者同意转载

    关于数据的异常检测,看这一篇就够了 - 携程技术中心的文章 - 知乎
    https://zhuanlan.zhihu.com/p/65023844

    前言

    制造厂商需要抽样检测流水线上生产的产品,数据公司同样也需要对自己的数据产品质量进行把控。检测的目的无非是及时发现产品或数据中的异常,从而修正偏差改善产品质量。

    异常值在不同文献中有其不同的定义,通俗的说就是那些与其他观测值有显著偏差的观测点,有时也会称作是极端值、离群点或孤立点等,这些名词在数学的细分领域都有其不同的定义,这里不做区分。

    异常值产生的原因主要是数据生成机制的不同,异常值本身不是一个贬义词,异常观测也会涵盖有用的信息,帮助分析师理解数据的分布,保证线上流程的稳健性。

    一、应用场景

    异常检测与监控的应用场景多样,主要包括以下:

    1、ELT流程中的数据异常。ETL工程师在上层数据汇总过程中通常会考虑标记数据的极端值,比如单个用户的日pv数过千过万或单个用户周订单过百过千等,这将有助于数据分析师获取数据异常的先验信息。

    ELT用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。

    2、特征工程中的数据异常。分箱操作是特征工程中常用的一种异常处理方式,在线性模型中,将变量分箱离散化可将极端值圈定在某一固定的组别,不仅能消除极端值对模型鲁棒性的影响,也能在线性性基础上引入非线性性。

    3、AB测试中的数据异常。在计算转化率(随机变量服从0/1分布)时,个别的异常值不会影响AB测试的整体效果,但在计算人均订单数和人均pv数时,个别的极端值会对均值产生显著影响。

    AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。

    4、时序数据的监控。监控数据在时间维度上的异常情况,这里需要考虑时序数据的特性,比如趋势和周期等。

    5、欺诈检测。金融场景中的欺诈案例也属于异常数据,机器学习中有很多优秀的算法可用来支持欺诈检测。

    6、其他场景中的异常检测和监控不一一列举。

    二、检测方法

    1、概率统计模型

    概率给出总体的分布来推断样本性质,统计则从样本出发来验证总体分布的假设。所以概率统计模型需要我们去验证模型假设的正确性,比如概率分布是否正确,参数的设置是否合理。

    2、机器学习方法

    机器学习无外乎监督、非监督以及半监督学习方法等,比如常见的聚类,二分,回归。此类方法往往注重模型的泛化能力,而弱化概率统计中的假设检验。历史数据的异常如果已标注,那么二分类方法是适用的,但业务数据的异常大多没有显示的人工标注,无法应用监督学习。

    3、业务经验,逻辑规则

    业务经验的丰富以及对数据的敏感性能更加直接地帮助理解异常数据,在一些轻量级的任务中,配置简单的逻辑规则也能达到很好的检测效果。

    4、判定规则

    异常值的判定规则主要采用以下两种方式:

    a)区间判定

    给出一个阈值区间,实际观测落在区间之外则判定为异常。例如,在时间序列和回归分析中,预测值与真实值的残差序列便可构建这样一个区间。

    b)二分判定

    二分判定的前提是数据包含人工标注。异常值标注为1,正常值标注为0,通过机器学习方法给出观测为异常的概率。

    三、实际应用

    1、从3 Sigma准则说起

    借助正态分布的优良性质,3σ准则常用来判定数据是否异常。由于正态分布关于均值μ对称,数值分布在(μ-σ,μ+σ)中的概率为0.6827,数值分布在(μ-3σ,μ+3σ)中的概率为0.9973。也就是说只有0.3%的数据会落在均值的±3σ之外,这是一个小概率事件。为了避免极端值影响到模型整体的鲁棒性,常将其判定为异常值并从数据中剔除。

    正态分布的参数μ和σ极易受到个别异常值的影响,从而影响判定的有效性,因此又产生了Tukey箱型图法。

    第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。

    2、BOX-COX转化

    当原始数据的分布是有偏的,不满足正态分布时,可通过BOX-COX转化,在一定程度上修正分布的偏态。转换无需先验信息,但需要搜寻最优的参数λ。

    对于一个右偏数据,如下左图,λ取3.69时,转换后的数据分布近似一个正态分布,如下右图。严格地来说,在应用正态分布的性质之前,还需对转换后的数据做正态性检验。

    3、幂律分布(Power Law Distribution)vs 正态分布(Normal Distribution)

    除了常见的正态分布,还有一种极其重要却极易被忽略的分布-幂律分布。在日常的数据分析中,订单数据和浏览数据常呈现近似幂律分布。

    下图展现的是社交网络中用户数和用户粉丝数的关系,可以看出拥有200(横轴)以上的粉丝的用户数(纵轴)占极少数,而拥有<100粉丝的用户数成百上千,这就是幂律分布的特点:少数群体占有着多数的资源。

    呈现幂律分布特点的数据可通过log转换使观测点近似其分布在一条直线上,方便后续分析和预测,而分布中的那些所谓的“极端值”却不能像分析正态分布那样随意的剔除。考虑到计算中数据的倾斜问题,在不影响整体效果的情况下,可根据更加细致的分位点对极端值进行取舍。
    4、回归分析

    在回归分析中,尤其是线性回归中,异常的数值也会对模型的拟合效果产生较大的影响。

    对图中7个数据点进行拟合,蓝色的回归曲线线受到右上方高杠杆值的影响,偏向了它,拟合并不理想。对高杠杆值的识别不足以用来检测回归中的异常,更有效的方式是计算每个数据点的Cook距离。

    柯克距离(Cook Distance)是统计分析中一种常见的距离,用于诊断各种回归分析中是否存在异常数据。较大的Cook距离表明从回归统计量和计算中排除个案之后,系数会发生根本变化

    Cook距离表征了包含此观测点和剔除此观测点前后模型的拟合效果的差别,差别越大,此点对模型影响越大,可考虑删除,因为在一个稳健的模型中每个点对模型的影响都认为是均匀的。删除强影响点之后,橘色的曲线对大部分的点的拟合都比较满意。

    5、基于密度的方法

    在一维空间中的固有思维是较大或较小的数据会是异常,但是在高维空间中,数据是不能直接拿来比较大小的。仍以一维数据为例,考虑以下序列的异常情况:

    {1,2,3,2,50,97,97,98,99}

    50更有可能认为是异常或离群点,而非1或99。当数据分布的假设不是必要条件时,计算数据点的密度来判定异常也是一个行之有效的方法。

    点的密度可有多种定义,但多数都会依赖距离的定义,多维空间的距离计算较为复杂,尤其当数据混入分类变量和连续数值变量的时候。以一个简单的密度方法为例,在LOF(Breunig,M., Kriegel, H., Ng, R., and Sander, J. (2000). LOF:identifying density-based local outliers.)算法中,数据的异常判定依赖于计算每个观测的局部离群因子。

    离群因子表征了数据点与周围邻居点的密切程度,或者不合群的程度。因子值越大,其为异常点的可能性越大。上述一维序列的各点离群因子值如下左图,第5个点(50)对应的离群因子最高,可被判定是异常值。下右图是维基百科上一个二维空间的例子,根据局部离群因子同样可以识别出数据中的离群点。

    6、业务数据的时序监控

    业务数据的时序监控是对各业务线产生的时序数据,如访问量,订单量等进行异常检测,是对业务正常开展的反馈与保障。业务数据包含实时数据和离线数据,对实时性要求不高可采用T+1天监控预警。在实践中发现业务数据会有如下特点:

    a)数据稀疏:有的业务数据时间跨度小,历史数据不足;有的业务数据包含缺失值,时间不连续,通常会出现在投放业务中。

    b)无人工标注:历史的异常值无人工标注,后续判断异常主观性较强。

    c)节假日等影响因素不可控

    常用的判定流程如下:

    T时刻基于[1, T-2]时间段内的数据建立模型或规则来判定T-1时刻数据的是否异常。为了保证规则和模型的稳健,对于历史的异常值往往会采用平滑的方式处理。

    a、配置恒定阈值

    数据无趋势性,近似平稳,可配置简单的恒定阈值。时刻T配置的恒定阈值是对历史数据的恒定,在T+1时刻,这个阈值会被新加入的数据更新。

    b、配置动态阈值

    如果时间序列含有趋势性,但无明显周期性,可以配置动态阈值。比如基于固定的移动窗口计算移动平均值和移动标准差,基于两者给出监控的上下界。动态阈值会受到移动窗口大小设定的影响,对判定当前数据异常有一定的延迟性。

    c、监控差分序列

    对原始序列作一阶差分,如果差分序列稳定,可对差分序列配置恒定阈值,从而判定原序列的异常情况。

    原始序列:

    差分序列:

    d、时间序列分解法

    如果业务数据既有趋势性又有周期性,可将时间序列模型运用于监控任务中,如Arima,STL,TBATS等时间序列模型。在STL鲁棒加权回归时间序列分解法中,模型通过加权最小二乘回归将原始序列分解成周期序列,趋势序列和残差序列。下图从上到下依次是原始序列,周期序列,趋势序列和残差序列。

    模型基于残差序列的中位数和观测的残差值赋予每个观测一个稳健权重,权重低的观测会被判定为异常。这里之所以使用残差序列的中位值,也是考虑了中位值的稳健性。

    在实际应用中会发现,业务时序数据的不规则和特点的多变性往往对模型和规则提出更高的要求,不同的检测方法需要相互配合使用才能发挥作用。

    四、结束语

    异常检测与处理在各个领域都有其广泛的应用场景,本文仅以常见的case为例,论述了一些简单却行之有效的方法。文章并未涉及大规模数据和高维数据的异常检测,感兴趣的读者可以查阅相关文献做深入研究。

    其次,在实际操作中,一种或几种检测方案也无法覆盖所有数据问题。在洞察数据分布规律的基础上,分析师需要灵活的根据数据生成机制采取合适的方法或统计模型,再辅以相应逻辑规则来顾及模型所无法触及的边边角角,让异常检测算法实际落地。

    【作者简介】束开亮,携程大市场部BI团队,负责数据分析与挖掘。同济应用数学硕士,金融数学方向,法国统计学工程师,主修风险管理与金融工程。

    展开全文
  • 数据模型之版本管理

    2019-10-09 08:31:00
    转载本文需注明出处:微信公众号EAWorld,违者必究。引言:主数据是描述企业核心数据、业务对象,当记录到数据库中时,需要对其进行维护,确保其时效性、准确性。数据模型管理...

    640?wx_fmt=gif

    640?wx_fmt=jpeg

    转载本文需注明出处:微信公众号EAWorld,违者必究。

    引言:

    主数据是描述企业核心数据、业务对象,当记录到数据库中时,需要对其进行维护,确保其时效性、准确性。 数据模型管理是重要的环节,在实施主数据模型版本管理项目中用树节点挂载的方式,建立不同的数据类型树,在树节点下挂载数据类型、模型、版本,在每个版本下配置字段、展现方式等信息,并且可增加编码配置关系,在应用数据的时候可以灵活使用和展现数据。 有效地解决了政府、地产等行业的需求,提高数据处理效率和使用价值。

    目录:

    1. 数据模型版本管理使用方案介绍

    2. 模型版本管理数据关系结构

    3. 模型版本管理下的主数据


    1.数据模型管理使用方案介绍

    对于数据开发项目,我们常常会面临众多的数据对接,部分场景不仅数据量大,且数据种类多,数据解析开发工作量巨大。对于主数据模型版本管理,一般是使用是树节点挂载的方式,建立不同的数据类型树,在相应的树节点下挂载相应的数据类型、模型、版本和数据,在每个版本下需要配置相应的字段、展现方式等信息,并且可以增加一些编码配置关系,在应用数据的时候可 以灵活的使用和展现数据。

    640?wx_fmt=png

    数据模型版本管理分为四部分:

    第一部分 是数据分类管理,首先建立数据分类,比如职员、部门、出勤等数据分类,模型对应到每个数据分类下,在每个模型下有不同的模型版本,模型版本下有相应的数据属性;

    第二部分 是模型配置,在每个模型版本下进行相关配置:

    1. 每个模型版本下包含字段属性,字段配置就是对这些属性进行配置,这些配置包括中文、英文名称,默认值,是否是主键,是否是流程字段,是否是编码字段的信息;

    2. 数据显示存在展现方式,展现方式包括数据模型的名称,展现方式是列表还是树或者是树和列表共同展示;

    3. 数据查重包括查重规则名称和对应校验的字段信息;

    4. 详细数据展示的时候会关联到数据模板,数据模板会配置与具体字段属性的关联关系,包括模板编码、名称,相关备注信息,字段是否显示、是否可编辑,是否必填信息。


    第三部分 是编码管理,分为码段管理和编码规则,码段管理是维护一套编码,如:固定码、特征码、流水码、日期码等;编码规则是绑定模型板和对应编码的关系,可以增加、删除对应的关系。

    第四部分 是数据应用部分,在配置好数据分类、模型配置、编码管理,数据应用的部分包括详细的数据,指数据维护、查看、权限和历史数据。

    面对大量数据和众多的数据类型,用数据分类、模型配置、编码管理和数据应用实现灵活管理和使用数据的目的。

    2.模型版本管理数据关系结构

    1、模型管理模块是指数据分类、数据字典、模型管理

    树形的单个数据分类下关联了多个模型,每个模型会有会有多个版本状态,每个模型下会涉及到多个模型版本,每个模型版本会有多个版本,但是只能有一个生效启用的版本,版本下增加了数据的字段属性。

    640?wx_fmt=png

    如上是数据模型管理的树形图,也代表了数据结构关联关系,数据字段属性是数据详细内容。理论上,每个模型版本维护一套数据结构,意味着通过该版本控制当前的数据类型和形式。

    2、模型配置包含了多维度的配置,使得数据使用上更细化

    模型配置是对数据模型的补充,使得数据在使用上形式更多、更准确,其中包括了在字段配置、展现方式、数据查重、数据模板、数据权限上的配置。

    640?wx_fmt=png

    如上图是模型配置信息,在不同模块下通过建立与字段属性的的关系,达到细化控制数据的目的,通过数据权限的配置,分用户使用数据。


    3、编码管理是对应到具体数据的字段上,包括值和类型以及相应的使用信息

    编码管理包括码段管理和编码管理,码段管理是根据实际项目中的需要设置多个码段类型,编码规则是将需要的码段类型绑定到具体的模型版本上,实现对模型版本具体字段的控制。

    640?wx_fmt=png

    如上图是编码管理的配置信息,模型版本通过编码规则绑定适合版本的码段类型,形成一个带有码段的模型版本。


    4、数据应用模型版本管理下的数据使用部分

    在完成模型管理、模型配置和编码管理的基础上,实现数据查看、维护及历史数据查看。

    640?wx_fmt=png

    如上图是数据应用的配置信息。


    3.模型版本管理下的主数据

    数据维护中的数据只提供查看,数据维护中的数据不仅可以查看功能,还可以进行增删改功能,历史数据中的数据是指当前版本下的之前版本的数据。数据列表如下所示:

    640?wx_fmt=png

    在数据模型版本管理中,模型版本是平台管理数据一个重要的部分,不同的数据分类下的不同模型下也会存在多个版本,它维护了当前使用的数据模型版本的一套数据关系,包括所关联的模型配置和编码管理,每一个版本下的模型配置和编码管理都可以存在差异,再通过数据版本的状态是否生效判断当前数据是否可用,如此通过模型和编码配置进行更细化的管理和使用数据,达到数据模型版本管理的不同分类下、不同模型版本下灵活、充分的使用数据的目的。

    精选提问:

    问:模型版本管理,感觉很抽象, 一般是什么模型?用于什么场景?

    答:数据模型,在数据分类后会根据数据存储类型建立模型,模型下会有版本,每个版本下会有具体的字段属性和字段类型,管理的就是不同数据模型版本的关系。目前有管理过标准件的数据和地产项目的数据。

    推荐阅读

    640?wx_fmt=png关于作者:茅十八,现任普元产品部大数据开发工程师。曾在电商(联通商城)领域公司工作。参与dsp 6.0版本、主数据开发及平台维护,擅长MyBatis、SpringMVC、Spring等领域技术,长期致力于IT技术研究、产品开发。专注服务治理、数据共享。对大数据、电商行业有着深入的研究。

    640?wx_fmt=jpeg关于EAWorld:微服务,DevOps,数据治理,移动架构原创技术分享。长按二维码关注!


    640?wx_fmt=png
    在看点这里
    640?wx_fmt=gif
    展开全文
  • (马蜂窝技术原创内容,公众号ID:mfwtech) 一、马蜂窝数据仓库与数据中台 最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也...它是在企业的数据建设经历了数据中心、数据仓库等积累之后,借助平台...
  • OLAP和多维数据模型

    万次阅读 多人点赞 2017-11-09 15:56:36
    联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。 它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的...
  • 理论篇~第三章 数据模型设计

    千次阅读 2017-09-24 10:07:02
    常见数据模型介绍  1 ER模型  数据仓库之父Bill Inmon提出的建模方法,是从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务。其具有以下几个特点:  需要全面了解企业...
  • 应用配置 维护应用程序主要由应用程序配置和API中的模式驱动。 可以从API直接读取模式(由D2读取)。 以下文档介绍了应用程序配置: 在src/config/ ... maintenance-models.js定义了应用程序中显示的模型类型 ...
  • redis内存模型 redis大致内存模型如下图 ...如下图所示:架构做成主从架构,一主多从,主负责写,并且将数据同步复制到其他slave节点,从节点负责读。所有的读请求全部走从节点。加假如原来一台机器只能支撑5万QP...
  • 文章目录引子数据模型概念模型逻辑模型物理模型数据仓库数据模型设计顺序概念模型、逻辑模型和物理模型的区别参考资料 引子 年底这两个月阿里云的dataworks进行了全面升级,很多细节有了不小的变化,感觉结构更加...
  • 银行数据仓库体系实践(9)--主题模型

    万次阅读 多人点赞 2019-07-13 11:49:27
    在银行主题模型中,每个数据仓库的实施公司会有金融行业或银行业的主题模型,这个模型会根据新的业务不断进行完善,是各实施公司的业务经验积累。一个良好的模型数据仓库的实施起到了事半功倍的效果,虽然不同的...
  • 对比分析了数据网设备网管接口技术发展现状及...提出了一种基于可扩展标记语言(XML) ,并能同时使用命令行方式和 Netconf协议实现数据网设备配置信息下发的应用模型 ,给出了在网管系统中实现和应用模型的基本方法
  • Salesforce数据模型Data Model (全面解析)

    千次阅读 2017-03-19 10:56:26
    学习Salesforce第一步就是要理解数据模型即对象Object、字段Field(域)及关系Relationship。用大家耳熟能详的Excel来解释对象、字段和记录的关系:Object相当于电子表格的tab,字段相关于电子表格的列,记录对应于...
  • 数据挖掘技术、方法应用

    万次阅读 2014-06-09 21:05:58
    目录(?)[+] ...基于Internet的全球信息系统的发展使我们拥有了前所未有的丰富数据。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三
  • Python数据分析与挖掘

    万人学习 2018-01-08 11:17:45
    从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过...
  • 大数据技术原理与应用第4讲:分布式数据库HBase

    万次阅读 多人点赞 2019-05-17 22:21:54
    2下列对HBase数据模型的描述错误的是A.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本 B.每个HBase表都由若干行组成,每个行由行键(row key)来标识 C.HBase列族支持动态扩展,可以很轻松地添加一...
  • 一文教你认清领域模型和数据模型

    千次阅读 多人点赞 2021-01-13 15:57:30
    现在回想起来,我当时的纠结源自于我对领域模型和数据模型这两个重要概念的不清楚。最近,我发现对这两个概念的混淆不是个例,而是非常普遍的现象。其结果就是,小到会影响一些模块设计的不合理性,大到会影响像业务...
  •  今天在用VS2010创建控制台应用程序,添加数据源的时候,没有“实体数据模型”选项。在网上搜索了下,很多人都遇到了这个问题。我最后找到了解决方案。  在安装文件夹中找到WCU\EFTools文件夹,如果直接运行msi...
  • 模型并行( **model parallelism** ):分布式系统中的不同机器... - 数据并行( **data parallelism** ):不同的机器有同一个模型的多个副本,每个机器分配到不同的数据,然后将所有机器的计算结果按照某种方式合并。
  • 数据标准化与数据模型的管理流程

    千次阅读 2016-03-30 08:30:32
    当一个企业进行数据标准化或数据模型管理时,除了对数据本身标准化规则或者相应表格的构建外,相当大一部分需要考虑标准化流程的管理。而在管理过程中必然会设计到新旧系统、不同部门、不同业务的冲突,这些冲突如果...
  • 基于指标汇总层、集市层、可以提供面向业务人员的即席数据查询、以及面向应用开发者的数据接口、应用访问接口,满足不同类型应用的需要。 1、汇总指标层模型设计原则及步骤 1.1建设目标: 汇总指标层也叫中间层...
  • SqlServer2012建数据挖掘模型

    千次阅读 2018-08-20 09:11:40
    SqlServer2012建数据挖掘模型   Microsoft SQL Server提供了集成的数据挖掘建模分析环境,这里我们用SQL Server官网提供的数据创建模型并用于分析顾客购车行为,从而预测潜在购车客户。   前提条件 准备...
  • 一、简介 ① 基本概念 分布式数据服务(Distributed Data Service,DDS) 为应用程序提供不同设备间数据库数据分布式的能力。通过调用分布式数据接口,应用程序将数据保存到分布式...“KV数据模型”是“Key-Value
  • BModSim补充了数据分析方法,例如机器学习,通过描述组织在敏捷应用中的大局面,将来自数据分析的各种结果放在上下文中,并确定最有利可图的领域以用于将来的数据收集。这篇博客文章描述了一种系统动力学仿真模型,...
  • Hive数据模型是什么?

    千次阅读 热门讨论 2021-06-20 13:16:55
    前言 本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区...下面针对 Hive 数据模型中的数据类型进行介绍 数据库:相当于关系数据库中的命名空间( namesp
  • 本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建...
  • UML 是一种应用广泛的面向对象建模方法和工具,常用于通用数据模型的建模,而关系型数据库设计则是通用数据模型的具体实现,二者在数据建模方面各有侧重,彼此独立。实现 UML 模型到关系型数据库的平滑转换,不仅能...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 485,313
精华内容 194,125
关键字:

数据模型应用配置方法