精华内容
下载资源
问答
  • 数据质量评估方法
    万次阅读
    2019-01-17 16:48:46

    数据质量评估方法

    数据质量评估体系主要参考以下指标:

    1. 数据完整性
    2. 数据准确性
    3. 数据有效性
    4. 数据时效性
    5. 数据一致性

    依据以上指标,针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执行中进行取舍。

    数据质量评估具体检测的内容

    数据完整性检测

    完整性,描述数据信息缺失的程度,是数据质量中最基础的一项评估标准。数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。数据完整性检测的步骤是

    1. 对于数据信息记录缺失的检测,可以通过对比源库上的表数据量和目的库上对应表的数据量来判断数据是否存在缺失。
    2. 对于字段信息记录缺失的检测,选择需要进行完整性检查的字段,计算该字段中空值数据的占比,通常来说表的主键及非空字段空值率为0%。空值率越小说明字段信息越完善,空值率越大说明字段信息缺失的越多。

    数据准确性检测

    准确性,用于描述一个值与它所描述的客观事物的真实值之间的接近程度,通俗来说就是指数据记录的信息是否存在异常或错误。例如业务员在上报系统上填写客户信息时,手误输错了某一信息,造成了数据库里存在的信息与客观事实不一样。数据准确性的检测较为困难,一般情况下很难解决。在某些特定的情况下,例如性别,年龄,出生日期,籍贯等信息可以通过校验身份证号来检测,前提是确保身份证号码是正确的。

    数据有效性检测

    有效性,描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。数据有效性检测的步骤是用户选择需要进行有效性检测的字段,针对每个字段设定有效性规则。有效性规则包括类型有效、格式有效和取值有效等。类型有效检测字段数据的类型是否符合其定义,例如可以通过求和来判断是否是数值型,通过时间操作来判断是否是时间类型。格式有效性检测可以通过正则表达式来判断数据是否与其定义相符。取值有效检测则通过计算最大最小值来判断数据是否在有效的取值范围之内。

    数据时效性检测

    时效性, 是指信息仅在一定时间段内对决策具有价值的属性。数据从生成到录入数据库存在一定的时间间隔,若该间隔较久,就可能导致分析得出的结论失去了借鉴意义。例如当天的交易数据生成后没有及时的录入数据库或者源库与目的库之间的同步延迟,则会导致统计结果和真实结果存在一定误差。

    数据一致性检测

    把待检测的表作为主表,首先用户确定一致性检测的主表字段,然后选择需要给定检测的从表和从表字段,设置好主表和从表之间的关联项,关联项可以是多个字段,但是关联项必须是拥有匹配值的相似字段。匹配关联之后检查主表和从表相同或者类似字段字段值是否一致。

    数据质量评估流程

    数据质量的评估流程首先确定要检测的数据质量指标和评估规则,然后编写相应的 SQL 脚本来检测分析数据,最后计算满足各个规则的数据的百分比得分。系统的综合得分的计算可以通过把每条规则的得分计算出来,然后综合后取平均值,但更为合理的方法就是可以把每条规则的得分按照给定的权重进行评价,做出一个合理的数据质量评价等级。由用户规定每个检测规则的权重,做出一个权重方案,然后按照各个检测规则的权重进行整体的计算统计,得到一个合理的数据质量评估得分。

    更多相关内容
  • 2021《金融数据安全 数据安全评估规范(征求意见稿)》
  • 数据安全风险评估
  • 2021数据安全治理之数据安全风险评估白皮书
  • 风险评估数据安全风险管理的起点 风险评估关注的安全要素 风险评估基本过程 基于风险控制的数据安全管理体系 新形势催生以数据为中心的安全风险评估 数据资产识别是数据安全风险评估的基础 数据应用场景是识别数据...
  • 信息安全风险评估理论 数据安全风险评估方法 数据安全风险评估实施指南 欧美数据保护相关法律和监管已经引入风险控制思想 欧盟《一般数据保护条例》(GDPR) 美国《2018年加州消费者隐私法案》(CCPA)
  • DCMM-数据管理能力成熟度评估模型
  • python数据分析---数据评估

    千次阅读 2018-03-24 16:55:29
    评估数据数据整理的第二步。评估数据就像作侦探一样,检查数据集是否存在两个问题:数据质量问题(即内容问题)和缺乏整洁度(即结构性问题)。 数据质量问题包含:数据缺失,数据重复以及数据错误等问题。又被...

    评估数据是数据整理的第二步。评估数据就像作侦探一样,检查数据集是否存在两个问题:数据质量问题(即内容问题)和缺乏整洁度(即结构性问题)。
    数据质量问题包含:数据缺失,数据重复以及数据错误等问题。又被称为脏数据
    不整洁或杂乱的数据存在明显的结构问题。
    评估的两个方法:目测评估,代码编程评估

    首先,对脏数据和杂乱数据进行明确定义:
    为了方便理解,将数据想象成卧室,一间脏兮兮的卧室可能有脏盘子和餐具,还有像糖果纸或香蕉皮这样的垃圾。甚至有从户外带进来的脏东西。这些东西本来不属于你的卧室。
    卧室杂乱的部分则不同:杂乱是结构性和组织性的问题。想象一下卧室满地都是衣服。这些衣服应该属于卧室,不属于地上。想象你凌乱不堪的床。
    内容有问题的脏数据通常被称为低质量数据。其中可能包括不准确的数据,损坏的数据和重复的数据。
    杂乱是结构性和组织性的问题。通常称之为不整洁。
    整洁的数据是指:每个变量构成一列,每次观察构成一行,每类观察单元构成一个表格。除此之外其他任何排列都是杂乱的。
    hadley wickham是数据整洁格式的创始人,他在有关整洁数据的论文中使用了这一术语。

    未清理数据分为两种:

    脏数据,也称为低质量数据。低质量数据存在内容问题。
    杂乱数据,也称为不整洁数据。不整洁数据存在结构问题。

    评估类型和步骤:
    数据评估类型和风格可以分为两种,目测评估,编程评估
    编程评估:计算(info),绘制数据图(更多的用于探索性数据分析)。
    无论用那种评估方式,数据评估都可以分为两步:
    1、查找问题并记录该问题。记录时按质量和整洁度对问题进行分类。记录只是我们通过观察所发现的问题。不需要写出如何来纠正这个问题。因为这是数据整理框架中清理数据的一部分。

    目测评估:
    可以使用pandas,Google sheet,Excel等。数据比较小时使用Google sheet和Excel,当数据比较大时就不得不用pandas了。
    目测评估的优势:
    熟悉数据集的意义。真正了解每列的内容。
    了解数据集,了解数据内容,就像将其映入你的脑海一样。
    非定向的目测评估也是非常有用的,可以随意翻滚来发现一些问题。

    评估与探索
    数据评估和数据探索之间存在细微差别。
    评估是数据整理的一部分,而探索是探索性数据分析的一部分。
    数据整理重在收集正确的数据,评估数据的质量和结构,然后修改以清理数据。但评估和清理数据等环节,并不会改进你的分析。也不会改善可视化或模型。其目标仅仅是是数据为后面的工作提供助力。
    EDA在于探索并后续增加数据,以最大限度的发挥你的分析,可视化和模型潜力。在探索数据时,通常会使用简单的可视化来总结数据的主要特征。进而删除异常数值,并从现有数据创建新的更具描述性的功能等。也成为特征工程。
    实际上,数据整理和EDA可以可以同时进行。

    评估是可以将评估问题分为质量问题和整洁度问题进行分类,将问题记录在不同的分类明细下。通常将评估的内容放在clean上面,这样在后面清理和编码的时候,不需要向上滚动过多的长度。
    质量问题:
    目测评估(质量问题):
    一般是在了解你需要分析的内容之后,再进行评估。
    评估内容:数据缺失(NaN)数据类型,数据长度,

    数据质量维度
    数据质量维度有助于在评估和清理数据时为我们提供思维指导。四个主要的数据质量维度分别是:
    完整性(compleness):我们是否记录了所有内容?是否缺少记录?是否丢失某个行、列或单元格?
    有效性(validity):我们已经做了记录,但却无效,即它们不符合定义的模式。模式是一组定义的数据规则。这些规则可以是真实世界约定成俗的事实(例如身高不可能是负数)和表格约定成俗的属性(例如表中的唯一键)。
    准确性(accuracy):不正确的数据是有效的错误数据。这些数据符合定义的模式,但仍然不正确。例如:5 磅的患者体重太重,这显然是错误的,因为体重不可能这么轻。
    一致性(consistency):不一致的数据是有效和准确的,但是指代同一件事情的正确方式有多个。最好确保表和/或表内表示相同数据的列中的数据具有一致性,即采用标准格式。

    编程评估:使用pandas函数和方法—
    1、根据解决的问题来进行评估
    2、也可使用非定向编程评估,指的是随机输入编程评估,不带有任何目标,这种方法有助于你找到数据评估的线索,以便后期进行更准确的评估。
    pandas的一个便捷方法是dateframe样本法。
    df.sample()也可以获得任意数量的样本。–df.sample(5)
    目测评估后一般先使用.info
    1、info可以找到缺失值,然后使用df[df[‘column’].isnull()],反馈与数据框相同行数的布尔数组以及是否地址列中的该行为空。2、确定数据框各类的数据类型,确定是否有误。–数据类型问题都是有效性问题。
    int—整数
    object—对象想,字符型
    float–浮点型
    然后是df.decribe()–
    df.sample()
    df[df.column.duplicated()] 返回重复的列
    df.column..sort_values()—对指定值排序

    以下是你经常会在 pandas 中使用的程序评估方法:
    .head (DataFrame 和 Series)
    .tail (DataFrame 和 Series)
    .sample (DataFrame 和 Series)
    .info (仅限于 DataFrame)–返回数据框的简单结构,得到条目和列的数量,以及每一列的数据类型和整个数据框的占用内存。
    .describe (DataFrame 和 Series)—会生成对数据框中值数据类型的描述性数据统计。
    .value_counts (仅限于 Series)–是一种直方图函数,返回的是该列中某些特定值的计数
    各种索引和筛选数据的方法 (.loc and bracket notation with/without boolean indexing, also .iloc)

    在下面尝试这些方法,并记住结果。随后的课程中会需要一些结果。
    核对 pandas API reference 获取详细使用方法信息。
    在 patients 表格中使用 .head 和 .tail。
    在 treatments 表格中使用 .sample 。
    在 treatments 表格中使用 .info 。
    在 patients 表格中使用 .describe。
    在 adverse_reactions 表格的 adverse_reaction 一列使用 .value_counts 。
    在 patients 表格中选择 city 来自纽约的病人记录。如果遇到困难,根据 Chris Albon 在 利用 Pandas 索引和筛选数据 ,核对 根据条件语句选择 (布尔)。

    整洁度问题
    目测评估:melt函数和split函数,主要用于评估第一个和第二个整洁度问题,及一个变量为一列
    编程评估:可以轻松评估第三个整洁度问题。主要是使用.info()函数,确定每个变量到底属于什么表格,我们如果使数据最终成为一个整体,我们最终需要多少个表格。
    lis(df)可以获得df的所有列名。
    all.columns = pd.Series(list(df1)+list(df2)+list(df3))
    all.columns[all.columns.duplicated()]
    –可以查看不同的表格中重复的列名。

    脏数据的原因
    脏数据 = 低质量数据 = 内容问题

    脏数据的原因有很多。基本上只要有人参与的地方,就会有脏数据。接触我们所处理数据的方式也很多。

    可能会存在一些用户输入错误。某些情况下,我们不会设定任何数据编码标准,或者即使我们设定标准,人们也很少遵守,最终一样导致数据出现问题。我们可能需要集成数据,将不同的模式用于同一类型的项目。数据系统过时,光盘和内存限制比现在更具有局限性,所以不可能对数据进行编码。随着系统不断发展,需求发生了变化,数据也发生了变化。一些数据将不具有唯一的标识符。从一种格式转换为另一种格式将会导致其他数据丢失。当然,程序员可能会出错。最后,数据可能在传输或存储过程中被宇宙射线或其他物理现象破坏。所以呢,这不是我们的错。

    杂乱数据的原因
    杂乱数据 = 不整洁数据 = 结构性问题

    杂乱数据通常是数据规划不当的结果。或者对 整洁度数据 的优点缺乏认识。但好的一点是,相对于上面提到的大多数脏数据,杂乱数据的原因更容易发现。

    展开全文
  • 数据安全治理能力评估方法.pdf
  • 信息安全技术 数据出境安全评估指南-标准文本,数据出境安全评估指南
  • 如何对数据进行评估

    千次阅读 2019-11-19 14:48:48
    对于一个金融机构而言,流量和风控决定利润,而数据质量是风控核心。...一、线下数据评估 1.1 、不同类型数据源的评估 首先,将数据分成4类,黑名单类、评分类,变量类,原始数据类。 黑名单类应用在反欺诈环节,...

    对于一个金融机构而言,流量和风控决定利润,而数据质量是风控核心。为提升风控水平,会引入新的数据源,面对新数据维度时,一般都会思考两个方面:数据能否用,数据如何用。本篇文章会从线下数据测试、线下数据评价、线上数据应用整个流程介绍如何谨慎的评估一个数据源。
    一、线下数据评估
    1.1 、不同类型数据源的评估
    首先,将数据分成4类,黑名单类、评分类,变量类,原始数据类。
    黑名单类应用在反欺诈环节,一般通过“命中率”、“逾期率”这两个指标评估数据的有效性。一个好的黑名单应具有的性质是“命中即逾期”,即为保证准确性,黑名单的命中率一般不会很高(5%之内),但只要命中,逾期概率就很高。
    评分类的变量直接作为风控策略使用,一般通过“缺失率”“有效性”“稳定性”“与现有数据共线性”“投入产出”这5个方面去评估。当评分具有稳定的排序能力,可用作客户分层或者准入。当评分具有明显的尾部极端趋势,可做准入规则,拦截掉极端的坏客户或者准入极端好客户。
    变量类一般考虑策略/模型环节使用,一般通过“缺失率”“有效性”“稳定性”“变量之间的共线性”“与现有数据共线性”“投入产出”去评估。当变量具有稳定的排序能力,考虑建立模型。当变量具有极端趋势且变量含义具有欺诈的性质,可考虑做一条反欺诈的规则。
    原始数据类,一般是客户授权爬取的信息,需要做特征工程后评估数据的价值。评估方法同变量类数据。
    1.2 、评估指标
    (1)缺失率
    缺失率是考量数据覆盖程度的指标。根据业务情况和数据的应用场景,确定数据覆盖程度的需求。
    (2)有效性
    分析单变量的GINI、KS、IV 值、趋势。评分类的变量,一般要求ks>20,变量类的数据一般要求ks>10。同时,还有考量数据的可解释性和趋势的稳定性。
    (3)稳定性
    无论是评分类还是变量类的数据源,都需要评估稳定性。稳定性的评估是对比数据在两个不同时间段的分布情况,一般使用psi 指标,psi>0.1 认为数据有一定程度的偏移,psi>0.25 认为数据偏移很严重,需要迭代相关策略或模型。
    (4)共线性a
    (a)业务理解
    很多第三方的数据衍生逻辑都是笛卡尔积遍历所有组合可能,按照维度切片拆分这些变量,初步预估整个数据含有的信息量。
    (b)变b量聚类
    进行变量聚c类,观察聚类数以及每一类所含信息维度。
    (c)相关性分d析
    可以进行相关性分析,分析数据的相关程度。
    (d)VIF检验
    一般样本集在10w以上VIF大于10就有严重的共线性问题了,样本集在10w以下,VIF>4也是严重的共线性问题。在小样本时,一般保证在2以下。
    (e)投入产出评估
    在整个评估环节中,最重要的环节,就是将数据联动当前策略,评估这个接口的投入产出,因为测试的接口基本上都是付费接口,所以我们要评估,这个接口上线后所产生的收益能否覆盖这个接口的支出。
    方法1:
    主要考量的是数据上线前后批贷率,逾期率,收益、数据成本等指标的变化。例如:同批贷情况下,逾期能降低多少,利润相比原来增加多少,增加的利润能不能覆盖掉支出的数据成本。
    方法2:
    综合考量用户整个借款流程、整个数据周期的利润情况。
    评估公式如下:
    (原策略收益-新策略收益)* 数据命中率* 策略应用客群量/月*策略生命长度
    收益=回款额-放款额-运营获客成本-数据成本
    二、数据线上测试
    虽然数据在历史样本上进行了完整的效果评估,已经证明将要上线的数据、模型、策略是有价值的。但市场环境和客群是一个动态变化的过程,况且历史的数据都是在线下回溯的,线上数据与线下回溯数据是否有差异,是否会有操作失误,都未可知。模拟线上测试就是要评估数据在真实应用时的效果。
    模拟线上测试是将新策略在实际业务环境中运行,记录相关结果,但并不做决策。分析数据在线上环境的调取成功率。对比线上线下的数据分布、覆盖率、策略设计的通过率是否一致。
    三、A/B test
    当数据验收无误后,就可以进行A/Btest。A/Btest是将一定比例的流量切换到新的策略中,将现有的规则(冠军)和新规则(挑战者)进行比较,这个比例可以随着用户贷后的真实表现逐渐调整。当确定新策略比原策略的效果好的时候,就可以淘汰原来的策略,流量全部切换到新的策略。
    四、数据监控
    新的模型/策略上线后,需要有完善的监控体系,监控整个数据的变化情况,方便快速的发现异常。例如:接口的调用情况、数据的稳定性、数据缺失率、各个环节策略的转化率、贷后逾期情况等。

    展开全文
  • 网络安全,风险评估方法,策略,以及欧美建立此规则的经验
  • 数据管理能力成熟度评估模型.pdf
  • 数据管理能力成熟度评估模型从几大能力域上进行展开,数据战略、数据治理、数据架构数据应用、数据安全、数据质量等
  • 点击上方蓝字关注我们数据资产价值评估与定价:研究综述和展望尹传儒1,2,金涛1,2,张鹏1,3,王建民1,2,陈嘉一1,31清华大学-中国人寿财产保险股份有限公司工业安全大数据联...

    点击上方蓝字关注我们


    数据资产价值评估与定价:研究综述和展望

    尹传儒1,2, 金涛1,2, 张鹏1,3, 王建民1,2, 陈嘉一1,3

    1 清华大学-中国人寿财产保险股份有限公司工业安全大数据联合研究中心,北京 100084

    2 清华大学软件学院,北京 100084

    3 中国人寿财产保险股份有限公司,北京 100032

     

     摘要在数字经济时代,数据成为新的关键生产要素。数据资产作为一种新的资产形式,如何对其进行价值管理成为一个新的研究课题。通过文献研究,对国内外学者关于数据资产价值管理的研究成果进行系统梳理,在此基础上提出数据资产价值指数概念,用于衡量数据资产的相对价值水平;总结了运用层次分析法和层次分析法+模糊综合评价法计算数据资产价值指数的过程,并对其进行步骤分解;讨论了数据资产价值和价格、数据资产价值评估和数据资产定价之间的内在联系和区别,并对数据资产价值管理的未来研究进行展望。

    关键词数据资产 ; 数据资产价值指数 ; 数据资产价值评估 ; 数据资产定价

    论文引用格式:

    尹传儒, 金涛, 张鹏,  等. 数据资产价值评估与定价:研究综述和展望[J]. 大数据, 2021, 7(4): 14-27.

    YIN C R, JIN T, ZHANG P, et al.Assessment and pricing of data assets:research review and prospect[J]. Big Data Research, 2021, 7(4): 14-27.


    1 引言

    党的十九届四中全会首次明确数据可作为生产要素按贡献参与分配。中共中央、国务院印发的《关于构建更加完善的要素市场化配置体制机制的意见》提出,要加快培育数据要素市场。中共中央、国务院印发的《关于新时代加快完善社会主义市场经济体制的意见》提出,要加快培育发展数据要素市场,加快建设统一开放、竞争有序的市场体系,推进要素市场制度建设,实现要素价格市场决定、流动自主有序、配置高效公平。

    在数字经济时代,数据成为新的关键生产要素。加快推进数据价值化、发展数据要素市场是数字经济的关键。尹西明等人对数据要素价值化动态过程机制进行了研究。中国信息通信研究院发布的《数据价值化与数据要素市场发展报告(2021年)》提出数据价值化的“三化”框架,即数据资源化、数据资产化、数据资本化。数据资源化指使无序、混乱的原始数据成为有序、有使用价值的数据资源。数据资产化是指数据通过流通交易给使用者或所有者带来经济利益的过程。数据资产化是实现数据价值的核心,其本质是形成数据交换价值、初步实现数据价值的过程。数据资本化主要包括两种方式:数据信贷融资和数据证券化。

    数据资产化是数据要素市场发展的关键与核心。数据资产化的实现包括两个阶段:数据资产价值评估和数据资产定价。目前全球对数据资产价值评估和数据资产定价都有一定的探索,但还未到成熟可全面推广应用的阶段,相关的理论、技术和模型都还有待进一步研究和开发。

    本文通过文献研究,对国内外学者关于数据资产价值评估和数据资产定价的研究成果进行梳理,总结已有研究成果,对未来数据资产价值评估和数据资产定价的研究进行展望。

    2 概念和定义

    2.1 数据资产价值维度

    数据资产价值维度即数据资产价值实现的方式。

    同一数据资产在不同应用场景中体现出不同维度的价值。因此,同一数据资产在不同应用场景中的价值不同。

    2.2 数据资产价值和价格

    价格并不等同于价值,价格是价值的表现形式,价值是决定价格的基础。使用价值是指物品的有用性或效用,即物品能够满足人们的某种需要。在完全竞争条件下,商品的价格主要取决于使用价值和供求关系。在不完全竞争条件下,如存在垄断时,价值与价格的关系就会出现分离,因为定价权被独占。价格的差异与边际效用的差别有关。

    数据资产价值和应用场景紧密相关,在不同应用场景中影响价值的因素不同,价值也就不同。例如将同一健康医疗数据资产分别应用到健康医疗广告精准投放、健康险产品开发、健康医疗服务提供这3个不同的场景中时,其价值可能是不同的。

    数据资产不同于实物资产,其价格不仅受到使用价值与供求关系的影响,还受到数据资产自身特性的影响,一是数据资产的交易并不一定要以让渡数据所有权或使用权为前提,二是数据资产可以多次交易且交易行为不会造成价值减损。因此通常情况下,数据资产交易价格以其价值为基础,但价值远高于交易价格。

    在一定程度上,可以把数据资产的价格看成数据资产在单次交易中的价值体现。

    2.3 数据资产价值评估和数据资产定价

    对于数据资产价值评估和数据资产定价之间的关系,有学者做了一些研究工作。陆岷峰等人在对数据资产估值定价管理体制和运行机制进行研究时认为,应该把数据资产交易所划分为一级市场和二级市场,一级市场负责数据资产估值,二级市场负责数据资产定价,但没有明确估值和定价之间的关系。戴炳荣等人认为数据资产价值评估应该在数据资产化阶段完成,数据资产定价应该在数据资产运营阶段完成。

    笔者认为,数据资产价值评估和数据资产定价是数据资产价值管理过程中不同阶段的独立行为。数据资产价值评估是对数据资产的使用价值进行度量,与数据资产是否被交易无关。在一定的时间周期内,数据资产的价值是固定的,因此数据资产价值评估是一个静态行为。数据资产价值评估在数据资产化阶段实现。数据资产的价格是动态变化的,因此数据资产定价是一个动态行为。数据资产定价在数据资产交易过程中实现。在数据资产价值管理过程中,数据资产价值评估在前,数据资产定价在后。

    同时,数据资产价值评估和数据资产定价有着不可分割的内在联系。数据资产定价是在数据资产价值评估的基础上,考虑数据资产的供求关系和数据资产可以多次交易且交易行为不会造成价值减损的特性进行的。

    2.4 数据资产价值指数

    数据资产价值指数是指基于数据资产价值评价指标体系,运用层次分析法(analytic hierarchy process,AHP)和专家打分法等方法求得的表征数据资产相对价值水平的百分制数值。

    因为数据资产价值指数反映的是数据资产的相对价值水平,所以该指数可以作为可比数据资产的选择依据。

    国内外众多学者基于影响因素构造了数据资产价值评价指标体系,并运用层次分析法和专家打分法计算了一个表征数据资产价值的值,通常这个数值用百分制来表示。很多学者直接把这个值当作数据资产价值,但实际上这个值只反映了数据资产的相对价值水平,并不是数据资产的价值。

    2.5 可交易数据资产

    可交易数据资产是指国家法律法规允许交易的数据。

    3 数据资产价值评估研究综述

    通过文献研究发现,国内外学者针对数据资产价值评估的研究工作主要围绕数据资产价值维度、数据资产价值评价指标体系、数据资产价值指数、数据资产价值评估4个方面展开。

    3.1 数据资产价值维度

    符山以及中关村数海数据资产评估中心等对数据资产价值维度进行了研究。符山提出数据资产价值包括4个维度:效用价值、成本价值、战略价值、交易价值,如图1所示。中关村数海数据资产评估中心提出数据资产价值包括6个维度,如图2所示。

    图1   符山提出的数据资产价值维度

    图2   中关村数海数据资产评估中心提出的数据资产价值维度

    另一种代表性的观点是从内部应用和外部运营的角度来区分数据资产的价值维度,如图3所示。

    图3   区分内部应用和外部运营的数据资产价值维度

    3.2 数据资产价值评价指标体系

    参考文献对数据资产价值进行了研究,并且有些学者提出了数据资产价值评价指标体系。

    李然辉提出数据资产价值受到数据质量和数据应用两方面因素的影响,并构造了数据资产价值评价指标体系,如图4所示。

    图4   李然辉构造的数据资产价值评价指标体系

    上海德勤资产评估有限公司与阿里研究院在李然辉所提体系的基础上增加了风险维度,其构造的数据资产价值评价指标体系如图5所示。

    图5   上海德勤资产评估有限公司与阿里研究院构造的数据资产价值评价指标体系

    《电子商务数据资产评价指标体系》(GB/T 37550-2019)是我国数据资产领域的首个国家标准,其中提出的数据资产价值评价指标体系如图6所示。


    图6   《电子商务数据资产评价指标体系》中的数据资产价值评价指标体系

    高昂等人基于GB/T 37550-2019提出的数据资产价值评价指标体系如图7所示。

    图7   高昂等人提出的数据资产价值评价指标体系

    中关村数海数据资产评估中心携手Gartner构造了由12个影响因素组成的数据资产价值评价指标体系,如图8所示。

    图8   中关村数海数据资产评估中心携手Gartner构造的数据资产价值评价指标体系

    张驰在构建基于深度学习的数据资产价值分析模型时提出,使用颗粒度、多维度、活性度、规模度和关联度5个维度来衡量数据资产的价值,其中每个维度又可以细分为多个维度,具体见表1。

    3.3 数据资产价值指数

    文献中常用的基于数据资产价值评价指标体系计算数据资产价值指数的方法有层次分析法、专家打分法,以及层次分析法+模糊综合评价法等方法。其中,专家打分法用于为评价指标打分。

    使用层次分析法计算数据资产价值指数的步骤如下。

    ● 构建数据资产价值评价指标体系。

    ● 构造标度表。对于各个指标的权重,采取两两因素比较的专家打分法。在对两个因素进行比较时,需要有定量的标度。可以采用标度表方法,标度表见表2。

    ● 构造各级比较判断矩阵,并进行一致性检验。以李然辉提出的数据资产价值评价指标体系中的质量维度为例,其包括4个评价指标(即完整性、正确性、一致性、重复性),采用专家打分法,按照重要程度进行两两比较,构造比较判断矩阵,见表3。

    ● 计算各一级指标和二级指标的权重。

    ● 进行二级指标评分。

    ● 加权计算一级指标分数。

    ● 加权计算数据资产价值评价分数,即价值指数。

    使用层次分析法+模糊综合评价法计算数据资产价值指数的步骤如下。

    (1)构建数据资产价值评价指标体系。

    以梁艳[18]提出的数据资产价值评价指标体系为例,其包括3个一级指标:数据质量(Q)、数据容量(C)、数据应用管理(A)。其中,数据质量包括4个二级指标,即完整性、活跃性、唯一性、准确性;数据容量包括3个二级指标,即数据规模、数据类型、数据密度;数据应用管理包括3个二级指标,即数据挖掘、数据管理、应用维度。

    (2)构造标度表。

    (3)构造各级比较判断矩阵,并进行一致性检验。

    (4)计算一级指标和二级指标的权重。

    一级指标权重向量为[ω1ω2ω3],数据质量维度的二级权重向量为[ω11ω12ω13 ω14],数据容量维度的二级权重向量为[ω21 ω22 ω23],数据应用管理维度的二级权重向量为[ω31ω32ω33]。

    (5)构造数据资产模糊评价表,得到各一级指标对应的二级模糊评价矩阵。

    采用专家打分法,打分规则为百分制:81~100分记为强;61~80分记为较强;41~60分记为较弱;40分及以下记为弱。邀请10位专家进行打分,根据打分结果构造数据质量维度的模糊评价表,见表4。

    根据模糊评价表得到数据质量维度的模糊评价矩阵:

    (6)将二级指标权重向量乘以二级模糊评价矩阵,得到一级指标模糊评价向量。

    以一级指标“数据质量”为例,其模糊评价向量为:

    同理,可以得到另外两个一级指标“数据容量”“数据应用管理”的模糊评价向量分别为:[C1C2C3C4]、[A1A2A3A4]。

    (7)一级指标模糊评价向量构成一级模糊评价矩阵:

     

    (8)将一级指标权重向量乘以一级模糊评价矩阵,得到数据资产价值综合模糊评价向量:

    (9)构造分数对照表,见表5。

    (10)将综合模糊评价向量乘以分数对照表,得到数据资产价值评价分数,即价值指数。

    3.4 数据资产价值评估

    大多数学者和机构采用传统的成本法和收益法来评估数据资产价值,也有学者把人工智能技术运用到数据资产价值评估中,从而构造基于深度学习的数据资产价值评估模型。

    关于成本法和收益法用于数据资产价值评估的优势和局限性,有各种不同的观点,具体见表6。

    3.4.1 成本法

    在运用成本法评估数据资产价值方面,主要的研究成果包括如下3个方面。

    (1)上海德勤资产评估有限公司与阿里研究院提出使用成本法评估数据资产价值,模型为:

    被评估的数据资产价值=重置成本贬值 (6)

    或者

    被评估的数据资产价值=重置成本×成新率 (7)

    其中,重置成本包括合理的成本、利润和相关税费,成本除了直接、间接成本,还需考虑机会成本;贬值包括功能性贬值、实体性贬值和经济性贬值。

    (2)李永红等人使用成本法评估企业内部积累的数据资产价值,模型为:

    被评估的数据资产价值=初期准备成本+全运营周期的运营成本 (8)

    在李永红等人的模型中,忽略了数据资产的损耗。

    (3)林飞腾提出使用成本法评估数据资产价值,模型为:

    被评估的数据资产价值=重置成本功能性贬值-经济性贬值 (9)

    其中,功能性贬值影响因素包括安全性、适合性、准确性、互操作性、完整性。使用层次分析法对不同的因素进行确权,得到所有影响因素权重ω1、ω2、ω3、ω4、ω5;由专业的评估人员确定不同指标的贬值率M1、M2、M3、M4、M5;通过加权计算得到功能性贬值率:

     

    林飞腾认为,数据资产经济性贬值的表现形式为使用寿命因外界因素变化而引起的经济性贬值。但在国内,目前缺乏数据资产使用寿命的相关法律条文,数据资产未能与一些专利技术一样有具体的保护年限,因而难以判断数据资产的使用年限。故数据资产的经济性贬值不应当体现在使用年限上,而应当体现在数据资产的有效性上,换言之,数据资产是否能够继续有效使用以及能够有效使用的范围受到外部因素影响。因此,需要评估人从数据资产的有效性这一角度出发,综合判断数据资产的经济性贬值。

    上述3个模型都没有考虑数据资产的特性导致数据资产价值很可能高于数据资产成本的问题。

    3.4.2 收益法

    在使用收益法评估数据资产价值方面,主要的研究成果包括如下两个方面。

    (1)李永红等人使用收益法评估数据资产价值,模型为:

    其中,V表示评估价值,n表示数据资产预期产生收益的期限,Rt表示第t年数据资产的预期收益,i表示折现率。

    李永红等人的模型没有考虑在风险因素的影响下,数据资产价值在收益期限内可能发生贬值的问题。

    (2)梁艳提出使用多期超额收益法评估数据资产价值,模型为:

    其中,V表示评估价值,E表示企业的自由现金流,Ew、Ef、Ei分别表示流动资产贡献值、固定资产贡献值、除数据资产外的其他无形资产贡献值,K表示数据资产价值调整系数,i表示折现率,n表示收益期限。

    在梁艳的模型中,首先从会计计量角度给出了企业自由现金流、流动资产贡献值、固定资产贡献值、除数据资产外的其他无形资产贡献值以及折现率的预测或计算方法;其次,使用层次分析法和模糊综合评价法相结合的方法计算数据资产价值调整系数。数据资产价值调整系数的计算过程为:构建数据资产价值影响指标体系,使用层次分析法确定指标权重;使用模糊综合评价法计算数据资产价值调整系数。

    3.4.3 基于深度学习的数据资产价值分析模型

    张驰提出基于深度学习的数据资产价值分析模型,基本分析过程如下。

    (1)构造数据资产价值评价指标体系,见表1。

    (2)提出基于5个特征维度(颗粒度、多维度、活性度、规模度、关联度)的数据资产价值分析模型框架,该框架包括输入层、隐含层、输出层和价值计算式。数据资产价值计算式为:

    其中,V表示数据资产价值,G表示颗粒度,D表示多维度,A表示活性度,S表示规模度,R表示关联度,G、D、A、S、R∈[0,10]。

    (3)运用深度学习方法,计算G、D、A、S、R 5个特征维度的值。

    (4)将5个特征维度的值代入数据资产价值计算式,即可求得表征数据资产价值的数值。需要指出的是,此处求得的数值表示的是数据资产的相对价值,即数据资产价值指数。

    4 数据资产定价研究综述

    4.1 数据资产定价策略

    参考文献对数据资产定价策略进行了研究,见表7。

    此外,汪靖伟等人提出了一个基于区块链的数据市场框架,分析和讨论了这个框架中的安全性和隐私性问题及对应的解决方案。这样一个数据市场框架为数据资产定价提供了基础。

    4.2 市场法定价模型

    在使用市场法进行数据资产定价方面,主要的研究成果包括如下3个方面。

    (1)上海德勤资产评估有限公司与阿里研究院提出的市场法数据资产定价模型为:

    被评估的数据资产价格=可比数据资产市场交易价格×调整系数 (14)

    其中,可比数据资产是指交易背景相同或相似的数据资产。

    (2)刘琦等人提出的市场法数据资产定价模型为:

    被评估的数据资产价格=可比数据资产价格×技术修正系数×价值密度修正系数×期日修正系数×容量修正系数×其他修正系数 (15)

    其中,可比数据资产的可比性主要体现在两点:类型相同、用途相同。

    在修正系数计算方面,技术修正系数考虑了6个价值影响因素:数据获取、数据存储、数据加工、数据挖掘、数据保护、数据共享。使用层次分析法对不同的因素进行确权,得到所有影响因素权重ω1、ω2、ω3、ω4、ω5、ω6;采用专家打分法,分别对可比数据资产和被评估数据资产的6个指标进行打分,得到可比数据资产和被评估数据资产的6个指标比值:

    (3)李永红等人在2017年提出的市场法数据资产定价模型为:

    其中,V表示被评估的数据资产价格,n表示可比数据资产数目,Vi表示第i个可比数据资产的市场价格,ki表示第i个可比数据资产根据各项指标确定的综合调整系数。

    李永红等人在2018年提出的市场法数据资产定价模型为:

    其中,V表示被评估的数据资产价格, V1~V5表示选取的5个可比数据资产的价值,K1~K5表示利用关联度确定的5个可比数据资产的权重。

    为了确定5个可比数据资产的权重,首先要确定数据资产价值影响因素,包括6个数据量与数据质量指标(企业规模、数据覆盖程度、数据完整性、数据外部性、数据时效性、数据相关性)和3个数据分析能力指标(信息系统、人才技能、消费者需求),利用层次分析法计算出每个指标的权重ωj;然后利用灰色关联分析法计算关联度ri,选取关联度最高的5个数据资产作为可比数据资产,进而计算5个可比数据资产的权重ki

    4.3 其他定价模型

    还有其他学者从不同的角度提出数据资产定价模型。李希君提出了基于数据信息熵的定价函数:

    彭慧波提出基于元组的数据定价模型;赵丽等人提出基于价格区间的三阶段讨价还价模型;王婷婷在拍卖模型中引入信用评分机制;董祥千等人基于博弈论提出基于利润最大化的数据资产定价模型等。

    5 结束语

    本文首先对数据资产的相关概念进行了定义,然后梳理了国内外学者对数据资产价值评估和数据资产定价的相关研究工作,这些研究工作涵盖了数据资产价值维度、数据资产价值评价指标体系、数据资产价值指数、数据资产价值评估、数据资产定价等方面。这些研究对数据资产价值评估和数据资产定价的开展起到了一定的促进作用,但现阶段的研究仍面临以下问题。

    ● 数据资产价值评价指标体系主要考虑数据资产特性对价值的影响,对数据资产类别和数据资产价值维度考虑较少。

    ● 使用收益法和成本法评估数据资产价值仍有很大的局限性,比如数据资产收益期限的确定,使用成本法时如何弥补成本和价值的差异,使用收益法时如何考虑风险因素导致的收益损失等,这些问题都还没有很好的解决办法。

    ● 基于深度学习、信息熵等新技术的数据资产价值评估和定价方法还不能落地实践。

    针对上述问题,提出如下展望。

    ● 对数据资产类别和数据资产价值维度进行系统研究,基于数据资产类别和价值维度构造数据资产价值评价指标体系。

    ● 针对数据资产收益期限进行研究,提出基于数据资产类别和应用场景的数据资产收益期限确定方法。

    ● 针对可比数据资产的选取进行研究,提出具备可操作性的可比数据资产选取方法和技术方案。

    ● 针对使用收益法评估数据资产价值时因风险因素而导致的价值损失问题进行研究,提出具备可操作性的价值调整系数计算方法。

    ● 加强人工智能等新一代信息技术在数据资产价值评估和定价领域的应用研究。

    作者简介

    尹传儒(1975-),男,就职于清华大学软件学院,主要研究方向为大数据管理、数据安全、数据估值。

    金涛(1980-),男,清华大学软件学院讲师,主要研究方向为大数据管理、数据安全。

    张鹏(1981-),男,中国人寿财产保险股份有限公司处长,主要研究方向为责任意外保险政策。

    王建民(1968-),男,清华大学软件学院教授、院长,清华大学大数据研究中心执行主任,主要研究方向为大数据管理、时序数据管理、工业软件。

    陈嘉一(1970-),男,中国人寿财产保险股份有限公司责任意外保险部/健康保险部总经理,主要研究方向为责任意外保险和健康保险政策。

    联系我们:

    Tel:010-81055448

           010-81055490

           010-81055534

    E-mail:bdr@bjxintong.com.cn 

    http://www.infocomm-journal.com/bdr

    http://www.j-bigdataresearch.com.cn/

    转载、合作:010-81055537

    大数据期刊

    《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年、2019年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

    关注《大数据》期刊微信公众号,获取更多内容

    展开全文
  • 伴随大数据时代个人信息保护领域风险管理理论的广泛应用,数据保护影响评估已经成为推动个人数据保护的重要制度。运用文献研究、实证分析的方法,以2016年欧盟《一般数据保护条例》(GDPR)对数据保护影响评估的规定...
  • 文 / Google Research Cloud AI 团队研究员 Jinsung Yoon 和 Sercan O. Arik近期研究表明,并非所有的数据样本对训练都同样实用,深度神经...
  • 由全国信标委大数据标准工作组制定的数据资产管理能力成熟度评估模型
  • DCMM(GBT36073-2018)数据管理能力成熟度评估模型.pdf
  • 信息安全技术 数据出境安全评估指南-征求意见稿-2017-08-25.docx
  • 数据分析之评估算法

    千次阅读 2018-01-14 12:17:33
    一、分离训练数据集和评估数据集 In [9]: # 通过卡方检验选定数据特征 import pandas from pandas import read_csv from sklearn.preprocessing import LabelEncoder from sklearn.model_...
  • 我们用一致性和标注数据准确率来评估质量。业内评估训练数据质量的基本方法是benchmark(aka gold standard),一致性和检查。作为AI数据科学家,工作中一个重要任务就是如何有效组合应用这些数据质量保证方法。 在...
  • SYSU_MM01数据评估 (python版本)

    千次阅读 2020-10-05 11:14:59
    该代码是在python中实现SYSU_MM01数据集的评估代码,是SYSU-MM01数据集作者提供的Matlab代码的python翻译。 1. SYSU_MM01数据集简介 SYSU_MM01数据集共包含七个文件夹, 其中cam1,cam2,cam4,cam5均为RGB图像,...
  • python数据评估常用指标ks、fpr、tpr
  • 教育部第四轮学科评估各学科各学校详细数据
  • 【转】评估类型 评估类别 评估

    千次阅读 2020-07-03 15:35:36
    评估类:valuation class  是连接移动类型与财务科目。与物料类型,移动类型一起确定唯一的记账科目。  因为SAP系统的以财务以核心及高度集成等特点,若能在后勤操作的同时自动记账而不是由财务人员手动控制,
  • 读书笔记的历史文章,《关于数据治理的读书笔记 - 理现状和定目标》《关于数据治理的读书笔记 - 什么是数据文化?》《关于数据治理的读书笔记 - 什么是组织机制?》《关于数据治理的读书笔记 ...
  • 数据资产价值评估常用方法及对比

    千次阅读 2020-12-21 09:45:23
    中国资产评估协会2019年制定的《资产评估专家指引第9号——数据资产评估》对这些常用方法予以了简要介绍。 利用成本法对数据资产价值评估时,需基于形成数据资产的历史成本开展。数据资产的成本和价值具有弱对应性...
  • 为了贯彻落实《网络安全法》的有关要求,推进数据治理体系建设,积极推动国家标准《数据出境安全评估指南》(以下简称“《指南》”)的研究制定,中国信息通信研究院于8月26日在北京召开《指南》专家研讨会,结合...
  • 完成了资产识别、脆弱性识别及威胁识别后(链接请见文章末尾...本篇将从风险计算、风险结果判定、风险处置、风险评估四个方面进行介绍。 一、风险计算形式及关键环节 风险计算原理其范式形式如下: 风险值=R(A,T...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 503,109
精华内容 201,243
关键字:

数据评估