精华内容
下载资源
问答
  • |0x00 如何理解指标...当下互联网企业,很多决策可以说是“无数据不决策”,不论是运营活动效果的分析,还是高层商业走势判断,没有成熟的分析看板,临时做需求是接不住。 但本文,要讲述,是数据看板

    |0x00 如何理解指标体系

    讲道理,虽然今天互联网企业已经足够的数字化,但看清楚公司的运行情况,依旧是一件很难的事情。看清楚,不仅包括看清楚企业的投入情况,也包括看清楚业务的运行情况。

    比如,投入了几百万的预算,带回来多少DAU的增长?这其中每个阶段的转化情况怎么样?1/7/30天后留存的有多少?本次活动各个渠道的质量如何评估?当下的互联网企业,很多决策可以说是“无数据不决策”,不论是运营对活动效果的分析,还是高层对商业走势的判断,没有成熟的分析看板,临时做需求是接不住的。

    但本文,要讲述的,是数据看板的灵魂部分:指标体系。

    什么是指标体系?用一句简洁的话阐述,就是“对业务有帮助的统计结果”,什么是有帮助?即“描述发生了什么”、“度量发生了多少”以及“拆解发生的原因”,从而为业务提供帮助。

    关于指标的分类,个人倾向于两种分类方式,一种是原子指标,不加任何修饰词,比如PV、UV、订单量;一种是派生指标,也叫复合指标,通过四则运算或修饰限定得出,比如平均交易金额、购买转化率、近N天订单量。

    以下两个图是网上讲指标最常用的两个图,这里供大家参考:

    在这里插入图片描述
    在这里插入图片描述

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AWPcG12f-1617021765102)(media/16163754979490/16170028080971.jpg)]

    指标体系要做的,技术从不同的“维度”梳理业务过程,将零散的、有关联性的指标,系统化的组织起来,通过数据看板或接口形式,提供给运营、算法等不同的业务方使用。对于使用指标体系的人来说,指标体系能够把业务体系化的展示出来,提高发现问题、分析问题、解决问题的效率。

    |0x01 如何设计指标分析

    “指标体系”,代表的是对业务的分析思路。总的而言,大体有三个阶段:

    • 圈定业务目标;
    • 建立分析模型;
    • 统计及展示数据。

    定义指标体系,首先且最重要的一步,是要与高层的战略目标达成一致,不能“你说你的规划、我玩我的数据”。在实际工作中,指标与KPI是强相关的,数据是提高绩效的一种利器。

    比如今年的电商业务,目标是提高收入,那么平台的交易量就要上去,指标体系就要围绕订单量来展开;比如今年的企业业务,希望能够获得更多的潜在客户,那么如何提高平台的注册用户量,就是指标体系的设计目标……

    其次,选择合适的分析模型,常见的有OSM方法、PLC模型、AARRR等。

    OSM是一种如何将大目标拆解到小行动的方法:

    • O:目标——用户使用产品的目标是什么?产品满足了用户的什么需求?
    • S:策略——为了达成上述目标我采取的策略是什么?
    • M:度量——这些策略随之带来的数据指标变化有哪些?

    例如在云计算行业,OSM的拆分可以按照下面的示例进行:

    在这里插入图片描述

    PLC模型则是另一种常见的方法论,即产品生命周期理论,将产品分成了探索、成长、成熟和衰退四个周期。

    • 探索:关注用户的关键行为,比如PV、UV、转化率等;
    • 成长:关注用户的留存情况,比如留存率、自传播量等;
    • 成熟:关注用户的活跃与商业化,比如DAU、付费用户数等;
    • 衰退:关注用户的流失情况,比如流失用户数、召回量等。

    根据业务形态不同,可以自己定义相关的指标,周期示意图如下:

    在这里插入图片描述

    其他的如AARRR、RFM等,就不一一介绍了。

    接下来,有了分析的目标,我们就需要把相应的数据统计出来,统计及展示数据,这里涉及到的就是数据建模理论/数据看板搭建等我们接触比较多的内容。

    但有一些不同的是,数据建模理论,通常是把数据的采集与指标的统计分开来,例如CDM针对业务过程做统计,而ADS才是面向各个分析体系做统计的,CDM与ADS的区别,就在于是否存在跨业务域统计的情况。关于这部分内容,可以参考之前的文章:《​数据建模实践》。其实分析问题的思路,或者说是“套路”,还是比较重要的,我们需要用报表的形式来展示统计好的结果,关于这部分内容,可以参考之前的文章:《数据看板的搭建思路》。

    综上,不论是做报表也好、搭指标体系也罢,都是分析问题环节中的一部分,需要工程同学来搭建平台,需要数据同学来维护数仓,需要分析同学来定义思路,也需要运营同学来实现KPI。根本的根本,依旧是如何“提升价值、降本提效”,要么发现新的商机,要么自动化现有工作。

    |0x02 指标管理方法

    指标体系并不是说建好了,就可以直接用,同样需要一些工作,来管理和解释这些指标。

    让我们体验一个具体的场景。

    某次促销活动中,运营同学希望统计爆款率,在分会场中,分子是专场中销量超过20件的商品数,分母则是专场内的总商品数。

    那么,爆款率 = 销量超过20件的商品数 / 商品总数,按照会场划分维度。

    看起来没什么问题,其实坑很多,比如:

    • 为什么爆款是销量超过20,有没有分析师来分析下历史专场的销售分部情况?
    • 如何定义“销量”,是加入购物车量、下单量还是支付量?退款情况要不要考虑进来?
    • 销售的商品件数是按商品销售的件数还是按照商品下SKU的销售件数?运营不关心这个事,但是影响到模型的设计。

    然后,还有其他的问题,比如我们统计的维度是什么?统计的周期是什么?这个指标有什么用?这个指标给谁用?

    虽然是一个看起来很简单的场景,但如果解答不好,不仅会产生非常多的数据返工情况,争吵甚至投诉,也就在所难免。

    再比如,以网约车业务为例,今天的收入下降了50%,为什么?

    分析师经过一顿操作,解答到:受疫情影响,乘客下单量降低20%。但问题是,还有30%,不知道什么原因,因为指标体系没有体现出来。经过又一顿的分析,发现接单率也降低了,但因为之前指标体系没有做,于是临时倒排需求就来了。

    其实,并不是我们算的每一个指标,都有实际的意义,但每个指标,都需要投入实实在在的人力资源。这个时候,作为数据团队,计算某个指标的投入产出比,以及所消耗的机器资源,就是一项必备工作。运营的工作要支持,但也不能乱支持,数据本身不管是存储还是计算,都是非常费钱的。

    这其实就是阿里的OneData方法论希望做的事情:统一口径、减少分歧、准确衡量效果,但更重要的是,降低投入的成本。

    在超大规模数据量 + 超大业务复杂度情况下,《阿里巴巴大数据实践》这本书,才能看出一些门道来。

    正常规模的公司,其实用不到复杂的指标管理方法。但“量变都会引起质变”,当数据表的数量达到千万级别时,就需要专门的方法论来治理数据,以及相应的指标了。

    我们通常把这些工作,称之为“数据治理”。

    因此,指标体系的管理方法,与数据治理类似,需要平台来管理,也需要数据来维护数据。详情见文章:《数据资产治理概要:用数据来治理数据》。

    |0xFF 正确认识指标体系

    很多人碰到“指标体系”四个字,都觉得是个不错的东西,想要一个模板来实践一下。

    但,指标体系并没有一个“放之四海而皆准”的模板,就像管理体系没有具体的拆解图一样,不同的业务,对于指标的需求是不同的,而这其中的差异,就像管理一样,需要日积月累的深刻洞察,才能做出匹配业务需要的体系。当然,像电商这种发展了很多年的业务,其体系相对成熟,照抄大公司的模板,不失为一种走捷径的方法。

    “指标体系”,难在管理上,而不是技术上。

    这里捎带提一句,在互联网的从业者,对于很多问题的定义,其实是不同的,大家学的都是同一套技术,但并没有一套标准来约束你怎么使用这些技术。像财务等一些学科,对于问题的定义和分析,都是有明确定义的,总账、资产、负债、利润,等等,不论你在哪个国家、哪个学校,学到的都是同一套知识。因为电商的兴起,互联网对于分析业务(电商、广告等),衍生出了自己的学科,比如数据运营,分析问题的思路,是近些年才逐步成熟的。过去数据开发岗位比较热门,是因为基础的数据技术与分析体系不成熟,但最近这几年的数据从业者,分析师岗位与算法岗位是大热选择,其趋势也是在技术不断成熟、分析体系不断完善的大背景下,逐步的发展起来的。

    从这个角度看,指标体系,虽然对外透出的是各种指标与报表,但其内在的核心,是对于一个行业成熟的分析方法,这些都是在历年的积累中打磨出来的。久而久之,这些分析方法沉淀之后,指标体系的历史使命,大约也就完成了。因此,不建议在这个问题上花费过多的精力投入,而应该扎根到细分的行业之中,打行业专家的牌。

    当行业增长到天花板,过去电商游戏这种躺着赚钱的业务,逐步的被其他玩家所掌握时,我们会喊着:“狼来了”,每个人都在焦虑行业的未来发展;但自然界总是处在动态的平衡之中,这时候,一些新的机会,也就悄然冒了出来。

    上一个时代,是“人人都是产品经理”的时代;这一个时代,是“人人都是数据分析师”的时代。

    展开全文
  • ,以热门互联网电商实际业务应用场景为案例讲解,电商数据仓库常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、月大盘收入报表、高付费用户分析报表、流量域多方位分析、营销域多方位分析、...
  • 1.提出了一种针对移动互联网的海量数据处理架构针对移动互联网中海量网络数据处理业务的特点和存在的问题进行相关研究,提出了一种承载海量网络数据处理业务的分布式数据采集、存储和分析的安全云计算平台架构。...
  • 软件度量是软件开发项目、过程及其产品进行数据定义、收集以及分析的持续性定量化过程,目的在于对此加以理解、预测、评估、控制和改善。没有软件度量,就能从软件开发的暗箱中跳将出来。通过软件度量可以改进...
  • 数据运营思维导图

    2018-04-26 14:24:22
    业务的透彻理解是数据分析的前提 数据分析是精细化运营,要建立起体系化思维(金字塔思维) 自上而下 目标—维度拆解—数据分析模型—发现问题—优化策略 自下而上 异常数据 影响因素 影响因素与问题数据...
  • 雨田静态分析系统依据MISRA为依据,可以.c文件进行静态分析,并具有多元化分析方式,包括基本指标分析、数据流分析、复杂度分析、循环分析以及代码质量分析,能够大幅提高代码质量。如果您目前静态分析还是...
  • 2019数据运营思维导图

    2019-03-29 21:34:09
    善莫大焉 —错在哪里,数据分析告诉你 运筹帷幄,决胜千里 —怎么做好“运筹”,数据分析告诉你 以往鉴来,未卜先知 —怎么发现历史的规律以预测未来,数据分析告诉你 工作思维 业务的透彻理解是数据分析的前提 ...
  • 在大多数半导体Craft.io中,上一次运行产品质量数据在下一次运行开始之前通常可用。 因此,校正步骤通常被延迟一批次或更多,并且延迟持续时间具有随机特性是确定。 再加上正确过程模型,即使使用...
  • 在研究过程中将采用归纳、演绎、综合分析等逻辑方法,的数据进行较深入探讨,推导出结论并在此基础上提出合理而科学对策和建议。 3.结果与分析 3.1陕西省公共体育场馆开放利用总体情况 体育场馆对外开放...
  • 试卷分析系统是总结分析学校试卷质量的重要工具。本文以试卷分析系统项目开发为基础,介绍了中国试卷分析评价软件应用发展和市场需求,同时介绍了数据库发展现状及在本系统中应用,描述了整个系统开发...
  • 在本次博览会中,我们首先总结了120多项有关水下图像恢复和增强最新进展研究,包括技术,数据集,可用代码和评估指标。 我们分析了现有方法贡献和局限性,以促进水下图像恢复和增强全面了解。 此外,我们...
  • 00.电商项目

    2020-08-11 18:52:23
    通过对数据仓库中数据的分析,可以帮助企业改进业务流程 控制成本 提高产品质量 数据仓库,并不是数据最终目的地,而是为数据最终目的地做好准备.这些准备包括对数据的:清洗 转义 分类 重组 合并 拆分 统计 2.0 ...

    1.0 数据仓库概念

    • 数据仓库是为企业所有决策制过程,提供所有系统数据支持的战略集合.
    • 通过对数据仓库中数据的分析,可以帮助企业改进业务流程 控制成本 提高产品质量
    • 数据仓库,并不是数据的最终目的地,而是为数据最终的目的地做好准备.这些准备包括对数据的:清洗 转义 分类 重组 合并 拆分 统计

    2.0 项目需求及架构设计

    2.1 项目需求分析

    1. 用户行为数据采集平台搭建
    2. 业务数据采集平台搭建
    3. 数据仓库维度建模
    4. 分析:设备 会员 商品 地区 活动 等电商核心主题
    5. 采用即席查询工具,随时进行指标分析
    6. 对集群性能进行监控,发生异常需要报警
    7. 元数据管理
    8. 质量监控

    2.2 项目框架

    2.2.1 技术选型

    • 数据采集传输:Flume Kafka Sqoop Logstash DataX
    • 数据储存:HDFS MySQL HBase Redis MongoDB
    • 数据计算:Hive Spark Tez Flink Storm
    • 数据查询:Kylin Presto Druid Impala
    • 数据可视化:Superset Echarts QuickBI DataV
    • 任务调度:Azkaban Oozie
    • 集群监控:Zabbix
    • 元数据管理:Atlas

    2.2.2 系统数据流程设计

    展开全文
  • 由此,为消除差别影响,改进机器学习公平性,主要途径包括提高训练数据质量、改进算法降低敏感属性依赖以及定义指标量化和衡量歧视程度。本文分析了算法歧视致因,侧重于数据问题给出了公平性定义,介绍了...

    机器学习的公平性问题近几年受到越来越多的关注,该领域出现了一些新的进展。机器学习训练在涉及到性别、种族等与人相关的敏感属性时,常常会由于统计性偏差、算法本身甚至是人为偏见而引入歧视性行为。由此,为消除差别影响,改进机器学习公平性,主要途径包括提高训练数据集质量、改进算法降低对敏感属性的依赖以及定义指标量化和衡量歧视程度。本文分析了算法歧视的致因,侧重于数据问题给出了公平性的定义,介绍了统计均等等度量指标。文章也指出,各种算法公平性定义指标法都有其优缺点,并无法就公平性达成共识。因此,算法公平性并不能直观看成一种数学或计算机科学问题。本文的目的是使广大读者切身理解根植于机器学习算法中的不公平性。为此,作者力图以易于理解的方式阐释概念,避免使用数学表达。希望每位读者都能从阅读本文受益。

    “做好人容易,但做到公正不易”——维克多·雨果,法国文学家

    “我们需要捍卫那些我们从未谋面、甚至永远不会谋面的人的利益。”——Jeffrey D. Sachs,美国经济学家

    有监督机器学习算法在本质上是判别性的。这种判别性的根源,在于算法是根据嵌入在数据中的特征信息进行实例分类的。的确,现实中此类算法就是设计用于分类的。判别性同样体现在算法的命名上。有别于根据特定类别生成数据的“生成算法”,此类对数据分门别类的算法通常称为“判别算法”。使用有监督的机器学习时,这种“判别”(discrimination,也可表述为“歧视”、“区别对待”)有助于按不同分布将数据划分为不同类别,如下图所示。

    对任一数据集应用任何一种判别算法,无论是支持向量机、普通线性回归等参数回归算法,还是随机森林、神经网络、Boosting 等无参数回归算法,输出结果本身在道德上并不存在任何问题。例如,可以使用上周的天气数据去预测明天的天气,这在道德上毫无问题。然而,一旦数据集涉及对人类相关信息的描述时,无论是直接的还是间接的,都可能无意中导致特定于群组从属关系的某种歧视性。

    人们已经认识到,有监督学习算法是一把双刃剑。它可以迎合人们的利益,例如提供天气预报等信息服务,或是通过分析计算机网络,检测攻击和恶意软件进而起到防护作用。但从另一方面看,它在本质上也会成为在某一层面上实施歧视的武器。这并不是说算法的所做所为是邪恶的,它们仅仅学习了数据中的表示,但这些表示本身可能融入了历史偏见的某种具体呈现,或是某个人的好恶和倾向性。数据科学中常说的一句习语就是:“垃圾入,垃圾出”,意思是模型高度依赖于所提供的数据质量。在算法公平性的场景中,可类似地表述为:“输入有偏差,则输出有偏差”。

    数据原教旨主义

    数据原教旨主义(data fundamentalism)拥趸者甚众。他们认为,通过对数据的经验观察,可以反映出世界的客观真相。

    “数据足量,其义自见。”——Chris Anderson,《Wired》前主编,也是一位数据原教旨主义者。

    数据和数据集并非客观的,而是人类设计的产物。人们赋予数据以表达,从中推理,并以自身的解释去定义数据的内涵。隐藏在收集和分析阶段的偏见带来了很大的风险,它们对大数据等式的影响和数字本身是一样的。”——Kate Crawford,微软研究院社会媒体组首席研究员

    原教旨主义者的假设从表面看似乎合情合理。但 Kate Crawford 在《哈佛商业评论》( Harvard Business Review ) 撰文给出了一个很好的反驳:

    “波士顿市存在着坑洞的问题,每年需修补约两万个坑洞。为有效地配置资源,波士顿市政府发布了一款很好用的智能手机应用 StreetBump。该应用利用智能设备的加速度计和 GPS 数据,以非主动方式探测坑洞,然后立即上报市政府。虽然该应用的理念非常好,但存在一个明显的问题。美国低收入人群拥有智能手机的可能性较小,尤其是一些老年居民。此类人群的智能手机普及率可低至 16%。对于波士顿这样的城市而言,意味着智能手机数据集中缺少了一部分重要人群,通常是那些底层生活者。”——Kate Crawford

    从本质上看,StreetBump 应用获取的数据主要来自相对富裕社区,来自相对贫困社区的数据则较少。这会导致人们的第一感觉是,相对富裕的社区存在更多的坑洞。但事实上,是因为来自于相对贫困社区的数据不足,社区居民不太可能具有智能手机去下载 SmartBump 应用。通常情况下,对结果产生影响最大的,正是数据集中缺失部分的数据。上面的例子很好地展示了一种基于收入的歧视。因此,在基于数据给出结论时,我们需要谨慎,因为数据中可能存在着“信号问题”。这种信号问题常被称为“采样偏差”。

    另一个很好的例子是“替代制裁的罪犯矫正管理分析”算法(Correctional Offender Management Profiling for Alternative Sanctions),简称为 COMAS。COMAS 算法被美国许多州采用去预测累犯,即曾经犯过罪的人再次犯罪的可能性。但调查新闻机构 ProPublica 的分析表明,该算法存在对美国一些受保护阶层的种族歧视问题,这引发了广泛争议。为说明问题,预测累犯的算法可概要描述为:

    累犯风险评分 = (年龄 -w )+(首次被捕年龄 -w )+(暴力历史 * w )+(职业教育 * w )+(违法历史 * w )

    其中 w 是权重值。很明显,预测器并未使用种族作为特征变量,但是基于美国历史上的不公,以及人口统计、社会、执法统计数据等因素看,“暴力历史”、“职业教育”等变量的数据分布在不同种族间存在着显著差异。而执法统计数据也同样倍受争议。警察巡逻的街区通常也是使用算法确定的,而算法使用了数据分布上的差异,引入了种族间的差异,进而在某种程度上导致结果偏向或是不利于某个种族。这些根深蒂固的偏见通过算法得以实施后,将继续维持这一结果,导致进一步的不公平。这样的循环从本质上看形成了“自证预言” (self-fulfilling prophecy)”,即:

    历史不公正 → 训练数据 → 实际应用中的算法偏差

    由此引发了一系列的棘手问题。我们是否应该删除那些存在问题的变量?如何确定某个特征会导致歧视性结果?是否需要设计一个能给出“歧视性”阈值的指标?一个极端的做法是删除近乎所有变量,这将导致算法无所适从。尽管解决问题的前景看上去不甚明朗,但幸运的是总会有办法的。本文随后将进行阐述。

    上面给出的例子并非一些孤立事件。同样,乳腺癌预测算法也会呈现出一定程度上的不公平歧视。研究提出对乳房 X 光成像使用深度学习算法预测乳腺癌,但对黑人女性的准确率要低于白人女性。这在一定程度上是因为用于训练算法的数据集主要基于白人女性的乳房 X 光成像,以及黑人女性和白人女性间的乳腺癌数据分布可能存在很大差异。据美国疾病控制中心的研究表明,“黑人女性和白人女性患乳腺癌的比例大致相同,但黑人女性死于乳腺癌的比例要高于白人女性。

    研究动机

    由此引发了算法开发人员的动机问题。设计模型的人是否存在故意性?他们是否故意夹带私货,并将其隐藏在不透明的机器学习模型中?

    尽管对该问题无法确定地给出是或否的回答,但在提出问题时,一个好的做法是考虑汉隆剃刀(Hanlon's razor)原则:

    “能解释为愚蠢的,就不要解释为恶意。”—— Robert J. Hanlon

    换句话说,谢天谢地这个世界上并没有那么多恶人,恶人肯定要少于不称职的人。合理的假设是,当事情出错时,更可能是由于无能、天真或疏忽,而非完全出于恶意。虽然可能有一些恶意行为者想要推行歧视性做法,但这些人毕竟是少数。

    基于上述假设,那么问题出在哪里?有人提出,对于能控制和纠正歧视的有监督学习算法,统计学家、机器学习实践者、数据科学家和计算机科学家并未受过相应的专业开发培训。

    那么为什么会这样?

    事实上,目前相关的专业技术培训并不存在。公平性是机器学习领域的一个新兴分支。由于机器学习在过去数年中迅速融入社会的方方面面,公平性问题受到了越来越多的关注。与医生等职业不同,计算机科学家并不一定会接受训练,学习考虑自身行为的道德影响。直到最近,也有人说是随着社交媒体的出现,计算机科学家的设计和创造才体现出伦理层面上的问题。

    事实上,大多数计算机科学期刊在提交论文时,并不要求一并给出道德声明或考虑。如果论文中使用了包含数百万真人图像的图像数据库,无疑需要考虑道德方面的问题。鉴于物理距离和数据集规模之大,计算机科学家无需考虑对个体的影响,这可以被认为是微不足道的,进而对此忽略不计。不同于此,社会学家和心理学家在对小组个体开展测试时,必须成立完整的伦理审查委员会去审查和批准实验,以确保研究不会跨越任何伦理界限。

    好的一面是,事情正在逐渐改变。越来越多的数据科学和计算机科学项目,开始要求学生参加数据伦理和批判性思维方面的课程。各学术期刊也逐渐认识到,通过机构审查委员会(Institutional Review Boards,IRB)开展伦理审查并在论文中加入伦理陈述,是同行评审过程的必要补充。随着对机器学习公平性关注的与日俱增,上述立场正不断加强。

    机器学习的公平性

    正如前文所述,有监督机器学习的广泛采用,引起了人们对算法公平性的关注。随着算法的广泛采用,对人们生活的控制也会日益增加,人们的担忧也随之加剧。机器学习社区同样十分清楚这些挑战。算法公平性是当前一个快速发展的机器学习子领域,Moritz Hardt、Cynthia Dwork、Solon Barocas 和 Michael Feldman 等优秀的科研工作者已投身其中。

    尽管如此,要实现真正公平的算法,仍有一些重要挑战尚待解决。差别处理(disparate treatment)在算法中相对易于避免,即可对不同组显式地执行 差异化处理,例如从数据集中删除对应于种族、性别等特定属性的变量。但避免产生差别影响(disparate impact)则相对困难得多。数据中的冗余编码(redundant encoding)的问题,通常会导致对不同组非显式地执行差异化处理的结果。

    冗余编码 根据数据中存在的与种族、性别等受保护属性相关的特征,给出这些属性的信息。例如,网购化妆品等商品与性别属性可能存在高度相关性;根据邮政编码等属性,算法可获取不同种族人口的分布特征。

    尽管算法并不会按上述思路进行判别,但对于在模式识别任务上已超越人类表现的数据驱动算法,不可避免地会处理嵌入在数据中的关联,无论这些关联是多么小。此外,如果关联是非信息性的,即不会增加算法的准确性,那么将会被算法忽略。这意味着,受保护的属性中的确嵌入了某些信息。这对研究人员提出了许多挑战,例如:

    • 公平性和准确率之间是否存在本质上的权衡?是否能够从受保护属性(译者注:原文是“特征”)中抽取出关联信息,以免产生歧视性处理?
    • 如何从统计学上测定算法中的“公平性”?
    • 如何确保政府和公司推出能保护个体公平性的算法?
    • 如何判定训练数据中的偏差?如何降低偏差的影响?

    下面,本文将展开讨论。

    数据中存在的问题

    在上一节中提到,冗余编码导致特征与受保护属性间存在关联性。随着数据集规模的不断扩大,产生关联的可能性也相应增加。在大数据时代,这是一个大问题:能够获得的数据越多,可用信息中存在歧视的也就越多。歧视不一定仅限于种族或性别,也可以表现为对粉色头发人的歧视,对网络开发人员的歧视,对星巴克咖啡消费者的歧视,甚至是对各种群组组合的歧视。本节给出几种训练数据和算法中存在的偏差,这些偏差导致创建公平性算法问题复杂化。

    多数偏差(The Majority Bias)

    算法本身并不会偏向任何特定的群组,但在统计上的确更偏向于多数群组。正如 Moritz Hardt 教授在 Medium 博客文章中指出,分类器通常会随训练数据点数量的增加而改进,因为误差范围与样本数的逆平方根相关。如下图所示。

    现实令人不安。少数群组从定义上看通常具有较少的数据,因此模型对少数群组的表现往往差于对多数群组的表现。上述假设只有在多数群组和少数群组是从不同分布中抽取的情况下才能成立。如果二者是从同一分布中抽取的,那么增加样本规模对两个群组同样有利。

    一个例子就是前文介绍的乳腺癌检测算法。在这个由麻省理工学院的研究人员开发的深度学习模型中,训练神经网络所用的数据集中包括 6 万张乳房 X 光检查图像,只有 5% 是黑人女性的,这些患者死于乳腺癌的可能性高达 43%。因此,使用该算法对黑人妇女等少数群组进行测试时,性能相对较差。这可部分归因于有色女性乳腺癌通常会在较早期表现出症状,该现象表明差别影响是由于有色女性概率分布的代表性不足而造成的。

    这也给出了另一个重要的问题,那就是准确率(accuracy)是否能很好地表示公平性?在上面的例子中,由于对少数群组存在不公平,人们就认为对少数群组的分类准确率也较低。然而,由于公平性在定义上的差别和在性质上的模糊性,很多情况下并不能确保我们的测定值很好地表示了公平性。例如,我们的算法对黑人女性和白人女性的准确率同样可达 50%。但如果对白人女性存在 30% 的误报(假正),对黑人女性存在 30% 的漏报(假负),那么也表明存在着差别影响问题。

    就上面的例子而言,由于存在基于群组从属关系的差别处理,我们可以很直接地认为存在某种形式的歧视。然而,有时这种群组从属关系对预测是非常有用的。例如,电子商务网站会试图向不同用户展示特定的内容,因此掌握每个个体的性别、年龄或社会经济地位等信息是非常有用的。这意味着,如果简单地从数据中删除受保护属性,就会降低模型的准确率,乃至其它一些性能指标。同样,如果具有足够的黑人女性和白人女性乳腺癌模型的相关数据,我们就可以开发一个输入为种族的算法。考虑到种族间在数据分布上存在差异,新算法更有可能提高对不同种族的准确率。

    因此,为提高算法的泛化能力,最好应考虑受保护属性;并且为防止产生歧视,算法应受到公平性指标的约束。

    该理念是 Moritz Hardt 和 Eric Price 在论文“监督学习的机会均等”(Equality of Opportunity in Supervised Learning)中提出的。机会均等相对于统计均等(Statistical Parity)和补偿几率( equalized odds)等指标更具优势。下面将对上述三种方法分别作出阐释。

    “公平性”的定义

    本节将介由机器学习公平性研究人员提出的一些概念,包括统计均等,以及与统计均等存在细微差别的机会均等(equality of opportunity)和补偿几率等指标。

    统计均等(Statistical Parity)

    统计均等是历史最悠久、也是最简单的强制公平性指标。在 arXiv 预发表论文“算法决策和公平性代价”(Algorithmic decision making and the cost of fairness)中,详细阐释了统计均等概念。统计均等的计算公式如图 5 所示。

    那么应该如何理解统计均等的输出独立于所属的群组?这意味着每个群组的同一部分被分类为正或负的机会是均等的。由此,统计均等也被称为“群体均等”(demographic parity)。对于所有归入 p 的群组,会强制执行统计均等。

    对于未使用统计均等的数据集,可使用图 6 公式计算统计均等距离(statistical parity distance),给出预测偏离统计均等的程度。

    统计均等距离提供了一种基于组群从属参数 p 衡量数据集公平性的指标。

    那么使用统计均等存在哪些权衡考虑?

    首先,统计均等并不能确保公平性

    大家可能已经注意到,统计均等并不反映预测的准确率。如果一个群组预测为正的概率高于另一个群组,那么两个组在假正率和真正率上可能给出很大的差异。这本身就造成了差别影响,即偏向一个组(p=1)中的不合格个体,就可能会遗漏另一个组(p=0)中的合格个体。从这个意义上说,统计均等更类似于“结果均等”(equality of outcome)。

    下图给出很好的展示。如果有两组人,一组有 10 人(称为“A=1”组),另一组有 5 人(称为“A=0”组),如果给定“A=1”组中有 8 人得分 Y=1(80%),那么无论如何“A=0”组中也必须有 4 人得分 Y=1(80%)。

    第二,统计均等降低了算法准确率。

    统计均等的第二个问题是,尽管受保护属性可能会给出一些对预测有用的信息,但受限于统计均等的严格规则而无法得以利用。例如,性别对预测人们的意向购买商品非常有用,无法使用它将导致模型变弱,准确率也会受到影响。好的方法应能在不产生差别影响的情况下考虑群组间的差异。显然,统计均等并不符合准确率这一机器学习的根本目标。一个好的分类器可能并无法确保统计均等。

    鉴于以上问题,多位机器学习公平性研究人员认为,统计均等并不是一个可信的指标。但统计均等可作为构建其它公平性指标的基本出发点。

    还有一些与统计均等存在细微差别的指标,包括真正均等(true positive parity)、假正均等(false positive parity)和正率均等(positive rate parity)等。

    真正均等(True Positive Parity,TPP)

    真正均等也称为“机会均等”(Equality of Opportunity),仅适用于二分类预测。真正均等对 TP 类执行统计均等,即预测输出 1 并且真正输出也是 1 的情况。

    真正均等确保两组中的所有合格个体(Y=1)被分类为合格(C=1)的比率均等。如果只关注输出为正是否均等,可使用真正均等。

    假正均等(False Positive Parity)

    假正均等也仅适用于二分类预测,侧重于 FP 类,即预测输出为 1 但真实输出为 0 的情况。它类似于真正率(true positive rate),但提供 TP 类输出的均等。

    正率均等(Positive Rate Parity)

    正率均等也称为“均等几率”(Equalized Odds),它同时组合了 TP 类和 FP 类的统计均等。

    • 注意:对机会均等,我们放宽了在“Y=0”的情况下几率必须相等的均等几率约束。均等几率和机会均更灵活,能够在不产生差别影响的情况下添加一些受保护变量的信息。

    尽管上述指标都给出了某种可认为是公平的解决方案,但都不是特别令人满意。原因之一在于对公平性究竟意味着什么存在许多相互冲突的定义,很难以算法的形式给出定义。这些方法提供了不错的出发点,但也仍存在很大的改进空间。

    增加公平性的其它方法

    统计均等、均等几率和机会均等作为公平性指标提供了很好的出发点。此外,还有其他一些确保算法的使用不会对个体产生过度歧视的方法。人机共生(human in the loop,HITL)和算法透明(Algorithmic Transparency)是目前提出的两种主要解决方案。

    人机共生

    这个名字听上去像是某种过山车,其实表示的是由人类监督算法过程的一种范式。人机共生通常适用于算法出错风险高的情况。例如,导弹探测系统在探测到对方发射导弹后,需通知军方以进行人工审核并确定响应方式。如果没有人工交互,算法就不会做出响应。想象一下使用人工智能运作核武器系统的灾难性后果。一旦系统发现威胁就有权开火,那么一个误判就会导致整个世界毁灭。

    另一个例子是判定累犯的 COMPAS 系统。系统并不会因为将某人分类为累犯就做出相应法律判决。相反,系统会由法官审核 COMPAS 的评分,并以此作为情况审核中的考虑因素。这提出了一个新的问题,人类应该如何与算法系统交互。一些使用亚马逊土耳其机器人(Amazon Mechanical Turk,MTurk)众包平台开展的研究表明,部分人会完全遵循算法的判断,因为他们认为算法比人类掌握更多知识;而其他人则对算法的输出持半信半疑的态度,还有些人甚至会完全忽略算法的输出。人机共生研究是一个相对较新的研究方向,但随着机器学习在社会中的不断普及,在此方向上将会看到更多发展。

    另一个重要的类似概念是人为监督(human-on-the-loop),它类似于人机共生,只是人并非积极地参与过程,而是被动参与对算法的监督。例如,数据分析人员负责监控油气管道的各个部分,以确保所有传感器和流程都能正常运行,避免出现需关注信息或发生错误。其中,分析人员只是处于监督状态,并不主动参与过程。“人为监督”需要人的参与度更低,因此比“人机共生”具有更好的可扩展性。但并不适用于某些情况,例如监控核导弹。

    算法透明度

    在一些正式文献中,实现公平性的主流方式是通过透明度实现算法的可理解性(interpretability)和可解释性(explainability)。文献提出,如果算法能够得到公开观察和仔细分析,则可高置信度地确保模型中不存在差别影响。虽然在许多层面上确实可实现算法透明度,但其中也存在着一些不足。

    一些观点认为:专有算法从定义上就是不透明的

    从商业角度看,透明性在很多情况下并不适用。如果企业向所有人提供了自己的算法和业务流程,那么可能会泄露商业秘密或专有信息。想象一下,Facebook 或 Twitter 被要求向全世界公布他们的算法,以便接受审查确保不存在歧视问题。这样任何人都可下载他们的代码,然后启动自己版本的 Twitter 或 Facebook。完全透明只是政府(在某种程度上)、医保、法律体系等公共服务使用的算法中需考虑的一个因素。鉴于法律体系是法律学者的主要关注点,因此有理由认为这一点依然是目前的共识。

    展望未来,对那些想对自身已投资的算法保密的私有企业而言,颁布算法公平性相关的法规,是比实现算法透明度更可靠的解决方案。Andrew Tutt 在论文“An FDA For Algorithms”中对此理念进行了探讨,并提出组建类似于 FDA 的监管机构去规范算法。算法可以提交给监管机构,或者是第三方审计服务,进行分析以确保它们的适用性,以及不会产生差异影响。

    诚然,实现透明度仍需进行大量的探讨、投入大量的资金,并拓展相关的专业知识。但在我看来,透明度解决方案似乎可行。要确保算法免受差别处理和差别影响的干扰,依然有很长的路要走。随着法规、透明度、人机共生、人为监督,以及新提出的统计均等改进方法的综合使用,情况正在得到改进。但公平性这一研究领域仍然处于起步阶段,还有许多工作要做。该领域值得关注。

    结束语

    本文了详尽阐释了存在于训练数据集中的多种偏差,这些偏差是由于训练数据的收集和分析方式所导致的。进而给出了几种降低偏差影响的方法,以确保算法不会对少数群组和受保护阶层产生歧视。

    机器学习在本质上存在某种形式的统计性歧视。并且一旦将某些特权群组置于系统性的优势地位,而将某些非特权群组置于系统性的不利地位,那么这种歧视就会变得令人反感。由于存在于标签上的偏见、欠采样或过采样,导致训练数据中存在偏差,模型也会存在不为人需的偏差。

    有些人提出,决策是由人们基于部分信息做出的,而决策者所做的决策可能会受自身存在的许多隐含的和认知上的偏差的影响。而决策的自动化给出了更准确的结果,在很大程度上限制了偏差的影响。这些算法无需十分完美,只需优于以前使用的算法。历史发展终究会曲折地走上正轨。

    也有人提出,算法就是要放任不公平或数据本身固有的偏差得以系统性的体现。为缓解这些问题,应从数据中删除涉及受保护属性的变量,剔除所有的相关变量或是加以限制。

    上述两种做法都是部分正确的。然而,我们不应该满足于不公平的算法,毕竟其中存在着改进空间。同样,我们不应该浪费已拥有的所有数据,删除所有变量,因为这将使导致系统表现变差,降低它们的用处。这就是说,最终还是需要算法的创建者、监管机构,以及负责收集数据的机构,尽力确保这些偏差得到适当的处理。

    数据的收集和抽样过程通常是统计教学中最枯燥的部分,并且公众对此认知不足。在监管机构得以介入之前,需确保机器学习工程师、统计学家和数据科学家将机会均等付诸机器学习实践中。我们必须关注数据的来源以及处理方法。谨记,前人种树,后人乘凉。

    作者介绍:

    Matthew Stewart,哈佛大学数据科学博士,机器学习顾问。

    原文链接:

    https://towardsdatascience.com/programming-fairness-in-algorithms-4943a13dd9f8

     

    展开全文
  • 软件工程知识点

    2012-12-02 21:34:25
    用于描述系统对数据的加工过程,其图形符号是一些具有抽象意义逻辑符号,主要图形符号包括:数据接口、数据流、数据存储和数据处理。可以依靠数据流图来实现从用户需求到系统需求过渡。结构化分析就是基于数据...
  • 测试覆盖率

    2011-10-28 11:16:51
    质量建立在测试结果的评估和测试过程中确定的变更请求(缺陷)的分析的基础上。 覆盖评测  覆盖指标提供了"测试的完全程度如何?"这一问题的答案。最常用的覆盖评测是基于需求的测试覆盖和基于代码的测试覆盖...
  • 大家肯定会问,数据反馈具体包括哪些维度的指标呢? 就文章而言,点击率和读完率非常重要。机器会分析文本数据,将文章推荐给可能你的内容感兴趣的人,并观看读者的反馈。 如果一篇文章没有用户点击(点击率差),...

    第二部分

    抖音的推荐机制

    跟头条系产品的推荐机制是比较像的,机器会先把你的内容推荐给一部分用户,根据用户的数据反馈,决定是否推荐给更多的人看。

    如果数据反馈正向,机器就会推荐给更多的人,反之则停止推荐。

    大家肯定会问,数据反馈具体包括哪些维度的指标呢?

    就文章而言,点击率和读完率非常重要。机器会分析文本数据,将文章推荐给可能对你的内容感兴趣的人,并观看读者的反馈。

    如果一篇文章没有用户点击(点击率差),或者用户点击了发现质量很差马上退出了(跳出率很高),机器会认为这篇文章大概率不是个好的内容。

    短视频的推荐,大概也是同样的道理。短视频的点赞率/完播率/互动率都是非常重要的数据。

    如果一个抖音视频,用户点开看不完就撤了,大概率说明内容不太吸引人或者没什么干货。如果看完了不点赞,大概率说明内容不是那么超出预期。

    关于如何提高推荐,我们也一直在摸索,分享几个我觉得有价值的点:

    1.如何提高完播率和点赞率

    完播率,是指播放过视频的用户里,多少人看完了视频。提高完播率,最重要的当然是剧本的选题,一个枯燥无趣的选题,没人想要去看。此外,下面几点很重要:

    一是开头不要拖泥带水,快速切入。用户可能只需要3s来判断,是否要看下去,如果开头拖沓,大部分用户会离开。

    二是剧本的结构,应该要有起承转合。即便是1分钟的剧本,即便是单口剧本,也应该有悬念/有否定/有质疑/有“后面有干货”的预期,让用户有兴趣看下去。(多拆分竞品大号和自己的爆款视频,会有很多收获。)

    三是注意配乐。多用抖音热度高的配乐,数据通常比不配要好很多。

    四 是视频的画面质感,应该高级一点,不要low 的。抖音用户整体比较年轻,太土的东西,用户排斥率会比较高。

    2.如何提高互动率

    所谓互动率,主要是指用户评论意向有多高,而不是用户评论了以后,你的回复率。我自己觉得比较好用的提高互动率的方式有2种:

    一是在评论区进行有趣或有干货的评论预埋。

    抖音用户其实喜欢看神评论,很多视频的留言区十分精彩,甚至比视频本身还要有趣。

    我们通常会预埋3条左右的评论在留言区,可以是质疑选题内容的,也可以是调侃选题内容的,可以是非常犀利的提问

    总之要能吸引用户留下来看看,吸引用户关注评论区甚至直接参与话题讨论。

    这样做有2个好处,一是互动率提升,二是完播率及停留时长也提升了。

    二是在短视频的标题里进行预热和提问。(常规)

    比如之前有一个是讨论发薪日和公司牛叉之间的关系,视频认为多数好企业发薪日是15日以前发当月工资。

    在视频标题里引导用户留言自己的发薪日以及是否认可这个总结。留言区十分火热,带动了视频整体数据。

    最后想特别强调几点:

    一是眼光放长远,不要觉得2周到不了20万粉就是失败;

    二是要勤奋,光靠勤奋,就可以跑赢大部分人了;

    三是要一直关注抖音的官方行动、报告,多观察抖音运营方法(但要有自己的判断)。

    好了,今天就分享到这里了!更多详情了解《揽客魔课堂》

    展开全文
  • 数据逻辑结构是对数据元素之间逻辑关系描述,它可以用一个数据元素集合和定义在此集合中若干关系来表示。数据逻辑结构有两个要素:一是数据元素集合,通常记为D;二是D上关系,它反映了数据元素之间...
  • EM S 考核监视管理系统满足了EM S 运行管理人员进行EM S 计算数据分析, 运行状态监视、计算过程及结果分析和EM S 考核指标及报表统计计算需要, 可代替由运行人员手工进行繁重而复杂的数据检索和计算, 保证计算...
  • 需求分析的基本任务包括: (1) 抽取需求 分析现行系统存在需要解决的问题。获取足够多的问题领域的知识,需求抽取的方法一般有问卷法、面谈法、数据采集法、用例法、情景实例法以及基于目标的方法等;还有知识工程...
  • 12,指标树:UP指标树汇集了市场上众多热门投资分析技术指标公式,系统众多指标进行科学分类,目前已涵盖市场中大部分经典指标包括指南针、大智慧、钱龙、同花顺、通达信等,覆盖品种也非常全面,指标工具...
  • 、Python字符串相似性算法库、PyLaia:面向手写文档分析的深度学习工具包、TextFooler:针对文本分类/推理的对抗文本生成模块、Haystack:灵活、强大的可扩展问答(QA)框架、中文关键短语抽取工具。 1. textfilter: ...

空空如也

空空如也

1 2 3 4
收藏数 68
精华内容 27
关键字:

对数据质量分析的指标不包括