精华内容
下载资源
问答
  • MAP和NDCG: https://blog.csdn.net/simple_the_best/article/details/52296608 https://www.cnblogs.com/baiting/p/5138757.html

    自己在网上查询了很多推荐指标包括准确率,精确率,召回率,P-R曲线,AUC曲线,MAP,MRR,NDCG评价指标。
    但是分类模型的评价指标和推荐系统的指标的计算方法是不一样的,分类模型评价指标计算是根据混淆矩阵进行计算,而推荐模型是根据推荐列表和分割的20%测试集作为真实值进行计算。
    在分类模型中,是明确知道分类的明确信息,比如哪个属于正样本,哪些属于负样本,而在推荐系统中我们只是将测试集作为正样本进行计算,分类模型中的假阳性等信息并不知道。因为推荐列表不像分类问题一样,将不出现测试集中的样本看成是负样本(因为我们无法判断用户对于没访问过的项目是不是真的不感兴趣),因此准确率(正确分类样本数/样本总数,正确分类数包括正负样本),P-R曲线,AUC曲线这些评价指标无法或很少在推荐系统使用

    推荐系统的常用指标:精确率,召回率,F1-Score,MAP,NDCG
    推荐系统准确率计算方法:
    精确率=||推荐集 并 测试集||/||测试集|| #又叫查全率,用于评价模型查的全不全
    召回率=||推荐集 并 测试集||/||推荐集|| #又叫查准率,用于评价模型查的信息准不准
    上面两个评价指标会相互制约,最好的情况是两者结果都为1,。通常另一个大会导致领一个小。
    举个极端的例子,如果推荐集包含全部元素了,而测试集包括很少,这时候精确率为1,而召回率为几乎为0.
    最好的情况是推荐集和测试集的项目一模一样,这时候是最好的情况,都为1.

    MAP和NDCG的计算:
    https://blog.csdn.net/simple_the_best/article/details/52296608
    https://www.cnblogs.com/baiting/p/5138757.html
    MAP和NDCG理解:
    MAP只是希望我们想要的信息项目靠前,比如我们想要(a1,a2,a3),一个推荐列表【a1,a2,a3,b1,b2,b3】要比【,b1,b2,b3,a1,a2,a3】的分数高。但是【a1,a2,a3,b1,b2,b3】和【a3,a2,a1,b1,b2,b3】得到的结果一样,显然第一种情况好,因此这种评价指标无法解决这个问题
    针对上面MAP存在的问题,提出了NDCG评价指标,该指标通常用于网页的搜索排名中,不仅让想要的信息的排名信息靠前,也让和信息(比如搜索关键字)更相关的信息排名靠前的推荐列表的分数也越大。

    展开全文
  • 选课评价系统 (2) 项目范围 该系统通过校园网进行约束,师生都可以对课程评论 在校学生 老师可以创建并管理课程信息 在校老师 学生仅能查看课程信息 (3) 项目背景 学生每学期都会面临选择选修课的难题,而我校对于...

    #1 项目前景和范围

    (1) 项目名称

    选课评价系统

    (2) 项目范围

    该系统通过校园网进行约束,师生都可以对课程评论

    • 在校教师
      老师可以创建并管理课程信息
    • 在校学生
      学生仅能查看课程信息

    (3) 项目背景

    学生每学期都会面临选择选修课的难题,而我校对于各门选修课的介绍比较少,很多学生都是通过学长学姐来了解所看好的选修课,此时,一个可以让学生查看课程介绍、评价课程的系统就较为重要。

    (4) 项目前景

    通过该系统,学生可以查看课程的详细介绍,以及历届学长学姐对于该课程的评价,便于学生更好的选择自己感兴趣的内容。而对于自己收益巨大的课程,学生也可以通过该系统对课程进行推荐。老师也可以通过该课程了解学生上课的学习效果。

    《 该系统能解决以下问题 》

    • 解决学生对于课程的不了解
    • 便于老师更好地得到课堂以及课程的反馈
    • 帮助学生对同一门课进行互助交流
    • 统计课程的受欢迎度、被选择情况

    #2 分工安排

    我们小组通过会议进行了分工安排,这个是面向于初步需求获取过程中的分工。

    • 田锦(组长) 跟踪项目进度 & 涉众分析&原型系统
    • 穆信东 项目背景与范围 & 硬数据采集
    • 张聪 需求文档撰写
    • 张昌民 PPT制作
    • 黄又彬 技术博客更新
    • 肖天粲 面谈

    #3 面谈

    在这里插入图片描述
    在这里插入图片描述

    #4 涉众分析和硬数据采样

    (1) 涉众分析

    在这里插入图片描述

    (2) 硬数据采样

    我们小组通过问卷方式得到了各种需求。

    (Q1) 你是否使用过课程评价系统 ?

    在这里插入图片描述

    (Q2) 你是否希望有一个系统,能够帮助学生查看选修课的评价,便于更好的选课 ?

    至今没使用过选课评价系统的人对于该系统的期待比较高。

    在这里插入图片描述

    (Q3) 对于你使用过的选课评价系统你是否满意 ?

    选课评价系统已被大部分人满意使用,该系统证明了可行性。
    在这里插入图片描述

    (Q4) 你认为增加匿名评价是否必要(我们会增设监管功能,过虑删除不当言论)?

    对于匿名评价功能的意见,没想到两侧比例差不怎么大。
    在这里插入图片描述

    (Q5) 你希望这个系统是什么形式的 ?

    当初我们认为该系统大多数应该是手机用户,可是结果还是希望在WEB上使用该系统的人较多的,小程序排第二。

    在这里插入图片描述

    (Q6) 对于一个选课的评价系统,你最希望它能够拥有什么功能 ?

    在这里插入图片描述

    • 打分功能
    • 匿名评价
    • 评价公开透明
    • 能看课程男女比例
    • 能够跟任课老师沟通

    #5 原型

    在这里插入图片描述

    Mon 12 Mon 19 选题 第一次报告 2021春 UML任务进程
    展开全文
  • 计算机技术飞速发展,日新月异,许多企业因为业务发展的需要和市场竞争的压力,需要建设新的企业信息系统。在这种升级改造的过程中,怎么处理和利用那些历史遗留下来的老系统,成为影响新系统建设成败和开发效率的...

    计算机技术飞速发展,日新月异,许多企业因为业务发展的需要和市场竞争的压力,需要建设新的企业信息系统。在这种升级改造的过程中,怎么处理和利用那些历史遗留下来的老系统,成为影响新系统建设成败和开发效率的关键因素之一。通常称这些老系统为 遗留系统。     

    目前,学术和工业界对遗留系统的定义没有统一的意见。Bennett  1995 年对遗留系统做了如下的定义:遗留系统是不知道如何处理但对组织又至关重要的系统。Brodie  Stonebraker 对遗留系统的定义如下:遗留系统是指任何基本上不能进行修改和演化以满足新的变化了的业务需求的信息系统。     

    笔者认为,遗留系统应该具有以下特点: 

        1)系统虽然能完成企业中许多重要的业务管理工作,但已经不能完全满足要求。一般实现业务处理电子化及部分企业管理功能,很少涉及经营决策。 

        2)系统在性能上已经落后,采用的技术已经过时。如多采用主机/终端形式或小型机系统,软件使用汇编语言或第三代程序设计语言的早期版本开发,使用文件系统而不是数据库。 

        3)通常是大型的系统,已经融入企业的业务运行和决策管理机制之中,维护工作十分困难。 

        4)系统没有使用现代系统工程方法进行管理和开发,现在基本上已经没有文档,很难理解。 在企业信息系统升级改造过程中,如何处理和利用遗留系统,成为新系统建设的重要组成部分。处理恰当与否,直接关系到新系统的成败和开发效率。遗留系统的演化方式可以有很多种,根据系统的技术条件、商业价值及维护和运行系统的组织特征不同,可以采取继续维护、某种形式的重构或替代策略,或者联合使用几种策略。究竟采用哪些策略来处理遗留系统,需要根据对遗留系统的所有系统特性的评价来确定。

    遗留系统的评价方法

    对遗留系统评价的目的是为了获得对遗留系统更好的理解,这是遗留系统演化的基础,是任何遗留系统演化项目的起点。本文的评价方法包括度量系统技术水准、商业价值和与之关联的组织特征,其结果作为选择处理策略的基础。评价方法由一系列活动组成,如下图所示。 

    启动评价 

    评价是为了获得对遗留系统的足够深度的理解,从技术、商业和企业角度对系统的理解为系统处理策略提供基础,开始评价前,需要了解以下问题。 

    (1)对企业来说,遗留系统是否是至关重要的。在评价过程中,可能会发现系统对企业的继续运作产生的影响不大。在这种情况下,就没有必要考虑系统的演化问题。     

    2)企业的商业目标是什么。从商业观点来看,评估师必须理解企业的商业目标,因为商业目标产生演化需求。 

    (3)演化需求是什么。演化需求来自企业的商业目标和评价活动。需求必须是可见的,以便决定已存在的系统是否能满足需求。 

    (4)所期望的系统寿命多长。一个系统的寿命由软件和硬件的服务能力决定,一旦系统硬件或支撑软件过时,系统的有效性就受到限制。 

    (5)系统使用期限多久。如果系统的使用期限只是短期的,就没有必要花费成本来演化系统。相反,如果系统将在相当长的时期内支持主要业务流程,则必须进行演化。     

    6)系统的技术状态如何。例如,如果应用软件的技术状况很差,则很难理解,维护费用会很高。 

    (7)企业是否愿意改变。企业对改变的态度是遗留系统演化成功的关键因素之一。     

    8)企业是否有能力承受演化。企业的技术成熟度,员工的素质,支撑工具的级别等都是影响演化的因素。 

    商业价值评价     

    商业价值评价的目标是判断遗留系统对企业的重要性。在多数情况下,重要业务过程的改变意味着旧的系统现在仅仅具有外围价值,修改这种系统只需花费少许财力和物力。     在其他情况下,系统的业务价值很大,需要继续维护运行。可以在概要和详细两个级别上进行遗留系统的商业价值评价。    

    概要级评价将为更加详细的分析提供信息。概要级评价包括: 

        1)咨询。向有关专家进行咨询,包括最终用户和负责业务处理的管理人员。 

        2)评价问卷。问卷应该标识系统在业务处理过程中的哪些地方使用,本系统与其他系统的关系,如果系统不再运行所需的代价,系统已有的缺点和存在的问题等。问题的准确性依赖于所评价的系统。 

        3)进行评价。有了问卷的基础后,必须认真分析系统是如何使用的,这往往会发现系统的价值,而这在问卷中是得不到的。(详细级评价包括应用系统不符合业务规范的风险分析,这种分析十分费时,最好由业务分析师来完成详细级的评价。)  

    外部环境评价

    系统的外部技术环境是指硬件、支撑软件和企业基础设施的统一体。     

    1)硬件。系统硬件包括许多需要进行常规性维护的部件,这些硬件或者在一个站点,或者分布在许多站点并由网络连接。一般来说,遗留系统的硬件包括主机和小型机、磁盘驱动器、磁带、终端、打印机和网络硬件。     与商业价值评价类似,硬件评价也可以分为概要级评价和详细级评价。概要级评价把遗留系统作为一个整体,提供硬件质量估计。详细级评价包括识别系统中的每个部件。在这两种情况下,必须识别一系列特征,用作评价的基础。特征的选择取决于要评价的系统,系统的一些常见特征有供应商、维护费用、失效率、年龄、功能、性能等。     具体评价方法是:每一个部件(或整个系统)在每个特征上分配一个价值分数(取值为 1~4),然后把所有分数相加,获得该部件的总分。 

        2)支撑软件。系统的支撑软件环境也由许多部分组成,可包括操作系统、数据库、事务处理程序、编译器、网络软件、应用软件等。一般来说,支撑软件是依赖于某个硬件的,应用软件依赖于系统软件。在评价过程中,必须考虑这种依赖性。支撑软件的评价方法类似于硬件评价,在此省略。 

        3)企业基础设施。企业基础设施包括开发和维护系统的企业职责和运行该系统的企业职责(两者可能为同一个企业),这些基础设施是很难评价的,但对遗留系统的演化起关键作用。因此必须考虑以下问题。 企业和使用者的类型。企业或者有自己的系统开发队伍,或者所有开发和应用管理都是请其他企业完成。系统用户或许只重复一些记录性工作,或许包括一些更有技术性的工作。 开发组织的技术成熟度。开发组织的技术成熟度包括是否使用了现代系统工程方法,是否遵循了统一的标准,是否进行了过程改进等。 企业的培训过程。如果企业(包括开发方和客户方)的培训做得好,遗留系统的演化可能会更成功。 系统支持人员的技术水平。如果系统支持人员的水平和经验不够,就不要急于对系统做大的改动。 企业是否愿意改变。企业对改变的态度是遗留系统演化成功的关键因素之一。企业基础设施的评价方法类似于硬件评价,在此省略。 

    应用软件评价

    应用软件评价也有两个级别。 

    (1)系统级。把整个系统看作是不可分的原子,评价时不考虑系统的任何部分。 

    (2)部件级。关注系统的每个子系统,考虑每个子系统的特征,包括复杂性、数据、文档、外部依赖性、合法性、维护记录、大小、安全性等。具体评价方法也与硬件评价类似,在此省略。  

    分析评价结果

    评价活动将产生硬件、支撑软件、企业基础设施和应用软件的特征值矩阵,这些特征值体现了遗留系统当前的技术因素,其加权平均值代表了系统的技术水平。

     

    遗留系统的演化策略 

     

    在上图中,把对遗留系统的评价结果分列在坐标的四个象限内。对处在不同象限的遗留系统采取不同的演化策略。  

    淘汰策略 

     3 象限为低水平、低价值区,即遗留系统的技术含量较低,且具有较低的商业价值。对这种遗留系统的演化策略为淘汰,即全面重新开发新的系统以代替遗留系统。     完全淘汰是一种极端性策略,一般是企业的业务产生了根本的变化,遗留系统基本上不再适应企业运作的需要;或者是遗留系统的维护人员、维护文档资料都丢失了。经过评价,发现将遗留系统完全淘汰,开发全新的系统比改造旧系统从成本上更合算。 对遗留系统的完全淘汰是企业资源的根本浪费,应该善于“变废为宝”,通过对遗留系统功能的理解和借鉴,可以帮助新系统的设计,降低新系统开发的风险。 

    继承策略 

     4 象限为低水平、高价值区,即遗留系统的技术含量较低,可满足企业运作的功能或性能要求,但具有较高的商业价值,目前企业业务对该系统仍有很大的依赖性。对这种遗留系统的演化策略为继承。在开发新系统时,需要完全兼容遗留系统的功能模型和数据模型。为了保证业务的连续性,新老系统必须并行运行一段时间,再逐渐切换到新系统上运行。 要做到对遗留系统的继承,必须对系统进行分析,得到旧系统的功能模型和数据模型,这种分析可以部分代替或验证系统的需求分析。     如果遗留系统的维护文档不完整,而又必须解析系统的功能模型和数据模型,那将是一项十分艰巨的任务。这时可使用有关系统重构的 CASE 工具,通过分析系统的代码生成系统结构图或其他报告。 

    改造策略  

     1 象限为高水平、高价值区,即遗留系统的技术含量较高,本身还有较大的生命力,且具有较高的商业价值,基本上能够满足企业业务运作和决策支持的要求。这种系统可能建成的时间还很短,对这种遗留系统的演化策略为改造。     这些改造包括系统功能的增强和数据模型的改造两个方面。系统功能的增强是指在原有系统的基础上增加新的应用要求,对遗留系统本身不做改变。数据模型的改造是指将遗留系统的旧的数据模型向新的数据模型转化的过程。 

    集成策略 

     2 象限为高水平、低价值区,即遗留系统的技术含量较高,但其商业价值较低,可能只完成某个部门(或子公司)的业务管理。这种系统在各自的局部领域里工作良好,但从企业全局来看,多个这样的系统,他们各自基于不同的平台,不同的数据模型,无法互联互通,数据还不一致,这就是很严重的问题了。对这种遗留系统的演化策略为集成。在集成过程中,可采用由互连系统构成的系统的架构,遗留系统可作为从属系统来描述。 在企业信息系统建设过程中,如何处理那些遗留系统,将会是越来越突出的问题,因为即使是今天看来很先进的系统在明天也会成为遗留系统。对遗留系统的处理恰当与否,直接关系到新系统的成败和开发效率。如何建立一套系统的、行之有效的方法,以期望对实际工作有所指导,已成为一个迫切的问题。在实际工程项目中,遇到处理遗留系统的问题时,要具体情况具体分析,选择最佳的演化策略。 

    展开全文
  • 作者:刘宇 赵宏宇 刘书斌 孙明珠导读:推荐系统落地到业务中,需要搭建支撑推荐系统的各个模块,其中效果评估模块是非常重要的一个模块。本章通过介绍推荐系统评价体系、评估方法和评价指标,讲述...

    作者:刘宇 赵宏宇 刘书斌 孙明珠

    导读:推荐系统落地到业务中,需要搭建支撑推荐系统的各个模块,其中效果评估模块是非常重要的一个模块。本章通过介绍推荐系统的评价体系、评估方法和评价指标,讲述推荐系统评估模块,包括怎样评估推荐系统的效果、有哪些评估手段、在推荐业务中的哪些阶段进行评估、具体的评估方法。

    五一福利

    奖品:《智能搜索和推荐系统:原理、算法与应用》x 5

    资深技术专家撰写,阿里、美团、Hulu多位专家推荐,零基础掌握搜索和推荐系统原理、架构、算法,以及机器学习、深度学习、NLP在其中应用。

    参与方式:文末留言,赞数最多的5位为本次中奖者

    开奖时间:2021年5月6号20点

    备注:如有问题,请添加小助手微信:MLAPython,备注(姓名-单位-研究方向)

    01

    推荐评估的目的

    推荐系统评估与推荐系统的产品定位息息相关。推荐系统是信息高效分发的手段,用于更快更好地满足用户的不确定需求。所以,推荐系统的精准度、惊喜度、多样性等都是评估的指标。同时,推荐系统要具备稳定性。稳定性可以通过实验评估。在实现方面,是否能支撑大规模用户访问等也是推荐系统评估指标。

    推荐系统评估的目的是从上述维度评估推荐系统的实际效果及表现,从中发现优化点,以便能够最好地满足用户需求,为用户提供更优质的推荐服务,同时获取更多的商业利益。

    02

    推荐系统的评价指标

    怎么评估推荐系统?从哪些维度来评估推荐系统?这是评估推荐系统不可回避的两个问题。对于一个推荐系统,我们可以从用户、平台方、标的物、推荐系统本身 4 个维度进行评估,如图 1 所示。

    图 1 推荐系统的评价体系

    下面分别对这 4 个维度进行介绍。

    1. 用户维度

    用户维度是指从用户的角度出发,用户喜欢什么,系统就推荐什么。从用户维度看,我们可以从准确度、惊喜度、新颖性、信任度、多样性、体验流畅度这几个方面进行评估。

    1)准确度指推荐的物品是不是用户需要的。以视频推荐为例,如果用户点击观看了推荐的电影,说明推荐的电影是用户喜欢的,推荐准确度高。这里的准确度主要表示用户的主观体验。

    2)惊喜度指推荐给用户一些完全与他们历史喜欢物品不相似,但是用户却喜欢的物品。这些推荐可能超出用户的预期,给用户一种耳目一新的感觉。

    3)新颖性指推荐给用户一些应该感兴趣但是不知道的内容。比如,用户非常喜欢张震岳的歌曲,如果推荐给他《旋风小子》这部电影,假设用户从未听说张震岳演过电影,且用户确实喜欢这部电影,那么当前的推荐就属于新颖推荐。

    4)信任度指用户对推荐系统或者推荐结果的认可程度。比如,用户喜欢头条推荐的内容,就会持续点击或浏览系统的推送内容。

    5)多样性指推荐系统会提供多品类的标的物,以便拓展用户的兴趣范围及提升用户体验,如图 2 所示。比如,系统推荐了不同风格的音乐,且用户体验效果更好,则认为该系统具有大量的乐曲。

    6)体验流畅度指系统与用户交互时,用户体验不会出现卡顿。从系统角度看,要求推

    荐系统性能更可靠,提供服务更流畅,不会出现卡顿和响应不及时的情况。

    图 2 推荐系统提供多品类标的物

    2. 平台维度

    平台维度是指从标的物提供方和用户角度出发,通过衡量双方利益来评价整体效益。

    因此,我们既可以从标的物提供方进行评价,也可以从用户方的商业价值进行评价,同时可以针对双方进行评价。评价的指标包括商业指标,如大部分互联网产品通过广告赚取的收益。除了关注商业指标外,我们还需要关注用户留存、用户活跃、用户转化等指标。所以从平台维度看,我们可以从以下三类指标评价推荐系统:第一类是用户行为的相关指标;

    第二类是商业变现的相关指标;第三类是标的物提供方指标。

    (1)用户行为的相关指标

    用户行为的相关指标包括以下相关指标。比如,PV(Page View)指标(页面访问率或者页面点击率、页面的刷新次数);日活或月活(周期内活跃用户的数量)指标可以反映用户黏性;留存率(下一个周期留存继续使用的用户)也反映了用户的黏性;转化率(期望的行为数与行为总数的商)。

    (2)商业变现的相关指标

    商业变现的相关指标可由涉及的具体商业指标衡量。衡量推荐系统商业价值,需要从产品的赢利模式谈起。目前,互联网产品主要有 4 种盈利模式:游戏(游戏开发、游戏代理等)、广告、电商、增值服务(如会员等),后三种模式都可以通过优化推荐技术做得更好。

    推荐技术的优化目标可以以商业表现为最终目标,比如考虑提升系统的曝光与转化,提升用户的留存率、活跃度、延长停留时长等。

    (3)标的物提供方指标

    标的物提供方指标指与商家相关的指标。平台方需要服务好用户和标的物提供方(比如视频网站是需要花钱购买视频版权的)。大部分互联网产品都会通过广告赚取收益。

    3. 标的物维度

    当然,我们也可以从标的物视角去评价推荐系统,比如通过覆盖率和挖掘长尾用户的

    能力去评估。

    1)覆盖率主要是考察推荐的覆盖范围。

    式(9-1)中,表示所有提供推荐服务的用户的集合,I 表示所有标的物的集合,是给用户 u 推荐的全量物品。

    2)挖掘长尾用户的能力是推荐系统的一个重要价值,具体指将小众的标的物分发给喜欢该类标的物的用户的能力。

    4. 推荐系统本身的维度

    推荐系统本身视角指从自身出发去衡量整个系统的优劣。前面章节在介绍推荐系统时,强调了推荐算法在推荐系统中的重要作用,因此评价推荐系统可以从评价算法出发。在评

    价过程中,我们可以考虑从以下几个方面进行。

    1)准确度是指核心推荐算法的准确程度。在推荐场景下,无论有监督学习还是无监督学习,机器学习模型都有一定的解决实际问题的能力。所以,我们可以从模型解决实际问题的能力等进行评价。比如,在推荐排序中,我们可以使用准确率、召回率和 nDCG 等指标来评判推荐算法准确度。简单来说,准确率反映的是模型正确预测的结果,召回率反映的是仅考虑预测结果中正召回结果占正确结果的比例,而 nDCG 考量了最终的排序结果与原始排序结果的差异性。

    注意,这里的准确度和用户视角的准确度可以一致也可以不一致。用户视角的准确度强调的主观感受,而这里强调客观存在。

    2)实时性是指用户的兴趣随时间变化而变化,推荐系统能做到近实时的推荐是非常重要的。

    3)鲁棒性是指推荐系统及推荐算法不会因为“脏”数据而脆弱,能够为用户提供稳定的服务。从宏观上讲,推荐系统依赖于用户行为日志;从微观上讲,推荐算法也依赖于用户行为日志。如果用户行为日志产生偏差,推荐系统不会因为“脏”数据影响最终的推荐效果。比如,可以在系统中引入知识图谱,用知识图谱来纠正因用户行为日志产生的偏差,减小“脏”数据对推荐效果产生的负面影响。

    3)推荐系统响应推荐服务的时长以及推荐服务的稳定性。推荐服务的稳定包括推荐是否可以正常访问,推荐服务是否挂起等。

    4)高并发能力是指推荐服务在较高频次的用户请求下能正常稳定地运行。

    补充:在实际生产中,我们遇到的问题往往非常复杂,并且为了让模型能更好地解决当前问题,需要用不同的方法去评价推荐模型。

    比如,如果在一个应用场景中采用了单文档排序方法,那么我们会偏向于使用准确率与召回率去评价模型。当然,我们也可以选择使用 nDCG 去评价模型。但是,它对于排序

    顺序并不敏感,所以评价结果可能不会太好。如果针对强调排序顺序固定或极其敏感的场

    景,通常建议使用 nDCG。

    03

    评测指标的内容

    1. RMSE 和 R 方

    前文已经介绍了不少关于测评指标的内容,这里再补充一些,首先是 MAE 和 RMSE。

    平均绝对误差(Mean Absolute Error,MAE)是绝对误差的平均值,如公式(9-2)所示:

    RMSE(Root Mean Square Error,均方根误差)是用来衡量观测值同真实值之间偏差,

    如式(9-3)所示:

    如式(9-2)、(9-3)所示,是模型的预测值(观测值),而则是真实值。

    与所有的均方根方法一样,RMSE 方法对于异常值比较敏感。通俗地讲,RMSE 方法更能准确地评价同样准确率下的不同模型,能够有效地判定哪一个预测结果更可靠。在场景上,如果不苛求模型的准确度,我们希望模型的预测结果更可靠,那么 RMSE 方法则更适用。

    R 方(R-Squared)是一种评价模型与真实值之间拟合程度的方法,如式(9-4)所示:

    其中,y 是预测值,y r 是真实值而 y m 则是均值。那么,R 2 其实是用平方误差 / 平方差。

    这样做的好处在于 R 2 可以简单直接地评价预测值与真实值的耦合程度,即 R 2 =0 时,模型

    与真实结果几乎不拟合;R 2 =1 时,模型与真实结果几乎全拟合。同时,R 2 还解决了 RMES

    和 MAE 中样本波动的问题。

    2. MAP和MRR

    MAP(Mean Average Precision,平均正确率),其中 AP 的计算方法如式(9-5)所示:

    其中,k 为检索结果队列中的排序位置;P(k) 为前 k 个结果的准确率,即

    N 表示总文档数量;rel(k) 表示位置 k 的文档是否相关,相关为 1,不相关为 0 ;表示相关文档数量。

    MAP 即对将多个查询对应的 AP 求平均。MAP 是反映系统在全部相关文档上性能的单

    值指标。系统检索出来的相关文档越靠前,MAP 就可能越高。

    其中,Q 为查询的数量。

    MRR(Mean Reciprocal Rank,平均倒数排名)是把标准答案在被评价系统给出结果中的

    排序取倒数作为它的准确度,再对所有的问题取平均。该方法的细内容情可以查看第 6 章。

    3. 其他相关指标

    前文介绍了很多方法去评价模型,但是这些评价结果很可能会随着数据的变动而变动,

    所以,我们就需要一个可以无视数据波动的模型效果评价指标。如果我们把召回设定为 TPR,

    则有 ,以 FPR 作为横坐标,TPR 作为纵坐标,随着阈值的变动可以得到一个用来评价分类器性能的、在 (0,0) 与 (1,1) 之间的线段。

    这里要特殊说明一下,以二分类模型举例,分类器训练之后得到一个可以利用固定阈值和样本预测值进行分类的模型。在预测值固定不变的情况下,调整阈值,那么分类结果也会随之变动。同理,这个过程中 TPR 和 FPR 也会随之变动。将不同阈值下的 TPR 和FPR 的结果展示在坐标系上,最终就可以得到 ROC 曲线。

    AUC 则是 ROC 曲线靠近横坐标侧的面积。因为 ROC 曲线均为凸曲线,所以 AUC的值在 0.5~1 之间浮动。AUC 其实描述的是模型的性能,AUC 越大,当前越存在一个合适的阈值使得模型的分类效果越好。另外,这里还要说明一点的是,为什么 ROC 曲线总是凸曲线?ROC 其实取决于 TPR 和 FPR 之间的变换关系,一旦预测结果为凹曲线,我们只需要调换正负预测关系,则凹曲线自然就变换成了凸曲线。如果模型使用场景更需要正向预测的性能表现,而出现凹曲线,在不能变换正负预测关系的情况下,AUC 低于 0.5。对于AUC 低于 0.5 的模型,我们更偏向于通过调整数据和参数等其他手段,以保证 ROC 曲线呈现凸曲线。一旦 AUC 低于 0.5,以二分类模型举例,我们可以理解为当前模型一定程度上比随机猜测的结果还要差,其模型毫无性能可言。

    最后,为什么我们要使用 ROC 和 AUC 评价指标?很重要的原因是 ROC 的横纵坐标分别是 FPR 和 TPR,得益于其计算方式,两者对于样本正负比例的变化是不敏感的。这种情况下,ROC 与 AUC 指标更能集中突显模型分类性能的好坏,而尽可能不受其他因素的影响。

    以上内容摘自《智能搜索和推荐系统:原理、算法与应用》一书,经出版方授权发布。

    福利时间

    奖品:《智能搜索和推荐系统:原理、算法与应用》x 5

    资深技术专家撰写,阿里、美团、Hulu多位专家推荐,零基础掌握搜索和推荐系统原理、架构、算法,以及机器学习、深度学习、NLP在其中应用。

    参与方式:文末留言,赞数最多的5位为本次中奖者

    开奖时间:2021年5月6号20点

    备注:如有问题,请添加小助手微信:MLAPython,备注(姓名-单位-研究方向)

    展开全文
  • 文章目录同步读书之《菜根谭》5、闻逆耳言,怀拂心事6、和气喜神,天人一理7、真味是淡,至人如常8、闲时吃紧,忙时悠闲推荐算法评价指标1 评分预测指标1.1 符号定义1.2 平均绝对误差1.3 均方根误差1.4 覆盖率2 集合...
  • 这周主要是看了3篇对话系统的综述,主要是为了对对话系统有一个更深的了解,所以就把看的所有综述都放在一起了~~ 《智能对话系统研究综述》 《A Survey on Dialogue Systems:Recent Advances and New Frontiers》 ...
  • 正韵教学评价系统,原名快意通教师教学评价系统,是一个基于网页的网上调查问卷平台,主要用于各中小学和高等院校的学生对教师的教学能力进行评价,使学校能够掌握最新的教师教学服务状态,了解学生对不同教学方法的...
  • 用户想要的东西,推荐系统有没有推荐出来,强调预测的"准确性" N:表示用户的访问总量,就是用户真实点击的个数。 hit(i) :如果推荐系统推荐商品i,hit(i)就为1,否则为0。 MRR(平均倒数排名)    &...
  • 学生综合评价系统

    千次阅读 2020-12-24 11:09:37
    对学生综合评价及建议(共7篇)学生综合评语该生通过高中学习时段的学习,思想日臻成熟,很聪明且有较强的表达能力,与同学关系融洽,能积极配合老师及干部的工作,积极参加各种有益生活,身上总是洋溢着青春的气息。...
  • (1)一般系统的性能指标:它主要指GIS稳定性和平均无故障时间; GIS联机响应时间; 处理速度和吞吐量; GIS的利用率; 系统的操作灵活性、方便性、容错性; 安全性和保密性; 加工数据的准确性; 系统的可扩充性; 系统的可...
  • 《基于JavaWeb的教师教学质量评价系统》由会员分享,可在线阅读,更多相关《基于JavaWeb的教师教学质量评价系统(15页珍藏版)》请在金锄头文库上搜索。1、基于WEB的教师教学质量评价系统,项目背景及研究意义,随着...
  • 这是一个基于java的毕业设计项目,毕设课题为springboot框架的教学质量评价系统, 是一个采用b/s结构的javaweb项目, 开发工具eclipsei/eclipse, 项目框架jsp+springboot+mybatis, 教学质量评价系统采用mysql进行数据...
  • 校无忧教师评价系统是一套为提高教师的教学质量,反馈学生的心声,提高学校教务管理能力的系统。针对各专业所授课程及教师的评价结果,直观的统计出每位教师的综合能力......校无忧教师评价系统系统功能:1、完善的...
  • 学生综合素质评价系统建设的必要性在选拔性质的教学活动中,学生的评价起到至关重要的作用,过去及现在主流的评价标准是以考试分数为主要的标准,再加上一些竞赛加分等,这样的评价选拔体系所带来的是唯高考中心化,...
  • 学生课程评价系统共分三种角色:系统管理员、老师、学生 系统主要功能包含:个人信息、老师管理、课程管理、指标管理、学生管理、评价管理、评分流程介绍
  • 1. 平均无故障时间   计算机系统可靠性用平均无故障时间(MTBF...   评价一个计算机系统时,通常主要使用 () 来衡量系统的可靠性。 A.平均响应时间 B.平均无故障时间(MTBF) C.平均修复时间 D.数据处理速率 解
  • 大学生综合测评系统的设计和实现(MySQL)(任务书,开题报告,中期检查表,毕业论文20000字,程序代码,数据库)摘 要本文详细介绍了本系统设计的基本方法、系统的需求分析、系统的架构设计和系统实现部分,以及对系统中用到...
  • java在线考核评价系统

    2021-02-24 11:15:41
    关注公众号,回复:java在线考核评价系统,获取源码,百度云哦
  • 基于SSM的学生综合素质评价系统设计与实现,系统共分三种角色,包括管理员、教师、学生; 管理员主要功能包括: 权限中心:用户组权限控制、用户组信息管理; 系统设置:菜单管理、系统日志、成绩比例修改; ...
  • 教学评价系统用java语言开发,有管理员设置教学评价指标,学生登录对教师的教学进行在线评价,管理员对学生和教师信息进行管理,并统计出评价结果.系统开发工具是Myeclipse,数据库mysql,javabean技术,mvc三层结构,文档有...
  • 欢迎添加微信互相交流学习哦! ... 目录 摘要 1 第1章 绪论 2 1.1 系统开发背景 2 第2章 需求分析 3 2.1 系统设计方法 3 ...3.1 系统运行总体流程 5 ...3.2.1 教师教学质量评价系统软件结构图 6 3.2.2 “用...
  • 校友信息管理系统

    千次阅读 2021-04-27 20:44:03
    校友信息管理系统作为一种方便校友之间联系的实用系统便应运而生。通过提供完善的校友信息管理服务和规范校友信息的管理,可以达到增进校友之间、校友与母校之间的感情,方便校友联系的目的。我
  • 国内学校食堂普遍存在着各种问题,如卫生脏乱差、价格与实际不符、饭菜难入口等问题,为了监督学校食堂的运营,开发一款食堂综合评价系统可以让学生用户来评价学校的每一个食堂,查看食堂评分排名,达到监督食堂的...
  • 教学评价系统可以方便的和全面的网上教学资料的收集,为教师和学生提供在线教学评价得分结果,快速采集充分利用评价信息的各个方面,使管理者能够及时了解教育发展情况和教师教学情况,为学校的教师获取支持,很大...
  • 文章目录: 1 关于gallery和probe的介绍 2 二分类常用评价指标 2.1 二分类常用的评价指标 2.2 混淆矩阵 2.3 评价指标 3 人脸识别基本概念 3.1 人脸验证(Face Verification 1vs1) 3.2 人脸辨识 / 识别(Face ...
  • 系统维护的注意事项三、系统评价1.评价概述2.评价的主要内容3.评价的主要步骤 一、系统实施 1.系统运行环境准备(软、硬件准备) 2.程序设计(编程) 3.系统测试 a.测试的有关说明 b.系.
  • 几个常用推荐系统公开数据集

    千次阅读 2021-02-02 22:00:48
    常用推荐系统公开数据集,留存备用: 。阿里巴巴用户行为数据集 https://tianchi.aliyun.com/dataset/dataDetail?dataId=81505 。netflix电影评分数据集 https://www.kaggle.com/netflix-inc/netflix-prize-data 。...
  • 据新闻媒体指谷歌在开发人员交流会上公布了安卓12,发布的合作方名册中沒有华为,安卓12不会再兼容华为手机上,这代表着谷歌和华为已宣布破裂,华为务必让自身鸿蒙系统上线。很多年前华为就声称自身已经产品研发手机...
  • 作者:刘宇 赵宏宇 刘书斌 孙明珠01推荐评估的目的推荐系统评估与推荐系统的产品定位息息相关。推荐系统是信息高效分发的手段,用于更快更好地满足用户的不确定需求。所以,推荐系统的精准度、惊喜...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 268,784
精华内容 107,513
关键字:

系统评价

友情链接: planning_data.rar