精华内容
下载资源
问答
  • 我们将通过两种方法,对机器学习排序方法的评估有个直观的认识。衡量搜索的好坏目标是搜索和经典机器学习问题的根本区别,更具体地说,如何量化搜索的好坏。例如股价预测系统的准确性,取决于我们有多少预测数据是...

    机器学习排序(Learning to rank)将搜索转化为机器学习问题,在本文中,我想找出搜索与其他机器学习问题不同的原因,如何将搜索排名作为机器学习或者是分类和回归问题?我们将通过两种方法,对机器学习排序方法的评估有个直观的认识。

    衡量搜索的好坏

    目标是搜索和经典机器学习问题的根本区别,更具体地说,如何量化搜索的好坏。例如股价预测系统的准确性,取决于我们有多少预测数据是来自真实的公司股价。如果我们预测亚马逊的股价是123.57美元,实际上是125美元,我们会说这非常接近。假设按均值来说,我们的预测跟实际股价的误差在1美元到2美元之间,我们可以认为系统预测的很好。

    这种情况下的误差我们称之为残差,即实际值与预测值之间的差异:实际值-预测值。(实际上,残留^2才是最小化,但在这里保持通俗易懂。)

    训练期间,回归系统通过如何量化好坏来得到最优解。我们可以尝试公司不同的量化特征,例如员工人数、收入、手头现金、或者其他任何有助于减少股价误差的特征。它可能会使最小二乘回归(least-squares regression)学习为线性公式,例如:股价= 0.01*员工人数+0.9*收入+0.001*手头现金,作为减少误差的最佳方式。

    搜索结果的好坏(或介于两者之间)却完全不一样。股价预测系统完全是为了减少实际值-预测值的误差,但搜索系统是尽量接近搜索查询的理想排序。换句话说,目标是减小理想排序到结果项集合的距离,排序的优先反映出搜索者感知搜索的好坏。

    例如,电子商务用户搜索“dress shoes”,我们定义一个粗略的理想排序:

    1. Best-selling dress shoes
    2. Low-performing dress shoes
    3. Other kinds of shoes
    4. Ladies dresses (if at all)

    以此我们可以想象一些场景,并猜测他们距离理想结果有多远。至少需要向“dress shoes”的搜索者在展示衣服前优先展示一些鞋子 - 但这一点都不完美。这就像预测亚马逊的股价是150美元而不是125美元:下面的结果接近吗?

    1. A pair of tennis shoes
    2. Meh Dress Shoes
    3. A ladies dress

    另一方面,优先于其他鞋子并在best-selling dress shoes前一个位置展示meh dress shoes,这样可能会非常接近,但也并不完美。这可能与预测亚马逊的股价为123美元相当:

    1. Meh pair of dress shoes
    2. Best-selling pair of dress shoes
    3. Tennis Shoes

    正如你看到的搜索,并不是实际值-预测值,而是尽可能接近每个用户查询的最佳排序。NDCG是一种衡量搜索结果和理想排序差距的指标。其他一些指标衡量搜索结果的好坏各有利弊,这些指标几乎总是取值介于0(最差搜索结果)至1(最好搜索结果)。

    此外,这些指标不能仅是纯粹的差异或编辑距离类型的计算。由于用户更关注顶部的搜索结果,因此要获取这些位置需具备优先权。因此,搜索指标通常包括位置偏差,这意味着前几个结果偏离理想时,比底部结果偏离更糟糕,NDCG内置了位置偏差。

    虽然有一些可用的指标 ( 例如 ERRMAP等 ),在本文中我只把 “NDCG”作为真正相关性指标的缩写。

    用机器学习生成ranking函数

    经典的回归问题构建了一个用一组特征直接预测的函数 f。我们尽量减少实际股价- f(公司特征)。机器学习排序的目标是构建不直接预测的ranking函数。相反,它用于排序-我们提供一组理想的顺序作为训练数据,ranking函数需要两个输入,即query查询和document文档,并为每一个查询正确排序的文档分配一个分数。

    重述以上一点更多内容:

    股市:对于公司x,生成函数f(x),使y - f(x)最小化

    搜索:对于文件d,查询q,生成函数f(d,q),当f(d,q)降序排序时,使所有文档的NDCG最大化

    我们来看一个粗略的例子,看看我们的意思。作为数据科学家/搜索工程师,我们认为以下查询/文档的特征对我们的电子商务搜索有帮助:

    • 商品标题中关键字的TF * IDF分数:titleScore(d,q)
    • 商品描述中关键字的TF * IDF分数:descScore(d,q)
    • 商品的销量:numSold(d)

    机器学习过程可能会得到一个文档评分公式,如:

    f(d,q)= 10 * titleScore(d,q)+ 2 * descScore(d,q)+ 5 * numSold(d)

    通过一组测试查询(通过这样的模型,我们可以得到尽可能接近用户理想的排序)可以最大限度地提高NDCG

    大多数机器学习排序的复杂度通常来自于调整的问题,以便可以应用其他机器学习方法。这些往往分为三种:单文档方法(point-wise),文档对方法( pair-wise)和文档列表方法(list-wise),我们将在下面介绍。我们将简要介绍几种方法,并思考每种方法的利弊。

    单文档 机器学习排序(point-wise learning to rank)

    搜索的“训练集”看起来有点像一般的机器学习训练集。单文档学习排名基于这种情况,所以让我们简要回顾一下搜索训练集的样子。搜索训练集的形式为在某个查询下带得分的文档,并称为判断列表,以下是一个判断列表的例子:

    得分,查询,文档

    4,dress shoes,best_selling_dress_shoes

    3,dress shoes,meh_dress_shoes

    ...

    0,dress shoes,ladies_dress

    0,dress shoes,toga_item

    正如你所看到的,非常相关的文档比如best_selling_dress_shoes的得分为4,而完全不相关的文档(toga_item)得分为0。

    单文档学习排名不关注直接优化每个查询的排名。相反,我们只是尝试预测相关性得分。我们使用某种回归来创建包含文档d,查询q的排序函数f(d,q)。就像股价的例子一样,我们试图尽量减少残差。我们希望f(toga_item,“dress shoes)得分为0,和f(best_selling_dress_shoes,“dress shoes”)得分为4。

    在训练和评估期间,我们单纯将残差 y - f(d,q)最小化(这里的ydq的得分)。在这种情况下,假设我们的排序函数f给出了上述0分的文档为0.12分,4分的文档为3.65分。只看残差的话这似乎做的很好。如果所有文档得分平均不偏离0.5分以上,那么我们认为每个查询的NDCG也被最大化,也就是说,我们认为如果我们能够创建一个只返回得分的排序函数,我们应该可以得到接近用户期望的理想排序。

    但表象可能是骗人的,单文档学习排名的一个问题是获得正确排序的头部项通常比判断列表尾部的模糊项更加重要。基本上所有认知和位置偏差在最大化度量(如NDCG)下都会被忽略。

    实际上,一个经常交换精准相关项和不太相关项,但可以准确地预测第50页较低的相关性等级的模型并不是很好。买家在前几个结果中看了些勉强相关的项目且没有被其打动时,所以他们离开了。

    更为灾难性的是,当你考虑仅发生在具体查询中的关系时会出现另一个问题,单文档方法会清除查询分组,忽略这些查询内的细微差别。例如,一个查询与标题字段上的相关性得分有很强的相关,而另一个查询与描述字段得分相关。或许某个查询的“good”标题匹配得分是5,而另一个查询的“good”标题匹配得分是15,这些情况是真实存在的:不同匹配中文档频率不一致可能导致这些场景。

    因此,一般来说,单文档方法的执行效果不佳,我们将继续研究那些不清除查询分组,而是尝试使用排序函数直接优化每个查询的排序的方法。

    文档列表方法(LIST-WISE),文档对方法(PAIR-WISE)

    单文档学习排名以尽量减少理想与实际相关程度之间的差异。其他方法定义了不同的误差理解,更接近直接优化每个查询的理想顺序。我们来看一下文档列表(LIST-WISE)和文档对方法(PAIR-WISE)机器学习排序解决方案的两个例子,以便更接近于结合位置偏差和容纳每个查询细微差别的能力。

    直接用w/ListNet优化列表

    文档列表学习感觉像最纯粹的机器学习排序方式。它非常直接地定义错误:当前ranking函数的列表距离理想值的差距有多大?例如,这样的一种方法是通过查看给定顺序的排列概率。 基本思想是定义一个函数,该函数计算按给定的相关性得分的排列是用户真实寻找的概率。如果我们从判断列表中将“得分”作为排序,第1个结果的得分高于第2个,这样将获得最高概率。然而,从判断列表中获取的相关性等级对于当前用户当前的地点、时间、上下文有可能是不正确的。因此,单个较低分项在高分项上不可能成为完美的相关性排序,也许这才是用户此时此刻实际想要的,最低相关性得分排第一个的重排列表是极不可能的,排列概率接近零。

    相对于计算每个列表排序可能的错误,仅查看排列中的第一个项对于搜索是“最佳”的概率来近似排列优先级在计算上是更加可行的。这被称为“第一”概率,它查找单个相关性分数以及查询的每个其他相关性分数,以计算该项将是第一的概率。正如你所预料的那样,较高的得分的相关性项将获得更高的概率排在前面,较低的得分项在该用户相同上下文时间地点下不太可能排在前面。

    文档列表方法ListNet提出最小化训练集相关得分与神经网络中权重之间的交叉熵。听起来像胡言乱语,但真正重要的是通过最小化的error函数,开发一个直观的例子来看看它如何工作,如下面的伪python所示:

    def error(): error = 0 For each query For each doc: error -= TopOneP(doc.grade) * log( TopOneP(f(doc, query)))

    这里f是我们正在优化的ranking函数。 TopOneP是给定得分或分数排第一的概率。

    首先,我们来看第一项TopOneP(doc.grade)。你想想这里发生了什么,假如第一名基于判断列表得分的概率高,那么第二项log(P ...)将增加更多权重,换句话说,第一项可以被认为是基于判断列表中的得分该项的优先级。更高得分项有更多第一的概率:正是我们寻找的位置偏差!

    现在看第二个,log(TopOneP ...)。回想一下, log(TopOneP = 1)为0,当TopOneP接近0时log(TopOneP <1)越来越负。因此,如果TopOneP接近于0,并且因此log越来越负,则整个项越来越负。负越多越不好,因为error-=(big negative number)使错误变成更大的正数。

    综上所述,当(1)该项在判断列表很重要时(TopOneP(doc.grade)很高),并且当我们的rangking函数fTopOneP很低时,会产生更多的误差。显然这是不好的:在判断的基础上,真正需要靠前的,应该用f把它排到前面。

    ListNet中的目标是通过迭代更新f函数中的权重来最小化误差。这里我不想深入讲解,因为上面的点更为重要。参阅这篇文章❶ 获得更多信息以及如何使用误差的定义来计算梯度(如何更改特征的权重)以尽量减少误差。

    使用RankSVM优化文档对方法

    文档对机器学习排序(pair wise learning to rank)通过最小化在搜索结果中乱序结果数, 一个具体指标:Kendall's Tau衡量了搜索解决方案中有序对的比例。文档对学习排序的一种形式是对查询进行分类,使得项目“有序”或者“乱序”。例如,你可能会发现,当对特定的查询集进行排序时,标题得分更高的其销售事项总数反而比较低。

    Thorsten Joachims在这篇文章❷ 中介绍了一种流行的文档对机器学习排序方法RankSVM,还在Fabian Pedregrosa的博客文章中以Python方式实现,且乐意我在这篇文章借用他的图。

    想象一下我们有两个查询,或许以我们的“dress shoes”查询,另一个是“t-shirt”。下面的图表y轴为标题得分特征,而x轴可能是销量。我们将“dress shoes”的每个判断绘制为三角形,并将“t-shirt”的每个判断绘制成圆形。颜色越深的形状越相关。

    fa55ec86665405df928a77dad35c6407.png

    我们的目标是发现一个类似于上面图像中的w向量的函数,将最接近于正确的搜索结果排序。

    事实证明,这个任务与使一个项好于另一个项的分类问题是一样的,适用于支持向量机(Support Vector Machine SVM)的二元分类任务。如果dress_shoes比meh_dress_shoes更好,我们可以将该排序标记为“更好”或者“1”。类似地,meh_dress_shoes在dress_shoes之前标记为“更差”或“-1”。然后,我们可以构建一个分类器来预测一个项可能比另一个更好。

    这个分类任务需要更多底层特征值,想想“更好“的含义是什么,这意味着dress_shoes和meh_dress_shoes之间存在某些差异而将它归类为更好。所以RankSVM在此增量:itemA的特征值减去itemB的特征值上进行分类。

    作为一个例子,只关注单一特征“销量”,我们可能会看到dress_shoes销售为5000,而meh_dress_shoes的销售量只有1000。所以产生的4000“差异”在训练过程中将会是一个特征。我们将这个差异作为一个SVM训练样本:(1,4000)。这里1是我们预测的“更好”的标签,而4000是我们在SVM中用作特征的“销量”增量。

    在特征空间中绘制每个成对的差异来创建两个分类,如下所示,可以使用SVM来找到两个分类之间的适当判定边界:

    074f4e77ef5053f3e58274fad146bfc1.png

    当然,我们不需要一个判定边界。 我们需要一个方向向量表示这个方向“更相关”。 最终,与该判定边界垂直的向量提供了ranking函数的线性权重比例:

    fa55ec86665405df928a77dad35c6407.png

    这听起来就像变成简单的线性回归,毕竟我们只获得特征权重和线性ranking函数。 但是如果你还记得单文档方法的讨论,在单个查询中你有时会具有查询内依赖性/细微差别。 特征中的一个好的标题在“dress shoes”得分为“5”,相比在“t-shirts”的得分为“15”,“RankSVM” 所做的是通过关注单个查询中指出“标题得分越高,对应查询中相关性越高”的粗略的感官中的分类增量。

    在图形中,你可以看到,使用线性回归运行上述相同的数据:

    e009450736c2fc352a55f8fa90f8b3d5.png

    RankSVM与List-Wise方法

    你可以看到, RankSVM似乎仍然创建一个直接的、线性的相关性。我们知道现实往往是非线性的。使用SVM,可以使用非线性内核,尽管线性内核往往是最受欢迎的。 RankSVM的另一个缺点是它只考虑到文档对的差异,而不考虑位置偏差。当RankSVM中的项无序时,无法优先保证头部项正确的同时忽略底部项的不准确。

    虽然文档列表方法往往更准确,并且包含位置偏差,但训练和评估的成本很高。虽然RankSVM往往不那么准确,但该模型很容易训练和使用。

    由于其简单性,RankSVM可以轻松地为特定用户或部分查询/用户构建模型。可以想象将查询分类到不同的用例中。也许对于电子商务,有些查询我们可以肯定地说是错别字。而其他的是我们知道的广泛的类目搜索查询(如“shoes”)。

    如果我们相应地对查询进行分类,我们可以为每种类型的用例分别构建模型。我们甚至可以组合不同的SVM模型。例如,由于模型是一组线性权重集合,我们可以将模型绑定到特定的用户Tom,并将其与Tom正在执行的查询绑定的模型相加,搜“dress shoes”返回dress shoes,我们觉得Tom会很喜欢。

    结论

    主要的结论是无论选择什么样的模型,明白该模型需要优化什么,需要尽量减少什么样的误差?

    你了解了单文档方法如何优化判断的残差,以及如何为不理想。 RankSVM执行一个更简单的优化来消除无序对,但这也有问题,因为没有考虑到位置偏差。有趣的是,ListNet的排列概率和第一概率给同样有效的好答案留有余地。我个人认为,如果这种方法用于多样化搜索结果,可以为当前用户展示许多有效的假设。

    当然,结束之刻,假如我们不选取正确的特征来训练我们的模型,模型的类型可能不是很重要!特征选取,创作,生成和设计,往往才是最难的一部分,而非模型的选择。

    展开全文
  • 机器学习排序

    千次阅读 2017-03-27 21:01:17
    从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。  第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。  第二代技术,利用互联网的超文本结构,有效地...

    转自:http://blog.csdn.net/hguisu/article/details/7989489

    从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。

           第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。

           第二代技术,利用互联网的超文本结构,有效地计算网页的相关度与重要度,代表的算法有 PageRank 等。

           第三代技术,有效利用日志数据与统计学习方法,使网页相关度与重要度计算的精度有了进一步的提升,代表的方法包括排序学习、网页重要度学习、匹配学习、话题模型学习、查询语句转化学习。

           这里主要介绍机器学习排序。

    1. 机器学习排序(Learning to Rank)

            利用机器学习技术来对搜索结果进行排序,这是最近几年非常热门的研究领域。信息检索领域已经发展了几十年,为何将机器学习技术和信息检索技术相互结合出现较晚?主要有两方面的原因。

            一方面是因为:在前面几节所述的基本检索模型可以看出,用来对査询和文档的相关性进行排序,所考虑的因素并不多,主要是利用词频、逆文档频率和文档长度这几个因子来人工拟合排序公式。因为考虑因素不多,由人工进行公式拟合是完全可行的,此时机器学习并不能派上很大用场,因为机器学习更适合采用很多特征来进行公式拟合,此时若指望人工将几十种考虑因素拟合出排序公式是不太现实的,而机器学习做这种类型的工作则非常合适。随着搜索引擎的发展,对于某个网页进行排序需要考虑的因素越来越多,比如网页的pageRank值、查询和文档匹配的单词个数、网页URL链接地址长度等都对网页排名产生影响,Google目前的网页排序公式考虑200多种因子,此时机器学习的作用即可发挥出来,这是原因之一。
           另外一个原因是:对于有监督机器学习来说,首先需要大量的训练数据,在此基础上才可能自动学习排序模型,单靠人工标注大量的训练数据不太现实。对于搜索引擎来说, 尽管无法靠人工来标注大量训练数据,但是用户点击记录是可以当做机器学习方法训练数据的一个替代品,比如用户发出一个查询,搜索引擎返回搜索结果,用户会点击其中某些网页,可以假设用户点击的网页是和用户查询更加相关的页面。尽管这种假设很多时候并 不成立,但是实际经验表明使用这种点击数据来训练机器学习系统确实是可行的。

    2. 机器学习的基本思路

           传统的检索模型靠人工拟合排序公式,并通过不断的实验确定最佳的参数组合,以此来形成相关性打分函数。机器学习排序与此思路不同,最合理的排序公式由机器自动学习获得,而人则需要给机器学习提供训练数据。

           图1是利用机器学习进行排序的基本原理图。 机器学习排序系统由4个步骤组成:人工标注训练数据、文档特征抽取、学习分类函数、在实际搜索系统中采用机器学习模型.

                    

                                                      图1  机器学习排序原理

     


           首先,由人工标注训练数据。也就是说,对于某个查询Q,人工标出哪些文档是和这个査询相关的,同时标出相关程度,相关程度有时候可以用数值序列来表示,比如从1分 到5分为3个档次,1代表微弱相关,5代表最相关,其他数值代表相关性在两者之间。对于某个查询,可能相关文档众多,同时用户査询也五花八门,所以全部靠人工标注有时候 不太可能。此时,可以利用用户点击记录来模拟这种人工打分机制。
          对于机器学习来说,输入是用户查询和一系列标注好的文档,机器学习系统需要学习打分函数,然后按照打分函数输出搜索结果,但是在其内部,每个文档由若干特征构成的,即每个文档进入机器学习系统之前,首先需要将其转换我饿滴特征向量,比较常用的特征包括:

    • 查询词在文档中的词频信息
    • 查询词的IDF信息
    • 文档长度: 
    • 网页的入链数量: 
    • 网页的出链数量:
    • 网页的pageRank值; 
    • 网页的URL松度: 
    • 査询词的Proximity值:即在文档中多大的窗口内可以出现所有査询词。

            以上所列只是影响排序的一部分特征,实际上还有很多类似的特征可以作为特征向量中的一维加入。在确定了特征数量后,即可将文档转換为特征向量X,前面说过每个文档会人工标出其相关性得分y.这样每个文档会转換为<X,Y>的形式,即特征向量及其对应的相关性得分,这样就形成了一个具体的训练实例。

           通过多个调练实例,就可以采用机器学习技术来对系统进行训练,训练的结果往在是 ―个分类函数或者回归函数,在之后的用户搜索中,就可以用这个分类函数对文档进行打分,形成搜索结果 

        从目前的研究方法来说,可以将机器学习揉序方法分为以下3种:单文档方法、文档对方法和文档列表方法。

     

    3. 单文档方法(PointWise Approach》

            单文档方法的处理对象是单独的一篇文档,将文档转换为特征向量后,机器学习系统根据从训练数据中学习到的分类或者回归函数对文档打分,打分结果即是搜索结果。下面我们用一个简单的例子说明这种方法。 
            图2是人工标注的训练集合,在这个例子中,我们对于每个文档采用了3个特征: 査询与文档的Cosme相似性分值、査询词的Proximity值及页面的PageRank数值,而相关性判断是二元的,即要么相关要么不相关,当然,这里的相关性判断完全可以按照相关程度扩展为多元的,本例为了方便说明做了简化。

               

                                              图2 训练数据
            

          例子中提供了5个训练实例,每个训练实例分别标出来其对应的查询,3个特征的得分情况及相关性判断。对于机器学习系统来说,根据训练数据,需要如下的线性打分函数:
      
           Score(Q, D)=a x CS+ b x PM+cx PR+ d 
            这个公式中,cs代表Cosine相似度变徽,PM代表Proximity值变量,PR代表pageRank, 而a、 b、 c、 d则是变量对应的参数。

            如果得分大于一设定阀值,则叫以认为是相关的, 如果小于设定闽值则可以认为不相关。通过训练实例,可以获得最优的a、 b,、c、d参数组合,当这些参数确定后,机器学习系统就算学习完毕,之后即可利用这个打分函数进行相关性判断。对于某个新的查询Q和文档D,系统首先获得其文档D对应的3个特 I特征值,之后利用学习到的参数组合计算两者得分,当得分大于设定的闽值,即可判断文档是相关文档,否则判断为不相关文档。

     

    4. 文档对方法(PairWise Approach)

            对于搜索系统来说,系统接收到用户査询后,返回相关文档列表,所以问题的关键是确定文档之间的先后顺序关系。单文档方法完全从单个文档的分类得分角度计算,没有考虑文档之间的顺序关系。文档对方法则将重点转向量对文档顺序关系是否合理进行判断。

            之所以被称为文档对方法,是因为这种机器学习方法的训练过程和训练目标,是判断任意两个文档组成的文档对<D0C1,D0C2>是否满足顺序关系,即判断是否D0C1应该排在DOC2的前面。图3展示了一个训练实例:査询Q1对应的搜索结果列表如何转换为文档对的形式,因为从人工标注的相关性得分可以看出,D0C2得分最高,D0C3次之,D0C1得分最低,于是我们可以按照得分大小顺序关系得到3个如图3所示的文档对,将每个文档对的文档转换为特征向量后,就形成了一个具体的训练实例。

          

                                                图3  文档对的方法训练实例


           根据转换后的训练实例,就可以利用机器学习方法进行分类函数的学习,具体的学习方法有很多,比如SVM. Boosts、神经网络等都可以作为具体的学习方法,但是不论具体方法是什么,其学习目标都是一致的,即输入- 个査询和文档对<Docl,DOC2>, 机器学习排序能够判断这种顺序关系是否成立,如果成立,那么在搜索结果中D0C1应该排在D0C2 前面,否则Doe2应该摔在Docl前面,通过这种方式,就完成搜索结果的排序任务。
            尽管文档对方法相对单文档方法做出了改进,但是这种方法也存在两个明显的问题:

           一个问题是:文档对方法只考虑了两个文档对的相对先后顺序,却没有考虑文档出现在搜索列表中的位置,排在搜索站果前列的文档更为重要,如果前列文档出现判断错误,代价明显高于排在后面的文档。针对这个问题的改进思路是引入代价敏感因素,即每个文档对根据其在列表中的顺序具有不同的权重,越是排在前列的权重越大,即在搜索列表前列如 果排错顺序的话其付出的代价更高•
            另外一个问题是:不同的査询,其相关文档数量差异很大,所以转换为文档对之后, 有的查询对能有几百个对应的文档对,而有的查询只有十几个对应的文档对,这对机器学习系统的效果评价造成困难 •我们设想有两个查询,査询Q1对应500个文文档对,查询Q2 对应10个文档对,假设学习系统对于査询Ql的文档对能够判断正确480个,对于査询 Q2的义格对能够判新正确2个,如果从总的文档对数量来看,这个学习系统的准确率是 (480+2)/(500+10)=0.95.即95%的准确率,但是从査询的角度,两个査询对应的准确率 分别为:96%和20%,两者平均为58%,与纯粹从文档对判断的准确率相差甚远,这对如何继续调优机器学习系统会带来困扰。

     

    4. 文档列表方法(ListWise Approach)

              单文档方法将训练集里每一个文档当做一个训练实例,文档对方法将同一个査询的搜索结果里任意两个文档对作为一个训练实例,文档列表方法与上述两种表示方式不同,是将每一个查询对应的所有搜索结果列表整体作为一个训练实例,这也是为何称之为文档列表方法的原因。
            文档列表方法根据K个训练实例(一个査询及其对应的所有搜索结果评分作为一个实 例)训练得到最优评分函数F, 对于一个新的用户査询,函数F 对每一个文档打分,之后按照得分顺序由高到低排序,就是对应的搜索结果。 所以关键问题是:拿到训练数据,如何才能训练得到最优的打分函数?

            这里介绍一种训练方法,它是基于搜索结果排列组合的概率分布情况来训练的,图4是这种方式训练过程的图解示意。

            

                                           图4 不同评分函数的KL距离

     

           首先解释下什么是搜索结果排列组合的概率分布,我们知道,对于搜索 引擎来说,用户输入査询Q, 搜索引擎返回搜索结果,我们假设搜索结果集合包含A. B 和C 3个文档,搜索引擎要对搜索结果排序,而这3个文档的顺序共有6种排列组合方式:

          ABC, ACB, BAG, BCA, CAB和CBA,

            而每种排列组合都是一种可能的搜索结果排序方法。

            对于某个评分函数F来说,对3个搜索结果文档的相关性打分,得到3个不同的相关度得分F(A)、 F(B)和F(C), 根据这3个得分就可以计算6种排列组合情况各自的概率值。 不同的评分函数,其6种搜索结果排列组合的概率分布是不一样的。
          了解了什么是搜索结果排列组合的概率分布,我们介绍如何根据训练实例找到最优的 评分函数。图4展示了一个具体的训练实例,即査询Q1及其对应的3个文档的得分情况,这个得分是由人工打上去的,所以可以看做是标准答案。可以设想存在一个最优的评分函数g,对查询Q1来说,其打分结果是:A文档得6分,B文档得4分,C文档得3分, 因为得分是人工打的,所以具体这个函数g是怎样的我们不清楚,我们的任务就是找到一 个函数,使得函数对Ql的搜索结果打分顺序和人工打分顺序尽可能相同。既然人工打分 (虚拟的函数g) 已知,那么我们可以计算函数g对应的搜索结果排列组合概率分布,其具体分布情况如图4中间的概率分布所示。假设存在两个其他函数h和f,它们的计算方法已知,对应的对3个搜索结果的打分在图上可以看到,由打分结果也可以推出每个函数对应的搜索结果排列组合概率分布,那么h与f哪个与虚拟的最优评分函数g更接近呢?一般可以用两个分布概率之间的距离远近来度量相似性,KL距离就是一种衡量概率分布差异大小的计算工具,通过分别计算h与g的差异大小及f与g的差异大小,可以看出f比h更接近的最优函数g,那么在这个函数中,我们应该优先选f作为将来搜索可用的评分函数,训练过程就是在可能的函数中寻找最接近虚拟最优函数g的那个函数作为训练结果,将来作为在搜索时的评分函数。

           上述例子只是描述了对于单个训练实例如何通过训练找到最优函数,事实上我们有K 个训练实例,虽然如此,其训练过程与上述说明是类似的,可以认为存在一个虚拟的最优 评分函数g (实际上是人工打分),训练过程就是在所有训练实例基础上,探寻所有可能的 候选函数,从中选择那个KL距离最接近于函数g的,以此作为实际使用的评分函数。 经验结果表明,基于文档列表方法

    的机器学习排序效果要好于前述两种方法。


    展开全文
  • Learning to rank(LTR,L2R)也叫排序学习,泛指机器学习中任何用户排序的技术,是指一类监督学习(Supervised Learning)排序算法。 LTR被应用在很多领域,比如信息检索(Information Retrieval)、推荐系统...

    Learning to rank(LTR,L2R)也叫排序学习,泛指机器学习中任何用户排序的技术,是指一类监督学习(Supervised Learning)排序算法。 LTR被应用在很多领域,比如信息检索(Information Retrieval)、推荐系统(Recommend System)、搜索引擎(Search Engine)。

    LTR框架

    一般来讲,根据机器学习的“四大支柱”,LTR分为三类方法:Pointwise Approach、Pairwise Approach、Listwise Approach。不同的方法通过不同的方式去训练模型,他们定义不同的输入、不同的输出、不同的假设、不同的损失函数。

    什么是机器学习的四大支柱?看下图
    机器学习的四大支柱

    LTR框架对应的则是排序模型,一个通用的LTR框架如下:

    LTR框架

    通常来说,一个训练集由nn个query组成qi(i=1,2,3...,n)q_i(i=1,2,3...,n),每一个query都会有一系列与之相关的documents(通常每个documents都有向量表示,向量内容可以是有意义的特征,也可以是embedding得出的向量)Xi={xj(i)}y=1m(i)X^i = \{ x_j^{(i)} \}_{y=1}^{m^{(i)}}m(i)m^{(i)}表示与qiq_i相关的documents个数,yy代表documents的正确标签(可能是0或者1,也能是相关度)。上图中对应的流程是:准备训练数据->特征提取->训练模型-数据预测->效果评估

    Pointwise Approach

    解释

    Pointwise是“逐样本”的训练方法,即仅考虑单个样本的得分h(xi)h(x_i)与样本的真实得分y(i)y^{(i)}的关系。

    Pointwise 将问题转化为多分类或回归问题。如果归结为多分类问题,对于某个 Query,对文档与此 Query 的相关程度打标签,标签分为有限的类别,这样就将问题转为多分类问题;如果归结为回归问题,对于某个 Query,则对文档与此 Query 的相关程度计算相关度 Score,这样就将问题归结为回归问题。

    例如,对于一组样本数据,用户一段时间内在几个商品类别下的浏览,收藏,分享,购买次数,然后label为喜好等级或是否喜欢,如下表所示(数据伪造只为了说明问题):

    用户 类别 浏览 收藏 分享 购买 喜好等级 是否喜欢
    userA 数码产品 43 8 4 2
    userB 生活用户 24 4 2 1
    userC 办公用品 12 1 4 0
    userD 衣服 25 5 1 1

    如上表所示,用户在每个类别下的行为特征有四个,喜好等级分为:高、中、低三档。然后我们可以采用机器学习中的任意一种多分类方法计算用户对物品类别的喜好等级,当然我们也可以采用二分类的方法计算用户是否喜欢这个类别,这和推荐系统中基于CTR来做物品排序和pointwise中的二分类思路是一致的。

    缺点

    • Pointwise完全从单文档的分类角度计算,没有考虑文档之间的相对顺序。而且它假设相关度是查询无关的,只要(queryyi)(query,y_i)的相关度相同,那么他们就被划分到同一个级别中,属于同一类。比如在CTR场景中构建的训练集中,所有正样本之间的相关性,Pointwise是不会考虑,同样所有的负样本之间的相关性Pointwise也是不会考虑的。
    • 损失函数中没有捕获预测排序中的位置信息,因此,损失函数可能无意的过多强调那些不重要的结果,即那些排序在后面对用户体验影响小的结果。

    Pairwise Approach

    解释

    相对Pointwise而言,Pairwise更在乎的是文档之间的顺序,他主要将排序问题归结为二元分类问题,这时候相应的机器学习算法就比较多了,比如Boost、SVM、神经网络等。对于同一query的相关文档集中,对任何两个不同label的文档,都可以得到一个训练实例(yi,yj)(y_i,y_j),如果yi>yjy_i>y_j则赋值+1,反之-1,于是我们就得到了二元分类器训练所需的训练样本了。

    Pairwise通常用在搜索系统中,系统接收到用户査询后,返回相关文档列表,所以问题的关键是确定文档之间的先后顺序关系。Pointwise方法完全从单个文档的分类得分角度计算,没有考虑文档之间的顺序关系。文档对方法将排序问题转化为多个pair的排序问题,比较不同文章的先后顺序。

    在Pairwise算法中,每个输入数据为一对具有偏序关系(preference relation)的文档,通过对这些数据对的有监督学习来获得一个排序模型,其学习目标是使得结果列表中的错误的偏序对越少越好。
    pairwise

    目前公认最为经典的三个Pairwise算法是:基于SVM的Ranking SVM算法、基于神经网络的RankNet算法和基于Boosting的RankBoost算法。

    缺点

    • 样本数据大多数为有序类别,转化成 pairwise preference 后必定会损失掉一些更细粒度的相关度标注信息。
    • 转化成 pairwise preference 后,样本数量将会增加很多倍,在进行模型训练时也会需要更大的计算资源。
    • Pairwise 类方法相对 Pointwise 类方法对噪声标注更敏感,即一个错误标注会引起多个pair 标注错误。
    • Pairwise 类方法仅考虑了pair 的相对位置,同样也没有考虑样本在预测排序中的位置信息,同时也没有考虑同一个label对应的数据的内部依赖性。

    Listwise Approach

    解释

    Pariwise和Pointwise忽视了一个事实就是答案选择就是从一系列候选句子中的预测问题,相对于 Pointwise 和 Pairwise 方法来说,它不再将排序问题转化为一个分类问题或者回归问题,而是直接针对评价指标对文档的排序结果进行优化,在listwise中单一训练样本是:query和它的所有候选回答句子。

    ListWise中常用的优化指标有:MAP、NDCG。常用的ListWise方法有:LambdaRank、AdaRank、SoftRank、LambdaMART。

    优缺点

    • 优点:相较 Pointwise、Pairwise 对 ranking 的 model 更自然,解决了 ranking 应该基于 query 和 position 问题。
    • 缺点:一些 ranking 算法需要基于排列来计算 loss,从而使得训练复杂度较高。

    Pointwise VS Pairwise

    在推荐系统领域,Pointwise的应用是比Pairwise更广的,因为效果更好,但是在搜索系统领域Pairwsie表现比Pointwise更加出色。

    在搜索系统中,搜索是带 query 的、有意识的被动推荐,对于搜索而言,相关性是及其重要的事情。query 限制了你召回商品相关性,比如 “华为手机”,召回回来一批相似性极高的手机,基于用户的主观诉求也决定了他将高度关注商品之间的细微差别,比如价格、颜色、配置等,因此这些商品才有必要比个高下。

    在推荐系统中,推荐是发散的、无意识的主动推荐,相比搜索而言,准确性不再是第一要务(想象下因为你点过一些手机给你出一整屏手机的感觉),多样性是一个必要的指标,这导致了推荐结果极其发散。用户对推荐结果多样性的诉求使得他不关注两个商品之间的比较,对于算法而言不再关注商品之间两两的比较,我只要每个都预测准了,反正最后也要打散的。而且多样性也导致了推荐场景没有像搜索一样适合做 Pairwise 的样本。

    因为虽然用的都是学习排序算法,但是在不同的场景中,算法的选择和使用还是有区别的,要因地制宜!

    这篇文章分享就到这里,如果你有不懂的可以在留言区留言,当然如果你觉得不错,可以分享给更多人!


    【技术服务】,详情点击查看: https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg

    扫一扫 关注微信公众号!号主 专注于搜索和推荐系统,尝试使用算法去更好的服务于用户,包括但不局限于机器学习,深度学习,强化学习,自然语言理解,知识图谱,还不定时分享技术,资料,思考等文章!


    展开全文
  • Learning to rank(LTR,L2R)也叫排序学习,泛指机器学习中任何用户排序的技术,是指一类监督学习(Supervised Learnin...

    Learning to rank(LTR,L2R)也叫排序学习,泛指机器学习中任何用户排序的技术,是指一类监督学习(Supervised Learning)排序算法。LTR被应用在很多领域,比如信息检索(Information Retrieval)、推荐系统(Recommend System)、搜索引擎(Search Engine)。

    LTR框架

    一般来讲,根据机器学习的“四大支柱”,LTR分为三类方法:Pointwise Approach、Pairwise Approach、Listwise Approach。不同的方法通过不同的方式去训练模型,他们定义不同的输入、不同的输出、不同的假设、不同的损失函数。

    什么是机器学习的四大支柱?看下图

    LTR框架对应的则是排序模型,一个通用的LTR框架如下:

    LTR框架

    通常来说,一个训练集由个query组成,每一个query都会有一系列与之相关的documents(通常每个documents都有向量表示,向量内容可以是有意义的特征,也可以是embedding得出的向量)表示与相关的documents个数,代表documents的正确标签(可能是0或者1,也能是相关度)。上图中对应的流程是:准备训练数据->特征提取->训练模型-数据预测->效果评估

    Pointwise Approach

    解释

    Pointwise是“逐样本”的训练方法,即仅考虑单个样本的得分与样本的真实得分的关系。

    Pointwise 将问题转化为多分类或回归问题。如果归结为多分类问题,对于某个 Query,对文档与此 Query 的相关程度打标签,标签分为有限的类别,这样就将问题转为多分类问题;如果归结为回归问题,对于某个 Query,则对文档与此 Query 的相关程度计算相关度 Score,这样就将问题归结为回归问题。

    例如,对于一组样本数据,用户一段时间内在几个商品类别下的浏览,收藏,分享,购买次数,然后label为喜好等级或是否喜欢,如下表所示(数据伪造只为了说明问题):

    用户类别浏览收藏分享购买喜好等级是否喜欢
    userA数码产品43842
    userB生活用户24421
    userC办公用品12140
    userD衣服25511

    如上表所示,用户在每个类别下的行为特征有四个,喜好等级分为:高、中、低三档。然后我们可以采用机器学习中的任意一种多分类方法计算用户对物品类别的喜好等级,当然我们也可以采用二分类的方法计算用户是否喜欢这个类别,这和推荐系统中基于CTR来做物品排序和pointwise中的二分类思路是一致的。

    缺点

    • Pointwise完全从单文档的分类角度计算,没有考虑文档之间的相对顺序。而且它假设相关度是查询无关的,只要的相关度相同,那么他们就被划分到同一个级别中,属于同一类。比如在CTR场景中构建的训练集中,所有正样本之间的相关性,Pointwise是不会考虑,同样所有的负样本之间的相关性Pointwise也是不会考虑的。

    • 损失函数中没有捕获预测排序中的位置信息,因此,损失函数可能无意的过多强调那些不重要的结果,即那些排序在后面对用户体验影响小的结果。

    Pairwise Approach

    解释

    相对Pointwise而言,Pairwise更在乎的是文档之间的顺序,他主要将排序问题归结为二元分类问题,这时候相应的机器学习算法就比较多了,比如Boost、SVM、神经网络等。对于同一query的相关文档集中,对任何两个不同label的文档,都可以得到一个训练实例,如果则赋值+1,反之-1,于是我们就得到了二元分类器训练所需的训练样本了。

    Pairwise通常用在搜索系统中,系统接收到用户査询后,返回相关文档列表,所以问题的关键是确定文档之间的先后顺序关系。Pointwise方法完全从单个文档的分类得分角度计算,没有考虑文档之间的顺序关系。文档对方法将排序问题转化为多个pair的排序问题,比较不同文章的先后顺序。

    在Pairwise算法中,每个输入数据为一对具有偏序关系(preference relation)的文档,通过对这些数据对的有监督学习来获得一个排序模型,其学习目标是使得结果列表中的错误的偏序对越少越好。

    目前公认最为经典的三个Pairwise算法是:基于SVM的Ranking SVM算法、基于神经网络的RankNet算法和基于Boosting的RankBoost算法。

    缺点

    • 样本数据大多数为有序类别,转化成 pairwise preference 后必定会损失掉一些更细粒度的相关度标注信息。

    • 转化成 pairwise preference 后,样本数量将会增加很多倍,在进行模型训练时也会需要更大的计算资源。

    • Pairwise 类方法相对 Pointwise 类方法对噪声标注更敏感,即一个错误标注会引起多个pair 标注错误。

    • Pairwise 类方法仅考虑了pair 的相对位置,同样也没有考虑样本在预测排序中的位置信息,同时也没有考虑同一个label对应的数据的内部依赖性。

    Listwise Approach

    解释

    Pariwise和Pointwise忽视了一个事实就是答案选择就是从一系列候选句子中的预测问题,相对于 Pointwise 和 Pairwise 方法来说,它不再将排序问题转化为一个分类问题或者回归问题,而是直接针对评价指标对文档的排序结果进行优化,在listwise中单一训练样本是:query和它的所有候选回答句子。

    ListWise中常用的优化指标有:MAP、NDCG。常用的ListWise方法有:LambdaRank、AdaRank、SoftRank、LambdaMART。

    优缺点

    • 优点:相较 Pointwise、Pairwise 对 ranking 的 model 更自然,解决了 ranking 应该基于 query 和 position 问题。

    • 缺点:一些 ranking 算法需要基于排列来计算 loss,从而使得训练复杂度较高。

    Pointwise VS Pairwise

    在推荐系统领域,Pointwise的应用是比Pairwise更广的,因为效果更好,但是在搜索系统领域Pairwsie表现比Pointwise更加出色。

    在搜索系统中,搜索是带 query 的、有意识的被动推荐,对于搜索而言,相关性是及其重要的事情。query 限制了你召回商品相关性,比如 “华为手机”,召回回来一批相似性极高的手机,基于用户的主观诉求也决定了他将高度关注商品之间的细微差别,比如价格、颜色、配置等,因此这些商品才有必要比个高下。

    在推荐系统中,推荐是发散的、无意识的主动推荐,相比搜索而言,准确性不再是第一要务(想象下因为你点过一些手机给你出一整屏手机的感觉),多样性是一个必要的指标,这导致了推荐结果极其发散。用户对推荐结果多样性的诉求使得他不关注两个商品之间的比较,对于算法而言不再关注商品之间两两的比较,我只要每个都预测准了,反正最后也要打散的。而且多样性也导致了推荐场景没有像搜索一样适合做 Pairwise 的样本。

    因为虽然用的都是学习排序算法,但是在不同的场景中,算法的选择和使用还是有区别的,要因地制宜!


    这篇文章分享就到这里,如果你有不懂的可以在留言区留言,当然如果你觉得不错,可以分享给更多人!

    展开全文
  • 原创:机器学习排序深入解读 上一篇文章主要介绍了查询与文档内容相似性的打分以及基于概率模型的BM25模型和如何修改lucene的排序源代码。... 机器学习排序:从 Pairwise方法到L...
  • 基于ListMLE排序学习方法机器译文自动评价研究
  • 链接分析算法之:HITS算法:HillTop算法:PageRank算法: 机器学习排序:人工标注训练数据、文档特征抽取、学习分类函数、在实际搜索系统中采用机器学习模型. 文档方法:单文档方法;文档对方法;文档列表方法
  • 从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。 第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。 第二代技术,利用互联网的超文本结构,有效地计算...
  • 机器学习排序

    2018-08-16 16:01:23
    从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。  第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。  第二代技术,利用互联网的超文本结构,有效地计算...
  • 机器学习评价方法之NRIG

    千次阅读 2015-11-17 15:53:06
    在工业界,逻辑回归是很常用的模型,一般大家在用逻辑回归做机器学习排序或者广告预估时常用AUC来判断排序的效果,逻辑回归是概率模型,除了排序的指标之外,有时会出现AUC比较好,但是概率拟合较差(很有可能是收敛...
  • 机器学习常用方法

    2014-06-11 23:24:53
    相似度分析: 欧式距离(坐标距离) 皮尔逊相关系数 非监督聚合: ...K-均值聚合(随机选聚合数量值,就近聚合) ...分词(最小词串法,统计...排序(词频,词距,PageRank,点击率-样本学习,首段出现位置,URL,M...
  • 本文首发于 vivo 互联网技术微信公众号 作者:Doug Turnbull 译者:林寿怡 ...我们将通过两种方法,对机器学习排序方法的评估有个直观的认识。 衡量搜索的好坏 目标是搜索和经典机器学习问...
  • 从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。 第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。 第二代技术,利用互联网的超文本结构,有效地计算网页...
  • 关于机器学习特征选择的方法总结

    千次阅读 2019-09-12 14:51:46
    机器学习特征选择的方法总结 1.特征选择的重要性 随着深度学习的发展, 大大缩减了特征提取和设计的任务。 不过, 特征工程依然是各种机器学习应用领域的重要组成部分。其中对于特征选择(排序)的研究对于数据科学...
  • 从一个很简单的算法实现,交叉验证检验误差,作出学习曲线。看算法是否具有高偏差或高方差问题,再考虑是否选择增加特征量或者增加样本 用实际证据来指导决策 发现误差后,手动分析误差类别,判断什么特征导致的...
  • 快速排序的主要思想是通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,最终使整个...
  • 这里没有标记颜色,可能看起来重点不突出,可以去微信页面观看这里 前面说排序的时候已经简单了说了一下排序方法,包括三部分:相关性排序,商品本身的属性排序,个性化排序,无论怎么...今天,说说如何用机器学习...
  • 读完分类与回归算法的评估指标以及排序算法的评估指标之后,你已经知道了机器学习中分类、回归以及排序算法相关的评估指标。在这篇给大家介绍一些机器学习中离线评估模型性能的一些方法。 首先需要知道的是,机器...
  • 学习排序算法(一):单文档方法 Pointwise 1. 基本思想 这样的方法主要是将搜索结果的文档变为特征向量,然后将排序问题转化成了机器学习中的常规的分类问题,并且是个多类分类问题。 2. 方法流程 ...
  • 降维方法 主成分分析(Principal Component Analysis,PCA) 因子分析(Factor Analysis) 独立成分分析(Independent Component Analysis,ICA) 主成分分析:PCA 伪代码如下 去除平均值 计算协方差矩阵 ...
  • 在不考虑特定模型方法和它们之间关系的情况下很难对独立的特征进行排序。想想一个侦探(这相当与是一个“有罪”和“清白”的分类器)只有智能地综合众多线索,排除令人迷惑的证据,才能得到正确的结论。排序和过滤...
  • 学习排序算法简单

    2015-09-08 20:13:00
    学习排序(Learning to Rank, LTR)是一类基于机器学习方法的排序算法。 传统经典的模型,比如基于TFIDF特征的VSM模型。非常难融入多种特征。也就是除了TFIDF特征之外。就无法融入其它种类的特征了。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 758
精华内容 303
关键字:

机器学习排序方法