精华内容
下载资源
问答
  • 偏差bias分析
    2022-03-02 21:33:47

    Keeping Dataset Biases out of the Simulation : A Debiased Simulator for Reinforcement Learning based Recommender Systems. (RecSys 2020)

    作者为了解决历史数据中的用户与项目之间存在的两种交互偏差:选择偏差和流行度偏差,提出在构造“用户-项目”评级矩阵之前执行去偏差的步骤。由于选择偏差和流行度偏差,导致历史记录中用户对项目的评级是有选择性的,所以依照历史数据构造的评级矩阵的稀疏性不是随机存在的,作者在模拟选择偏差时,对用户更可能喜欢的项目进行声明,使它有更高概率被用户评级,在模拟流行度偏差时,对流行度高的项目进行声明,使它有更高概率被用户评级。然后根据模拟数据拟合出用户选择某一物品的概率,再利用IPS方法对项目评级进行重要性加权以实现去偏。

    Popularity-Opportunity Bias in Collaborative Filtering (WSDM 2021)

    作者从两个角度看待流行度偏差产生的影响:对用户的影响以及对推荐项的影响。其中对用户的影响是推荐系统会优先推荐高流行度的项目,同样可能被用户所喜欢的低流行度项目被推荐的机会更少;对推荐项的影响是低流行度的推荐项会越来越不受重视,最终偏差累计会使得推荐系统被流行的项目主导。作者提出了后处理方法和内处理方法来缓解流行度偏差。后处理方法是对低流行度的项目施加补偿,给它更高的得分从而获得与高流行度项目相似的排名。内处理方法是将流行度与项目推荐解耦,利用皮尔逊相关系数的平方作为正则化项,然后通过最小化正则化项和推荐误差来降低偏差。

    Analyzing Item Popularity Bias of Music Recommender Systems: Are Different Genders Equally Affected? (RecSys 2021)

    作者为了量化研究流行度偏差的特征,提出了七种指标来度量流行度偏差:平均值、中位数、方差、偏斜度、峰态系数、KL散度、肯德尔系数。其中。平均值、中位数用于表现推荐项流行度与实际流行度的总体趋势;方差用于表示历史记录与推荐列表之间多样性的变化;偏斜度、峰态系数用于表示推荐项目与实际选择项目两种分布之间的形状差异;KL散度、肯德尔系数在量化了推荐项目与实际选择项目两种分布之间的相似程度。同时作者研究了音乐推荐系统中流行度偏差与用户特征之间的关系,结论是不同性别的用户受到流行度偏差的影响是不同的,女性用户更容易受到流行度偏差的影响。

    Diverse User Preference Elicitation with Multi-Armed Bandits. (WSDM 2021)

    作者流行度偏差会影响到推荐的多样性,因此提出了一种基于Multi-armed Bandit的方法同时提高项目多样性和主题多样性。该方法对每个用户独立运行一个Bandit,然后对可能存在的主题各用一个Arm控制,每次迭代时选择值最高的一个Arm所控制的主题,将该主题内包含的所有项根据与当前用户偏好的多样性进行降序排序,再从排序后的项目列表中选择推荐项,作者称为引出项。由于引出项本身可能同时属于多个主题,所以该方法同时保证了主题多样性和项目多样性。

    更多相关内容
  • 偏差bias与方差variance

    2018-08-31 19:54:21
    学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise)....偏差bias:期望输出与真实标记的差别称为偏差。方差variance:不同的训练数据集...

    目录

    1 含义

    1.1 偏差

    1.2 偏差和方差

    2 期望泛化误差公式推导

    3 权衡偏差与方差:

    4 解决高偏差与高方差

    参考


    学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance)噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).

    1 含义

    1.1 偏差

            偏差又称为表观误差,是指个别测定值与测定的平均值之差,它可以用来衡量测定结果的精密度高低。在统计学中,偏差可以用于两个不同的概念,即有偏采样与有偏估计。一个有偏采样是对总样本集非平等采样,而一个有偏估计则是指高估或低估要估计的量 。

            偏差公式:

              

            在统计学中常用来判定测量值是否为坏值。精密度是指一样品多次平行测定结果之间的符合程度,用偏差表示。偏差越小,说明测定结果精密度越高。

           (测量数据服从正态分布)根据正态分布我们知道,测量值范围在 概率为0.6827。在概率是0.997。也就是说,如果测量值的范围不在之上,那么可以判定它是坏值,应当舍去。(x表示测量的平均值,σ表示偏差)

            右边公式说明:表示标准误差估算值,也相当于标准误差

            偏差系数:

            标准差与变量及期望值的大小有关,项目比较时,若某一项目的期望值及标准差均比其他项目大,不能简单地认为标准差大的项目风险就一定大,还应进一步用两者的相对指标进行分析和比较,该相对指标即偏差系数。

            偏差分绝对偏差相对偏差标准偏差相对平均偏差来表示。

    1. 绝对偏差:是指某一次测量值与平均值的差异。

    2. 相对偏差:是指某一次测量的绝对偏差占平均值的百分比。

    3.标准偏差:是指统计结果在某一个时段内误差上下波动的幅度。统计学名词。一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。

    4.平均偏差:是指单项测定值与平均值的偏差(取绝对值)之和,除以测定次数。

    5.相对平均偏差:是指平均偏差占平均值的百分率。平均偏差和相对平均偏差都是正值。

    偏差与误差

            误差测量值真值之间的差值。用误差衡量测量结果的准确度,用偏差衡量测量结果的精密度;误差是以真实值为标准,偏差是以多次测量结果的平均值为标准。

            误差与偏差的含义不同,必须加以区别。但是由于在一般情况下,真实值是不知道的(测量的目的就是为了测得真实值),因此处理实际问题时常常在尽量减小系统误差的前提下,把多次平行测量值当作真实值,把偏差当作误差

    1.2 偏差和方差

    • 偏差bias:期望输出真实标记的差别称为偏差。 是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。 偏差通常是由于我们对学习算法做了错误的假设所导致的, 比如真实模型是某个二次函数, 但我们假设模型是一次函数。由偏差带来的误差通常在训练误差上就能体现出来。
    • 方差variance:训练集D上学得模型 f 在x上的预测输出f(x;D)学习算法的期望预测f¯(x)的差别,即由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的方差。不同的训练数据集训练出的模型的输出值之间的差异,它表示了模型的稳定程度。比如,要预测一个给定点的值,用n份有差异的数据集训练,训练了n个模型,结果这n个模型对该点的预测值的差异浮动很大,此时该模型的variance就偏高了。方差通常是由于模型的复杂度相对于训练样本数m过高导致的, 比如一共有100个训练样本, 而我们假设模型是阶数不大于200的多项式函数。 由方差带来的误差通常体现在测试误差相对于训练误差的增量上。

    假设红色的靶心区域是学习算法完美的正确预测值, 蓝色点为每个数据集所训练出的模型对样本的预测值, 当我们从靶心逐渐向外移动时, 预测效果逐渐变差。

    很容易看出有两副图中蓝色点比较集中, 另外两幅中比较分散, 它们描述的是方差的两种情况. 比较集中的属于方差小的, 比较分散的属于方差大的情况。

    再从蓝色点与红色靶心区域的位置关系, 靠近红色靶心的属于偏差较小的情况, 远离靶心的属于偏差较大的情况。

    解释:

     左上(图1):是一种低偏差低方差模型。表现出来就是,模型的预测效果很好,并且模型比较健壮(稳定)。

     右上(图2):是一种低偏差高方差模型。表现出来就是,模型的预测效果很好,但是模型不稳定,预测结果比较发散。  

    左下(图3):是一种高偏差低方差模型。表现出来就是,模型的预测效果不好,但是模型比较健壮(稳定),预测结果比较集中。

     右下(图4):是一种高偏差高方差模型。表现出来就是,模型的预测效果不好,并且模型不稳定。

    小结:  

    偏差,是描述数据跟我们的期望的偏差,算是“有监督的”,需要人的知识参与的指标。

    方差,是描述数据分散程度的,算是“无监督的”客观的指标;

    2 期望泛化误差公式推导

    有了直观感受以后, 下面来用公式推导泛化误差与偏差与方差, 噪声之间的关系.

    符号涵义
    x测试样本
    D数据集
    yDx 在数据集中的标记
    yx 的真实标记
    f训练集 D 学得的模型
    f(x;D)由训练集 D 学得的模型 f 对 x 的预测输出
    f¯(x)模型 f 对 x 的 期望预测 输出

    (1)泛化误差

    以回归任务为例, 学习算法的平方预测误差期望为:

    (2)偏差

    期望预测与真实标记的误差称为偏差(bias), 为了方便起见, 我们直接取偏差的平方:

    (3)方差

    在一个训练集 D上模型 f 对测试样本 x 的预测输出为 f(x;D), 那么学习算法 f 对测试样本 x 的 期望预测 为:

    上面的期望预测也就是针对 不同 数据集 D, f 对 x 的预测值取其期望, 也被叫做 average predicted 。

    使用样本数相同的不同训练集产生的方差为:

    (4)噪声

    噪声为真实标记与数据集中的实际标记间的偏差:

    (5)对算法的期望泛化误差进行分解:

    蓝色部分是对上面对应的等价替换, 然后对其展开后;红色部分刚好为 0。

    第一个红色部分是因为第二个红色部分是因为噪声期望为0。

    对最终的推导结果稍作整理:

    即:期望泛化误差=偏差^2+方差+固有噪音

    • 偏差.

      偏差度量了学习算法的期望预测与真实结果的偏离程序, 即 刻画了学习算法本身的拟合能力 .

    • 方差.

      方差度量了同样大小的训练集的变动所导致的学习性能的变化, 即 刻画了数据扰动所造成的影响 .

    • 噪声.

      噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即 刻画了学习问题本身的难度 . 巧妇难为无米之炊, 给一堆很差的食材, 要想做出一顿美味, 肯定是很有难度的.

    我们训练模型的最终目标,是降低模型的泛化误差,方差variance强调了模型的泛化能力,偏差bias强调了模型的误差能力。如果一个模型variance和bias都很低,它就能获得较低的泛化误差。 

    • 给定一个学习任务, 在训练初期, 由于训练不足, 学习器的拟合能力不够强, 偏差比较大, 也是由于拟合能力不强, 数据集的扰动也无法使学习器产生显著变化, 也就是欠拟合的情况;

    • 随着训练程度的加深, 学习器的拟合能力逐渐增强, 训练数据的扰动也能够渐渐被学习器学到;

    • 充分训练后, 学习器的拟合能力已非常强, 训练数据的轻微扰动都会导致学习器发生显著变化, 当训练数据自身的、非全局的特性被学习器学到了, 则将发生过拟合.

      许多模型在设计的时候,都强调避免过拟合,像普遍存在的正则项。在ensemble类模型中,随机森林基于bagging方法,通过样本采样和特征采样,使得每颗树都各有特色。gbdt基于boosting方法,在每一轮训练,通过拟合残差,也训练出了各有特色的树。这些方式在保证bias的基础上,使得模型具有良好的泛化能力。

    3 权衡偏差与方差:

    模型过于简单时,容易发生欠拟合(high bias);模型过于复杂时,又容易发生过拟合(high variance)。为了达到一个合理的 bias-variance 的平衡,此时需要对模型进行认真地评估。这里简单介绍一个有用的cross-validation技术K-fold Cross Validation (K折交叉验证), 

    所谓的泛化误差也即模型在新数据集上的表现。在训练数据上面,我们可以进行交叉验证(Cross-Validation)。 
    K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,我们便可获得 k 个模型及其性能评价。平均K次的结果或者使用其它结合方式,最终得到一个单一估测。

    k-fold cv的k的选择:

    K值大的时候, 我们会有更少的Bias(偏差), 更多的方差Variance。 
    K值小的时候, 我们会有更多的Bias(偏差), 更少的方差Variance

    通常把k控制在5~10的范围里。

     k=10 时的 k-fold 方法的工作流程:

    bias-variance判断:

    根据错误均值判断bias,如果错误均值很低,说明在这个数据集上,该模型准确度是可以的。 
    根据错误标准差来判断variance,如果错误标准差很高,说明该模型的泛化能力需要提高。

    4 解决高偏差与高方差

    高偏差:训练误差很大,训练误差与测试误差差距小,随着样本数据增多,训练误差增大。解决方法:

    1.寻找更好的特征(具有代表性的)

    2.用更多的特征(增大输入向量的维度)

    高方差:过拟合,模型过于复杂,训练误差小,训练误差与测试误差差距大,可以通过增大样本集合来减小差距。随着样本数据增多,测试误差会减小。解决方案:

    1.增大数据集合(使用更多的数据)

    2.减少数据特征(减小数据维度)

    参考

    Bias-Variance Tradeoff(权衡偏差与方差)_风先生的日常专栏-CSDN博客

    展开全文
  • 一文读懂 Bias偏差)、Error(误差)、Variance(方差) 偏差 偏差度量了学习算法的期望预期与真实结果的偏离程度 ,即刻画了学习算法本身的拟合能力。偏差太高,就会出现欠拟合,即与真实结果偏离很大。但如果...

    一文读懂 Bias(偏差)、Error(误差)、Variance(方差)

    偏差

    偏差度量了学习算法的期望预期与真实结果的偏离程度 ,即刻画了学习算法本身的拟合能力。偏差太高,就会出现欠拟合,即与真实结果偏离很大。但如果偏差太高,可能会出现过拟合,结合一下前面的图片,因为我们的数据集并不是整体的数据集,可能数据集本身就不准确,所以如果你仅仅在当当前数据集做到很好,可能对于新的数据就会表现很差。

    如何降低偏差

    • 增加算法的复杂度,比如神经网络中的神经元个数或者层数,增加决策树中的分支和层数等。不过增加模型复杂度可能会导致方差(variance)的增加,如果有必要,需要添加正则化项来惩罚模型的复杂度(降低方差);
    • 优化输入的特征,检查特征工程中是否遗漏掉具有预测意义的特征。增加更多的特征也许能同时改善方差(variance)和偏差(bias),不过理论上来说,特征越多方差(variance)也就越大(可能又需要正则化);
    • 削弱或者去除已有的正则化约束(L1 正则化,L2 正则化,dropout 等),不过有增加方差的风险;
    • 调整模型结构,比如神经网络的结构;

    方差

    方差反映了算法在不同样本下模型预测的稳定性 ,通过在多个同样大小的训练集上不断学习可以得到方差。如果模型在多个样本下的训练误差(经验损失)“抖动”比较厉害,则有可能是样本有问题。

    如何降低方差

    • 扩大训练样本,样本太小(代表性不够)是方差大的首要原因,增加样本是减少方差最简单有效的方式;
    • 增加正则化约束(比如 L1 正则化,L2 正则化,dropout 等),正则化降低方差的同时也可能增大偏差;
    • 筛选输入的特征(feature selection),这样输入的特征变少后,方差也会减小;
    • 降低算法模型复杂度,比如对决策树的剪枝、减少神经网络的层数等;

    优化模型的结构有时候也会有用

    噪声

    噪声是一种不可控的错误,很难避免,被称为不可约偏差(irreducible error) ,即噪声无法通过模型来消除。噪声通常是出现在“数据采集”的过程中的,且具有随机性和不可控性,比如采集用户数据的时候仪器产生的随机性偏差、人工标注时的错误或者在实验中受到其他不可控因素的干扰等。

    如何降低噪音

    这个没办法,你要从别处找原因

    误差

    偏差分为训练偏差测试偏差泛化偏差 。其中要重点理解泛化误差。

    训练误差(training error)是指,模型在训练数据集 上计算得到的误差,测试误差是在测试集上 得到的误差。泛化误差(generalization error)是指,如果所有的数据来自一个整体,模型在这个整体上的误差 ,是一种期望的理想情况,往往会与测试误差有些偏差。

    泛化误差

    泛化是指算法模型能够在从未学习过的数据上实现较低的损失,衡量一个算法模型是否优秀的指标就是其泛化能力 ,即根据从样本数据中学习到的规则能够应用到新数据的能力,泛化能力由泛化误差 来体现。

    由于条件的限制和知识的限制,我们往往无法获取所有的数据,通常说来,测试误差的平均值或期望 就是泛化误差。

    泛化误差与偏差、方差的关系

    泛化误差=偏差 + 方差 + 噪声。通常情况下,噪声无法人为控制,准确的说无法通过模型来消除,所以通常我们认为泛化误差受偏差和方差影响。减小泛化误差就要从偏差和方差两方面均衡考虑。

    如何降低误差

    降低了方差和偏差,误差自然就下来了。

    偏差、方差、误差的总结

    先看这张图:

    如果把训练模型比喻为用枪打靶,那我们的目标肯定是枪枪正中靶心,又稳又准。偏差决定了打的准不准,方差决定了打的稳不稳。准就是说我们能不能打中靶心,稳就是说我们要一梭子下来能不能集中在一个小区域内(玩过枪战游戏的同学一定可以理解)。噪音可以理解为你靶本身出问题了。

    我们的目标虽然是又稳又准,但也不要走极端,因为真正的数据是未知的。如果偏差太小,每枪都精准命中一个点,就太极端了,真实数据的靶心可能并不在这里。如果方差太高,稳定性很差,就成了散弹枪。

    总结一下:

    low bias and low variance:又准又稳
    low bias and high variance: 准但不稳
    high bias and low variance:不准但稳
    high bias and high variance:不准又不稳

    算法的偏差与方差的特性

    线性或者参数化的算法一般具有高偏差(bias)低方差(variance)的特点,比如线性回归,线性判别分析(Linear Discriminant Analysis),Logistic 回归等线性模型。

    非线性或者非参数化的算法则常表现出低偏差(bias)高方差(variance),比如决策树,KNN,SVM。

    模型与偏差、方差、误差的关系

    一般来说,模型越复杂,偏差越小,但这时也就出现了过拟合;但方差却会越大,因为模型只对个别样本拟合到了机制,对其他样本数据稳定性很差。我们要做的就是在二者直接找到一个平衡,从而获得最优的泛化误差。

    参考文章

    机器学习中的 Bias(偏差)、Error(误差)、Variance(方差)有什么区别和联系

    泛化误差(generalisation error),偏差(bias),方差(variance)

    机器学习:算法中的泛化误差、偏差、方差、噪声的理解(超详细)

    展开全文
  • 数据偏差2.1. 选择偏差 Selection Bias2.2. 一致性偏差 Conformity Bias2.3. 曝光偏差 Exposure Bias2.4. 位置偏差 Position Bias (隐式反馈数据)3. 模型偏差3.1. 归纳偏差 Inductive Bias4. 推荐结果的偏差与不...

    1. 偏差分析

    (1) Bias-Variance Decomposition for Ranking. WSDM 2021;

    (2) Transfer Learning in Collaborative Recommendation for Bias Reduction. RecSys 2021;
    code: https://csse.szu.edu.cn/staff/panwk/publications/TJR/ .

    2. 数据偏差

    2.1. 选择偏差 Selection Bias

    用户的显式反馈往往很稀疏,并且只有点击的样本才可能有显式反馈。假如用户对样本的反馈是打分,当用户点击样本时,意味着用户已经比较喜欢该样本了,因此打分可能偏高,若不合预期,打分也可能偏低,此时用户的反馈存在选择偏差。这部分观测数据打分的分布,和全体样本的打分分布是有较大差异的,相当于采样不随机,不能很好预估总体。

    (1) Measuring and Mitigating Item Under-Recommendation Bias in Personalized Ranking Systems. SIGIR 2020;

    (2) E-commerce Recommendation with Weighted Expected Utility. CIKM 2020;
    code: https://github.com/zhichaoxu-shufe/E-commerce-Rec-with-WEU.

    (3) Combating Selection Biases in Recommender Systems with a Few Unbiased Ratings. WSDM 2021;

    (4) Non-Clicks Mean Irrelevant Propensity Ratio Scoring As a Correction. WSDM 2021;

    (5) Mitigating Confounding Bias in Recommendation via Information Bottleneck. RecSys 2021;
    code: https://github.com/dgliu/RecSys21_DIB .

    (6) Pessimistic Reward Models for Off-Policy Learning in Recommendation. RecSys 2021.

    2.2. 一致性偏差 Conformity Bias

    人是社会性动物,在推荐系统中也是如此。同样以打分为例,用户的评分很容易受大众/朋友的影响,大家都说好的电影,可能你觉得没那么好,但由于不想那么突出,因此也选择从众。这就导致样本数据无法反映用户真实的偏好。

    (1) Debiasing Item-to-Item Recommendations With Small Annotated Datasets. RecSys 2020;
    code: https://github.com/microsoft/debiasing-item2item .

    2.3. 曝光偏差 Exposure Bias

    相对于全量索引,推荐系统返回的结果是极其有限的,用户的反馈也只是在这部分曝光样本上产生,对于更多未曝光的样本,由于缺少反馈数据,导致模型无法很好学习未曝光数据的分布。模型训练时是在曝光样本空间,但是预估时是全量样本空间,这就导致曝光偏差。曝光偏差对于新物品不太友好,模型容易对旧物品打高分。

    (1) Unbiased Learning for the Causal Effect of Recommendation. RecSys 2020;
    code: https://www.dunnhumby.com/source-files/.

    (2) Debiased Explainable Pairwise Ranking from Implicit Feedback. RecSys 2021;
    code: https://github.com/KhalilDMK/EBPR .

    (3) Top-K Contextual Bandits with Equity of Exposure. RecSys 2021;
    code: https://github.com/deezer/carousel_bandits .

    2.4. 位置偏差 Position Bias

    推荐物品的位置也会影响用户的点击率。出于对平台推荐内容的信任,以及用户的使用习惯,位置靠前的视频,往往更容易被点击,但并不代表用户真的喜欢。

    (1) Attribute-based Propensity for Unbiased Learning in Recommender Systems Algorithm and Case Studies. KDD 2020;

    (2) Unbiased Ad Click Prediction for Position-aware Advertising Systems. RecSys 2020;

    (3) Unbiased Learning to Rank in Feeds Recommendation. WSDM 2021;
    code: https://github.com/flamewei123/Unbaised-LTR-in-Feeds-Recommendation-WSDM21 .

    (4) Cross-Positional Attention for Debiasing Clicks. WWW 2021;

    3. 模型偏差

    3.1. 归纳偏差 Inductive Bias

    归纳偏差来源于模型,定义模型时为了简化问题会人为增加假设,在预测时可能产生泛化误差。

    (1) A General Knowledge Distillation Framework for Counterfactual Recommendation via Uniform Data. SIGIR 2020;
    code: https://github.com/dgliu/SIGIR20_KDCRec .

    (2) Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions. KDD 2020;
    code: https://github.com/spotify-research/RIPS_KDD2020 .

    4. 推荐结果的偏差与不公平性

    4.1. 流行度偏差 Popularity Bias

    即长尾效应。通常推荐系统分发内容中,头部曝光现象严重,导致样本分布不均匀。热门样本数量更多,这也导致模型倾向给热门样本打高分,分发频率远超其他。通常会对热门样本进行降采样,缓解长尾效应。

    (1) Keeping Dataset Biases out of the Simulation : A Debiased Simulator for Reinforcement Learning based Recommender Systems. RecSys 2020;
    code: https://github.com/BetsyHJ/SOFA .

    (2) Popularity-Opportunity Bias in Collaborative Filtering. WSDM 2021;

    (3) Diverse User Preference Elicitation with Multi-Armed Bandits. WSDM 2021;

    (4) ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation. RecSys 2021;
    code: https://github.com/aravindsankar28/ProtoCF .

    (5) Analyzing Item Popularity Bias of Music Recommender Systems: Are Different Genders Equally Affected? RecSys 2021;

    (6) The Idiosyncratic Effects of Adversarial Training on Bias in Personalized Recommendation Learning. RecSys 2021;
    code: https://github.com/sisinflab/The-Idiosyncratic-Effects-of-Adversarial-Training .

    (7) Biases in Recommendation System. RecSys 2021;

    4.2. 偏见 Unfairness (用户偏差 User Bias)

    人工智能的伦理问题近年来热度也比较高,例如模型在人种、性别、年龄方面存在歧视,本质上是样本不均匀导致。推荐系统的偏见来源于数据,数据不够多样不够充分,导致模型无法学习充分,在预估时产生了偏见。

    (1) Debiasing Career Recommendations with Neural Fair Collaborative Filtering. WWW 2021;
    code: https://github.com/rashid-islam/nfcf .

    (2) User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms. RecSys 2021;

    (3) Measuring and Mitigating Bias and Harm in Personalized Advertising. RecSys 2021;

    (4) I Want to Break Free! Recommending Friends from Outside the Echo Chamber. RecSys 2021;

    (5) Leave No User Behind Towards Improving the Utility of Recommender Systems for Non-mainstream Users. WSDM 2021;
    code: https://github.com/roger-zhe-li/wsdm21-mainstream .

    5. 论文下载

    以上所有提到的论文都可以在 2020-2021顶会关于推荐系统中的解决偏差(bias)问题的文献汇总.zip 中下载到。

    展开全文
  • 偏差(bias)、方差(variance)和噪音(noise)

    千次阅读 2020-11-30 23:26:03
    偏差、方差、噪音的定义如下: 偏差(bias)度量了预测模型 g(x)g(x)g(x)的期望与真实模型 f(x)f(x)f(x)的偏离程度,即 gˉ(x)−f(x)\bar{g}(\boldsymbol{x}) - f(\boldsymbol{x})gˉ​(x)−f(x) 方差(variance)则度量...
  • 我们利用机器学习模型对测试数据或生产数据做预测,误差(也就是泛化误差)是无法避免的,而偏差和方差就是分析误差的一种有效的工具,另外,理解它们对于模型调参也起着指导性的作用。 在介绍机器学习模型的偏差和...
  • 从经验上和理论上讲,我们表明,由于 Lasso 没有选择相关控件,这些方法可能会表现出大量的遗漏变量偏差 (OVB)。 这种现象可能是系统性的,即使在系数非常稀疏且样本量很大且大于对照数时也会发生。 有趣的是,我们...
  • 01 幸存者偏差概念的本质是什么? 用统计学的专业术语来解释是——“选择偏倚”,即我们在进行统计的时候忽略了样本的随机性和全面性,用局部样本代替了总体随机样本,从而对总体的描述出现偏倚。 统计学的简单描述...
  • \textbf{真实错误 = 偏差 + 方差 + 噪声。} 真实错误  =  偏差  +  方差  +  噪声。 关于方差和期望的基本结论: E [ X 2 ] = ( E [ X ] ) 2 + V a r [ X ] E ( X Y ) = E ( X ) E ( Y ) + C o v ( X , Y )...
  • 方法我们设计并进行了三项实证研究,以测量,分析和解决跨公司数据集中的局部偏差,其中包括:(1)定义一种用于测量与整个数据集中的单个组织数据子集相关联的局部偏差的方法; (2)分析局部偏差对估计模型性能的...
  • 回归和偏差方差 通过观察相对于拟合(多项式的阶数)的偏差和方差,对数据集执行多项式回归。
  • 偏差-方差分解(Bias-Variance Decomposition)就是用来指导和分析这种情况的工具。 偏差和方差定义 偏差Bias):即预测数据偏离真实数据的情况。 方差(Variance):描述的是随机变量的离散程度,即随机变量在...
  • 1.误差分析Bias and Variance) 当我们以非常复杂的模型去进行测试的时候,可能得到的结果并不理想 影响结果的主要有两个因素:Bias 偏差、Variance 方差 Bias 偏差 在这里,我们定义偏差是指与目标结果的...
  • Bias偏差 and Variance方差 以下内容依照原文有修改一些, 加上一些自己的理解让初学更好去记忆 中间有夹杂原文与中文,是想说这些专有的名词最好也要熟悉, 毕竟论文都还是以英文为主的, 有时候英语确实能更直观的...
  • 文章目录 我们可以直接做实验,拿到一个具体的精度,以及训练过程的...本文所说的这个分解方法就是要在理论上去分析一下,到底泛化误差由什么组成,由哪些因素影响。我个人觉得这个理论分析法的贡献是非常非常大。 ...
  • bias和variance分析

    千次阅读 2019-06-14 10:06:45
    文献中bias和varience常常出现,特别做一次对比分析: 联想记忆 bias短,对应下图的直线长度也短,就是欠拟合,也就是偏差太高。 variance长,对应下图的曲线长度特别长,就是过拟合,也就是方差太高。 ...
  • 作者:Jason Brownlee翻译:吴振东校对:车前子本文约3800字,建议阅读8分钟。本文为你讲解模型偏差、方差和偏差-方差权衡的定义及联系,并教你用Python来计算。衡量一个机...
  • 1.前言:为什么我们要关心模型的bias和variance?  大家平常在使用机器学习算法训练模型时,都会划分出测试集,用来测试模型的准确率,以此评估训练出模型的好坏。但是,仅在一份测试集上测试,存在偶然性,测试...
  • 偏差,方差(Bias /Variance) 假设这就是数据集,如果给这个数据集拟合一条直线,可能得到一个逻辑回归拟合,但它并不能很好地拟合该数据,这是高偏差(high bias)的情况,我们称为“欠拟合”(underfitting)...
  • Bias和Variance是针对Generalization(泛化、一般化)来说的。在机器学习中,我们用训练数据集学习一个模型,我们通常会定义一个损失函数(Loss Function),然后将这个Loss(或者叫error)的最小化过程,来提高模型...
  • 【机器学习】偏差-方差分解Bias-variance Decomposition

    万次阅读 多人点赞 2018-08-28 11:52:16
    Bias-variance分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习算法的期望误差分解为三个非负项的和,即样本真实噪音noise、bias和 variance。 noise 样本真实...
  • 我们发现,在不考虑此变化的情况下,根据汇总(每日)数据估算随机效用模型会导致系统上有偏差的估算-具体来说,广告排名对点击率(CTR)的影响会减弱,而预测的CTR会高于实际点击率我们通过分析证明了偏差的存在,...
  • 看下Low Bias这一行,命中红心的次数很多对不对,说明你还是有准头的,至少偏差不算大,我要是裁判,我就不管你没射中几只箭飘到哪去了(方差大,不集中),毕竟我看的是命中了多少(准确度),而High Bias这一行,明显...
  • 补充:幸存者偏差(survivorship bias) 总第171篇/张俊红 今天给大家介绍一下数据分析中常见的两种偏差:选择性偏差和幸存者偏差。 1.选择性偏差 选择性偏差指的是在研究过程中因样本选择的非随机...
  • 数据偏差分析示例Between the 16th and 19th centuries, in Western Europe, tens of thousands of women were executed during witch-hunts. Due to the difficult nature of identifying witches, special tests ...
  • 阅读性别偏见通过在推荐信和评价信中查明潜在的性别偏见来促进性别平等自动校正偏差评估中隐含的性别偏见对妇女在职业生涯的每个阶段都产生了负面影响。 该项目的目标是创建一个基于Web的文本分析工具,该工具可以...
  • 您会雇用谁? ## Meritocracies取决于理性的评估。 问题是,人类确实很不擅长此事。 我们所有人都有无意识的偏见-我们偏爱在经济,社会... 分析屏幕将突出显示在没有该信息的情况下性能更好的配置文件,即偏差的迹象。
  • Causal Intervention for Leveraging Popularity Bias in Recommendation https://arxiv.org/pdf/2105.06067.pdf 背景 本文所提方法针对召回阶段所用方法。之前的工作考虑的是如何缓解流行偏差带来的问题,包括IPS...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,786
精华内容 3,114
热门标签
关键字:

偏差bias分析