精华内容
下载资源
问答
  • 类别不平衡

    2020-03-02 13:23:01
    类别不平衡产生原因? 类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数目差别很大的情况。 产生原因: 通常分类学习算法都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目...

    类别不平衡产生原因?

    类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数目差别很大的情况。

    产生原因:

    通常分类学习算法都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目差别很大,则会影响学习结果,测试结果变差。例如二分类问题中有998个反例,正例有2个,那学习方法只需返回一个永远将新样本预测为反例的分类器,就能达到99.8%的精度;然而这样的分类器没有价值。

    常见的类别不平衡问题解决方法

    http://blog.csdn.net/u013829973/article/details/77675147

      防止类别不平衡对学习造成的影响,在构建分类模型之前,需要对分类不平衡性问题进行处理。主要解决方法有:

    1、扩大数据集

    增加包含小类样本数据的数据,更多的数据能得到更多的分布信息。

    2、对大类数据欠采样

    减少大类数据样本个数,使与小样本个数接近。 缺点:欠采样操作时若随机丢弃大类样本,可能会丢失重要信息。 代表算法:EasyEnsemble。利用集成学习机制,将大类划分为若干个集合供不同的学习器使用。相当于对每个学习器都进行了欠采样,但在全局来看却不会丢失重要信息。

    3、对小类数据过采样

    过采样:对小类的数据样本进行采样来增加小类的数据样本个数。

    代表算法:SMOTE和ADASYN。

    SMOTE:通过对训练集中的小类数据进行插值来产生额外的小类样本数据。

    新的少数类样本产生的策略:对每个少数类样本a,在a的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。 ADASYN:根据学习难度的不同,对不同的少数类别的样本使用加权分布,对于难以学习的少数类的样本,产生更多的综合数据。 通过减少类不平衡引入的偏差和将分类决策边界自适应地转移到困难的样本两种手段,改善了数据分布。

    4、使用新评价指标

    如果当前评价指标不适用,则应寻找其他具有说服力的评价指标。比如准确度这个评价指标在类别不均衡的分类任务中并不适用,甚至进行误导。因此在类别不均衡分类任务中,需要使用更有说服力的评价指标来对分类器进行评价。

    5、选择新算法

    不同的算法适用于不同的任务与数据,应该使用不同的算法进行比较。

    6、数据代价加权

    例如当分类任务是识别小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,从而使得分类器将重点集中在小类样本身上。

    7、转化问题思考角度

    例如在分类问题时,把小类的样本作为异常点,将问题转化为异常点检测或变化趋势检测问题。 异常点检测即是对那些罕见事件进行识别。变化趋势检测区别于异常点检测在于其通过检测不寻常的变化趋势来识别。

    8、将问题细化分析

    对问题进行分析与挖掘,将问题划分成多个更小的问题,看这些小问题是否更容易解决。

    展开全文
  • 类别不平衡问题

    2021-02-25 15:56:45
    详解类别不平衡问题 卢总-类别不平衡问题的方法汇总 文章目录从多数类别中删除数据(ENN、Tomeklink、NearMiss)ENNNearMiss为少数类生成新样本(SMOTE、Borderline-SMOTE、ADASYN)集成方法EasyEnsemble算法...

    详解类别不平衡问题

    卢总-类别不平衡问题的方法汇总

    从多数类别中删除数据(ENN、Tomeklink、NearMiss)

    ENN

    NearMiss

    非均衡数据处理–如何学习?

    为少数类生成新样本(SMOTE、Borderline-SMOTE、ADASYN)

    • Borderline-SMOTE

    在这里插入图片描述

    集成方法

    随机降采样 + Bagging是万金油。

    EasyEnsemble算法

    属于bagging

    在这里插入图片描述
    在这里插入图片描述

    BalanceCascade算法

    • 使用之前已经形成的集成分类器为下次寻来呢选择多类样本

    假阳性率是auc的横轴

    在这里插入图片描述

    算法层面

    目标检测小tricks–样本不均衡处理

    Focal Loss — 从直觉到实现

    对于不平衡样本导致样本数目较少的类别”欠学习“这一现象,一个很自然的解决办法是增加小样本错分的惩罚代价,并将此代价直接体现在目标函数里。这就是代价敏感的方法,这样就可以通过优化目标函数调整模型在小样本上的注意力。算法层面处理不平衡样本问题的方法也多从代价敏感的角度出发。

    在线困难样本挖掘 OHEM

    pass

    Focal Loss 损失函数的权重调整

    Focal Loss — 从直觉到实现

    • 类别权重:少数类获得更大的权重
    • 难度权重:更专注于比较困难的样本

    在这里插入图片描述

    在这里插入图片描述

    阈值移动

    阈值移动主要是用到“再缩放”的思想,以线性模型为例介绍“再缩放”。

    我们把大于0.5判为正类,小于0.5判为负类,即若y1y>1\frac{y}{1-y}>1则预测为正例。

    在这里插入图片描述

    可令y1y=y1y×mm+\frac{y}{1-y}=\frac{y}{1-y}\times \frac{m^-}{m^+}然后带入上式。这就是再缩放

    阈值移动方法是使用原始训练集训练好分类器,而在预测时加入再缩放的思想,用来缓解类别不平衡的方法。

    评价指标

    如果采用ROC曲线来作为评价指标,很容易因为AUC值高,而忽略了少数类样本的实际分类效果其实并不理想的情况。

    可以使用聚焦于正例的PR曲线、F1值等;

    precision的假设是分类器的阈值是0.5,因此如果使用precision,请注意调整分类阈值。相比之下,precision@n更有意义。

    展开全文
  • 类别不平衡分类

    2012-10-31 08:32:46
    类别不平衡分类问题分析,数据挖掘方面内容
  • 类别不平衡问题,你了解了吗?作者&编辑 | 郭冰洋1 简介小伙伴们在利用公共数据集动手搭建图像分类模型时,有没有注意到这样一个问题呢——每个数据集不同类别的样本数目几乎都是一样的。这是因为不同类别的样例...

    类别不平衡问题,你了解了吗?

    作者&编辑 | 郭冰洋

    1 简介

    小伙伴们在利用公共数据集动手搭建图像分类模型时,有没有注意到这样一个问题呢——每个数据集不同类别的样本数目几乎都是一样的。这是因为不同类别的样例数目差异较小,对分类器的性能影响不大,可以在避免其他因素的影响下,充分反映分类模型的性能。反之,如果类别间的样例数目相差过大,会对学习过程造成一定的影响,从而导致分类模型的性能变差。这就是本篇文章将要讨论的类别不平衡问题(Class Imbalance)。

    类别不平衡是指分类任务中不同类别的训练样本数目相差较大的情况,通常是由于样本较难采集或样本示例较少而引起的,经常出现在疾病类别诊断、欺诈类型判别等任务中。

    尽管在传统机器学习领域内,有关类别不平衡的问题已经得到了详尽的研究,但在深度学习领域内,其相关探索随着深度学习的发展,经历了一个先抑后扬的过程。

    在反向传播算法诞生初期,有关深度学习的研究尚未成熟,但仍有相关科研人员研究过类别样例的数目对梯度传播的影响,并得出样例数目较多的类别在反向传播时对权重占主导地位。这一现象会使网络训练初期,快速的降低数目较多类别的错误率,但随着训练的迭代次数增加,数目较少类的错误率会随之上升[1]。

    随后的十余年里,由于深度学习受到计算资源的限制、数据集采集的难度较大等影响,相关研究并没有得到进一步的探索,直到近年来才大放异,而深度学习领域内的类别不平衡问题,也得到了更加深入的研究。

    本篇文章将对目前涉及到的相关解决方案进行汇总,共分为数据层面、算法层面、数据和算法混合层面三个方面,仅列举具有代表性的方案阐述,以供读者参考。

    2 方法汇总

    1、基于数据层面的方法

    基于数据层面的方法主要对参与训练的数据集进行相应的处理,以减少类别不平衡带来的影响。

    Hensman等[2]提出了提升样本(over sampling)的方法,即对于类别数目较少的类别,从中随机选择一些图片进行复制并添加至该类别包含的图像内,直到这个类别的图片数目和最大数目类的个数相等为止。通过实验发现,这一方法对最终的分类结果有了非常大的提升。

    Lee等[3]提出了一种两阶段(two-phase)训练法。首先根据数据集分布情况设置一个阈值N,通常为最少类别所包含样例个数。随后对样例个数大于阈值的类别进行随机抽取,直到达到阈值。此时根据阈值抽取的数据集作为第一阶段的训练样本进行训练,并保存模型参数。最后采用第一阶段的模型作为预训练数据,再在整个数据集上进行训练,对最终的分类结果有了一定的提升.

    Pouyanfar等[4]则提出了一种动态采样(dynamic sampling)的方法。该方法借鉴了提升样本的思想,将根据训练结果对数据集进行动态调整,对结果较好的类别进行随机删除样本操作,对结果较差的类别进行随机复制操作,以保证分类模型每次学习都能学到相关的信息。

    2、基于算法层面的方法

    基于算法层面的方法主要对现有的深度学习算法进行改进,通过修改损失函数或学习方式的方法来消除类别不平衡带来的影响。

    Wang等[5]提出mean squared false error (MSFE) loss。这一新的损失函数是在mean false error (MFE) loss的基础上进行改进,具体公式如下图所示:

    MSFE loss能够很好地平衡正反例之间的关系,从而实现更好的优化结果。

    Buda等[6]提出输出阈值(output thresholding)的方法,通过调整网络结果的输出阈值来改善类别不平衡的问题。模型设计者根据数据集的构成和输出的概率值,人工设计一个合理的阈值,以降低样本数目较少的类别的输出要求,使得其预测结果更加合理。

    3、基于数据和算法的混合方法

    上述两类层面的方法均能取得较好的改善结果,如果将两种思想加以结合,能否有进一步的提升呢?

    Huang等[7]提出Large Margin Local Embedding (LMLE)的方法,采用五倍抽样法(quintuplet sampling )和tripleheader hinge loss函数,可以更好地提取样本特征,随后将特征送入改进的K-NN分类模型,能够实现更好的聚类效果。除此之外,Dong等[8]则融合了难例挖掘和类别修正损失函数的思想,同样是在数据和损失函数进行改进。

    由于篇幅和时间有限,本文只列取了每个类别的典型解决方案。同时也搜集了关于解决类别不平衡问题的相关综述文献,截图如下:

    具体名称可以借鉴参考文献[9]。

    3 参考文献

    [1] Anand R, Mehrotra KG, Mohan CK, Ranka S. An improved algorithm for neural network classification of imbalanced training sets. IEEE Trans Neural Netw. 1993;4(6):962–9.

    [2] Hensman P, Masko D. The impact of imbalanced training data for convolutional neural networks. 2015.

    [3] Lee H, Park M, Kim J. Plankton classification on imbalanced large scale database via convolutional neural networks with transfer learning. In: 2016 IEEE international conference on image processing (ICIP). 2016. p. 3713–7.

    [4] Pouyanfar S, Tao Y, Mohan A, Tian H, Kaseb AS, Gauen K, Dailey R, Aghajanzadeh S, Lu Y, Chen S, Shyu M. Dynamic sampling in convolutional neural networks for imbalanced data classification. In: 2018 IEEE conference on multimedia information processing and retrieval (MIPR). 2018. p. 112–7.

    [5] Wang S, Liu W, Wu J, Cao L, Meng Q, Kennedy PJ. Training deep neural networks on imbalanced data sets. In: 2016 international joint conference on neural networks (IJCNN). 2016. p. 4368–74.

    [6] Buda M, Maki A, Mazurowski MA. A systematic study of the class imbalance problem in convolutional neuralnetworks. Neural Netw. 2018;106:249–59.

    [7] Huang C, Li Y, Loy CC, Tang X. Learning deep representation for imbalanced classification. In: 2016 IEEE conference on computer vision and pattern recognition (CVPR). 2016. p. 5375–84.

    [8] Dong Q, Gong S, Zhu X. Imbalanced deep learning by minority class incremental rectification. In: IEEE transactions on pattern analysis and machine intelligence. 2018. p. 1–1

    [9] Justin M. Johnson and Taghi M. Khoshgoftaar.Survey on deep learning with class imbalance.Johnson and Khoshgoftaar J Big Data.(2019) 6:27

    总结

    以上就是关于类别不平衡问题的相关解决方案,详细内容可以阅读参考文献9及其涵盖的综述文章,相信通过更加详细的文章阅读,你会收获更多的经验!

    展开全文
  • 今天小编就为大家分享一篇关于pytorch处理类别不平衡的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文、代码、框架、库等资源https://github.com/ZhiningLiu1998/awesome-imbalanced-learning本文首发于我的知乎专栏:...前言...

    今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文、代码、框架、库等资源

    https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

    本文首发于我的知乎专栏:https://zhuanlan.zhihu.com/p/142692473,阅读会更加方便,可以直接点击链接,可以点击文章底部”阅读原文“直接跳转。

    前言

    类别不平衡(Class-imbalance),也被称为长尾问题(long-tail problem),指的是分类问题中数据集的类别数量并不一致,有的类别特别多,但有的类别特别少,并且这是实际应用里非常常见的问题。例如,欺诈检测,罕见药物不良反应的预测,以及基因家族预测。因为类别不平衡的原因就会导致预测不准确,降低了分类模型的性能。因此,不平衡学习(Imbalanced learning)的目标就是要解决类别不平衡问题,并从不平衡的数据中学习一个无偏模型。

    目录如下所示:

    代码库/框架

    Python

    R

    Java

    Scalar

    Julia

    论文

    综述

    深度学习

    数据重采样(Data resampling)

    成本敏感学习(Cost-sensitive Learning)

    集成学习(Ensemble Learning)

    异常检测

    其他

    不平衡数据库

    其他的资源

    另外,带有🉑 标记的是作者特别推荐的重要或者高质量的论文和框架。

    (ps. 文章太长,所以分成上下两篇,更方便阅读)

    代码库/框架

    Python

    imbalanced-learn

    官网:https://imbalanced-learn.org/stable/

    Github:https://github.com/scikit-learn-contrib/imbalanced-learn

    官方文档:https://imbalanced-learn.readthedocs.io/en/stable/

    论文地址:http://10.187.70.34/www.jmlr.org/papers/volume18/16-365/16-365.pdf

    这个库是一个 python 编写的提供了一些常用于数据集的重采样技术,它适配 scikit-learn 库,并且也是 scikit-learn-contrib 库的一部分。

    🉑 python 编写,上手简单

    R

    smote_variants

    官网:https://smote-variants.readthedocs.io/en/latest/

    文档:[(https://smote-variants.readthedocs.io/en/latest/

    Github:https://github.com/analyticalmindsltd/smote_variants)

    集合了 85 种用于不平衡学习的过采样技术,包括多类别的过采样和模型选择特征方法(支持 R 和 Julia)

    caret

    官网:https://cran.r-project.org/web/packages/caret/index.html

    文档:http://topepo.github.io/caret/index.html

    Github:https://github.com/topepo/caret

    实现了随机欠采样和过采样方法

    ROSE

    官网:https://cran.r-project.org/web/packages/ROSE/index.html

    文档:https://www.rdocumentation.org/packages/ROSE/versions/0.0-3

    实现了随机过采样方法

    DMwR

    官网:https://cran.r-project.org/web/packages/DMwR/index.html

    文档:https://www.rdocumentation.org/packages/DMwR/versions/0.4.1

    实现了 SMOTE(Synthetic Minority Over-sampling TEchnique),即合成少数过采样技术

    Java

    KEEL

    官网:https://sci2s.ugr.es/keel/description.php

    Github:https://github.com/SCI2SUGR/KEEL

    论文:https://sci2s.ugr.es/sites/default/files/ficherosPublicaciones/0758_Alcalaetal-SoftComputing-Keel1.0.pdf

    KEEL 提供了一个简单的图形界面,可以基于数据流程来设计不同数据集的实验,以及不同智能计算的算法(特别关注进化算法),从而接触到算法的行为。该工具包含了很多广泛应用的不平衡学习方法,比如过采样和欠采样,损失敏感学习,算法修正以及集成学习方法。

    🉑 包含多种算法,比如经典分类算法、回归算法以及预处理算法

    Scalar

    undersampling

    官网:https://github.com/NestorRV/undersampling

    文档:https://nestorrv.github.io/

    Github:https://github.com/NestorRV/undersampling

    实现了欠采样方法以及集成方法变形的方法。

    Julia

    smote_variants官网:https://smote-variants.readthedocs.io/en/latest/ 文档:https://smote-variants.readthedocs.io/en/latest/ Github:https://github.com/analyticalmindsltd/smote_variants

    集合了 85 种用于不平衡学习的过采样技术,包括多类别的过采样和模型选择特征方法(支持 R 和 Julia)

    论文

    Learning from imbalanced data,2009 年的论文,有 4700+的引用,非常经典的论文。主要是系统性的回顾了流行的解决方法、评估标准以及未来研究中需要面临的挑战和问题(2009 年的时候);

    🉑 经典的工作

    Learning from imbalanced data: open challenges and future directions(2016, 400+ 引用,这篇论文主要关注不平衡学习的开放性问题和挑战,比如极端类别不平衡,处理在线/流学习的不平衡问题,多类别不平衡学习以及半监督或无监督的不平衡学习。

    Learning from class-imbalanced data: Review of methods and applications(2017(400+ 引用),一篇非常详细的不平衡学习方法和应用的综述论文,总共包含了 527 篇相关论文。它提供了几种现有方法详细的分类标准,同时也是最近研究领域的趋势。

    🉑 一篇系统的并且对现有方法详细分类标准的综述

    深度学习

    综述

    A systematic study of the class imbalance problem in convolutional neural networks (2018, 330+ 引用)

    Survey on deep learning with class imbalance (2019, 50+ 引用)

    🉑 最近深度学习方向关于类别不平衡问题的综合性论文

    困难样本挖掘

    Training region-based object detectors with online hard example mining (CVPR 2016, 840+ 引用),在神经网络训练的最后阶段,仅对”困难样本“进行梯度的反向传播(比如,loss 数值很大的样本)

    损失函数工程

    Training deep neural networks on imbalanced data sets (IJCNN 2016, 110+ 引用) ,均方根误差可以从大多数类和少数类中同等的捕获分类错误

    Focal loss for dense object detection [Code (Unofficial)](ICCV 2017, 2600+ 引用) ,一个集中训练困难样本稀疏集合的均匀损失函数,可以防止大量容易在训练中压倒检测器的简单负样本。

    🉑 优雅的解法,影响力很高

    Deep imbalanced attribute classification using visual attention aggregation [Code] (ECCV 2018, 30+ 引用)

    Imbalanced deep learning by minority class incremental rectification (TPAMI 2018, 60+ 引用) ,介绍了一个类别修正损失,它是在迭代的分批学习过程中,通过发现少数类的稀疏采样边界来最小化多数类的优势效应;

    Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss [Code] (NIPS 2019, 10+ 引用) ,一种理论上有原则的标签分布感知边际损失(LDAM),其动机是最小化基于边际的泛化边界。

    Gradient harmonized single-stage detector [Code] (AAAI 2019, 40+ 引用) ,相比 Focal loss 只会降低”容易“的负样本的权重,GHM 还可以降低一些可能是异常值的”困难“样本的权重。

    🉑 有趣的想法:根据梯度分布来协调样本的贡献

    Class-Balanced Loss Based on Effective Number of Samples (CVPR 2019, 70+ 引用) ,一种简单而通用的基于有效样本数量的类权重调整机制。

    元学习

    Learning to model the tail (NIPS 2017, 70+ citations) ,将元知识从分布头部的数据丰富的类转移到尾部的数据贫乏的类;

    Learning to reweight examples for robust deep learning [Code]  (ICML 2018, 150+ citations) ,在深度神经网络的梯度更新中隐式学习一个权重函数对样本进行权重的调整。

    🉑 通过元学习解决类别不平衡问题的代表性工作.

    Meta-weight-net: Learning an explicit mapping for sample weighting [Code] (NIPS 2019) ,在深度神经网络的梯度更新中,显式学习一个权重函数(使用多层感知器作为函数逼近器)来对样本的权重进行调整;

    Learning Data Manipulation for Augmentation and Weighting [Code] (NIPS 2019)

    Learning to Balance: Bayesian Meta-Learning for Imbalanced and Out-of-distribution Tasks [Code] (ICLR 2020)

    表示学习

    Learning deep representation for imbalanced classification (CVPR 2016, 220+ 引用)

    Supervised Class Distribution Learning for GANs-Based Imbalanced Classification (ICDM 2019)

    Decoupling Representation and Classifier for Long-tailed Recognition (ICLR 2020)

    课程学习

    Dynamic Curriculum Learning for Imbalanced Data Classification (ICCV 2019)

    两阶段学习

    Brain tumor segmentation with deep neural networks (2017, 1200+ 引用) ,先在类别平衡的数据集进行预训练,然后在原始的类别不平衡数据集上进行微调网络 softmax 之前的最后一层输出层;

    网络结构

    BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition (CVPR 2020)

    另外,本人水平有限,所以对部分专业术语的翻译可能并不正确,没法做到非常完美,请多多包涵,谢谢!

    下一篇将继续介绍剩余的论文以及不平衡数据库。

    展开全文
  • 欢迎大家来到图像分类专栏,类别不平衡时是很常见的问题,本文介绍了类别不平衡图像分类算法的发展现状,供大家参考学习。作者&编辑 | 郭冰洋 1 简介小伙伴们在利用公共数据集动手搭建图像分类模型时,有没有...
  • 类别不平衡问题: 类别不平衡问题指分类任务中不同类别的训练样本数目差别很大的情况。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就...
  • 类别不平衡问题  类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测...
  • 机器学习类别不平衡问题
  • 这篇博客汇总了目前流行的大部分类别不平衡问题的方法
  • 作者&编辑 | 郭冰洋1 简介小伙伴们在利用公共数据集动手搭建图像分类模型时,有没有注意到这样一个问题呢——每个数据集不同类别的样本数目几乎都是一样的。...这就是本篇文章将要讨论的类别不平衡问...
  • 类别不平衡解决策略

    2018-12-08 00:00:00
    类别不平衡 是指分类任务中不同类别的训练样本数目差别很大的情况。 需注意的是:类别不平衡学习中通常是较小类的代价更高,否则无需特殊处理。一般情况下,正例样本较少,反例样本较多。 基本策略—-再缩放: 以...
  • 数据样本类别不平衡

    2019-05-24 14:08:45
    标题训练集中类别不平衡,会引起什么评估指标最不准确? 准确度(Accuracy) (注意与精度区分) 对于二分类问题来说,正负样例比相差较大为99:1,模型更容易被训练成预测较大占比的类别。因为模型只需要对每个样例...
  • 分类中解决类别不平衡问题 链接:https://blog.csdn.net/program_developer/article/details/80287033 机器学习中类别不平衡问题 链接:https://www.cnblogs.com/wkslearner/p/8870673.html 转载于:...
  • 1.不平衡学习的基本概念及处理方法...分类中解决类别不平衡问题https://zhuanlan.zhihu.com/p/36381828 2.学习AdaCost对AdaBoost的改进方式:实现基于代价敏感的AdaCost算法https://zhuanlan.zhihu.com/p/39524415 ...
  • 分类中解决类别不平衡问题 在现实环境中,采集的数据(建模样本)往往是比例失衡的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例);奢侈品消费人群鉴定等 在这一节中,我们一起看一下,当遇到数据类别不...
  • 机器学习中常常会遇到数据的类别不平衡,也叫数据偏斜。 1.类别不平衡下的评估问题 对于平衡的数据我们一般都用准确率也就是(1-误分率)作为一般的评估指标,这种标准的前提是:数据是平衡的,正例与反例的重要性...
  • 类别不平衡问题处理方法 1.基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在...
  • 类别不平衡的设备故障预测 背景&需求 数据集是一个设备故障的数据集,记录了近1000台设备在2001-2011年间多个时间节点的设备状态和是否故障,大概数据如下所示,一共有约12W条数据 需求的话就是根据这些数据...
  • 例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,204
精华内容 481
关键字:

类别不平衡