精华内容
下载资源
问答
  • 本文是基于 《卷积神经网络中类不平衡问题的系统研究》此篇论文展开说明,大部分来源于该篇论文。 1.铺垫点背景知识 卷积神经网络(CNNs)在许多机器学习应用领域中越来越重要,目前正为计算机视觉领域的发展做出...

    本文是基于 《卷积神经网络中类不平衡问题的系统研究》此篇论文展开说明,大部分来源于该篇论文。

    1.铺垫点背景知识

        卷积神经网络(CNNs)在许多机器学习应用领域中越来越重要,目前正为计算机视觉领域的发展做出贡献,包括目标检测、图像分类和分割等任务。它们也广泛应用于自然语言处理或语音识别中,取代或改进了经典的机器学习模型。CNNs将自动特征提取和判别分类器集成在一个模型中,这是CNNs与传统机器学习技术的主要区别。此属性允许CNNs学习层次表示。标准的CNN由完全连接的层和由卷积、激活函数层和最大池组成的若干块组成。由于CNNs的复杂性,对网络的训练和评估需要强大的计算能力,而这需要借助现代图形处理单元(gpu)来解决。

          在基于深度学习的分类器的实际应用中,一个常见的问题是,一些类的训练集中的示例数明显高于其他类。这种差异被称为类不平衡。有很多例子在计算机视觉等领域,医学诊断,欺诈检测和其他,这个问题是非常重要的,一个类的频率(如癌症)可以少1000倍比另一个类(例如,病人健康)。已有研究表明,类不平衡对包括多层感知器在内的传统分类器的训练具有显著的不利影响。它既影响训练阶段的收敛性,也影响测试集模型的泛化。虽然这个问题也很可能影响深度学习,但目前还没有系统的研究.   (我最近做的航天故障诊断系统就是对不平衡数据分类,使用深度学习的方法,如果不做数据集上或者算法层面的处理,模型训练出来效果很差,数据集中的正负样本比例达10000:1的样子,模型会认为异常点是噪声,所以类不平衡度很大的话,一般的神经网络是not work,我们日常生活中的不平衡数据的例子比比皆是,研究不平衡数据的分类问题是有重大意义的,但从哪些方面去解决问题,需要对不平衡数据分类问题有一个系统的了解,并掌握其优缺点,才能真正的去解决你的问题)

    2 .解决不平衡的方法

    2.1对训练集进行操作并改变其类分布的数据集方法。他的目标是改变数据集,以使标准的训练算法工作。

    过采样: 对于少数类本过采样本,两种方法:

    1.  随机过采样    通过对少数类样本随机复制来平衡样本集,缺点:容易导致过拟合。
    2. 插值法 (smote): 会生成一些新的数据
    3. 基于集群的超采样:针对随机梯度下降优化神经网络的过采样方法是类意识采样(class-aware sampling)。其主要思想是保证每个小批的类分布均匀,控制每个类的实例选择。

    缺点:引入一些其他数据信息

          过采样应用很广,但是有些数据集过采样并不合适,例如:图像数据集,时间序列趋势数据集,一般对于这类数据集如何处理,有待考虑,根据我现有的知识,对于图像数据集,可以使用图像缩放,旋转,等方法,对于时间序列数据集,有的可以借助对于图像数据集增强的方法去解决,但是有的一些实际应用问题,使用图像数据集增强的方法并不合适。对于数据少数样本数据集增强一定要符合科学依据。

    欠采样:

        从大多数类中随机删除示例,直到所有类具有相同数量的示例。显著缺点是它丢弃了一部分可用数据。为了克服这个缺点,引入了一些修改,以便更仔细地选择要删除的示例。例如,单边选择标识类之间边界附近的冗余示例。

    2.2分类器(算法)级方法。这些方法保持训练数据集不变,调整训练或推理算法。可以使用组合这两类的方法。

    阈值。也称为阈值移动或后缩放,调整分类器的决策阈值。它应用于测试阶段,涉及更改输出类的概率。有许多方法可以调整网络输出。

    代价敏感学习:该方法对不同类别的样本进行错误分类的代价不同。对于神经网络,可以用多种方法实现。一种方法是阈值移动或后缩放,在分类器训练完成后应用于推理阶段。类似的策略是对网络的输出进行调整,并将其用于反向传播算法的后向遍历。神经网络对代价敏感的另一种适应性是修改学习率,使代价较高的例子对权重的更新贡献更大。最后,用最小误分类代价代替标准损失函数来训练网络。该方法的结果相当于上文所述的过采样,因此在我们的研究中不会实施该方法。

    基于算法层面的关于神经网络的解决方法,第一种对于输出类别的阈值做以调整,第二种,损失函数加权,对于少数类样本判错有较大的损失,对于多数类样本判错有较小的损失调整网络模型参数,第三种:由于前两种都需要手动设定超参数,而且一旦设定,在模型训练期间,都是不变得,通俗讲就是无论输出的概率偏离正确的类多大,惩罚因子相同,感觉这样不是很好,不过目前我就是这样用的,效果还可;目前我在想能否有一种自适应的调整少数类样本的惩罚因子,可以通过它错分的概率偏差的大小调整惩罚因子。

    集成的方法:大部分集成的方法都是基于采样法+算法的结合,boosting 和smote方法,还有就是现在的sklearn中的svm中有一个样本类别比例的方法,class_name=[]字典的形式传入参数,通过内部平衡样本数量去训练模型,一般在做不平衡数据分类问题时,没有必要设定两个样本的类别一样平衡,因为现在的分类器都是很强的,对于类别相差不大的都有很好的效果。

    还有一个两阶段法:就是先使用平衡数据集训练模型,然后使用不平衡数据集作为微调。

    该篇论文的结论:

    •类别不平衡对分类性能的影响是很大的。

    •不平衡对分类性能的影响随着规模的增大而增大一个任务。

    •在大多数情况下,相对于多类ROC曲线AUC而言,优于其他所有情况的方法是过采样。

    •对于极端比例的不平衡和大部分的类是少数,采样不足的表现与采样过多相同。

    •为了达到最好的准确性,应该使用阈值来补偿先前的类概率。阈值与基线和过采样的组合是最可取的,不应与抽样不足相结合。

    •过采样应该应用到完全消除不平衡的水平,而当不平衡只消除到某种程度上。

    •与一些经典的机器学习模型相反,过采样并不一定会导致卷积神经网络的过拟合。

     

    文章:A systematic study of the class imbalance problem in convolutional neural networks

     

    展开全文
  • 欢迎大家来到图像分类专栏,类别不平衡时是很常见的问题,本文介绍了类别不平衡图像分类算法的发展现状,供大家参考学习。作者&编辑 | 郭冰洋 1 简介小伙伴们在利用...

    欢迎大家来到图像分类专栏,类别不平衡时是很常见的问题,本文介绍了类别不平衡图像分类算法的发展现状,供大家参考学习。

    作者&编辑 | 郭冰洋

    1 简介

    小伙伴们在利用公共数据集动手搭建图像分类模型时,有没有注意到这样一个问题呢——每个数据集不同类别的样本数目几乎都是一样的。这是因为不同类别的样例数目差异较小,对分类器的性能影响不大,可以在避免其他因素的影响下,充分反映分类模型的性能。反之,如果类别间的样例数目相差过大,会对学习过程造成一定的影响,从而导致分类模型的性能变差。这就是本篇文章将要讨论的类别不平衡问题(Class Imbalance)。

    类别不平衡是指分类任务中不同类别的训练样本数目相差较大的情况,通常是由于样本较难采集或样本示例较少而引起的,经常出现在疾病类别诊断、欺诈类型判别等任务中。

    尽管在传统机器学习领域内,有关类别不平衡的问题已经得到了详尽的研究,但在深度学习领域内,其相关探索随着深度学习的发展,经历了一个先抑后扬的过程。

    在反向传播算法诞生初期,有关深度学习的研究尚未成熟,但仍有相关科研人员研究过类别样例的数目对梯度传播的影响,并得出样例数目较多的类别在反向传播时对权重占主导地位。这一现象会使网络训练初期,快速的降低数目较多类别的错误率,但随着训练的迭代次数增加,数目较少类的错误率会随之上升[1]。

    随后的十余年里,由于深度学习受到计算资源的限制、数据集采集的难度较大等影响,相关研究并没有得到进一步的探索,直到近年来才大放异,而深度学习领域内的类别不平衡问题,也得到了更加深入的研究。

    640?wx_fmt=png

    本篇文章将对目前涉及到的相关解决方案进行汇总,共分为数据层面、算法层面、数据和算法混合层面三个方面,仅列举具有代表性的方案阐述,以供读者参考。

    2 方法汇总

    1、基于数据层面的方法


    基于数据层面的方法主要对参与训练的数据集进行相应的处理,以减少类别不平衡带来的影响。

    Hensman等[2]提出了提升样本(over sampling)的方法,即对于类别数目较少的类别,从中随机选择一些图片进行复制并添加至该类别包含的图像内,直到这个类别的图片数目和最大数目类的个数相等为止。通过实验发现,这一方法对最终的分类结果有了非常大的提升。

    Lee等[3]提出了一种两阶段(two-phase)训练法。首先根据数据集分布情况设置一个阈值N,通常为最少类别所包含样例个数。随后对样例个数大于阈值的类别进行随机抽取,直到达到阈值。此时根据阈值抽取的数据集作为第一阶段的训练样本进行训练,并保存模型参数。最后采用第一阶段的模型作为预训练数据,再在整个数据集上进行训练,对最终的分类结果有了一定的提升.

    Pouyanfar等[4]则提出了一种动态采样(dynamic sampling)的方法。该方法借鉴了提升样本的思想,将根据训练结果对数据集进行动态调整,对结果较好的类别进行随机删除样本操作,对结果较差的类别进行随机复制操作,以保证分类模型每次学习都能学到相关的信息。

    2、基于算法层面的方法

    基于算法层面的方法主要对现有的深度学习算法进行改进,通过修改损失函数或学习方式的方法来消除类别不平衡带来的影响。

    Wang等[5]提出mean squared false error (MSFE) loss。这一新的损失函数是在mean false error (MFE) loss的基础上进行改进,具体公式如下图所示:

    640?wx_fmt=png

    MSFE loss能够很好地平衡正反例之间的关系,从而实现更好的优化结果。

    Buda等[6]提出输出阈值(output thresholding)的方法,通过调整网络结果的输出阈值来改善类别不平衡的问题。模型设计者根据数据集的构成和输出的概率值,人工设计一个合理的阈值,以降低样本数目较少的类别的输出要求,使得其预测结果更加合理。

    3、基于数据和算法的混合方法

    上述两类层面的方法均能取得较好的改善结果,如果将两种思想加以结合,能否有进一步的提升呢?

    Huang等[7]提出Large Margin Local Embedding (LMLE)的方法,采用五倍抽样法(quintuplet sampling )和tripleheader hinge loss函数,可以更好地提取样本特征,随后将特征送入改进的K-NN分类模型,能够实现更好的聚类效果。除此之外,Dong等[8]则融合了难例挖掘和类别修正损失函数的思想,同样是在数据和损失函数进行改进。


    由于篇幅和时间有限,本文只列取了每个类别的典型解决方案。同时也搜集了关于解决类别不平衡问题的相关综述文献,截图如下:

    640?wx_fmt=png

    具体名称可以借鉴参考文献[9]。

    3 参考文献

    [1] Anand R, Mehrotra KG, Mohan CK, Ranka S. An improved algorithm for neural network classification of imbalanced training sets. IEEE Trans Neural Netw. 1993;4(6):962–9.

    [2] Hensman P, Masko D. The impact of imbalanced training data for convolutional neural networks. 2015.

    [3] Lee H, Park M, Kim J. Plankton classification on imbalanced large scale database via convolutional neural networks with transfer learning. In: 2016 IEEE international conference on image processing (ICIP). 2016. p. 3713–7.

    [4] Pouyanfar S, Tao Y, Mohan A, Tian H, Kaseb AS, Gauen K, Dailey R, Aghajanzadeh S, Lu Y, Chen S, Shyu M. Dynamic sampling in convolutional neural networks for imbalanced data classification. In: 2018 IEEE conference on multimedia information processing and retrieval (MIPR). 2018. p. 112–7.

    [5] Wang S, Liu W, Wu J, Cao L, Meng Q, Kennedy PJ. Training deep neural networks on imbalanced data sets. In: 2016 international joint conference on neural networks (IJCNN). 2016. p. 4368–74.

    [6] Buda M, Maki A, Mazurowski MA. A systematic study of the class imbalance problem in convolutional neural

    networks. Neural Netw. 2018;106:249–59.

    [7] Huang C, Li Y, Loy CC, Tang X. Learning deep representation for imbalanced classification. In: 2016 IEEE conference on computer vision and pattern recognition (CVPR). 2016. p. 5375–84.

    [8] Dong Q, Gong S, Zhu X. Imbalanced deep learning by minority class incremental rectification. In: IEEE transactions on pattern analysis and machine intelligence. 2018. p. 1–1

    [9] Justin M. Johnson and Taghi M. Khoshgoftaar.Survey on deep learning with class imbalance.Johnson and Khoshgoftaar J Big Data.(2019) 6:27

    总结

    以上就是关于类别不平衡问题的相关解决方案,详细内容可以阅读参考文献综述9,相信通过更加详细的文章阅读,你会收获更多的经验!

    有三AI夏季划

    640?wx_fmt=png

    有三AI夏季划进行中,欢迎了解并加入,系统性成长为中级CV算法工程师。

    转载文章请后台联系

    侵权必究

    640?wx_fmt=png

    640?wx_fmt=png

    640?wx_fmt=png

    往期精选

    展开全文
  • ”这便是大数据发展与个人隐私之间的一个平衡点,是数据生命周期中的最好状态。 掌握着大量数据的企业,首先应该做的便是利用技术把握好这个平衡点,而非一心利用数据追求商业价值。只有突破了数据隐私保护的瓶颈,...
    640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

    【数据猿导读】Facebook 泄露5000万用户数据的事情余波未消,李彦宏一句“中国人愿意用隐私换便利”再掀波澜,近日,支付宝因三项违规被罚18万其中一条也是“个人金融信息使用不当”。为何数据泄露事件屡发不止?大数据技术与个人隐私之间的矛盾真的就不可调和吗?大数据时代我们真的都是透明人吗?


    记者 | 小北

    官网 | www.datayuan.cn

    微信公众号ID | datayuancn


    自大数据技术兴起之始,关于数据隐私的争论就从未平息。


    Facebook 泄露5000万用户数据的事情余波未消,李彦宏一句“中国人愿意用隐私换便利”再掀波澜,近日,支付宝因三项违规被罚18万其中一条也是“个人金融信息使用不当”。


    为何数据泄露事件屡发不止?大数据技术与个人隐私之间的矛盾真的就不可调和吗?大数据时代我们真的都是透明人吗?


    其实不然。


     隐私换便利没有错,前提是知情与允许

    640?wx_fmt=png


    李彦宏一句“中国人愿意用隐私换便利”在媒体的推波助澜下被万众谴责,然而大家只知其一,不知其二。李彦宏这句话的下一句是:“当然我们也要遵循一些原则,如果这个数据能让用户受益,他们又愿意给我们用,我们才会去使用它。而这个原则带入到用户的角度,那就是要在用户知情、允许的前提下,变向地用隐私换取服务。”


    当局部变得完整,细细品味,其实此言不无道理。


    因为我们每个人,都曾用“隐私换便利”。比如,为了吃到外卖,必须把自己的联系方式与家庭住址让渡出去;为了打车,必须把你所在的实时位置让渡出去;为了看病,必须把自己的病历信息让渡出去;为了看自己喜欢的资讯,必须把自己的浏览记录让渡出去……


    这些行为之所以不违法,是因为用户知情,并且允许。而Facebook利用“性格测试”的幌子,让27万用户在不知情的前提下提交了自己身份信息和社交信息,并通过这27万用户获取了他们超过5000万的社交好友资料,最后转交给剑桥分析。在这个过程中,所有用户都不知情,更谈不上允许,并且还存在诱导欺诈行为。如果Facebook从最开始就明确告知用户收集信息的目的,并经用户同意后再行处理,那么扎克伯格就不用亲赴国会面对众人质询了。


    知情与允许是企业获取用户数据的前提,但让用户知情并心甘情愿允许却并非易事。所谓上有政策,下有对策,各大企业为了获取这宝贵的“允许”可谓花样百出,各显神通。虽然此次支付宝个人金融信息使用不当的具体细节未披露,但去年年底支付宝账单默认勾选“同意芝麻服务协议”的“愚蠢行为”想必大家还记忆犹新,更别提普天之下有多少APP实行“强制允许”——不允许无法使用。


    难道要想获得便利、高效的互联网服务,我们真的必须穿上“皇帝的新装”,做个没有隐私的“透明人”吗?


    其实不然,江湖混战,还需遵“道”。此“道”为法。目前,我国关于数据隐私的立法,已经初步启动。


    多层立法模式确保剑柄握在用户自己手里

    640?wx_fmt=png


    大数据立法的前提在于厘清隐私保护的边界以及个人数据的归属权。


    从网络实践来看,网络隐私包括用户的身份信息和网络行为数据。网络身份信息涵盖用户实名身份信息、注册信息和虚拟地址信息等足以精准到个人信息的数据,在法律性质上属于传统隐私权涵盖范围。至于网络行为产生的数据信息,因直接或间接都无法精确到自然人,所以其法律性质更像是知识产权。


    2017年6月1日起正式实施的《网络安全法》第76条明确规定了法律保护的个人信息范围,即“单独或者与其他信息结合识别自然人个人身份的各种信息”。除此之外的数据信息即行为数据,属于大数据性质,不在隐私权保护体系范围之内。


    根据这一法律逻辑,我国初步建立起了对隐私保护的三层立法模式:


    第一层,自然人的姓名、身份证件号码、电话号码等敏感的身份信息是法律保护最高等级,任何人触犯都将受到刑事法律最严格的处罚。这一点要求大数据企业未经用户允许不得采集、使用和处分具有可识别性的身份信息。


    第二层,对于除个人身份信息之外的不可识别的数据信息,按照商业规则和惯例,以“合法性、正当性和必要性”的基本原则进行处理。这一点确保大数据企业即便在征求用户同意之后,也不得违反法律规定过度化使用不可识别的数据信息。支付宝此次被罚其中一条就是“个人金融信息收集不符合最少、必需原则”。


    第三层是明确个人数据控制权。《网络安全法》明确规定数据控制权是人格权的重要基础性权利。Fackbook数据泄露事件正好强化了公众的数据保护意识,大数据企业应该从技术和制度两方面,保证用户充分享有对自己数据的知情权、退出权和控制权,确保剑柄握在用户手中。在此方面,欧盟曾推出“被遗忘权”,允许用户从搜索引擎结果页面中删除自己的名字或者相关历史事件。


    大数据企业让数据懂你但不认识你

    640?wx_fmt=png


    除了国家立法层面,大数据企业也应该遵守一定的规范,积极主动地保护用户隐私。


    首先,大数据公司只能收集为我们提供特定服务所必需的特定数据。打车或外卖软件只能要求用户提供实时位置和电话号码,而不能收集用户的身份证号码等其他不相关信息,修图软件可以收集用户的图片信息而不能要求用户提供文章信息。


    对于经用户允许收集来的信息,大数据企业也必须保证不能错用、滥用。除此之外,大数据企业也有责任保护用户隐私数据不为第三方窃取或滥用。比如我们的就诊信息被医药公司窃取,那么医院必须承担相应的责任。此次Facebook引起公愤,正是因为其数据被剑桥分析窃用,没有尽到保护的职责。


    除了统一的使用规范,大数据公司还可通过数据脱敏的技术手段来保护个人隐私。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的保护。即将用户的个人信息在企业内部以匿名化方式存储,比如淘宝可以在储存你的浏览记录时匿去个人身份信息,这样它就能在不侵犯你隐私的情况下给你推荐喜欢的商品,懂你,但不认识你。


    “懂你,但不认识你。”这便是大数据发展与个人隐私之间的一个平衡点,是数据生命周期中的最好状态。


    掌握着大量数据的企业,首先应该做的便是利用技术把握好这个平衡点,而非一心利用数据追求商业价值。只有突破了数据隐私保护的瓶颈,大数据企业才能迎来真正的春天。(文/小北)


    640?wx_fmt=jpeg


    4月26日-4月27日,AI in China 之智能制造-数据驱动产业变革-高峰论坛即将开始,期待我们的见面

    展开全文
  • 关于处理样本不平衡问题的Trick整理

    千次阅读 2017-12-04 00:00:00
    微信公众号 关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 ... 然而,大多数机器学习算法能有效的处理不平衡数据集的学

    微信公众号

    关键字全网搜索最新排名

    【机器学习算法】:排名第一

    【机器学习】:排名第一

    【Python】:排名第三

    【算法】:排名第四

    转自:小象

    在银行欺诈检测、实时竞价或网络入侵检测等领域通常是什么样的数据集呢?这些领域使用的数据通常有不到1%少量但“有趣的”事件,例如欺诈者利用信用卡,用户点击广告或者损坏的服务器扫描网络。 然而,大多数机器学习算法不能有效的处理不平衡数据集的学习问题,以下七种技术可以有效的帮助你处理上述存在的问题。


    1.使用正确的评估指标 


    如上图,对于该问题如果使用精度来衡量模型的好坏,将所有测试样本分类为“0”的模型具有很好的准确性(99.8%),但显然这种模型不能为我们提供任何有价值的信息。


    在这种情况下,可以使用如下所示的其他指标:

    • 精度/特异性:有多少个选定的相关实例。

    • 调用/灵敏度:选择了多少个相关实例。

    • F1得分:精度和召回的谐波平均值。

    • MCC:观察和预测的二进制分类之间的相关系数。

    • AUC:正确率与误报率之间的关系。


    2.重新采样训练集 


    欠采样通过减少冗余类的数量来平衡数据集。通过将所有样本保存在少数类中,并在多数类中随机选择相等数量的样本,可以检索平衡的新数据集以进一步建模。


    相反,当数据量不足时应采用过采样,尝试通过增加稀有样本的数量来平衡数据集。不是去除样本的多样性,而是通过使用诸如重复、自举或SMOTE等方法生成新样本(合成少数过采样技术)


    请注意,一种重采样方法与另一种相比没有绝对的优势。这两种方法的应用取决于它适用的用例和数据集本身。


    3.以正确的方式使用K-fold交叉验证 


    需要注意的是,使用过采样方法来解决不平衡问题时,应适当地应用交叉验证。过采样会观察到稀有的样本,并根据分布函数自举生成新的随机数据。如果在过采样之后应用交叉验证,那么我们所做的就是将模型过度适应于特定的人工引导结果。这就是为什么在过采样数据之前应该始终进行交叉验证,就像实现特征选择一样。只有对数据进行重复采样,可以将随机性引入到数据集中,以确保不会出现过拟合问题。


    4.组合不同的重采样数据集


    生成通用模型的最简单方法是使用更多的数据。问题是,开箱即用的分类器,如逻辑回归或机森随林,倾向于通过丢弃稀有样例来推广。一个简单的最佳实现是建立n个模型,使用少数类的所有样本和数量充足类别的n个不同样本。假如您想要组合10个模型,需要少数类1000例,随机抽取10.000例多数类的样本。然后,只需将10000个样本分成10个块,训练出10个不同的模型。

     如果有大量数据,那么这种方法很简单,完美地实现水平扩展,因此可以在不同的集群节点上训练和运行模型。集合模型也趋于一般化,使得该方法容易处理。


    5.用不同比例重新采样


    以前的方法可以通过少数类和多数类之间的比例进行微调。最好的比例在很大程度上取决于所使用的数据和模型。但是,不是在整体中以相同的比例训练所有模型,合并不同的比例值得尝试。 所以如果训练了10个模型,对一个模型比例为1:1(少数:多数),另一个1:3甚至是2:1的模型是有意义的。 根据使用的模型可以影响一个类获得的权重。


    6. 对多数类进行聚类


    Sergey Quora提出了一种优雅的方法。他建议不要依赖随机样本来覆盖训练样本的种类,而是将r个分组中的多数类进行聚类,其中r为r中的样本数。对于每个组,只保留质心(样本的中心)。然后该模型仅保留了少数类和样本质心来训练。


    7.设计自己的模型


    以前的所有方法都集中在数据上,并将模型作为固定的组件。但事实上,如果模型适用于不平衡数据,则不需要对数据进行重新采样。如果数据样本没有太多的倾斜,著名的XGBoost已经是一个很好的起点,因为该模型内部对数据进行了很好的处理,它训练的数据并不是不平衡的。但是再次,如果数据被重新采样,它只是悄悄进行。

     

    通过设计一个损失函数来惩罚少数类的错误分类,而不是多数类,可以设计出许多自然泛化为支持少数类的模型。例如,调整SVM以相同的比例惩罚未被充分代表的少数类的分类错误。



    综上所述


    这不是一份独家的技术清单,而是处理不平衡数据的一个起点。


    没有适合所有问题的最佳方法或模型,强烈建议尝试不同的技术和模型来评估哪些方法最有效。 可以尝试创造性地结合不同的方法。

    广告、商业合作

    请发邮件:357062955@qq.com

    喜欢,别忘关注~

    帮助你在AI领域更好的发展,期待与你相遇!


    展开全文
  • 摘要 大多数目标检测算法可以分为两类:两阶段检测器和单阶段检测器。对于两阶段探测器,区域建议阶段...这种体系结构是有效的,但在两个方面可能会遇到均衡的问题:类的均衡背景分布的均衡,只有少数候...
  • 谁能告诉我这科的理论在哪可以实用呀?搞懂,只能收藏一下包挂科
  • 第一部分,应对确定性 2 还原论的时代全新的时代 3 从复杂到错综复杂 4 建立有效组织 第二部分:化繁为简 5 建立互信和目标共享的团队 6 突破“深井”,建立关系 第三部分:信息...
  • 大学生职业生涯发展与规划

    千次阅读 2020-07-13 06:53:27
    《创业教育课程(一)----大学生职业生涯发展与规划》 结课作业要求 作业选题:大学规划书 作业要求:从自身的情况、现状出发,有针对性地制定一份详尽的增强自身就业能力的大学规划书,根据相关社会要求有针对性地...
  • 前端发展历程技术应用概述

    千次阅读 多人点赞 2019-06-23 19:44:27
    前端发展历程技术应用概述 前言 随着web2.0时代的到来,前端在web开发中所占的比重越来越大,专注于内容呈现和网站交互的前端开发人员也逐渐展现出其可替代性。前端所涉及的领域甚至限于web应用,如HTML5技术...
  • 目录 一、战略地图的框架 ...4.学习成长层面 一、战略地图的框架 战略地图是对组织战略要素之间因果关系的可视化表示方法,是一个用以描述和沟通战略的管理工具。 (一)战略地图的框架及逻辑结.
  • 实现S&OP平衡的流程和策略

    千次阅读 2020-12-23 11:28:56
    大部分企业往往忽视战略的主动协调产销平衡,喜欢救火式的调度平衡,导致企业始终疲于奔命。而许多产销协调在中层或计划员层(销售计划员、生产计划员、采购物料计划员等)根本无能力解决问题,导致无休止的争吵。而...
  • HR和程序员能能相亲相爱

    千次阅读 多人点赞 2019-11-09 08:56:05
    我承认题目设置可能一定很合理,很专业,有人批评我存在预设立场的倾向,这个我觉得专业肯定是有的,预设立场,扪心自问是真没有的。其实我在自己知识星球里回忆过去提过,当年我...
  • 未来5-10年计算机视觉发展趋势

    千次阅读 多人点赞 2020-05-21 09:35:50
    进入21世纪以来,计算机视觉领域蓬勃发展,各种理论方法大量涌现,并在多个核心问题上取得了令人瞩目的成果。为了进一步推动计算机视觉领域的发展,CCF-CV组织了RACV 2019,邀请多位计算机视觉领域资深专家对相关...
  • HiFi有哪些常见技术指标 手机HiFi一直都是一个热度减的话题,近期发布的不少手机也都在主打HiFi音质:采用ES9318 DAC+耳放二合一音频芯片的vivo X9s Plus,采用AKM HiFi芯片并配备HUAWEI histen音效的荣耀9...
  • 并行计算机未来发展前景

    千次阅读 2016-11-24 20:37:47
    到80年代蓬勃发展和百家争鸣,再到90年代体系结构框架趋于统一,并行计算机得到突破性的发展。现代计算机的发展历程可以分为2个时代:串行计算时代和并行计算时代。并行计算是在串行计算的基础上发展起来的。并行...
  • 政府应应该介入互联网发展?

    千次阅读 2008-07-06 22:02:00
    作者:刘锋(本文章属作者原创作品,刘锋版权所有,转载引用请注明出处和作者刘锋) 本文是针对2008年6月北京发布的《加强电子商务监督管理的意见》所产生的思考,网店新规是否合理关键要看它是否符合互联网发展的...
  • 您的孩子左右脑发展平衡

    千次阅读 2006-04-29 14:15:00
    现代教育学提出一个观点,即左右脑发展均衡。 观察:孩子的行为泄露了大脑的秘密 丁丁妈和小玲妈是好朋友,星期天,丁丁妈带着丁丁到小玲家串门,妈妈们在客厅闲聊,两个孩子在房间玩,可是一会儿,房间里就传出了...
  • 女程序员职业发展的特别之处

    万次阅读 多人点赞 2016-03-07 07:25:38
    这个五阶段模型,被广泛应用,长盛衰,对人的一生的发展与规划,具有极强的指导意义。 先看一张图: 这张图是我整理的舒伯生涯发展阶段理论图。因为我们讨论的女程序员的职业发展,略去了成长阶段(4~14...
  • 经常听一些同学说:知道下一份工作该去哪类公司做些什么,我的职场人际一团糟老板重视我,我现在成长的非常慢所以又想跳槽了,我看到公司的发展前景好迷茫,其实这一切的困惑都来源于没有做好职业规划或者你...
  • 物流行业的大数据发展与应用

    万次阅读 2018-04-17 13:53:42
    面对海量数据,物流企业在不断增加大数据方面投入的同时,该仅仅把大数据看作是一种数据挖掘、数据分析的信息技术,而应该把大数据看作是一项战略资源,充分发挥大数据给物流企业带来的发展优势,在战略规划、商业...
  • 这可能只是一篇面经(BAT面试)

    万次阅读 多人点赞 2017-07-25 17:21:54
    一两次甚至一系列的失败并可拍,成功之后反而没有失败总结得透彻,收获的多。失败的经历会让你不断提升能力,成功的经历会让你不断提升信心。而不管成功失败都会提升你的经验,都会有收获。所以不要害怕失败,因为...
  • 直立智能车(平衡车)毕业论文

    千次阅读 多人点赞 2019-06-30 12:10:37
    随着微电子控制技术的发展和人们对出行工具的日益增长的需求,一款简单易操作、容易携带、清洁无污染的两轮自平衡车开始走进大众的视野,但这种小型代步工具仍可能存在一定的稳定性和安全隐患,本次课题主要通过在...
  • 计算机科学技术的未来发展前景

    千次阅读 2015-12-11 07:57:59
    2015年计算机科学技术专业就业前景分析:计算机科学技术,亦即计算机科学技术专业。下属三个二级学科,本专业培养具有良好的科学素养,系统地、较好地掌握计算机科学技术包括计算机硬件、软件应用的基本...
  • 作者简介:孙洪涛,博士,中央民族大学现代教育技术部高级... 内容提要:大数据领域近年来蓬勃发展,作为大数据的细分领域,教育大数据具有推动教育变革的巨大潜力。大数据技术正在快速演进之中,这为大数据应...
  • 平衡感,职场进阶必备素质。

    千次阅读 2020-09-22 15:11:21
    最近重返职场,跟小伙伴们远程会议,我发现我自己最多的词汇,是平衡。无论做产品,做运营,甚至是做技术,都要先学会理解平衡。什么是平衡?先说产品设计上的平衡。某种意义来说,将不同诉求,不同目...
  • 中国西欧的历史发展为何不同

    千次阅读 2009-02-18 00:00:00
    因为在王朝战争中死了不少人,人口锐减,但是政府可以鼓励生育但是却可限制生育,人口增长一发不可收拾,到了现有的土地养活了当时的人口时就需要来一场减少人口的运动来平衡一下粮食供求,最好的方式就是战争,...
  • 1. 首先需要在项目启动前,清晰界定项目经理得职责和权限,并明确...4. 充分授权项目经理,出现人事职责清,由项目经理全权负责做最后决策 5. 充分沟通仍是解决该问题的关键,尊重,信任和理解是沟通有效的关键,也
  • 程序员发展与晋升攻略

    千次阅读 2016-07-23 23:09:43
    尽管也有个别人员由于岗位的特殊性或稀缺性,出现薪酬职级范围匹配的情况。因此大部分人员,提升职级是获得薪酬提升最自然的方法。另外,大部分公司中,股票期权等福利需要员工满足一定职级的门槛才能获得,比如...
  • 教师为实行新课程的需要发展自身的专业素质,也在一定程度上促进了教师专业的发展。本文分析教师专业发展过程中的问题,并针对新课程背景下对教师专业发展提出新的要求及专业化水平的提升的策略。
  • 负载均衡(负载平衡)

    万次阅读 2015-09-05 09:54:28
    平衡各计算机之间的负载是任务分配调度的一个主要目标,它能够提高整个系统的性能。 为了改善系统的性能,通过在多台计算机之间合理地分配负载,使各台计算机的负载基本均衡,这种计算能力共享的形式,通常...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 46,167
精华内容 18,466
关键字:

发展的不平衡与不充分