精华内容
下载资源
问答
  • 不受极端值影响的数有
    千次阅读
    2019-08-08 10:47:49

    一、图表展示定性数据

    定性数据包括分类数据和顺序数据(通常用频数分布表和图形描述)。

    饼图、直方图、环形图来描述的是单变量的数据。

    (一)频数分布表

    频数分布表中落在某一特定类别的数据个数称为次数或频数,各组频数与各组次数总和之比称为频率。

    (二)定性数据图形展示

    饼图、条形图、环形图、帕累托图

    描述人口性别比例适宜的图形饼图、条形图。

    1.饼图:又称圆饼图、圆形图,利用圆形及圆内扇形面积表示数值的大小的图形。饼图用于总体中各组成部分所占比重的研究。

    2.条形图:用宽度相同的条形高度或长度表示数据多少的图形。

    3.环形图:比较不同变量之间的结构差异。(多个样本)

    题型:1.比较两个企业员工队伍的学历结构,用环形图表示比较适宜。

    4.帕累托图:又称排列图或主次图。按照各类别数据的频数多少排序(即根据频率降序排列)绘制,并在同一张图中画出累积百分比。

    二、图表展示定量数据

    (一)频数分布表

    生成定量数据的频数分布表时,首先数据进行1.分组,然后再统计出各组别的数据频数。

    统计分组的关键两个,一是分组,二是划定各组界限

    一般分组个数在5-15之间,确定组距,组距等于全距(全部数据中最大值与最小值之差)除以组数。

    组距=全距/组数    全距=组距*组数

    题型:1.在编制等距数列时,如果全距等于56,组数为6,为统计运算方便时,组距取9。是否正确?

      全距=组距*组数      全距=6*9=54<56,则此种分组不能包含所有数据,所以组距为9不恰当,可以取组距为10。

    2.   在编制等距数列时,如果全距等于54,组数为6,为统计运算方便时,组距取9。是否正确?

    全距=组距*组数      全距=6*9=54=54,则此种分组能包含所有数据,所以组距为9恰当。

    2.确定组距时,一般遵循的原则:一是考虑各组的划分是否能区分总体内部各个组成部分的性质差别。(学生成绩必须有60分的组限)

    二是能准确、清晰反映总体单位的分布特征。

    3.统计出各组的频数得出频数分布表,若相邻两组的上下限重叠,采取上限不在内的原则,即将该频数计算在与下限相同的组内。

    题型:1.在反映学生身高分布时,将其分组为120厘米、120~130厘米、130~140厘米、140厘米以上。

     120厘米在第二组,130厘米在第三组。

    2.对全班同学成绩采用如下分组:40分以下,40分~60分,60分~80分,80分以上。

    (二)定量数据图形展示

    直方图、散点图、折线图

    1.直方图:横坐标代表变量各组的界限,也代表数值大小。纵坐标代表个变量值出现的频数或频率。

    题型:1.抽样调查1000家小微企业的经营情况,最适用来描述小微企业利润数据特征的图形为直方图。

    2.反映变量分布的统计图为直方图。

    2.折线图:利用线段的升降起伏来表现描述的变量在一段时期内的变动情况。主要用于显示时间序列的数据,以反映食物发展变化的规律和趋势。

    题型:1.反映企业历年来产量的变化情况最适用的图形为折线图。

    2.反应GDP动态变化情况适宜图形为折线图

    3.散点图:观察两个变量之间的相关程度和类型最直观的方法。

    题型:1.频数分布表既适用于定性数据也适用于定量数据。

    2.描述产品产量和单位成本关系合适的图形为散点图。

    3.既适用于定性数据也适用于定量数据的图形有饼图、条形图、环形图。

    三、用统计表来表示数据

    一个完整的统计表从结构来看一般包括:表头、行标题、列标题、数据资料、对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。

    四、用数字来概括数据

    数据的分布特征,从三个方面考察:1.该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程度;2.是离散程度,该组数据的各个数值远离其中心值的趋势和程度;3.分布的形状,即分布函数的“高矮胖瘦”。

    (一)集中趋势的度量

    常用的数据集中趋势测度值有众数、中位数、分位数、平均数。

    1.定性数据主要是计数,比较简单。

    顺序数据集中趋势重用的方法是计算百分比、中位数、众数

    分类数据集中趋势常用的计算方法:众数

    2.定量数据的数值有实际含义,可以进行加减乘除计算,反映定量数据的集中趋势的测度值有平均数、中位数、众数和分位数

    (1)众数:一组数据中出现次数或频率最多的数值。是一种位置平均数,不受极端变量值的影响。

    分类数据集中趋势常用的计算方法:众数。也可以用来测度顺序数据和数值型数据的集中趋势。

    (2)中位数:按照大小排列处在数据中点位置,是典型的位置平均数,不受极端变量值的影响

    中位数主要用于顺序数据、数值型数据,但不能用于分类数据。

    题型:1.采用众数、中位数来反映学生上网时间的平均水平。

    2.5名股票经纪人的年收入分别为19万元、28万元、46万元、39.5万元、150万元,以下指标中更适宜反映经纪人收入水平的是中位数

    数据中存在150万元属于极端值,对平均数的代表有较大的影响。该组数据每一个数值均只出现一次,不存在众数。

    (3)平均数:表述某一事物的平均水平。缺点易受少数极端数值的影响。

    1.算术平均数

    未分组简单平均数

    分组加权平均数

    2.几何平均数

    题型:1.如果一批数据中有少数极端值,则描述其集中趋势不宜采用简单平均数。

    平均数缺点易受少数极端值影响,对于严重偏态分布的数据,平均数的代表性较差。而加权平均数是针对分组数据的,中位数和众数不受极端值影响,具有统计稳健性。

    中位数和众数不受极端值的影响,具有统计上的稳健性。

    (二)离中趋势的度量

    反映数据离散程度的测度指标:异众比率、极差、四分位距、平均差、标准差、方差和离散系数。

    (1)异众比率

    非众数组的频数占总频数的比率。

    主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差。

    题型:1.在一项对4G用户的调查中调查了1000人,其中有663人使用移动运营商的网络,则异众比率是33.7%。

    总频数1000人,非众数:1000-663=337人   异众比率=337/1000=33.7%

    (2)极差

    极差又称全距,一组数中的最大值与最小值之差非常容易受极端值的影响,因此不能准确描述数据的离散程度。

    (3)四分位距

    (4)平均差

    平均差是一组数据与其均值之差的绝对值的平均数,也称为平均绝对差,利用了全部数据计算,因此易受到极端值的影响。

    (5)标准差和方差

    标准差是方差的平方根。

    题型:1.标准差的大小会受到数据本身数值大小或者计量单位不同的影响,如数列1、2、3、4、5的均值=3,标准差=1.58,而数列1001、1002、1003、1004、1005的均值=1003,标准差=1.58。虽然这两个数列的标准差相同,但是两数列的差异程度却不相同。所以并非所有性质相同的两列数列可以采用标准差来比较其平均数的代表性。

    2.在一个统计样本中,标准差越大,说明它的各个观测值分布的越分散,它的趋中程度越差。

    (6)离散系数

    离散系数=标准差/均值

    题型:一组数据的离散系数为0.5,平均数为20,则标准差为

    标准差=0.5*20=10

    (7)标准分数

    标准分数=(变量值-平均值)/标准差

    题型:1.标准分数最大的用途就是可以把两组数据中的两个不同均值、不同标准差的数据进行对比,以判定它们在各组中的相对位置。

    2.某男生的身高176cm,某女生身高170cm,通过资料了解,男生身高均值172cm,标准差2.8cm,女生身高均值164cm,标准差2.5cm。

    某男生身高标准分数=(176-172)/2.8=1.43

    某女生身高标准分数=(170-164)/2.5=3.2

    (三)偏态与峰度的度量

    (1)偏态系数    SK

    当 SK>0,表示正偏离差数值越大,可判断为正偏或右偏;SK<0,可判断为负偏或左偏。

    (2)峰度系数

    K=0,数据服从标准正态

    K>0,尖峰        K<0,扁平

    题型:1. SK=-0.85,K=-1.92判断?

    SK=-0.85<0  左偏,K=-1.92扁平

     

     

    更多相关内容
  • 探索多维数据极端值处理方法

    千次阅读 2019-05-21 14:58:46
    我们知道,在各种数据分析方法中,除了部分方法本身对数据值敏感外,离群值、极端值对于分析结果都是具有影响的。这种影响尤其体现在需要对数据具体的值进行运算的方法中,比如回归类型的问题。极端值出现频率过高...

    背景介绍

    我们知道,在各种数据分析方法中,除了部分方法本身对数据值不敏感外,离群值、极端值对于分析结果都是具有影响的。这种影响尤其体现在需要对数据具体的值进行运算的方法中,比如回归类型的问题。极端值出现频率过高,极端值过于极端,都有可能造成分析结果的严重偏误,在探索数据之间关系和规律的过程中,这种极端值造成了很大困扰。

    而金融数据分析中,无论是金融理论在实践分析中的应用,比如尝试使用CAPM,Fama-Franch因子模型对现实经济标的进行分析,还是在量化决策过程中应用模型进行择时或品种选择,都离不开对原始数据的处理和运算。对于数据在这些领域的应用,模型能否给出精准结果至关重要,前者决定着学术观点是否能被现实情况有力支撑,后者则直接决定了投资行为是否能最大化的产生效益。虽然保证模型结果的精确性是一个多步骤的复杂过程,但一定离不开对原始数据的维护。在这个前提下,对待极端值的态度和处理方法也就成了需要不断探索的问题。

    对于极端数据,在量化领域有一些常用的方法。比如3-Mad方法,3-Sigmod方法,这些方法在剔除离群的数据方面是简单而有效的,受到了广泛的认可。用沪深300股票的市值数据为例,沪深300的原始市值分布如下:

    探索多维数据极端值处理方法

    图1:沪深300成分股票市值分布

    我们可以看到,沪深300成分股市值分布十分极端,存在部分市值规模过于庞大的股票,如果用这样的数据进行运算,得出的结果会收到极端值非常严重的影响,我们使用3-Mad方法进行剔除(如下图)。

    探索多维数据极端值处理方法

    图2:3-Mad方法剔除离群值

    无论是从纵坐标的值域还是分布图像上都可以看出,3-Mad方法剔除后,筛选出的股票市值波动都被压缩到了一定的范畴内,并且对比原始分布,几乎完全剔除了特别极端的离群点。

    我们再看一看以标准差为参照基准的3-Sigmod方法对离群点的剔除效果。

    探索多维数据极端值处理方法

    图3:3-Sigmod方法剔除离群值

    对比原始分布的图例值域,可以看出极端离群的市值点被3-Sigmod方法过滤掉了,而对比3-Mad方法,3-Sigmod方法在剔除条件上更宽松一点,两者各有优劣,3-Mad方法严格地保证了数据在一定范围内波动,而3-Sigmod方法则保留了更多的数据值,可以根据不同的需求对方法进行选择。

    通过上文的介绍,我们已经看出,在剔除离群点上,已经有很多行之有效的方法可供选择。但是,事实上我们仍然面对一个问题,那就是,上文介绍的所有方法,都是对于单一序列的处理,如果我们现在面对的是有两个以上维度的高维数据,我们该如何考虑离群点的处理方法。

    可能有人会说,高维数据也是由不同截面下的一维序列构成的,对于每个不同的维度应用一下上面的方法就可以了。但事实上并不能这么做,这样做的,光是显然易见的弊端就有两个:第一,会造成更大规模的信息损失,因为逐一进行剔除,不同的纬度之间剔除的部分是取并集的,最极端会出现提出所有数据的情况;第二,这样的方法在高维度上没有考虑到不同维度之间联合分布。

    方法介绍

    基于上述问题,我们思考了对高维数据剔除极端值的一种新方法,并且对极端值的处理重新做了设计。

    首先我们知道高维数据是形如这样的向量组:

    探索多维数据极端值处理方法

     

    这些向量组虽然无法直接可视化描述,但是对于他们联合分布的关系我们可以使用替代的方法去描述标志。在这里我选择了距离作为这个替代变量,距离计算公式表示如下。

    探索多维数据极端值处理方法

     

    为了能够描述数据点之间的分布,我们需要找到一个目标数据点,使得所有其他数据点到这个目标数据点距离最小化,然后用其他数据点到目标数据点之间的距离来近似地描述所有数据在高维上的分布情况,数学表示如下:

    探索多维数据极端值处理方法

     

    我把找到的这个目标向量称为核向量。还是以沪深300股票为例子,我们使用的数据维度为市值,ROE和市盈率(pe ratio),我们观察一下通过寻找核向量而计算得出的数据分布情况。

    探索多维数据极端值处理方法

    图4:核向量方法数据分布描述

    这时候我们发现了一个问题,我们看一看数据点各个维度单一序列的分布情况。

    探索多维数据极端值处理方法

     

    探索多维数据极端值处理方法

     

    探索多维数据极端值处理方法

    图5:3种不同维度单一序列分布情况

    我们发现,寻找核向量并计算出来用以描述高维联合分布情况地距离数据,和市值数据的分布情况一致性程度非常高,也就是说,市值数据由于本身数值巨大,完全影响了我们对距离的计算,占到了巨大的权重,但事实上,在我们的想法以及现实经济意义中,我们认为这些财务情况对股票的影响权重虽然不一定等权,但不可能是这样不平衡的极端情况,鉴于此,我们修改了核向量的寻找方法,在加入了距离惩罚项,以此来平衡不同量纲的数据对距离计算的影响。当然这个距离惩罚项可以有多种计算方法,比如Max-Min,、Z-score等,这里我们使用最简单的均值作为距离惩罚。

    我们观察一下修改方法后的数据情况:

    首先把修改方法前所有的原始数据分布绘制出来看一看

    探索多维数据极端值处理方法

    图6:方法修改前各个维度数据分布情况

    可以看到市值在数据上的体量完全覆盖掉了其他数据的分布情况。

    探索多维数据极端值处理方法

    图7:方法修改前各个维度数据分布情况

    这个时候我们可以看到修改方法后,不同数据的分布情况都能够较为明显得体现出来。当前计算出来的核向量距离数据分布如下:

    探索多维数据极端值处理方法

    图8:修改方法后核向量距离分布情况

    经过以上计算,我们就可以进行下一步,处理数据了。

    处理极端数据的方法,我并没有直接使用传统的直接剔除的方法,因为鉴于目前各种统计方法对数据量的需求,我们更愿意保留一些数据信息使得模型更加平滑可靠。在统计学习领域有一种叫做KNN的计算方法,聚宽的量化课堂上有详细的描述,我之前也写过如何实现KNN的文章,有需求的读者可以去阅读,在这里不再赘叙。

    简单来说,我们的模型使用的历史数据都是有标注的,一个特征向量对应一个特征值,我们经常通过KNN算法对特征值进行预测,但是这个方法中我们反向运用KNN,首先我们通过一个准则来确定一个特征向量是不是离群点,如果是,则通过寻找和它标签值最邻近的K个值特征向量,然后将这个离群点的特征向量值替换为K个点对应特征值的平均值。这样既处理了数据,又部分保留了特征信息,同时没有减少数据量。

    这时候我们又遇到了一个问题,在回归问题中,特征向量的标签值是连续的数字,寻找最临近数据点,但是分类问题中,标签大多为离散取值,甚至在二分类问题中我们的标签全都是bool值,总不能随机选取几个bool值进行KNN计算吧?

    所以我们给出的权衡方法是,在分类问题中,如果数据点A是离群点,那么我们就寻找和数据点A到核向量数据点距离值最接近且不为离群点的的K个数据点作为A的临近点进行计算。这样可以比较妥当的解决不同问题中由于数值特性带来的计算问题。

    最后要提及的是,我们的离群点确认方法是在核向量距离中确定离群点,我们认为距离核向量过于远的数据为离群点,这里我还是使用了3-Mad的方法,和上文一致,我们可以看下这样处理后,单一维度的分布情况。

    探索多维数据极端值处理方法

     

    探索多维数据极端值处理方法

     

    探索多维数据极端值处理方法

    图9:高维处理后3种不同维度单一序列分布情况

    大家可以对比一下上图完全无处理时候的单一序列分布图,可以明显看出各个特征维度在极端值和值分布上都得到了较好的处理。

    方法实证

    >>> 截面回归实证

    为了检验数据情况,我们直接使用截面数据进行一次OLS回归,看看是否能提升模型的解释能力。

    选取股票池:以沪深300为例子

    选取解释变量为:30日后的收益率

    选取被解释变量为:上文进行处理的市值,ROE和市盈率财务指标

    未进行数据处理前的回归情况:

    探索多维数据极端值处理方法

    图10:无任何处理直接回归结果

    可以看到无论是参数置信程度还是回归R^2效果都很差

    进行上述处理方法后的回归结果:

    探索多维数据极端值处理方法

    图11:数据处理后回归结果

    可以看到无论是参数置信程度还是回归R^2效果都得到了显著提升,从截面角度验证了处理方法有效。

    >>> 策略实证

    我们选取一个对数据相对敏感的策略进行测试,通过观察直接使用原始数据和使用处理后的数据是否能带来绩效提升来判断处理方法是否有效。

    为了方便起见,我设计了一个SVM分类对未来股票走势进行预测的简单策略,使用股票池仍为沪深300指数成分股票。使用特征数据为Fama-Franch三因子模型中的因子值(并非是分组收益率的形式,而是直接使用因子的原始值)。预测目标为未来30天的股票的涨幅情况。

    未处理前绩效如下:

    探索多维数据极端值处理方法

    图12:无任何处理前策略绩效

    数据处理后绩效情况如下:

    探索多维数据极端值处理方法

    图13:数据处理后策略绩效

    我们看到,虽然绩效均不理想,或者可以说非常差劲。但是数据处理后的绩效结果,对比直接使用原始数据的策略绩效有了一些提升。一个策略的收益程度会受到多方面的影响,可能是模型思路需要改进,选取因子、数据需要调整仓位管理等等。但绩效的改变,对我们数据处理方法的有效性提供了一定的参考。

    展开全文
  • 平衡学习是机器学习问题的一个重要子域,其主要关注于如何从类别分布均衡的数据中学习数据的模式。在这篇文章中我们主要关注平衡分类问题,特别地,我们主要关注类别极端不平衡...

    不平衡学习是机器学习问题的一个重要子域,其主要关注于如何从类别分布不均衡的数据中学习数据的模式。在这篇文章中我们主要关注不平衡分类问题,特别地,我们主要关注类别极端不平衡场景下的二分类问题所面临的困难。

    在这篇文章中我们将:

    • 描述类别不平衡的定义与实际应用场景

    • 给出不平衡场景下常用的评价指标

    • 讨论不平衡场景下分类器学习困难的来源

    • 概览已有的不平衡学习方法并分析其优劣

    • 给出一些直觉的可视化来帮助理解不平衡学习过程

    • 给出一些场景/模型选择中的个人经验

    为简洁起见,文中出现的Min代表少数类样本(正类,positive,y=1),Maj代表多数类样本(负类,negative,y=0)

    问题概述:

    当一个分类任务的数据集中来自不同类别的样本数目相差悬殊时,我们通常称该数据集为“类别不平衡”的。以一个现实任务为例:在点击率预估(click-through rate prediction)任务中,每条展示给用户的广告都产生一条新样本,而用户最终是否点击了这条广告决定了样本的标签。显然,只有很少一部分的用户会去点击网页里的嵌入广告,这就导致最终得到的训练数据集中正/负例样本的数量差距悬殊。同样的情况也发生在很多实际应用场景中,如金融欺诈检测(正常/欺诈),医疗辅助诊断(正常/患病),网络入侵检测(正常连接/攻击连接)等等[1,2,3]。 需要注意的是,尽管少数类的样本个数更少,表示的质量也更差,但其通常会携带更重要的信息,因此一般我们更关注模型正确分类少数类样本的能力。

    分类问题的一个underlying assumption是各个类别的数据都有自己的分布,当某类数据少到难以观察结构的时候,我们可以考虑抛弃该类数据,转而学习更为明显的多数类模式,而后将不符合多数类模式的样本判断为异常/少数类,某些时候会有更好的效果。此时该问题退化为异常检测(anomaly detection)问题。

    有关异常检测 (Anomaly detection)由于只关心多数类的分布,这些方法一般为unsupervised / weakly-supervised,只使用单类别数据训练。

    基本符号:

    在二元不平衡分类中,数据集中只存在两个类别:少数类,即样本数量较少的类,与多数类,即样本数量相对较多的类别。我们使用D来表示全部训练数据样本的集合,每一个样本用(x, y)表示,其中 y ∈ {0, 1}。在二分类条件下,y取值为1代表该样本属于正类(少数类),为0则代表该样本属于负类(多数类)。

    由此我们可以定义少数类集合:640?wx_fmt=svg ‘

    及多数类集合:

    640?wx_fmt=svg 

    从而有:

    640?wx_fmt=svg

    由此,对于(高度)不平衡的数据集我们有 640?wx_fmt=svg 。为了以统一的形式描述不同数据集的不平衡程度,我们定义不平衡比IR(Imbalance Ratio)为多数类样本数量与少数类样本数量的比值:

    640?wx_fmt=svg

    模型评价准则:

    对于一般的机器学习方法,最常见的评价指标无疑是分类准确度ACC (accuracy),ACC的含义非常直观并且在通常情况下都很有效。然而对于不平衡的分类任务,ACC并不能很好地反映分类器的性能。考虑以下情况:一个含有10000条样本的数据集,其中 640?wx_fmt=svg 。此时一个将所有样本都判断成多数类样本的分类器能够获得99%的分类准确率,这是一个相当高的分数,但给一个完全无法区分出少数类样本的分类器如此高的分数显然是不合理的。由于ACC等传统评价指标的特性,在数据分布不平衡时其往往会导致分类器的输出倾向于在数据集中占多数的类别:输出多数类会带来更高的分类准确率,但在我们所关注的少数类中表现不佳。

    类别不平衡问题有一些更加合理的评价准则,这些指标通常是基于真正例TP/真负例TF/假正例FP/假负例FN的个数计算的。在二分类场景下,上述四种样本的数量可以通过计算混淆矩阵得到(见下表)。

    640?wx_fmt=jpeg

    二分类问题的混淆矩阵(Confusion Matrix)

    基于混淆矩阵我们可以使用准确率(Precision)和召回率(Recall)来评价模型在不平衡数据上的分类精度。F-score(F1)和G-mean(GM)是准确率和召回率的调和平均值 [4,5]。MCC [6](Matthews correlation coefficient,即马修斯相关系数)考虑了各种样本的个数,是一个在类别平衡或不平衡下都可使用的评价指标。 AUCPRC [7](Area Under Curve of Precision-Recall Curve)指准确率-召回率曲线下的面积。这些评价准则不会被不同类别中样本的数量所影响,因此通常被认为是“无偏的”,可以在类别不平衡的场景下使用。

    • 640?wx_fmt=svg

    • 640?wx_fmt=svg

    • 640?wx_fmt=svg

    • 640?wx_fmt=svg

    • 640?wx_fmt=svg

    • 640?wx_fmt=svg

    需要注意的是一个常用的评价指标AUCROC(Area Under Receiver-Operator Characteristic curve)其实是有偏的,它不适用于不平衡场景下的模型评估[7]。

    Receiver Operator Characteristic (ROC) curves are commonly used to present results for binary decision problems in machine learning. However, when dealing with highly skewed datasets, Precision-Recall (PR) curves give a more informative picture of an algorithm's performance.

    -- Davis J, et al. The Relationship Between Precision-Recall and ROC Curves, ICML 2006

    不平衡场景下学习困难的来源:

    通常情况下,类别不平衡程度越高,数据集的分类难度越大。但在一些工作中,发现存在某些高度不平衡的数据集,在这些数据集上不加任何修改的标准学习模型(如,SVM,Decision Tree等)仍能得到很好的分类结果。显然,类别不平衡本身并不是分类困难的来源,其背后的原因需要对数据分布以及模型在训练过程中的行为进行更细致的观察。

    一些研究工作尝试说明不平衡数据集上分类困难的本质原因,这些工作认为分类困难的原因来自于数据分布中的一些本质因素。如,

    • 过多的少数类样本出现在多数类样本密集的区域 [8]

    • 类别之间的分布严重重叠(即不同类别的样本相对密集地出现在特征空间的同一区域)[8]

    • 数据中本身存在的噪声,尤其是少数类的噪声 [9]

    • 少数类分布的稀疏性(sparsity)以及稀疏性导致的拆分多个子概念(sub-concepts,可理解为子clusters)并且每个子概念仅含有较少的样本数量 [10]

    因素4又被称为small disjuncts问题。它导致分类困难的原因很直观:在同样的特征空间中,相比于只有一个cluster的简单少数类分布,具有多个子概念的少数类分布需要模型给出更复杂的决策边界来获得良好的预测。在模型复杂度不变的情况下,分类性能会因子概念个数的增多而变差。因此该问题的解决办法也较为简单:上更大容量的模型(DL: 更宽,更深,更强)。

    至于因素1、2、3,我个人认为尽管三者的成因不同,这三个因素为学习带来的困难本质上是一样的。抛开数据集本身所带有的噪声因素来考虑。因素2,类别之间的分布严重重叠,所造成的结果即过多的少数类样本出现在多数类样本密集的区域(因素3,这话反过来说也合理)。而这些嵌入在多数类样本密集区域的少数类样本即我们通常说的离群点。以我个人而言,在不平衡分类任务中,离群点和噪声点所起到的作用没有本质上的区别。因此我们将因素1、2、3都归因为一个因素:噪声。

    另外,在实际的工业应用当中,这些难度因素还会与其他实际问题一同出现,如特征中的缺失值,巨大的数据集规模等。

    640?wx_fmt=jpeg

    图1:在不同程度的类别不平衡下,分布重叠/不重叠的两个数据集。数据硬度指分类器训练完成后输出概率与ground truth label的残差(i.e., |F(x)-y|)

    最后在图1中我们给出一个直观的可视化来帮助理解类别不平衡比/类别分布重叠之间的关系:即使不平衡比相同,类别重叠/不重叠的数据集也会表现出极其不同的分类难度。深蓝色的点代表它们可以被模型很好地分类,而深红色的样本点代表模型完全无法正确分类这些数据点。

    在图1(a)中,数据集是用两个不重叠的的二维高斯分布生成的。我们可以观察到不平衡比的增长并不会影响分类该数据集的难度(图1(c))。而在图1(b)中,数据集由两个相互重叠的二维高斯混合分布生成。随着不平衡比的增加,它从一个相对简单的分类任务变成了一个极其困难的任务(图1(d))。

    已有的不平衡学习方法概览:

    标准机器学习算法假设属于不同类别的样本数量大致相似。因此类别的不均匀分布给在不平衡数据集上应用标准学习算法带来了困难:这些学习算法的设计背后隐含的优化目标是数据集上的分类准确度,而这会导致学习算法在不平衡数据上更偏向于含更多样本的多数类。多数不平衡学习(imbalance learning)算法都是为了解决这种“对多数类的偏好”而提出。

    我将已有的不平衡学习算法划分为3类:数据级方法,算法级方法以及集成方法

    • 数据级方法

    数据级方法是不平衡学习领域发展最早、影响力最大、使用最广泛的一类方法,也可称为重采样方法。该类方法关注于通过修改训练数据集以使得标准学习算法也能在其上有效训练。根据实现方式的不同,数据级方法可被进一步分类为:

    1. 从多数类别中删除样本的方法(欠采样,如RUS、NearMiss[11]、ENN[12]、Tomeklink[13]等)2. 为少数类别生成新样本的方法(过采样,如SMOTE[14],ADASYN[15],Borderline-SMOTE[16]等)3. 结合上述两种方案的混合类方法(过采样+欠采样去噪,如SMOTE+ENN[17]等)

    标准的随机重采样方法使用随机方法来选择用于预处理的目标样本。然而随机方法可能会导致丢弃含有重要信息的样本(随机欠采样)或者引入无意义的甚至有害的新样本(随机过采样),因此有一系列更高级的方法,试图根据根据数据的分布信息来在进行重采样的同时保持原有的数据结构。

    Strength: 1. 该类方法能够去除噪声/平衡类别分布:在重采样后的数据集上训练可以提高某些分类器的分类性能。2. 欠采样方法减小数据集规模:欠采样方法会去除一些多数类样本,从而可能降低模型训练时的计算开销。

    Weakness: 1. 采样过程计算效率低下:这一系列的“高级”重采样方法通常使用基于距离的邻域关系(通常是k-最近邻方法)来提取数据分布信息。该方式的缺点是需要计算每个数据样本之间的距离,而计算距离需要的计算量随着数据集的大小呈平方级增长,因此在大规模数据集上应用这些方法可能会带来极低的计算效率。2. 易被噪声影响:此外在具有高不平衡比且包含大量噪声的工业数据集中,少数类的结构可能并不能被样本的分布很好地表示。而被这些重采样方法用来提取分布信息的最近邻算法很容易被噪声干扰,因此可能无法得到准确的分布信息,从而导致不合理的重采样策略。3. 过采样方法生成过多数据:当应用于大规模且高度不平衡的数据集时,过采样类的方法可能会生成大量的少数类样本以平衡数据集。这会进一步增大训练集的样本数量,增大计算开销,减慢训练速度,并可能导致过拟合。4. 不适用于无法计算距离的复杂数据集:最重要的一点是这些重采样方法依赖于明确定义的距离度量,使得它们在某些数据集上不可用。在实际应用中,工业数据集经常会含有类别特征(即不分布在连续空间上的特征,如用户ID)或者缺失值,此外不同特征的取值范围可能会有巨大的差别。在这些数据集上定义合理的距离度量十分困难。

    • 算法级方法

    算法级方法专注于修改现有的标准机器学习算法以修正他们对多数类的偏好。在这类方法中最流行的分支是代价敏感学习[18,19](cost-sensitive learning),我们在此也只讨论该类算法。代价敏感学习给少数类样本分配较高的误分类代价,而给多数类样本分配较小的误分类代价。通过这种方式代价敏感学习在学习器的训练过程中人为提高了少数类别样本的重要性,以此减轻分类器对多数类的偏好。

    Strength: 1. 不增加训练复杂度:使用该类算法魔改后的算法通常会有更好的表现,并且没有增加训练的计算复杂度。2. 可直接用于多分类问题:该类算法通常只修改误分类代价,因此可直接扩展到多分类问题上。

    Weakness: 1. 需要领域先验知识:必须注意的是,代价敏感学习中的代价矩阵(cost matrix)需要由领域专家根据任务的先验知识提供,这在许多现实问题中显然是不可用的。因此在实际应用时代价矩阵通常被直接设置为归一化的不同类别样本数量比。由于缺乏领域知识的指导,这种擅自设置的代价矩阵并不能保证得到最优的分类性能。2. 不能泛化到不同任务:对于特定问题设计的代价矩阵只能用于该特定任务,在其他任务上使用时并不能保证良好的性能表现。3. 依赖于特定分类器:另一方面,对于诸如神经网络的需要以批次训练(mini-batch training)方法训练的模型,少数类样本仅仅存在于在很少的批次中,而大部分批次中只含有多数类样本,这会给神经网络训练带来灾难性的后果:使用梯度下降更新的非凸优化过程会很快陷入局部极值点/鞍点(梯度为0),导致网络无法进行有效学习。使用敏感代价学习来给样本加权并不能解决这个问题。

    • 集成学习方法

    集成学习类方法专注于将一种数据级或算法级方法与集成学习相结合,以获得强大的集成分类器。由于其在类别不平衡任务中表现出色,在实际应用中集成学习越来越受欢迎。它们中的大多数基于某种特定的集成学习算法(例如,Adaptive Boosting [20])并在集成的过程中嵌入一种其他的不平衡学习方法(例如,SMOTE[14])。

    e.g., SMOTE+Boosting=SMOTEBoost [21]; SMOTE+Bagging=SMOTEBagging [22];

    另有一些集成学习方法的基学习器也是集成学习器(例如,EasyEnsemble,BalanceCascade[23])。因此最终的分类器是一个“集成的集成”。

    “集成的集成”并不代表一定会有更好的表现,作为基学习器的集成学习方法也会影响分类性能。如上述两种方法使用AdaBoost作为基分类器,Boosting类方法本身就对噪声敏感,加上BalanceCascade本身有相同的问题,因此使用非集成分类器可能效果反而更好(如直接使用C4.5)。PS,这两种方法使用AdaBoost做基学习器的原因大概率是为了蹭热点(2010年左右)。

    Strength: 1. 效果通常较好:没有什么问题是ensemble不能解决的,如果有,再多加一个base learner。根据我的经验集成学习方法(魔改的)仍然是解决不平衡学习问题最有效的方法。2. 可使用迭代过程中的反馈进行动态调整:极少数的集成方法具有了动态重采样的思想,如BalanceCascade会在每轮迭代中丢弃那些已经被当前分类器很好地分类的多数类样本(assumption是这些样本已经不含对模型有贡献的信息)。该方法在实际应用时也实现了相比于其他降采样方法更快的收敛速度,使其可以使用相对较少的分类器来得到更优的分类表现。

    Weakness: 1. 包含所使用的不平衡学习方法的缺点:由于大多数不平衡集成学习方法仍然在其pipeline中使用了标准的数据级/算法级方法,因此上述两类方法的缺点也同样存在于使用他们的集成方法中。2. 过采样+集成进一步增大计算开销:当应用于实际任务时,即便集成能够提升大部分方法的分类表现,这些数据级/算法级方法仍然存在计算效率低,适用性差并且易被噪声影响的缺点。例如,作为过采样方法的SMOTE在单独使用时已经引入了大量的新训练样本,使用SMOTE生成更多的训练数据集并训练更多的分类器只会使整个训练过程变得更慢。3. 对噪声不鲁棒:BalanceCascade做出了非常有意义的探索,但其一味保留难以分类样本的策略可能导致在后期的迭代中过度拟合噪声/离群点,并最终恶化集成分类器的表现。换言之,其对噪声不鲁棒。

    训练过程可视化

    为了更直观地阐明上述对不平衡学习方法的分析,我构建了一个合成数据集用于可视化(图2):

    640?wx_fmt=jpeg

    图2:checkerboard数据集的示例。图(c)中的蓝色点代表多数类样本,红色点代表少数类样本

    在该数据集上测试下列五种方法:

    • RandUnder即随机降采样,它随机选取与少数类样本个数相同的多数类样本来组成一个平衡的训练集,并在其上训练一个分类器。

    • Clean指Neighborhood Cleaning Rule方法,它从数据集中移除那些最近邻都来自少数类的多数类样本。

    • SMOTE [14] 指少数类过采样技术(Synthetic Minority Over-sampling TechniquE),它根据最近邻关系向数据集中加入人工合成的少数类样本。

    • Easy [23] 指EasyEnsemble,它通过多次使用RandUnder来训练多个Adaptive Boosting [20] (AdaBoost)分类器并结合他们的输出得到一个集成分类器。需要注意的是AdaBoost本身也是一个集成分类器。

    • Cascade [23] 指BalanceCascade,它是EasyEnsemble的扩展。与Easy不同的是,它在每一轮迭代中都丢弃那些已经被当前基分类器很好地分类的多数类样本,以此减小采样空间并关注在更加难以分类的样本上。

    • 所有方法皆使用AdaBoost(基)分类器。

    640?wx_fmt=jpeg

    图3:5种不平衡学习方法在人工数据集上的可视化,包括3种重采样方法(i.e., RandUnder, Clean, SMOTE)以及两种重采样+集成方法(i.e., Easy, Cascade)

    图2展示了不同方法在checkerboard任务上的训练集(上列,蓝/红色点代表一个来自多数/少数类的样本)以及最终预测(下列,蓝/红色点代表分类器倾向于将一个样本分类为多数/少数类)。由于集成学习方法Easy以及Cascade使用多个不同的训练集训练基学习器,此处我们选择它们用于训练第5和第10个分类器的训练集用于可视化。

    从图中可以观察到RandUnder和Easy执行简单的随机欠采样,因此可能会丢失一些信息。Clean尝试清理被少数类数据点包围的多数类离群点,但是它保留了所有的背景样本,这导致分类器在训练时无法专注于那些含有更多信息的数据点。此外由于类别之间的重叠,SMOTE受到噪声影响过度泛化了少数类的空间分布。Cascade在后期迭代中只保留了一些多数类的离群点,强行拟合这些离群点最终导致了糟糕的泛化性能。

    需要强调为了可视化的效果,我们使用的该合成数据集含有相当多的噪声。在实际应用中BalanceCascade仍然是一种相当出色的不平衡学习方法。

    人生经验:

    总而言之,要根据问题性质的不同选择不同的方法,梳理一下

    • 欠采样:一般是用来平衡数据集、去噪。平衡数据集的有随机欠采样/NearMiss,采样和训练速度都很快。随机欠采样在任何情况下都能用,但在数据集不平衡程度较高时会不可避免地丢弃大部分多数类样本造成信息损失。NearMiss对噪声极端敏感,有噪声基本就废掉。去噪方法有很多,如Tomeklink,AllKNN等,需要数据集上有良好定义的距离度量,在大规模数据集上计算量大。去噪之后对有的分类器有效,有的无效。

    • 过采样:随机过采样任何情况下都不要用,及其容易造成过拟合。SMOTE、ADASYN在小规模数据上可以一试。当数据规模大且不平衡程度高时,过采样方法生成巨量的合成样本,需要很多额外计算资源。同时此类过采样基于少数类样本的结构信息,在少数类的表示质量很差时甚至会反向优化:过采样效果还不如直接训练。

    • 混合采样:理论上加入了去噪类的欠采样算法来清洁过采样之后的数据集。实际使用起来我没感觉到有什么不同,唯一的区别是加了去噪方法之后更慢了。

    • Cost-sensitive:在数据集不平衡程度不高时可用,训练分类器的效率跟使用原始数据训练没有什么区别。缺点是一般需要自己当“领域专家”来设置cost matrix(多了个参数要调),设的不好通常也会得到不理想的效果。此外在不平衡严重的时候,由于没有对数据集的修改,神经网络的训练会crash:连续数个mini-batch都是多数类样本,分分钟陷到local optimal/鞍点。

    • 集成:随机降采样+集成,在不平衡比较高时需要较多的基学习器来达到较好的效果。注意Boosting容易被噪声影响,Bagging方法是真正的万金油,增加基学习器数量效果一般不会下降。高级降采样+集成,也可以尝试,运行会慢并且效果不能保证比随机方法好。高级过采样+集成,同上,数据规模大且不平衡程度高情况下,训练样本数量爆炸。尤其是集成方法还要训练好多个基学习器。BalanceCascade,信息利用效率高,只用很少的基学习器就能达到较好的效果,但对噪声不鲁棒。

    我们为了解决上述高度不平衡、含有较多噪声、且数据规模极大的不平衡分类问题做了一些微小的工作,并且与传统不平衡学习方法做了全面的比较实验,我们的方法计算开销更小,结果更优。过一阵时间可能会挂到arxiv上,届时敬请关注。

    BTW:

    一些经典综述:[3,24,25,26]

    一个包:imbalanced-learn python package(https://github.com/scikit-learn-contrib/imbalanced-learn)

    这个包里实现的很多方法效果都不尽人意,(尤其是集成类方法:RUSBoost/EasyEnsemble/BalanceCascade等)发现不好用的话建议自己手写一个/用其他的实现。

    References

    [1] Gamberger D, Lavrac N, Groselj C. Experiments with noise filtering in a medical domain//ICML. 1999: 143-151.

    [2] Graepel T, Candela J Q, Borchert T, et al. Web-scale bayesian click-through rate prediction for sponsored search advertising in microsoft’s bing search engine// Omnipress, 2010.

    [3] Sun Y, Wong A K, Kamel M S. Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 2009, 23 (04):687-719.

    [4] Powers D M. Evaluation: from precision, recall and f-measure to roc, informed-ness, markedness and correlation. 2011.

    [5] Sokolova M, Japkowicz N, Szpakowicz S. Beyond accuracy, f-score and roc: a family of discriminant measures for performance evaluation//Australasian joint conference on artificial intelligence. Springer, 2006: 1015-1021.

    [6] Boughorbel S, Jarray F, El-Anbari M. Optimal classifier for imbalanced data using matthews correlation coefficient metric. PloS one, 2017, 12(6):e0177678.

    [7] Davis J, Goadrich M. The relationship between precision-recall and roc curves// Proceedings of the 23rd international conference on Machine learning. ACM, 2006: 233-240.

    [8] García V, Sánchez J, Mollineda R. An empirical study of the behavior of classifiers on imbalanced and overlapped data sets//Iberoamerican Congress on Pattern Recognition. Springer, 2007: 397-406.

    [9] Napierała K, Stefanowski J, Wilk S. Learning from imbalanced data in presence of noisy and borderline examples//International Conference on Rough Sets and Current Trends in Computing. Springer, 2010: 158-167.

    [10] Prati R C, Batista G E, Monard M C. Learning with class skews and small dis- juncts//Brazilian Symposium on Artificial Intelligence. Springer, 2004: 296-306.

    [11] Mani I, Zhang I. knn approach to unbalanced data distributions: a case study involving information extraction//Proceedings of workshop on learning from imbalanced datasets: volume 126. 2003.

    [12] Wilson D L. Asymptotic properties of nearest neighbor rules using edited data. IEEE Transactions on Systems, Man, and Cybernetics, 1972(3):408-421.

    [13]Tomek I. Two modifications of cnn. IEEE Trans. Systems, Man and Cybernetics, 1976, 6:769-772.

    [14] Chawla N V, Bowyer K W, Hall L O, et al. Smote: synthetic minority over-sampling technique. Journal of artificial intelligence research, 2002, 16:321-357.

    [15] He H, Bai Y, Garcia E A, et al. Adasyn: Adaptive synthetic sampling approach for imbalanced learning// 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). IEEE, 2008: 1322-1328.

    [16] Han H, Wang W Y, Mao B H. Borderline-smote: a new over-sampling method in imbalanced data sets learning//International conference on intelligent computing. Springer, 2005: 878-887.

    [17] Batista GE, Prati RC, Monard MC. A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD explorations newsletter, 2004, 6(1):20-29.

    [18] Elkan C. The foundations of cost-sensitive learning//International joint conference on artificial intelligence: volume 17. Lawrence Erlbaum Associates Ltd, 2001:973-978.

    [19] Liu X Y, Zhou Z H. The influence of class imbalance on cost-sensitive learning: An empirical study//Sixth International Conference on Data Mining (ICDM’06). IEEE, 2006: 970-974.

    [20] Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of computer and system sciences, 1997,55(1):119-139.

    [21] Chawla N V, Lazarevic A, Hall L O, et al. Smoteboost: Improving prediction of the minority class in boosting//European conference on principles of data mining and knowledge discovery. Springer, 2003: 107-119.

    [22] Wang S, Yao X. Diversity analysis on imbalanced data sets by using ensemble models//2009 IEEE Symposium on Computational Intelligence and Data Mining. IEEE, 2009: 324-331.

    [23] Liu X Y, Wu J, Zhou Z H. Exploratory undersampling for class-imbalance learning. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2009, 39(2):539-550.

    [24] He H, Garcia E A. Learning from imbalanced data. IEEE Transactions on Knowledge & Data Engineering, 2008(9):1263-1284.

    [25] He H, Ma Y. Imbalanced learning: foundations, algorithms, and applications. John Wiley & Sons, 2013.

    [26] Haixiang G,Yijing L,Shang J, et al. Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications, 2017, 73:220-239

    [27] Lemaître G, Nogueira F, Aridas C K. Imbalanced-learn: A python toolbox to tackle the curse of imbalanced datasets in machine learning. Journal of Machine Learning Research, 2017, 18(17):1-5. jmlr.org/papers/v18/16-.

    文章知乎地址 : https://zhuanlan.zhihu.com/p/54199094

    640?wx_fmt=other

    展开全文
  • 如《类别平衡分布对传统分类器性能的影响机理》所述,在平衡分类问题中,类别平衡比率(Imbalanced Ratio, IR)是一个较为重要的概念,其具体可表示为多数类样本与少数类样本的比值,即IR=N−N+\text{IR}=...

    《类别不平衡分布对传统分类器性能的影响机理》文章可以看出,类别不平衡分布是会对各种传统分类算法的性能产生负面影响的。然而,这种负面影响的大小却与很多因素有关,本文和大家探讨这些影响因素。

    类别不平衡比率

    《类别不平衡分布对传统分类器性能的影响机理》所述,在不平衡分类问题中,类别不平衡比率(Imbalanced Ratio, IR)是一个较为重要的概念,其具体可表示为多数类样本数与少数类样本数的比值,即 IR = N − N + \text{IR}=\frac{N^-}{N^+} IR=N+N。一般而言,IR值越高,其对分类器的负面影响往往也越大,如在朴素贝叶斯分类器中,若 P ( c − ) P(c^-) P(c) P ( c + ) P(c^+) P(c+)的差值越大,则显然分类面就会越偏向于少数类区域;在支持向量机分类器中,IR值越大,少数类错误率的上限也会随之越大;而在极限学习机中,IR值越大,其在交叠的致密区域中的子类别不平衡比率 S S S也可能会越大,从而导致少数类样本被误分的概率更高。为了更清晰地向读者展示类别不平衡比率的影响,这里分别给出了在 I R = 9 IR=9 IR=9(a)及 I R = 90 IR=90 IR=90(b)时的样本分布图,具体如下图所示:
    样本分布
    从上图不难看出,不同的类别不平衡比率对分类器的危害程度是不一样的。因此,在进行类别不平衡学习时,要考虑到类别不平衡比率的影响。实际上,在很多实际的类别不平衡学习任务中,其类别不平衡比率均可达到100以上,甚至达到10000。

    重叠区域的大小

    不同类样本的重叠区域大小也会对分类性能产生较大影响。所谓重叠区域,即是指不同类样本在属性空间的交叠区域。下图刻画了两个具有相同IR值,但重叠区域大小不同的不平衡样本集的样本分布情况。
    重叠区域大小不同的样本集的样本分布示意图

    从上图可以看出,两类样本在(a)所刻画的分布中具有较大的重叠区域,而在图(b)中则具有清晰的间隔。那么,显而易见,尽管两种分布均具有相同的IR值,但在图(b)中,更易于找到一个将两类样本完全正确分类的划分超平面。实际上,前人研究已经发现:在不平衡分类任务中,不同类样本的重叠区域越大,则对传统分类器性能的影响也会越大,而若不同类样本在属性空间中可清晰地分开,则对传统分类器性能的影响将是十分有限的。

    训练样本的绝对数量

    在类别不平衡学习任务中,训练样本的绝对数量,也就是训练集的规模,也会对分类器的性能产生较大影响。这一问题并不难理解,其实即使是在类别平衡的学习任务中,若训练样本规模过小,也会大幅降低分类器的训练精度。因为在小样本数据集上,难以通过统计学方法获取样本的真实分布,即使统计得到一个分布特征,距真实分布的偏差也会较大,从而造成最后学习的结果不准确。不过,在类别不平衡问题中,这一因素的影响又被进一步放大了,可以想象:在训练样本总数本身就不足的情况下,少数类样本的分布必将更加稀疏,从而只能体现出一定的随机性,而完全无法从中观察到其真实分布的情况。下图对两个具有相同IR值,相同重叠区域大小,但训练样本规模不同的样本集的样本分的影响进行了直观说明。
    样本分布示意图
    从上图中不难看出,尽管两个子图中的样本来源于完全相同的分布,且IR值与重叠区域的大小也完全相同,但从(a)能够清晰看出样本的分布情况,而在(b)中,样本的分布形状并不清晰,尤其是少数类样本,由于分布过于稀疏,已完全看不出具体的分布情况。由此可知,在类别不平衡学习任务中,训练样本的绝对数量越少,其学习可能越不充分,所训练的分类面的偏差也可能越大。

    类内子聚集现象的严重程度

    类内子聚集,也被称作类内不平衡或小析取项,通常指代少数类样本中出现两个或者多个概念,且概念有主次之分的情况。下图给出了一个少数类出现类内子聚集的示例。
    类内子聚集示意图
    从上图中不难看出,在特征空间中,少数类样本分别被聚集到了两堆,大部分样本服从特征1取值为 [ 0.6 , 1 ] [0.6,1] [0.6,1]、特征2取值为 [ 0 , 1 ] [0,1] [0,1]的均匀分布,还有少部分样本服从特征1取值为 [ 0 , 0.2 ] [0,0.2] [0,0.2]、特征2取值为 [ 0 , 0.4 ] [0,0.4] [0,0.4]的均匀分布。显然,上述第一个分布描述了少数类样本的主概念,而第二个分布则描述了次概念。少数类样本本就受到类间不平衡因素的影响,若再存在类内不平衡现象,而需分类器同时学习多个概念,则必然会加剧分类算法的学习难度,而进一步降低少数类的分类精度。

    噪声样本的比率

    噪声样本的比率通常也是影响类别不平衡学习性能的一个重要因素。所谓噪声样本,主要是指那些不符合同类样本分布的样本,它们在属性空间中通常是以离群点的形式存在。若这些噪声样本恰好出现在了其他类样本的决策区域,则会对其他类样本的决策造成危害。对于不平衡分类问题而言,多数类中的噪声样本比率只要偏高,便可严重损害到少数类的分类精度,而少数类噪声样本的比率即使很高,对多数类所造成的危害也将是十分有限的。上述问题可通过下图加以说明。
    多数类及少数类分别含有较高比例噪声样本的分布情况
    从上图可以看出,对于不平衡分类问题而言,若多数类中含有较高比例的噪声样本,则可能会极大地降低对少数类样本判别正确的可能性,而若少数类噪声样本的比例偏高,则往往会湮没在多数类样本之中,不会对后者的性能产生多少负面影响。故在类别不平衡数据中,噪声样本对于多数类与少数类的危害性往往是不对称的。因此,较高的噪声样本比率往往会加大类别不平衡学习的难度。

    其它因素

    除上述影响因素外,样本的维度,即样本的属性数的多少也会对类别不平衡学习的性能产生影响。对于高维的不平衡分类问题而言,常规的做法是先对训练集进行降维处理,然后再在低维的样本空间中调用类别不平衡学习方法进行训练。

    我们也采用真实分类器检测了三个最重要的因素,即类别不平衡比率 I R IR IR、重叠区域大小及训练样本的绝对数量对其分类边界的影响,以使读者能够对该问题有更深入的理解。考虑到在真实世界应用中,同类样本通常近似呈高斯正态分布,故在本例中,我们采用随机高斯函数来生成符合正态分布的虚拟样本集。此外,为了有更好的可视化效果,我们将虚拟样本的维度固定为两维,即每个样本由两个属性组成。这里分别采用 μ + \mu_+ μ+ μ − \mu_- μ表示正类与负类样本的均值,而以 σ \sigma σ来表示两类样本分布的标准差。为方便起见, σ \sigma σ的取值被固定为0.3。分类器采用极限学习机,其中,隐层节点数 L L L及惩罚因子 C C C均固定为10,激活函数选用Sigmoid函数。另外,在测试过程中,每测试一个参数,均固定另外两个参数的取值,默认参数为 μ + = 0.7 \mu_+=0.7 μ+=0.7, μ − = 0.3 \mu_-=0.3 μ=0.3, I R = 10 IR=10 IR=10,训练样本绝对数为1100。分类面随各参数取值的变化趋势如下图所示。
    在这里插入图片描述
    从上图中不难看出,上述各参数均与分类器性能存在着较为密切的联系,当某一参数的取值相对极端时,甚至会造成少数类样本完全被错分,分类模型完全失效。而上述每个实验还仅仅是考查了一个因素的影响,若将各因素综合考量,则将是一个非常复杂的问题。

    展开全文
  • 为了提高频谱感知性能,克服经典算法的缺点,提出了一种新的基于Wishart随机矩阵理论的协作频谱感知算法。根据多个认知用户接收信号样本协方差...该算法虚警概率和极端值影响较小,比同类算法更好的检测性能。
  • 计算 X 中值的 M 部分修剪平均(截断平均)。包括数据的最高和最低 PERCENT/2 (%)。 这是一种先进的修剪方法。 给定n个有序观察x_(1)<...显然,它比算术平均容易极端分数的影响。 正如
  • 一、四分位数 1.排序后处于25%和75%位置上的值 2.不受极端值影响 3.计算公式:Q₁位置=¼n Q₃位置=¾n
  • 二分类问题的性能度量为何选用F? 已知混淆矩阵 prediction positive prediction negative actuality positive True Positive(TP) False Negative(FN) actuality negative False Positive(FP) ...
  • 极端类别平衡数据下的分类问题

    千次阅读 2019-09-02 09:34:08
    当一个分类任务的数据集中来自不同类别的样本数目相差悬殊时,我们通常称该数据集为“类别平衡”的。以一个现实任务为例:在点击率预估(click-through rate prediction)任务中,每条展示给用户的广告都产生一条...
  • 一组数据中如果特别大的或特别小的时,一般用中位 一组数据比较多(20个以上),范围比较集中,一般用众数 其余情况一般还是平均比较精确 一、联系与区别:  1、平均是通过计算得到的,因此它会因...
  • 极端值与多重共线性欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区。 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你...
  • 几种平均的物理意义应用场景

    千次阅读 2019-07-23 10:39:34
    算术平均,就是均(mean),一般用来反映一组呈对称正态分布的变量值在数量...它受极端值影响较算术平均小,但要求任何一个变量值都能为0。 调和平均(harmonic mean)经常是对于完成的工作量相等而所需...
  • 利用样本协方差矩阵几何平均特征值的对数分布特性,提出了一种新的频谱感知算法。该算法基于样本协方差矩阵最大最小特征值之差与几何平均...并且所提算法的感知性能较为稳定,样本中极端值和虚警概率的影响均较小。
  • 数据集中趋势 在统计研究中,需要搜集大量数据并对其进行加工整理,大多数情况下数据都会呈现...根据统计学知识,集中趋势指平均,是一组数据中代表性的,这些数值趋向于落在数值大小排列的数据中心,被称为...
  • 从中位的定义可知,所研究的数据中一半小于中位,一半大于中位。中位的作用与算术平均相近,也是作为所研究数据的代表。在一个等差数列或一个正态分布数列中,中位就等于算术平均...
  • 均值、中位、中位的概念以及优缺点对比。偏态分布难点分析,以及偏度、峰度计算公式。文末附相关学习链接。
  • 数据清洗中异常(离群值)的判别和处理方法

    万次阅读 多人点赞 2020-07-03 20:25:01
    异常甄别可能很多方法,实际使用的时候感觉还是箱型图好用,一目了然,清晰易懂。
  • 中位和平均

    万次阅读 2018-09-27 23:09:44
    2)中位是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。 3)众数也是数据的一种代表,反映了一...
  • 二、数据分布特征的测度

    千次阅读 2021-01-29 20:52:56
    数据分布的特征 1、集中趋势:各数据向中心靠拢或聚集的程度;【平均、中位、四分位数、众数】 2、离散程度:各数据远离其中心的...n个数据,n为奇数-直接选中间为中位 n为偶数,-(n+1)/2 四分位数:一组
  • 终于人把 p 讲明白了!

    万次阅读 2021-09-11 00:30:32
    导读:p(P value)就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率,是用来判定假设检验结果的一个参数。p是根据实际统计量计算出的显著性水平。本文带你了解p和对...
  • r语言中检测异常_R中的异常检测

    万次阅读 多人点赞 2020-08-08 22:22:20
    r语言中检测异常 介绍 (Introduction) An outlier is a value or an observation that is distant from other observations, that is to say, a data point that differs significantly from other data points. ...
  • 一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均”,没错吧? 也许。 和流行的观点不同,从数学上说,平均通常不是一样...
  • 一组数字。你希望用更少的数字概括它们,最好是只用一个数字。因此,你将这组数字加起来,然后除以数字的数目。哇,你得到了“平均”,没错吧? 也许。 和流行的观点不同,从数学上说,平均通常不是一样...
  • 观察与均值的离差平方和最小.PPT

    千次阅读 2021-01-14 05:55:46
    观察与均值的离差平方和最小第四章 集中趋势和离中趋势 4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状 4.1 集中趋势的计算 1.简单算术平均 计算公式: 它是反映数据集中的主要测度。 算术平均的统计...
  • 当然如果落下什么了欢迎大家评论指出 目录 顺序存储线性表实现 单链表带头标准c语言实现 单链表带头压缩c语言实现 约瑟夫环-(数组、循环链表、数学) 线性表表示集合 线性表实现一元多项式操作 链表环问题 ...
  • 异常是由于系统误差、人为误差或者固有数据的变异使得他们与总体的行为特征、结构或相关性等一样,这部分数据称为异常。 为什么要关注异常? 异常检测在数据挖掘中有着重要的意义,比如如果异常是由于...
  • 均值 描述:一组数据的平均 公式:u = 1/n ∑[n,i=1]Xi = 1/n(X1 + X2 + ......如果数据总个为偶数,中位就是中间两个数据的平均 众数 描述:数据中出现次数最多的 一组数据中,可能存在多个众数,也可能
  • 四分位数、中位、第三四分位数与最大来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。画图步骤:1、画数轴,度量单位大小和数据批的单位...
  • 加权平均就是把原始数据按照合理的比例来计算: 3)简单几何平均(X G bar) 用在求增长率方面非常直观: 4)加权几何平均 主要是金融分析行业使用较多,电商分析常用: 5)平均用处 易受极端值影响 数学...
  • 几种平均

    千次阅读 2020-02-15 10:15:13
    算数平均、调和平均、几何平均的计算方法与应用场合 总的来说:几种平均的应用的取决于场景 一、定义 1、算数平均:又称均值,是统计学中最基本,最常用的一种平均指标,分为简单算术平均、加权算术...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 25,072
精华内容 10,028
热门标签
关键字:

不受极端值影响的数有