精华内容
下载资源
问答
  • kNN算法缺点

    万次阅读 2017-11-03 22:22:31
    1.kNN算法缺点 优点 简单好用,容易理解,...样本不平衡问题(即有些类别的样本数量很多,而其它样本数量很);一般数值很大时候不用这个,计算量太大。但是单个样本又不能太,否则容易发生误分。


    1.kNN算法的优缺点

    优点

    • 简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归;
    • 可用于数值型数据和离散型数据;
    • 训练时间复杂度为O(n);无数据输入假定;
    • 对异常值不敏感。

    缺点:

    • 计算复杂性高;空间复杂性高;
    • 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少);
    • 一般数值很大的时候不用这个,计算量太大。但是单个样本又不能太少,否则容易发生误分。
    • 最大的缺点是无法给出数据的内在含义。

    2. 其他

    • 关于距离度量的方法还有切比雪夫距离、马氏距离、巴氏距离等;
    展开全文
  • 1,通过过抽样和欠抽样解决样本不均衡 1,过抽样:过抽样也叫做上采样(over-...但是这种方法的缺点就是如果样本特征而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一...

    1,通过过抽样和欠抽样解决样本不均衡

    1,过抽样:过抽样也叫做上采样(over-sampling).这种方法通过增加分类中少数样本的数量来实现样本均衡。最直接的方法是简单复制少数样本形成多条记录。比如正负比例为1:10,那么我们可以将正例复制9遍来达到正负比例1:1。但是这种方法的缺点就是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本,例如SMOTE算法。
    2,欠抽样:欠抽样也叫做下采样(under-sampling),这种方法通过减少分类中多数分类的样本数量来实现样本均衡,最直接的方法就是随机的去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类样本中的一些重要信息。

    总而言之,过抽样和欠抽样更适合于大数据分布不均衡的情况,尤其是第一种(过抽样)应用更加广泛。


    2,通过正负样本的惩罚权重解决样本不均衡。
    3,通过组合集成方法解决样本不均衡。
    4,通过特征选择解决样本不均衡

    后面三种方法就不具体展开记录了,具体步骤见参考地址
    参考地址:https://www.zhihu.com/question/56662976

    展开全文
  • 分类时,由于训练集合中各样本数量不均衡,导致模型训偏在测试集合上泛化性不好。解决样本不均衡方法主要包括两类:(1)数据层面,修改各类别分布;(2)分类器层面,修改训练算法或目标函数进行改进。还有...

    分类时,由于训练集合中各样本数量不均衡,导致模型训偏在测试集合上的泛化性不好。解决样本不均衡的方法主要包括两类:(1)数据层面,修改各类别的分布;(2)分类器层面,修改训练算法或目标函数进行改进。还有方法是将上述两类进行融合。

    数据层面

    1. 过采样

    (1) 基础版本的过采样:随机过采样训练样本中数量比较少的数据;缺点,容易过拟合;

    (2) 改进版本的过采样:SMOTE,通过插值的方式加入近邻的数据点;

    (3) 基于聚类的过采样:先对数据进行聚类,然后对聚类后的数据分别进行过采样。这种方法能够降低类间和类内的不平衡。

    (4) 神经网络中的过采样:SGD训练时,保证每个batch内部样本均衡。

    2. 欠采样

    与过采样方法相对立的是欠采样方法,主要是移除数据量较多类别中的部分数据。这个方法的问题在于,丢失数据带来的信息缺失。为克服这一缺点,可以丢掉一些类别边界部分的数据。

    分类器层面

    1. Thresholding

    Thresholding的方法又称为post scaling的方法,即根据测试数据的不同类别样本的分布情况选取合适的阈值判断类别,也可以根据贝叶斯公式重新调整分类器输出概率值。一般的基础做法如下:

    假设对于某个类别class在训练数据中占比为x,在测试数据中的占比为x’。分类器输出的概率值需要做scaling,概率转换公式为:

    当然这种加权的方式亦可在模型训练过程中进行添加,即对于二分类问题目标函数可以转换为如下公式:

    2. Cost sensitive learning

    根据样本中不同类别的误分类样本数量,重新定义损失函数。Threshold moving和post scaling是常见的在测试过程进行cost调整的方法。这种方法在训练过程计算损失函数时亦可添加,具体参见上一部分。

    另外一种cost sensitive的方法是动态调节学习率,认为容易误分的样本在更新模型参数时的权重更大一些。

    3. One-class分类

    区别于作类别判决,One-class分类只需要从大量样本中检测出该类别即可,对于每个类别均是一个独立的detect model。这种方法能很好地样本极度不均衡的问题。

    4. 集成的方法

    主要是使用多种以上的方法。例如SMOTEBoost方法是将Boosting和SMOTE 过采样进行结合。

    CNN分类处理方法

    CNN神经网络有效地应用于图像分类、文本分类。目前成功解决数据不均衡的问题的一种方法是two-phrase training,即分两阶段训练。首先,在均衡的数据集上进行训练,然后在不均衡的原始数据集合上fine tune最后的output layer。

    参考:Buda M, MakiA, Mazurowski M A, et al. A systematic study of the class imbalance problem inconvolutional neural networks[J]. Neural Networks, 2018: 249-259.

     

    展开全文
  • 样本不均衡

    2019-06-28 20:49:13
    该方法通过增加分类中少数类样本数量来实现样本均衡,最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、...

    样本不均衡容易发生过拟合。

    1. 过采样小样本(扩充小类,产生新数据)

    该方法通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本,例如SMOTE算法。

    2. 欠采样大样本

    欠抽样(也叫下采样、under-sampling)方法通过减少分类中多数类样本的样本数量来实现样本均衡,最直接的方法是随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类样本中的一些重要信息。设小类中有m个样本。将大类聚类成m个簇,然后使用每个簇的中心组成大类中的m个样本,加上小类中所有的样本进行训练。(优点是保留了大类在特征空间的分布特性,又降低了大类数据的数目)

    3. 对小类错分进行加权惩罚

    通过正负样本的惩罚权重解决样本不均衡的问题的思想是在算法实现过程中,对于分类中不同样本数量的类别分别赋予不同的权重(一般思路分类中的小样本量类别权重高,大样本量类别权重低),然后进行计算和建模。

    对分类器的小类样本数据增加权值,降低大类样本的权值(这种方法其实是产生了新的数据分布,即产生了新的数据集,译者注),从而使得分类器将重点集中在小类样本身上。一个具体做法就是,在训练分类器时,若分类器将小类样本分错时额外增加分类器一个小类样本分错代价,这个额外的代价可以使得分类器更加“关心”小类样本。

    使用这种方法时需要对样本本身做额外处理,只需在算法模型的参数中进行相应设置即可。很多模型和算法中都有基于类别参数的调整设置,以scikit-learn中的SVM为例,通过在class_weight: {dict, 'balanced'}中针对不同类别针对不同的权重,来手动指定不同类别的权重。如果算法本身支持,这种思路是更加简单且高效的方法。

    4. 分治ensemble
    将大类中样本聚类到L个聚类中,然后训练L个分类器;每个分类器使用大类中的一个簇与所有的小类样本进行训练得到;最后对这m个分类器采取少数服从多数对未知类别数据进行分类,如果是连续值(预测),那么采用平均值。(或者随机分成L份)

    5. 分层级ensemble
    使用原始数据集训练第一个学习器L1;将L1错分的数据集作为新的数据集训练L2;将L1和L2分类结果不一致的数据作为数据集训练L3;最后测试集上将三个分类器的结果汇总(结合这三个分类器,采用投票的方式来决定分类结果,因此只有当L2与L3都分类为false时,最终结果才为false,否则true。)
     

     

     

     


     

     

    展开全文
  • 机器学习常见算法优缺点

    千次阅读 2016-12-28 17:50:49
    1. K近邻 算法采用测量不同特征值之间距离方法进行分类。 1.1 优点 简单好用,容易理解,精度高,理论成熟,既...样本不平衡问题(即有些类别的样本数量很多,而其它样本数量很); 一般数值很大时候不用
  • 监督学习算法应用场景和优缺点

    千次阅读 2018-12-31 14:28:56
    转自简书-刘开心_8a6c 记录一波监督学习算法应用场景和优缺点。 高斯朴素贝叶斯 场景:该模型常用于性别分类,即通过一些测量特征,...通常,当训练样本数量或者是精确分布已知时,通过概率分布方法是...
  • 1.样本分布不均的解决方法: 1.1 .过采样 通过增加分类中样本较少的类别的采样数量来实现平衡,最直接的方法是简单复制小样本数据时加入随机噪声、干扰数据等。...设置权重 对不同样本数量的类别赋.
  • 模型评估函数缺点、选择举例

    千次阅读 2018-11-20 20:32:38
     局限性:对于样本类别之间数量差距很大的数据,运用准确率作为评价标准,很容易让模型得到‘满足’,但是,我们关注的可能往往是数量少的呢一个类别,比如免费玩家和充值玩家,对于游戏公司希望对模型对充值玩家...
  • KNN分类算法优缺点

    万次阅读 2017-08-22 19:53:05
    KNN算法优点:1、思想简单,理论成熟,既...2、样本不平衡问题(即有些类别的样本数量很多,而其它样本数量很); 3、需要大量内存;其伪代码如下: 1. 计算已知类别数据集中点与当前点之间距离; 2.
  • 传统机器学习优缺点

    千次阅读 2018-08-12 04:10:33
    训练样本的数量 特征空间维数 特征独立与否? 模型是否是线性可分? 过拟合现象? 速度、性能、内存 logistic回归缺点 优点: 容易实现,且易于解释(输出结果为概率) 计算速度快,内存占用 缺点: ...
  • K近邻 算法采用测量不同特征值之间距离方法进行分类。 优点:1.简单好用,容易理解,精度高,理论成熟,既可以...2.样本不平衡问题(即有些类别的样本数量很多,而其它样本数量很);3.一般数值很大时候...
  • 提出Lap-Lasso方法首先包含一个稀疏正则化项,用于保证只有少数量特征能被选择。另外,引入了一个新基于Laplacian正则化项,用于保留同类样本之间几何分布信息,从而帮助诱导出更具判别力特征。在UCI数据...
  • 基础版本的过采样:随机过采样训练样本数量比较少的数据;缺点,容易过拟合; 改进版本的过采样:SMOTE,通过插值的方式加入近邻的数据点; 神经网络中的过采样:SGD训练时,保证每个batch内部样本均衡。 改变.....
  • 比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc也有 99% 以上,没有意义。因此,单纯靠准确率来评价一个算法模型是远远不够科学全面的。 2、精确率 = 被...
  • 针对基于信息论的贝叶斯网络结构学习算法中结点集越大计算效率越低的缺点,采用主元分析(PCA)对样本数据降维,减少构造网络的结点数量,提高贝叶斯网络结构构造算法的效率。应用基于PCA方法构造贝叶斯网络,其结点...
  • 鉴别报道,但存在如下两个问题:单一物种样本数量,易导致模型欠拟合;均采用线性分类模型,忽略了光谱中非线性因素影响,降低了模型分类性能。因此,本文将支持向量机沿用至 Raman 光谱血液鉴别中,克服...
  • 多分类和二分类关系

    千次阅读 2019-08-31 11:16:09
    1 VS Rest, 1 VS 1, DAG法: ...缺点:正负样本数量不平衡,影响分类效果。 1 VS 1 : 训练K(K-1)/2个分类器,每个分类器有1类做正例有1类做负例;预测阶段,给分成正例类别做投票,票数最多类别获胜;优点:正...
  • 深度学习——知识点4

    2019-07-08 18:38:07
    Q:数据不平衡怎么处理? 解决这个问题的方法主要有三种,三种各有... 过采样(Oversampling):对于不平衡类(样本少的类),随机地增加观测样本数量,这些观测样本只是现有样本的副本,虽然增加了样本的数...
  • 优点 简单好用,容易理解,...样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很); 一般数值很大的时候不用这个,计算量太大。但是单个样本又不能太,否则容易发生误分。 最大的缺点是无法...
  • 定义:增加数量那一类样本的数量,使得正负样本比例均衡。 缺点: 对于随机过采样,由于需要对少数类样本进行复制来扩大数据集,造成模型训练复杂度加大。 另一方面也容易造成模型过拟合问题,因为随机过...
  • 最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征而可能导致过拟合的问题; 经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本。 from imbl...
  • 在投放大量广告中真正转化的样本数量。 - 数据稀疏。每个样本特征信息都不太全。 LR 和 XGOOST 是 CTR 中常用两种模型,二者各有优缺点,在 facebook 中使用 XGBOOST(提取特征) + LR...
  • 在实际的数字信号采集中,叠加于信号的噪声干扰往往不是单一的高斯噪声,而线性滤波器所要求的中等程度噪声偏移,使线性滤波器对非高斯噪声的滤波性能下降,为克服线性滤波器的缺点,往往采用非线性滤波器,所以本文...

空空如也

空空如也

1 2
收藏数 38
精华内容 15
关键字:

样本数量少的缺点