精华内容
下载资源
问答
  • 例如:将一批医疗数据分类为“癌症患者”和“非癌症患者”两个类,其中 “癌症患者”是比例样本(假设占总样本的1%),称其为目标类,“非癌症患者”为多数类样本,称为非目标类,从大量数据中正确识别“癌症患者...
  • 例如:将一批医疗数据分类为“癌症患者”和“非癌症患者”两个类,其中 “癌症患者”是比例样本(假设占总样本的1%),称其为目标类,“非癌症患者”为多数类样本,称为非目标类,从大量数据中正确识别“癌症患者...
  • 凭借着其较高的准确率与识别效率,借助深度学习进行图像分类技术己经逐渐取代了人工标注特征进行图像分类,但是深度学习在训练过程中往往存在参数难以调整,训练样本需求较大且训练时间过长的缺点。针对以上问题,研究...

    【摘要】:随着互联网技术的发展和信息化水平的提高,图像数据量也呈现了爆炸式的增长。在庞大的图像数据库中,计算机如何高效地挑选图像数据,对图像分类技术提出了一定的挑战。由于近几年深度学习快速发展,凭借着其较高的准确率与识别效率,借助深度学习进行图像分类技术己经逐渐取代了人工标注特征进行图像分类,但是深度学习在训练过程中往往存在参数难以调整,训练样本需求量较大且训练时间过长的缺点。针对以上问题,研究在小数量样本情况下,如何高效利用深度学习进行图像识别是很有意义的,也增强了不同样本情况下的深度学习模型的适应能力。针对小样本识别的众多问题,例如,极容易过拟合、模型泛化性较差等,本文提出基于深度学习的小样本分类识别模型,优化方向主要基于以下两个方面,第一是图像样本数量的增强,第二是识别模型的优化。在进行样本数量增强时,提出生成式模型与图像预处理相结合的技术。首先利用全连接生成式模型进行样本增强,针对全连接神经网络参数过多的问题,利用卷积神经网络代替全连接神经网络进行图像训练。由于产生的样本图像具有随机性,本文利用条件生成式模型进行样本生成,所产生的样本集合含有labels,在后续的监督式分类学习中可以得到很好的应用。针对在条件生成模型中产生样本出现模糊的问题,提出基于小波变换与自适应数学形态学的图像边缘检测技术。该方法可以很好的克服边缘模糊问题;此外,由于生成的样本往往存在噪声,本文提出基于经验模态分解与稀疏表示相结合的图像去噪技术,优化的去噪模型可以很好的在去除噪声的同时保留图像的边缘细节。因此利用融合模型进行的图像样本数量增强可以很好的扩大样本,用于下一部分的分类模型。在进行小样本分类模型中,利用迁移学习进行模型分类,迁移学习往往能在较少的训练样本集中达到较高的识别效率。本文结合生成模型与迁移学习,利用融合模型进行小样本图像识别。迁移学习采用Inpection-V3模型进行训练,相比较于单纯进行卷积神经网络进行分类训练,加入迁移学习可以提高模型的泛化能力,模型的训练效率也有了很大的提升,在样本缺失时,基于迁移学习的分类模型,由于只需要再训练,因此识别的准确率也得到了很大的提升。结合上一部分的样本增强技术,在样本缺失时,本文通过增加仿造样本与迁移学习相结合的方式进行模型融合并分类,利用标准数据集与拍摄的树叶图像作实验对比,在准确率上,本文算法相比较于单纯使用迁移学习和卷积神经网络均有所提升,对于样本量不足的实验环境中进行深度学习分类具有很好的参考意义。

    【学位授予单位】:东北林业大学
    【学位级别】:硕士
    【学位授予年份】:2018

     

     

    基于深度学习的小样本图像分类研究

     

     

     

     

     

     

     

    展开全文
  • k近邻算法缺点

    2021-04-14 23:34:06
    该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。 缺点: 惰性学习 KNN算法是懒散学习方法(lazy learning,基本上不学习),一些积极学习的算法要快...

    优点:

    • 简单有效
    • 重新训练的代价低(没有构建模型)
    • 适合类域交叉样本
      • KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
    • 适合大样本自动分类
      • 该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

    缺点:

    • 惰性学习
      • KNN算法是懒散学习方法(lazy learning,基本上不学习),一些积极学习的算法要快很多
    • 类别评分不是规格化
      • 不像一些通过概率评分的分类
    • 输出可解释性不强
      • 例如决策树的输出可解释性就较强
    • 对不均衡的样本不擅长
      • 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。
    • 计算量较大
      • 目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。
    展开全文
  • 朴素贝叶斯优点:在数据较少情况下仍然有效,可以处理多类别问题缺点:对于输入数据准备方式较为敏感适用数据类型:标称型数据朴素贝叶斯决策理论核心思想:选择具有最高概率决策朴素贝叶斯一般过程(1)...

    朴素贝叶斯
    优点:在数据较少的情况下仍然有效,可以处理多类别问题
    缺点:对于输入数据的准备方式较为敏感
    适用数据类型:标称型数据
    朴素贝叶斯决策理论的核心思想:选择具有最高概率的决策
    朴素贝叶斯的一般过程
    (1)收集数据:可以使用任何方法。
    (2)准备数据:需要数值型或者布尔型数据。
    (3)分析数据:有大量特征时,回值特征作用不大,此时使用直方图效果更好
    (4)训练算法:计算不同的独立特征的条件概率
    (5)测试算法:计算错误率
    (6)使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定是文本

      1 from numpy import *
      2 
      3 #创建一些实验样本。该函数返回的第一个变量是进行词条切分后的文档集合,
      4 #该函数返回的第二个变量是一个类别标签的集合
      5 def loadDataSet():
      6     postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
      7                  ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
      8                  ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
      9                  ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
     10                  ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
     11                  ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
     12     classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
     13     return postingList,classVec
     14 
     15 #创建一个包含所有文档中出现的不重复词的列表
     16 def createVocabList(dataSet):
     17     #创建一个空集
     18     vocabSet = set([])  #create empty set
     19     for document in dataSet:
     20         #创建两个集合的并集
     21         vocabSet = vocabSet | set(document) #union of the two sets
     22     return list(vocabSet)
     23 
     24 #该函数的输入参数为词汇表及其某个文档,输出的是文档向量,向量的每一元素为1或0,
     25 # 分别表示词汇表中的单词在输入文档中是否出现。
     26 #函数首先创建一个和词汇表等长的向量,并将其元素都设置为0.接着,遍历文档中的所有单词,
     27 # 如果出现了词汇表中的单词,则将输出的文档向量中对应值设为1.一切顺利的话,就不需要
     28 # 检查某个词是否还在vocabList中,后边可能会用到这一操作
     29 def setOfWords2Vec(vocabList, inputSet):
     30     #创建一个维度都为0的向量
     31     returnVec = [0]*len(vocabList)
     32     for word in inputSet:
     33         if word in vocabList:
     34             returnVec[vocabList.index(word)] = 1
     35         else: print ("the word: %s is not in my Vocabulary!" % word)
     36     return returnVec
     37 '''
     38 该函数的伪代码如下:
     39 计算每个类别中的文档数目
     40 对每篇训练文档:
     41     对每个类别:
     42         如果词条出现文档中则增加该词条的计数值
     43         增加所有词条的计数值
     44     对每个类别:
     45         对每个词条:
     46             将该词条的数目除以总词条数目得到条件概率
     47     返回每个类别的条件概率
     48 '''
     49 
     50 #
     51 def trainNB0(trainMatrix,trainCategory):
     52     numTrainDocs = len(trainMatrix)
     53     numWords = len(trainMatrix[0])
     54     #初始化概率
     55     pAbusive = sum(trainCategory)/float(numTrainDocs)
     56     p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones()
     57     p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
     58     for i in range(numTrainDocs):
     59         #向量相加
     60         if trainCategory[i] == 1:
     61             p1Num += trainMatrix[i]
     62             p1Denom += sum(trainMatrix[i])
     63         else:
     64             p0Num += trainMatrix[i]
     65             p0Denom += sum(trainMatrix[i])
     66             #对每个元素做除法
     67     p1Vect = log(p1Num/p1Denom)          #change to log()
     68     p0Vect = log(p0Num/p0Denom)          #change to log()
     69     return p0Vect,p1Vect,pAbusive
     70 
     71 def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
     72     p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
     73     p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
     74     if p1 > p0:
     75         return 1
     76     else:
     77         return 0
     78 
     79 def bagOfWords2VecMN(vocabList, inputSet):
     80     returnVec = [0]*len(vocabList)
     81     for word in inputSet:
     82         if word in vocabList:
     83             returnVec[vocabList.index(word)] += 1
     84     return returnVec
     85 
     86 def testingNB():
     87     listOPosts,listClasses = loadDataSet()
     88     myVocabList = createVocabList(listOPosts)
     89     trainMat=[]
     90     for postinDoc in listOPosts:
     91         trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
     92     p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
     93     testEntry = ['love', 'my', 'dalmation']
     94     thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
     95     print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
     96     testEntry = ['stupid', 'garbage']
     97     thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
     98     print (testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
     99 #如果一个词在文档中出现不止依次,这可能意味着包含该词是否出现的文档所不能表达的某种信息,
    100 # 这种方法被称为词袋模型。
    101 # #
    102 
    103 mySent='This book is the best book on Python or M.L. I have ever laid eyes upon.'
    104 A=mySent.split()
    105 print(A)

    小结:

    对于分类而言,使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。

    可以通过特征之间的条件独立性假设,降低对数据量的需求。独立性假设是指一个词的出现概率并不依赖于文档中的其他词。当然我们也知道这个假设过于简单,这就是之所以称之为朴素贝叶斯的原因。尽管条件独立性假设并不正确,但是朴素贝叶斯仍然是一种有效的分类器。

     

    转载于:https://www.cnblogs.com/zhibei/p/9351497.html

    展开全文
  • PAC缺点

    千次阅读 2018-12-04 21:55:24
    优点: 1、以方差衡量信息的无监督学习,不受样本标签限制。 2、各主成分之间正交,可消除原始数据成分间的相互影响 3. 可减少指标选择的...2、贡献率小的主成分往往可能含有对样本差异的重要信息 3、特征值...

    优点:

    1、以方差衡量信息的无监督学习,不受样本标签限制。

    2各主成分之间正交,可消除原始数据成分间的相互影响

    3. 可减少指标选择的工作量

    4.用少数指标代替多数指标,利用PCA降维是最常用的算法

    5. 计算方法简单,易于在计算机上实现。

     

    缺点:

    1、主成分解释其含义往往具有一定的模糊性,不如原始样本完整

    2、贡献率小的主成分往往可能含有对样本差异的重要信息

    3、特征值矩阵的正交向量空间是否唯一有待讨论

    4、无监督学习

    展开全文
  • 朴素贝叶斯优点:  对规模数据表现很好,适合多分类任务,适合增量式... 计算简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关特征;  缺点:  容易过拟合(后续出现了随机森林...
  • 决策树优点: 计算简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关特征;缺点: 容易过拟合(后续出现了随机森林,减小了过拟合现象);Logistic回归优点: 1、实现简单; 2、分类时计算...
  • Anderson-Darling 检验(Anderson 和 Darling,1952 年)用于测试数据样本是否来自特定分布。... 请注意,对于给定分布,Anderson-Darling 统计可以乘以常数 a(通常取决于样本大小 n)。 这些常数在 Stephens (1
  • Anderson-Darling 检验(Anderson 和 Darling,1952 年)用于测试数据样本是否来自特定分布... 注意,对于给定分布,可以将Anderson-Darling统计乘以常数a(通常取决于样本大小n)。 这些常数在 Stephens (1974, 19
  • 机器学习中几个常见模型缺点

    万次阅读 2017-08-24 14:18:49
    决策树:优点:计算简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关特征。缺点:容易过拟合(后续出现了随机森林,减小了过拟合现象)。 逻辑回归:优点:实现简单,分类时计算非常,...
  • KNN算法优缺点、原理及参数最优解

    千次阅读 2019-11-28 11:44:29
    ​ KNN算法 KNN算法简介 简单地说,K-近邻算法采用测量...当样本不平衡时,比如一个类的样本容量很大,其他类的样本容量很,输入一个样本的时候,K个临近值中大多数都是大样本容量那个类,这时可能就会导致...
  • 为解决当前大掺粉煤灰混凝土(HVFAC)...结果表明:该方法避免了人工神经网络在对大掺粉煤灰混凝土强度预测时所表现出来过学习、泛化能力弱等缺点,较好地解决小样本学习问题,算法简单、预测精度高、抗干扰能力强.
  • SVM在解决小样本,非线性以及高维特征中表现出许多特有优势。 SVM基于有限的样本信息在模型复杂度和模型准确性之间寻求最佳折中,以获得最好预测效果。 1.2 缺点 在数据情况下运算复杂度高,不适合...
  • 一方面,该方法基于结构风险最小化,能较好地解决小样本学习问题,避免了人工神经网络等智能方法在对回采工作面瓦斯涌出进行预测时所表现出来过学习、泛化能力弱等缺点;另一方面,该方法用等式约束代替不等式约束,...
  • 利用序列二次规划法对该优化问题进行求解,避免了传统优化设计方法计算大,且在处理非线性系统优化问题时易导致收敛缓慢甚至不收敛的缺点。最后,通过实验的方法对轻化后的可见光探测器结构的刚度性能进行了验证
  • 深度学习 -- 数据样本方面

    千次阅读 2017-05-11 16:19:39
    在深度学习中,当数据不够大时候,常常采用下面4中方法: ... 数据比较小会导致模型过拟合, 使得训练误差很而测试误差特别大. 通过在Loss Function 后面加上正则项可以抑制过拟合产生. 缺点是引
  • 该方法用通道间具有最小模的样本商作为复权,替代Householder多级维纳滤波器权值计算,具有收敛速度快、运算量小等特点,且对受相关干扰影响非平稳数据工作性能良好。仿真结果表明,此算法用较少样本就可取得采样...
  • Python-主流机器学习算法优缺点

    万次阅读 2018-09-06 12:58:13
    优点:计算简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关特征; 缺点:容易过拟合(后续出现了随机森林,减小了过拟合现象),使用剪枝来避免过拟合; 适用数据范围:数值型和标称型 CART...
  • 缺点:由于深度学习模型训练依赖于大量数据,所以每次进行训练都会消耗大量时间。 (2)SGD(Stochastic Gradient Descent): 随机梯度下降:每次挑选一个样本进行训练。 优点:由于每次参数调整...
  • 批量梯度下降法MBGD

    2018-07-02 08:15:02
    批量梯度下降法(Mini-batch Gradient Descent,简称MBGD):它具体思路是在更新每一参数...如果样本量比较,采用批量梯度下降算法。如果样本太大,或者在线算法,使用随机梯度下降算法。在实际一般情况下,...
  • 最近在学习提高MMD算法,其中算法中有一些细节知识,是关于mini-batch中基于四元组实现MMD损失计算,于是就仔细地学习了下,批量梯度...缺点是这样方法造成处理数据大,收敛慢;另外在数据很大时候,内存
  • 1、当样本不平衡时,比如一个类的样本容量很大,其他类的样本容量很,输入一个样本的时候,K个临近值中大多数都是大样本容量那个类,这时可能就会导致分类错误。改进方法是对K临近点进行加权,也就是距离近点...
  • 梯度下降有三种 1. 批量梯度下降(Batch Gradient Descent,BGD) ...不同点在于损失函数使用的样本量的不同,其根本流程是一毛一样啊! 各有优缺点。 方法 说明 优点 缺点 适用实例 ...
  • 建模迅速,对于数据、简单关系很有效。 解决回归问题,拥有很好解释性。 是很多非线性模型基础。 缺点: 对于非线性数据或者数据特征间具有相关性多项式回归难以建模。 当样本特征n...
  • 批量梯度下降法(Batch Gradient Descent) ...如果样本量很大情况(例如几十万),那么可能只用其中几万条或者几千条样本,就已经将参数迭代到最优解了,对比上面批量梯度下降,迭代一次需要用到.
  • 批量梯度下降法(Batch Gradient Descent) 在每次更新参数时都会将全部数据集计算一遍。  优点:全局最优解,能保证每一次更新权值,都能降低损失函数;...如果样本量很大情况(例如几十万)...
  • 介绍了一种分析中介效应的新方法——基于bootstrap 的结构方程模型分析,该方法可以克服逐步检验法和 Sobel 检验法在处理小样本量中介效应值,或者中介效应值不呈正态分布的情况下统计功效不高的缺点,并且能...
  • 统计学 参数估计 单总体均值的估计 1.综述 总体均值的估计分为以下两种情况 总体方差已知的情况 总体方差未知的情况 首先对但总体均值的方差估计做一个简单的概括,各个情况已在下表...为了解决点估计的缺点,我们得出
  • 常见数据挖掘算法和Python简单实现

    万次阅读 2017-04-21 11:15:03
    1、K近邻算法 原理:计算待分类样本与每...缺点:1、对测试样本内存开销大,2、可解释性差,无法生成规则,3、对样本量小的问题,容易误分 经验:K一般低于样本量的平方根,基于交叉验证 问题:类别判断:投票

空空如也

空空如也

1 2 3 4 5 ... 8
收藏数 141
精华内容 56
关键字:

样本量小的缺点