精华内容
下载资源
问答
  • 车牌识别训练样本(全套)

    热门讨论 2016-01-08 17:00:18
    该车牌识别训练样本包括了所有的字符,数字0~9,和26个英文字母(由于我国车牌中英文字母没有‘I’和‘O’,所以实际是24个英文字符)。 所以共有34个文件夹。 每个文件夹中有50个图片。(即有50个不同的0,50个不同...
  • KNN算法识别手写数字系统使用的样本集(训练样本集+测试样本集)
  • 训练样本分类

    2013-01-11 15:37:53
    已知训练样本的特征和测试样本的特征,函数返回一个分类结果classification
  • Theano中LSTM官方教程例子中的数据imdb.pkl
  • 手写数字识别训练样本

    热门讨论 2014-02-19 18:18:08
    包含0到9的符合中国人手写习惯的数字样本,可以用来训练分类器,尤其适合于深度学习中的卷积神经网络,由于上传文件不能大于50M,故此样本为其中一部分,读者可仿照样子自己制作样本
  • 最经典的神经网络就是BP神经网络,对神经网络的训练至关重要,本文讨论如何合理选取样本集容量
  • 用于车牌字符识别的样本,每个字符样本为100个,共计6000多个样本,大小为16*32。用于车牌字符识别的训练和测试
  • 文 / Google Research Cloud AI 团队研究员 Jinsung Yoon 和 Sercan O. Arik近期研究表明,并非所有的数据样本训练都同样实用,深度神经...

    文 / Google Research Cloud AI 团队研究员 Jinsung Yoon 和 Sercan O. Arik

    近期研究表明,并非所有的数据样本对训练都同样实用,深度神经网络 (DNN) 在这一点上表现得尤其明显。事实上,如果数据集包含低质量或错误标记的数据,通常可以移除一大部分训练样本来提高性能。此外,在训练数据集和测试数据集不匹配的情况下(例如,训练和测试的地点或时间不同),也可以将训练集中的样本严格限制为与测试场景最相关的样本,从而提高表现。由于这些场景的普遍性,准确量化训练样本的价值对于提高真实世界数据集上的模型性能具有很大潜力。

    :低质量样本(噪声/众包)示例;:训练和测试数据不匹配示例

    除了提高模型性能外,为单个数据分配一个质量值还可以实现新的用例。这也为数据收集提供了建议,例如,哪种额外的数据最有益;也可以用于更高效地构建大规模的训练数据集,例如,使用标签作为关键字进行网络搜索,过滤掉价值较低的数据。

    在收录于 ICML 2020 的“使用强化学习进行数据评估” (Data Valuation Using Deep Reinforcement Learning) 中,我们使用基于元学习的全新方法解决了量化训练数据价值的问题。我们的方法将数据估值整合至预测器模型的训练过程中,该模型学习识别对于给定任务具有更高价值的样本,从而改善预测器和数据估值的性能。我们还推出了四个 AI Hub Notebook,它们展现了 DVRL 的用例,旨在高效适应其他任务和数据集,如领域自适应、损坏样本发现与鲁棒学习、图像数据的迁移学习和数据估值。

    • 使用强化学习进行数据评估
      https://proceedings.icml.cc/static/paper_files/icml/2020/3003-Paper.pdf

    • AI Hub Notebook
      https://cloud.google.com/ai-hub

    量化数据的价值

    对于给定的 ML 模型,并非所有数据都是平等的 - 部分数据与当前任务的相关性更高,或者信息量比其他数据更丰富。那么如何评估单个数据的价值呢?以完整数据集的粒度而言,这很简单;只需在整个数据集上训练模型,然后将其在测试集上的性能作为该值。不过,估计单个数据的价值要困难得多,特别是对于依赖大规模数据集的复杂模型而言,因为在所有可能的子集上重新训练和重新评估模型在计算上是不可行的。

    为了解决这个问题,研究人员探索了基于置换的方法(如影响函数)和基于博弈论的方法(如 data Shapley)。然而,对于大型数据集和复杂模型而言,即使是当前最好的方法在计算上也远非可行,并且其数据估值性能也受到一定限制。同时问世的基于元学习的自适应权重分配方法可以利用元目标估计权重值。其数据价值映射并不优先从高价值数据样本中学习,而通常基于梯度下降学习或其他启发式方法,改变了常规预测器模型训练动态,避免了与单个数据点价值无关的性能变化。

    • 影响函数
      https://arxiv.org/pdf/1703.04730.pdf

    • data Shapley
      https://arxiv.org/pdf/1904.02868.pdf

    • 基于元学习的自适应权重分配方法
      https://arxiv.org/pdf/1803.09050.pdf

    使用强化学习进行数据估值 (DVRL) 

    为了推断出数据价值,我们提出了一个数据价值估计器 (DVE),用以估计数据价值并选择最高价值的样本来训练预测器模型。这种选择运算完全不可微,因此不能采用基于梯度下降的传统方法。取而代之的是,我们采用了强化学习 (RL),使 DVE 的监督基于奖励,该奖励在一个小的(但干净的)验证集中量化预测器性能。给定状态和输入样本后,奖励将政策的优化引导至最优数据估值的操作。在此,我们将预测器模型学习和评估框架视为环境,这是 RL 辅助机器学习的一种新型应用场景。

    通过使用强化学习的数据估值 (DVRL) 进行训练。当训练具有准确率奖励的数据价值估计器时,最高价值样本(绿点)的使用频率会越来越高,而最低价值样本(红点)的使用频率则较低

    结果

    我们在多种类型的数据集和用例上评估了 DVRL 的数据估值质量。

    • 移除高/低价值样本后的模型性能
      从训练数据集中移除低价值样本可以提高预测器模型的性能,在训练数据集包含损坏样本的情况下尤其明显。另一方面,移除高价值样本,特别是数据集较小时,会显著降低性能。总体而言,移除高/低价值样本后的性能是数据估值质量的有力指标。

    移除最高价值和最低价值样本后的准确率,其中 20% 的标签设计为具有噪声。移除最低价值样本之类的噪声标签后,高质量的数据估值方法可以获得更好的准确率。从这个角度来看,可以证明 DVRL 明显优于其他方法

    • 大多数情况下,DVRL 在移除最重要的样本后性能下降最快 ,而在移除最不重要的样本后性能下降最慢 。这凸显了 DVRL 相较于竞争方法(Leave-One-Out 和 Data Shapley)在识别噪声标签方面的优势。

    • 噪声标签的稳健学习
      我们考虑的是,DVRL 在不移除低价值样本的情况下,以端到端方式使用噪声数据进行学习的可靠性。理想情况下,随着 DVRL 收敛,噪声样本应获得低数据价值,并返回高性能模型。

    噪声标签的稳健学习。ResNet-32 和 WideResNet-28-10 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率,标签上具有 40% 的均匀随机噪声。DVRL 优于其他基于元学习的流行方法

    • 我们展示了 DVRL 在最小化噪声标签影响方面的最先进结果 (SOTA)。这也证明 DVRL 可以扩展到复杂模型和大规模数据集上。

    • 领域自适应
      我们考虑的场景是,训练数据集来自与验证和测试数据集有实质性差异的分布。通过从训练数据集中选择与验证数据集分布最匹配的样本,数据估值有望对该任务提供帮助。我们关注以下三种情况:

      1. 基于图像搜索结果的训练集(低质量网络抓取),应用于使用 HAM 10000 数据预测皮肤病变分类的任务(高质量医疗);

      2. MNIST 训练集,用于 USPS 数据的数字识别任务(不同视域);

      3. 垃圾邮件数据,应用于 SMS 数据集垃圾邮件检测(不同任务)。

      DVRL 将数据估值器和对应预测器模型联合优化,显著改善了领域自适应。

    结论

    我们为数据估值提供了一种全新的元学习框架,它可以确定每个训练样本被用于预测器模型训练的可能性。与过去不同,我们的方法将数据估值整合到预测器模型的训练过程中,使预测器和 DVE 能够相互提高性能。我们使用经 RL 训练的 DNN 对此数据价值估计任务进行建模,并从代表目标任务性能的小型验证集中获得奖励。DVRL 能够以高计算效率的方式提供高质量的训练数据排名,这对领域自适应、损坏样本发现和稳健学习十分有用。我们证明 DVRL 在多种类型的任务和数据集上均明显优于其他方法。

    致谢

    我们非常感谢 Tomas Pfister 的贡献。

    如果您想详细了解本文提及的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:

    • AI Hub Notebook
      https://cloud.google.com/ai-hub

    • 领域自适应
      https://aihub.cloud.google.com/u/0/p/products%2F41419f02-f231-4b9c-b4fb-23ed9d5adc73

    • 损坏样本发现与鲁棒学习
      https://aihub.cloud.google.com/u/0/p/products%2Fcb6b588c-1582-4868-a944-dc70ebe61a36

    • 图像数据的迁移学习
      https://aihub.cloud.google.com/u/0/p/products%2Fe1866581-7bf2-4550-b25d-4e129bab62ff

    • 数据估值
      https://aihub.cloud.google.com/u/0/p/products%2F92a5f181-b079-4ee5-8203-1f031033eb58

    更多 AI 相关阅读:

    展开全文
  • 如何处理训练样本不均衡的问题

    千次阅读 2018-07-03 20:03:27
    转:https://blog.csdn.net/tingfeng96/article/details/72854874 如何处理训练样本不均衡的问题 原文:https://www.quora.com/In-classificati...

    原文:https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set

    在分类中如何处理训练集中不平衡问题

      在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。

    Jason Brownlee的回答:

    原文标题:8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset 
      当你在对一个类别不均衡的数据集进行分类时得到了90%的准确度(Accuracy)。当你进一步分析发现,数据集的90%的样本是属于同一个类,并且分类器将所有的样本都分类为该类。在这种情况下,显然该分类器是无效的。并且这种无效是由于训练集中类别不均衡而导致的。 
      首先举几个所收到的邮件中关于类别不均衡的例子:

    • 在一个二分类问题中,训练集中class 1的样本数比class 2的样本数是60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,即其将所有的训练样本都分类为class 1。
    • 在分类任务的数据集中,有三个类别,分别为A,B,C。在训练集中,A类的样本占70%,B类的样本占25%,C类的样本占5%。最后我的分类器对类A的样本过拟合了,而对其它两个类别的样本欠拟合。


    什么是类别不均衡问题

      类别数据不均衡是分类任务中一个典型的存在的问题。简而言之,即数据集中,每个类别下的样本数目相差很大。例如,在一个二分类问题中,共有100个样本(100行数据,每一行数据为一个样本的表征),其中80个样本属于class 1,其余的20个样本属于class 2,class 1:class2=80:20=4:1,这便属于类别不均衡。当然,类别不均衡问同样会发生在多分类任务中。它们的解决方法是一样的。因此,为了便于讨论与理解,我们从二分类任务入手进行讲解。

    类别不均衡问题是现实中很常见的问题

      大部分分类任务中,各类别下的数据个数基本上不可能完全相等,但是一点点差异是不会产生任何影响与问题的。 
      在现实中有很多类别不均衡问题,它是常见的,并且也是合理的,符合人们期望的。如,在欺诈交易识别中,属于欺诈交易的应该是很少部分,即绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。这就是一个正常的类别不均衡问题。又如,在客户流失的数据集中,绝大部分的客户是会继续享受其服务的(非流失对象),只有极少数部分的客户不会再继续享受其服务(流失对象)。一般而已,如果类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性问题进行处理。 
      在前面,我们使用准确度这个指标来评价分类质量,可以看出,在类别不均衡时,准确度这个评价指标并不能work。因为分类器将所有的样本都分类到大类下面时,该指标值仍然会很高。即,该分类器偏向了大类这个类别的数据。

    八大解决方法

    • 可以扩大数据集吗? 
        当遇到类别不均衡问题时,首先应该想到,是否可能再增加数据(一定要有小类样本数据),更多的数据往往战胜更好的算法。因为机器学习是使用现有的数据多整个数据的分布进行估计,因此更多的数据往往能够得到更多的分布信息,以及更好分布估计。即使再增加小类样本数据时,又增加了大类样本数据,也可以使用放弃一部分大类数据(即对大类数据进行欠采样)来解决。

    尝试其它评价指标 
      从前面的分析可以看出,准确度这个评价指标在类别不均衡的分类任务中并不能work,甚至进行误导(分类器不work,但是从这个指标来看,该分类器有着很好的评价指标得分)。因此在类别不均衡分类任务中,需要使用更有说服力的评价指标来对分类器进行评价。如何对不同的问题选择有效的评价指标参见这里。 
      上面的超链接中的文章,讲述了如何对乳腺癌患者复发类别不均衡数据进行分类。在文中,推荐了几个比传统的准确度更有效的评价指标:

    • 混淆矩阵(Confusion Matrix):使用一个表格对分类器所预测的类别与其真实的类别的样本统计,分别为:TP、FN、FP与TN。
    • 精确度(Precision)
    • 召回率(Recall)
    • F1得分(F1 Score):精确度与找召回率的加权平均。


      特别是:


    • 对数据集进行重采样 
        可以使用一些策略该减轻数据的不平衡程度。该策略便是采样(sampling),主要有两种采样方法来降低数据的不平衡性。

      • 对小类的数据样本进行采样来增加小类的数据样本个数,即过采样(over-sampling ,采样的个数大于该类样本的个数)。
      • 对大类的数据样本进行采样来减少该类数据样本的个数,即欠采样(under-sampling,采样的次数少于该类样本的个素)。


        采样算法往往很容易实现,并且其运行速度快,并且效果也不错。更详细的内容参见这里。 
        一些经验法则:


      • 考虑对大类下的样本(超过1万、十万甚至更多)进行欠采样,即删除部分样本;
      • 考虑对小类下的样本(不足1为甚至更少)进行过采样,即添加部分样本的副本;
      • 考虑尝试随机采样与非随机采样两种采样方法;
      • 考虑对各类别尝试不同的采样比例,比一定是1:1,有时候1:1反而不好,因为与现实情况相差甚远;
      • 考虑同时使用过采样与欠采样。
    • 尝试产生人工数据样本 
        一种简单的人工样本数据产生的方法便是,对该类下的所有样本每个属性特征的取值空间中随机选取一个组成新的样本,即属性值随机采样。你可以使用基于经验对属性值进行随机采样而构造新的人工样本,或者使用类似朴素贝叶斯方法假设各属性之间互相独立进行采样,这样便可得到更多的数据,但是无法保证属性之前的线性关系(如果本身是存在的)。 
        有一个系统的构造人工数据样本的方法SMOTE(Synthetic Minority Over-sampling Technique)。SMOTE是一种过采样算法,它构造新的小类样本而不是产生小类中已有的样本的副本,即该算法构造的数据是新样本,原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了更多的新生数据。具体可以参见原始论文。 
        这里有SMOTE算法的多个不同语言的实现版本: 
    • 尝试不同的分类算法 
        强烈建议不要对待每一个分类都使用自己喜欢而熟悉的分类算法。应该使用不同的算法对其进行比较,因为不同的算法使用于不同的任务与数据。具体可以参见“Why you should be Spot-Checking Algorithms on your Machine Learning Problems”。 
        决策树往往在类别不均衡数据上表现不错。它使用基于类变量的划分规则去创建分类树,因此可以强制地将不同类别的样本分开。目前流行的决策树算法有:C4.5、C5.0、CART和Random Forest等。基于R编写的决策树参见这里。基于Python的Scikit-learn的CART使用参见这里
    • 尝试对模型进行惩罚 
        你可以使用相同的分类算法,但是使用一个不同的角度,比如你的分类任务是识别那些小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值(这种方法其实是产生了新的数据分布,即产生了新的数据集,译者注),从而使得分类器将重点集中在小类样本身上。一个具体做法就是,在训练分类器时,若分类器将小类样本分错时额外增加分类器一个小类样本分错代价,这个额外的代价可以使得分类器更加“关心”小类样本。如penalized-SVM和penalized-LDA算法。 
        Weka中有一个惩罚模型的通用框架CostSensitiveClassifier,它能够对任何分类器进行封装,并且使用一个自定义的惩罚矩阵对分错的样本进行惩罚。 
        如果你锁定一个具体的算法时,并且无法通过使用重采样来解决不均衡性问题而得到较差的分类结果。这样你便可以使用惩罚模型来解决不平衡性问题。但是,设置惩罚矩阵是一个复杂的事,因此你需要根据你的任务尝试不同的惩罚矩阵,并选取一个较好的惩罚矩阵。
    • 尝试一个新的角度理解问题 
        我们可以从不同于分类的角度去解决数据不均衡性问题,我们可以把那些小类的样本作为异常点(outliers),因此该问题便转化为异常点检测(anomaly detection)与变化趋势检测问题(change detection)。 
        异常点检测即是对那些罕见事件进行识别。如通过机器的部件的振动识别机器故障,又如通过系统调用序列识别恶意程序。这些事件相对于正常情况是很少见的。 
        变化趋势检测类似于异常点检测,不同在于其通过检测不寻常的变化趋势来识别。如通过观察用户模式或银行交易来检测用户行为的不寻常改变。 
        将小类样本作为异常点这种思维的转变,可以帮助考虑新的方法去分离或分类样本。这两种方法从不同的角度去思考,让你尝试新的方法去解决问题。
    • 尝试创新 
        仔细对你的问题进行分析与挖掘,是否可以将你的问题划分成多个更小的问题,而这些小问题更容易解决。你可以从这篇文章In classification, how do
      you handle an unbalanced training set?
      中得到灵感。例如: 
      • 将你的大类压缩成小类;
      • 使用One Class分类器(将小类作为异常点);
      • 使用集成方式,训练多个分类器,然后联合这些分类器进行分类;
      • ….

    •   这些想法只是冰山一角,你可以想到更多的有趣的和有创意的想法去解决问题。更多的想法参加Reddit的文章http://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set

      选择某一种方法并使用它

        你不必成为一个精通所有算法的算法奇才或者一个建立准确而可靠的处理数据不平衡的模型的统计学家,你只需要根据你的问题的实际情况从上述算法或方法中去选择一种或两种方法去使用。希望上述的某些方法能够解决你的问题。例如使用其它评价指标或重采样算法速度快并且有效。

      总结

        记住,其实并不知道哪种方法最适合你的任务与数据,你可以使用一些启发式规则或经验去选择某一个较优算法。当然最好的方法测试每一种算法,然后选择最好的方法。最重要的是,从点滴开始做起,根据自己现有的知识,并不断学习去一步步完善。

      Further Reading…

        这里有一些我认为有价值的可供参考的相关资料,让你进一步去认识与研究数据不平衡问题:


      Sergey Feldman的回答:


      • 设超大类中样本的个数是极小类中样本个数的L倍,那么在随机梯度下降(SGD,stochastic gradient descent)算法中,每次遇到一个极小类中样本进行训练时,训练L次。
      • 将大类中样本划分到L个聚类中,然后训练L个分类器,每个分类器使用大类中的一个簇与所有的小类样本进行训练得到。最后对这L个分类器采取少数服从多数对未知类别数据进行分类,如果是连续值(预测),那么采用平均值。
      • 设小类中有N个样本。将大类聚类成N个簇,然后使用每个簇的中心组成大类中的N个样本,加上小类中所有的样本进行训练。
      • 无论你使用前面的何种方法,都对某个或某些类进行了损害。为了不进行损害,那么可以使用全部的训练集采用多种分类方法分别建立分类器而得到多个分类器,采用投票的方式对未知类别的数据进行分类,如果是连续值(预测),那么采用平均值。
      • 最近的ICML论文中,表明增加数据量使得已知分布的训练集的误差增加了,即破坏了原有训练集的分布,从而可以提高分类器的性能。这篇论文与类别不平衡问题不相关,因为它隐式地使用数学方式增加数据而使得数据集大小不变。但是,我认为破坏原有的分布是有益的。
      • More details than you need: imho, the most interesting of the corrupting distributions is the blankout distribution, where you just zero out a random subset of features. Why is it interesting? Because you are helping your classifier be sturdier/hardier
        by giving it variations of your data that have essentially missing features. So it has to learn to classify correctly even in adverse conditions. 一个相关的想法是,在神经网络中,随机选择部分隐藏层单元来继续训练(即,随机去掉一部分隐藏层单元,(zeroed-out))。具体见http://web.stanford.edu/~sidaw/cgi-bin/home/lib/exe/fetch.php?media=papers:fastdropout.pdf


      Kripa Chettiar的回答:


      • 增加新数据,可以使用SMOTE或SMOTEBoost产生人造数据。
      • 将大类压缩。压缩比例需要具体情况具体分析,取决于你所拥有的数据。例如,A类中有30个样本,B类中有4000个样本,那么你可以将B类压缩成1000(进行采样)。
      • 可以结合1与2
      • 对于那种极小类是异常点的分类任务,因此分类器需要学习到大类的决策分界面,即分类器是一个单个类分类器(One Class Classifier)。Weka中有相关的库
      • 获得更多的数据。


      Roar Nybø的回答:


      • 对小类进行过采样。并且使用集成模式会获得更好的效果。


      Dan Levin的回答:


      • 一个很好的方法去处理非平衡数据问题,并且在理论上证明了。这个方法便是由Robert E. Schapire于1990年在Machine Learning提出的”The strength of weak learnability” ,该方法是一个boosting算法,它递归地训练三个弱学习器,然后将这三个弱学习器结合起形成一个强的学习器。我们可以使用这个算法的第一步去解决数据不平衡问题。 
          首先使用原始数据集训练第一个学习器L1。 
          然后使用50%在L1学习正确和50%学习错误的的那些样本训练得到学习器L2,即从L1中学习错误的样本集与学习正确的样本集中,循环一边采样一个。 
          接着,使用L1与L2不一致的那些样本去训练得到学习器L3。 
          最后,使用投票方式作为最后输出。 
          那么如何使用该算法来解决类别不平衡问题呢? 
          假设是一个二分类问题,大部分的样本都是true类。让L1输出始终为true。使用50%在L1分类正确的与50%分类错误的样本训练得到L2,即从L1中学习错误的样本集与学习正确的样本集中,循环一边采样一个。因此,L2的训练样本是平衡的。L使用L1与L2分类不一致的那些样本训练得到L3,即在L2中分类为false的那些样本。最后,结合这三个分类器,采用投票的方式来决定分类结果,因此只有当L2与L3都分类为false时,最终结果才为false,否则true。 
          自己已经在实践中使用过很多次,并且效果都不错。


      Kaushik Kasi的回答:


      • 对小类中的样本进行复制以增加该类中的样本数,但是可能会增加bias。
      • 对小类中的样本通过调整特征值来人工生成样本,而使得该类中样本个数增多。如在图像中,对一幅图像进行扭曲得到另一幅图像,即改变了原图像的某些特征值。但是该方法可能会产生现实中并存在的样本。


      Quora User的回答:


      • 简单快速的方法:对大类欠采样或者对小类过采样。
      • 更有效的方法:使用代价函数学习得到每个类的权值,大类的权值小,小类的权值大。刚开始,可以设置每个类别的权值与样本个数比例的倒数,然后可以使用过采样进行调优。


      Dayvid Victor的回答:

        在类别不平衡中,以下几个点需要注意:

      • 常规的分类评价指标可能会失效,比如将所有的样本都分类成大类,那么准确率、精确率等都会很高。这种情况下,AUC时最好的评价指标。
      • 你能够使用原型选择技术去降低不平衡水平。选择那些重要的样本。One-Sided Selection (OSS) 是一个预处理技术(模型训练之前使用),能够处理类别不平衡问题。
      • 从另一个角度,可以增加小类的样本个数,可以使用过采样与原型生成技术(prototype-generation techniques)。
      • 在K-Fold 校验中,每一份数据集中原则上应该保持类别样本比例一样或者近似,如果每份数据集中小类样本数目过少,那么应该降低K的值,知道小类样本的个数足够。 
          一般来说,如果事前不对不平衡问题进行处理,那么对于小类别的样本则会错误率很高,即大部分甚至全部小类样本都会分错。


      Muktabh Mayank的回答:



      Sandeep Subramanian的回答:



      Quora User的回答:


      • 赋予小类样本更高的训练权值
      • 对小类进行过采样
      • 某些时候,高不平衡性下仍然可以得到效果较好的训练结果。我认为对于某些评价指标是有意义的,如AUC。


      Sumit Soman 的回答:



    展开全文
  • 训练样本

    万次阅读 2017-03-08 22:55:01
    使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。  该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。 图像如下图所...

    原文链接:http://blog.csdn.net/qq_14845119/article/details/51913171

    ImageNet

             ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。能够从图片识别物体。目前已经包含14197122张图像,是已知的最大的图像数据库。每年的ImageNet大赛更是魂萦梦牵着国内外各个名校和大型IT公司以及网络巨头的心。图像如下图所示,需要注册ImageNet帐号才可以下载,下载链接为http://www.image-net.org/


    PASCAL VOC

             PASCALVOC 数据集是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。图像如下图所示,包含VOC2007430M),VOC20121.9G)两个下载版本。下载链接为http://pjreddie.com/projects/pascal-voc-dataset-mirror/



    Labelme

             Labelme是斯坦福一个学生的母亲利用休息时间帮儿子做的标注,后来便发展为一个数据集。该数据集的主要特点包括

    (1)专门为物体分类识别设计,而非仅仅是实例识别

    (2)专门为学习嵌入在一个场景中的对象而设计

    (3)高质量的像素级别标注,包括多边形框(polygons)和背景标注(segmentation masks)

    (4)物体类别多样性大,每种物体的差异性,多样性也大。

    (5)所有图像都是自己通过相机拍摄,而非copy

    (6)公开的,免费的

             图像如下图所示,需要通过matlab来下载,一种奇特的下载方式,下载链接为http://labelme2.csail.mit.edu/Release3.0/index.php

    COCO

           COCO是一种新的图像识别,分割和加字幕标注的数据集。主要由Tsung-Yi Lin(Cornell Tech),Genevieve Patterson (Brown),MatteoRuggero Ronchi (Caltech),Yin Cui (Cornell Tech),Michael Maire (TTI Chicago),Serge Belongie (Cornell Tech),Lubomir Bourdev (UC Berkeley),Ross Girshick (Facebook AI), James Hays (Georgia Tech),PietroPerona (Caltech),Deva Ramanan (CMU),Larry Zitnick (Facebook AI), Piotr Dollár (Facebook AI)等人收集而成。其主要特征如下

    (1)目标分割

    (2)通过上下文进行识别

    (3)每个图像包含多个目标对象

    (4)超过300000个图像

    (5)超过2000000个实例

    (6)80种对象

    (7)每个图像包含5个字幕

    (8)包含100000个人的关键点

             图像如下图所示,支持Matlab和Python两种下载方式,下载链接为http://mscoco.org/

    SUN

             SUN数据集包含131067个图像,由908个场景类别和4479个物体类别组成,其中背景标注的物体有313884个。图像如下图所示,下载链接为http://groups.csail.mit.edu/vision/SUN/

    Caltech

             Caltech是加州理工学院的图像数据库,包含Caltech101和Caltech256两个数据集。该数据集是由Fei-FeiLi, Marco Andreetto, Marc 'Aurelio Ranzato在2003年9月收集而成的。Caltech101包含101种类别的物体,每种类别大约40到800个图像,大部分的类别有大约50个图像。Caltech256包含256种类别的物体,大约30607张图像。图像如下图所示,下载链接为http://www.vision.caltech.edu/Image_Datasets/Caltech101/

    Corel5k

             这是Corel5K图像集,共包含科雷尔(Corel)公司收集整理的5000幅图片,故名:Corel5K,可以用于科学图像实验:分类、检索等。Corel5k数据集是图像实验的事实标准数据集。请勿用于商业用途。私底下学习交流使用。Corel图像库涵盖多个主题,由若干个CD组成,每个CD包含100张大小相等的图像,可以转换成多种格式。每张CD代表一个语义主题,例如有公共汽车、恐龙、海滩等。Corel5k自从被提出用于图像标注实验后,已经成为图像实验的标准数据集,被广泛应用于标注算法性能的比较。Corel5k由50张CD组成,包含50个语义主题。

             Corel5k图像库通常被分成三个部分:4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。

             该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。图像如下图所示,很遗憾本人也未找到官方下载路径,于是github上传了一份,下载链接为https://github.com/watersink/Corel5K


    CIFARCanada Institude For Advanced Research

          CIFAR是由加拿大先进技术研究院的AlexKrizhevsky, Vinod Nair和Geoffrey Hinton收集而成的80百万小图片数据集。包含CIFAR-10和CIFAR-100两个数据集。 Cifar-10由60000张32*32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类。CIFAR-100由60000张图像构成,包含100个类别,每个类别600张图像,其中500张用于训练,100张用于测试。其中这100个类别又组成了20个大的类别,每个图像包含小类别和大类别两个标签。官网提供了Matlab,C,python三个版本的数据格式。图像如下图所示,下载链接为http://www.cs.toronto.edu/~kriz/cifar.html


    人脸数据库:

    AFLWAnnotated Facial Landmarks in the Wild

           AFLW人脸数据库是一个包括多姿态、多视角的大规模人脸数据库,而且每个人脸都被标注了21个特征点。此数据库信息量非常大,包括了各种姿态、表情、光照、种族等因素影响的图片。AFLW人脸数据库大约包括25000万已手工标注的人脸图片,其中59%为女性,41%为男性,大部分的图片都是彩色,只有少部分是灰色图片。该数据库非常适合用于人脸识别、人脸测、人脸对齐等方面的究,具有很高的研究价值。图像如下图所示,需要申请帐号才可以下载,下载链接为http://lrs.icg.tugraz.at/research/aflw/

    LFWLabeled Faces in the Wild

           LFW是一个用于研究无约束的人脸识别的数据库。该数据集包含了从网络收集的13000张人脸图像,每张图像都以被拍摄的人名命名。其中,有1680个人有两个或两个以上不同的照片。这些数据集唯一的限制就是它们可以被经典的Viola-Jones检测器检测到(a hummor)。图像如下图所示,下载链接为http://vis-www.cs.umass.edu/lfw/index.html#download

    AFWAnnotated Faces in the Wild

           AFW数据集是使用Flickr(雅虎旗下图片分享网站)图像建立的人脸图像库,包含205个图像,其中有473个标记的人脸。对于每一个人脸都包含一个长方形边界框,6个地标和相关的姿势角度。数据库虽然不大,额外的好处是作者给出了其2012 CVPR的论文和程序以及训练好的模型。图像如下图所示,下载链接为http://www.ics.uci.edu/~xzhu/face/


    FDDBFace Detection Data Set and Benchmark

           FDDB数据集主要用于约束人脸检测研究,该数据集选取野外环境中拍摄的2845个图像,从中选择5171个人脸图像。是一个被广泛使用的权威的人脸检测平台。图像如下图所示,下载链接为http://vis-www.cs.umass.edu/fddb/

    WIDER FACE

       WIDER FACE是香港中文大学的一个提供更广泛人脸数据的人脸检测基准数据集,由YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou收集。它包含32203个图像和393703个人脸图像,在尺度,姿势,闭塞,表达,装扮,关照等方面表现出了大的变化。WIDER FACE是基于61个事件类别组织的,对于每一个事件类别,选取其中的40%作为训练集,10%用于交叉验证(cross validation),50%作为测试集。和PASCAL VOC数据集一样,该数据集也采用相同的指标。和MALF和Caltech数据集一样,对于测试图像并没有提供相应的背景边界框。图像如下图所示,下载链接为http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/

    CMU-MIT

         CMU-MIT 是由卡内基梅隆大学和麻省理工学院一起收集的数据集,所有图片都是黑白的 gif 格式。里面包含 511 个闭合的人脸图像,其中 130 个是正面的人脸图像。图像如下图所示,没有找到官方链接, Github 下载链接为 https://github.com/watersink/CMU-MIT

    GENKI

             GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片的人脸的尺度大小,姿势,光照变化,头的转动等都不一样,专门用于做笑脸识别。GENKI-SZSL包含3500个图像,这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。图像如下图所示,下载链接为http://mplab.ucsd.edu,如果进不去可以,同样可以去下面的github下载,链接https://github.com/watersink/GENKI

    IJB-A (IARPA JanusBenchmark A)

           IJB-A是一个用于人脸检测和识别的数据库,包含24327个图像和49759个人脸。图像如下图所示,需要邮箱申请相应帐号才可以下载,下载链接为http://www.nist.gov/itl/iad/ig/ijba_request.cfm

    MALF (Multi-Attribute Labelled Faces)

            MALF 是为了细粒度的评估野外环境中人脸检测模型而设计的数据库。数据主要来源于 Internet ,包含 5250 个图像, 11931 个人脸。每一幅图像包含正方形边界框,俯仰、蜷缩等姿势等。该数据集忽略了小于 20*20 的人脸,大约 838 个人脸,占该数据集的 7% 。同时,该数据集还提供了性别,是否带眼镜,是否遮挡,是否是夸张的表情等信息。图像如下图所示,需要申请才可以得到官方的下载链接,链接为 http://www.cbsr.ia.ac.cn/faceevaluation/

    MegaFace

        MegaFace资料集包含一百万张图片,代表690000个独特的人。所有数据都是华盛顿大学从Flickr(雅虎旗下图片分享网站)组织收集的。这是第一个在一百万规模级别的面部识别算法测试基准。 现有脸部识别系统仍难以准确识别超过百万的数据量。为了比较现有公开脸部识别算法的准确度,华盛顿大学在去年年底开展了一个名为“MegaFace Challenge”的公开竞赛。这个项目旨在研究当数据库规模提升数个量级时,现有的脸部识别系统能否维持可靠的准确率。图像如下图所示,需要邮箱申请才可以下载,下载链接为http://megaface.cs.washington.edu/dataset/download.html

    300W

           300W数据集是由AFLW,AFW,Helen,IBUG,LFPW,LFW等数据集组成的数据库。 图像如下图所示,需要邮箱申请才可以下载,下载链接为 http://ibug.doc.ic.ac.uk/resources/300-W/

    IMM Data Sets

           IMM人脸数据库包括了240张人脸图片和240asf格式文件(可以用UltraEdit打开,记录了58个点的地标),共40个人(733男),每人6张人脸图片,每张人脸图片被标记了58个特征点。所有人都未戴眼镜,图像如下图所示,下载链接为http://www2.imm.dtu.dk/~aam/datasets/datasets.html

    MUCT Data Sets

             MUCT人脸数据库由3755个人脸图像组成,每个人脸图像有76个点的地标(landmark),图片为jpg格式,地标文件包含csv,rda,shape三种格式。该图像库在种族、关照、年龄等方面表现出更大的多样性。具体图像如下图所示,下载链接为 http://www.milbo.org/muct/

    ORL  (AT&T Dataset)

             ORL数据集是剑桥大学AT&T实验室收集的一个人脸数据集。包含了从1992.4到1994.4该实验室的成员。该数据集中图像分为40个不同的主题,每个主题包含10幅图像。对于其中的某些主题,图像是在不同的时间拍摄的。在关照,面部表情(张开眼睛,闭合眼睛,笑,非笑),面部细节(眼镜)等方面都变现出了差异性。所有图像都是以黑色均匀背景,并且从正面向上方向拍摄。

             其中图片都是PGM格式,图像大小为92*102,包含256个灰色通道。具体图像如下图所示,下载链接为http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html


    行人检测数据库

    INRIA Person Dataset

             Inria数据集是最常使用的行人检测数据集。其中正样本(行人)为png格式,负样本为jpg格式。里面的图片分为只有车,只有人,有车有人,无车无人四个类别。图片像素为70*134,96*160,64*128等。具体图像如下图所示,下载链接为http://pascal.inrialpes.fr/data/human/

    CaltechPedestrian Detection Benchmark

             加州理工学院的步行数据集包含大约包含10个小时640x480 30Hz的视频。其主要是在一个在行驶在乡村街道的小车上拍摄。视频大约250000帧(在137个约分钟的长段),共有350000个边界框和2300个独特的行人进行了注释。注释包括包围盒和详细的闭塞标签之间的时间对应关系。更多信息可在其PAMI 2012 CVPR 2009标杆的论文获得。具体图像如下图所示,下载链接为http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/


    MIT cbcl (center for biological and computational learning)Pedestrian Data 

             该数据集主要包含2个部分,一部分为128*64的包含924个图片的ppm格式的图片,另一部分为从打图中分别切割而出的小图,主要包含胳膊,脑袋,脚,腿,头肩,身体等。具体图像如下图所示,下载链接为http://cbcl.mit.edu/software-datasets/PedestrianData.html,需要翻墙才可以。

    年龄,性别数据库

    Adience

             该数据集来源为Flickr相册,由用户使用iPhone5或者其它智能手机设备拍摄,同时具有相应的公众许可。该数据集主要用于进行年龄和性别的未经过滤的面孔估计。同时,里面还进行了相应的landmark的标注。是做性别年龄估计和人脸对齐的一个数据集。图片包含2284个类别和26580张图片。具体图像如下图所示,下载链接为http://www.openu.ac.il/home/hassner/Adience/data.html#agegender

    车辆数据库

    KITTIKarlsruhe Institute ofTechnology and Toyota Technological Institute

             KITTI包含7481个训练图片和7518个测试图片。所有图片都是真彩色png格式。该数据集中标注了车辆的类型,是否截断,遮挡情况,角度值,2维和3维box框,位置,旋转角度,分数等重要的信息,绝对是做车载导航的不可多得的数据集。具体图像如下图所示,下载链接为http://www.cvlibs.net/datasets/kitti/

    字符数据库

    MNISTMixed National Instituteof Standards and Technology

             MNIST是一个大型的手写数字数据库,广泛用于机器学习领域的训练和测试,由纽约大学的Yann LeCun整理。MNIST包含60000个训练集,10000个测试集,每张图都进行了尺度归一化和数字居中处理,固定尺寸大小为28*28。具体图像如下图所示,下载链接为http://yann.lecun.com/exdb/mnist/

    展开全文
  • 提问:最近在研究深度卷积神经网络,看到很多的深度学习训练都需要几百万的训练样本,我想请教各位为什么深度学习一定要这么多训练样本呢,假如样本只有几万或者几千,对性能会有影响吗? 回答: 作者:Sisyphus ...

    提问:最近在研究深度卷积神经网络,看到很多的深度学习训练都需要几百万的训练样本,我想请教各位为什么深度学习一定要这么多训练样本呢,假如样本只有几万或者几千,对性能会有影响吗?

    回答:

    作者:Sisyphus
    链接:https://www.zhihu.com/question/29633459/answer/45138977
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
     

    对于classification model,有这样一个结论:


    上式中N是训练样本数量,η大于等于0小于等于1,h是classification model的VC dimension。具体见wiki:VC dimension

     

     

    其中的这项:


    也叫model complexity penalty。

     

     

    可以看到,test error小于training error加上model complexity penalty的概率是1-η。如果现在训练模型的算法能使得training error很小,而model complexity penalty又很小,就能保证test error也很小的概率是 1-η。所以要使得模型的generalization比较好,要保证training error和model complexity penalty都能比较小。

     

    观察model complexity penalty项,可以看到,h越大,model complexity penalty就会越大。N越大,model complexity penalty则会越小。大致上讲,越复杂的模型有着越大的h(VC dimension),所以为了使得模型有着好的generalization,需要有较大的N来压低model complexity penalty。 这就是为什么深度学习的模型需要大量的数据来训练,否则模型的generalization会比较差,也就是过拟合。
     

    左:欠拟合
    中:过拟合
    右:深度学习

    作者:Penguin Whisper
    链接:https://www.zhihu.com/question/29633459/answer/150303826
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
     

    画个train and test error VS 训练数据量(training set size) 的learningcurve应该会更加直观了。

    可以找个简单的数据集,比如说handwritten digits或者什么的,分别用神经网络和决策树或者knn做出这个learningcurve。

    你会看到如果用一个决策树去解决这个问题,随着数据量增加,比如加到500,1000的样本,test error会不断降低,train error会不断增加。最后比如在数据量为2000的地方两个error就收敛了,在0.20的附近比如说。

    但是如果你用神经网络去解决这个问题,你会看到当数据量很小的时候train error就是0.01了,然后数据量从0增到500或者1000,train error还是0.01,就像是一条直线一样。直到数据量增加到几万的时候,才看到train error有略微明显的增加(比如到了0.02)。 所以数据量从0到5w,train error只从0.01增加到0.02。而test error虽然在降低,但是一直都比较大,所以overfitting一直存在。

    但是我们有个信念是,如同楼上其他人说的,只要数据量足够大,那么test和train会沿着收敛的方向不断前进,而当数据量足够大,两个曲线收敛的那一刻达到的时候,不仅两个曲线收敛了,同时我们的train和test error都是比较低的,远低于上面的knn或者其他简单点的模型。 如果是DL深层的神经网络,可能要几百万才能够达到收敛,那么这个时候的test error肯定也是非常低的

     

    所以过拟合,欠拟合,是衡量模型拟合能力与数据量之间相对关系的东西。

    如果拟合能力很强,数据量相比拟合能力太少了,就是过拟合。 (在图线上,过拟合就是两个曲线之间有gap,两个曲线没有达到收敛状态,还在向收敛的方向趋近)

    如果拟合能力很弱,数据量大大超过拟合能力大大足够了,就是欠拟合。(在图线上,欠拟合就是两个曲线收敛了,但是这个收敛对应的error值太高了。 那么怎么判断这个值太高了呢?这个是人视情况来决定的。)

    所以从图线的角度来说,对等划分应该有三种状态:

    1) 如果两个图线未收敛状态:这就叫过拟合。。

    2) 如果两图线收敛了,但是收敛处的error值过高,不符合预期,就叫欠拟合。

    3) 如果两图线收敛了,而且收敛处的error值比较低,符合预期,那么就叫成功了。这正是我们想要的。

    另外,其实具体情况,还是要根据问题本身的复杂程度,模型的复杂程度,数据量,这三者一起来看的。

     

    机器学习里,模型越复杂、越具有强表达能力越容易牺牲对未来数据的解释能力,而专注于解释训练数据。这种现象会导致训练数据效果非常好,但遇到测试数据效果会大打折扣。这一现象叫过拟合(overfitting)

    深层神经网络因为其结构,所以具有相较传统模型有很强的表达能力,从而也就需要更多的数据来避免过拟合的发生,以保证训练的模型在新的数据上也能有可以接受的表现。

    作者:某翔
    链接:https://www.zhihu.com/question/29633459/answer/150421577
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
     

    首先是因为curse of dimensionality。深度学习往往用于高维空间的学习,但是随着维度的增高所需要的样本数呈指数性增长。比如说对于Lipschitz连续的函数,minimax error rate是O(n^(-2/2+d)),其中d代表数据的维度。由此可见,为了达到同样的error rate,高维度比低维度函数所需要的样本数多了太多。
    其次在于深度学习并没有足够的利用好函数本身的信息。之所以深度学习这么流行,是因为他对于所学习的函数的限制非常少,几乎毫无任何假设(一个hidden layer的神经网络就可以估计所有的连续函数,而两个hidden layer则可以估计所有函数)。但是这也带来了一个缺憾,当函数足够smooth足够光滑的时候深度学习可能难以利用好这个信息。相反,local polynomial之类方法可以用更高次数的多项式来估计这个函数,利用好这个条件,达到相对较低的错误率。
    最后一点就在于深度学习常采用的是梯度下降。梯度下降,加上并不那么高的learning rate,导致了在样本量有限的时候各个节点的参数变化有限。何况各个节点的参数已开始往往是随机的,如果运气不好+样本量有限,那么最后有不那么理想的错误率也是可想而知的。

    目前本人在做的工作是降低深度学习的样本使用数量,即主动学习(Active Learning)。

    从实验效果来看,(1)并不是说样本量越多越好,主动学习方法可以大大降低样本使用数量并且达到很好的实验效果,没有overfitting;(2)主动学习结合深度学习可以衍生出深度学习在少量样本数据上的应用,如遥感图像分类(样本比普通图像要少很多);(3)样本本身是有噪声的,每个样本的价值是不同的。举个例子来说,直接用支持向量来训练一个支持向量机跟用全部数据训练一个支持向量机是差不多的。同样,深度学习的样本中也存在这样的重要的样本和不重要的样本。关键是质量。

    深度学习都是几w的特征 ,用vc维来看,特征越多模型越复杂,如果ein要跟eout差不多,那么样本量是需要很巨大的,也就是我们说的overfit的问题。一般来说数据量是要十倍的vc维

     

     

    展开全文
  • 在一些特殊的场合,比如法律实施、护照验证、身份证验证等,每类(人)只能得到一幅图像,只能用这些数目有限的图像去训练人脸识别系统,因而产生了单训练样本人脸识别技术.单训练样本人脸识别,是指每人仅存储一幅...
  • 训练样本和测试样本

    万次阅读 2017-04-14 10:01:14
    一, 训练样本和测试样本 训练样本的目的是 数学模型的参数,经过训练之后,可以认为你的模型系统确立了下来。 建立的模型有多好,和真实事件的差距大不大,既可以认为是测试样本的目的。 一般训练样本和测试...
  • opencv 训练样本

    千次阅读 2018-08-24 13:58:32
    对检测物体要确定其属性:是否为绝对刚性的物体,也就是检测的目标是一个固定物体,没有变化(如特定公司的商标),这样的物体只要提供一份样本就可以进行训练。  但绝大数时候我们想进行训练的目标是非绝对刚性的...
  • 人工智能是怎么准备训练样本

    千次阅读 2018-12-20 15:43:42
    训练样本说白了就是一个大的数据集,要筹集这个数据大致需要做两步工作,以图像为例,一是收集大量的图片;而是处理图片,标识出图片包含的特征信息。 收集图片 如果出于学习目的,我们可以从各种开放数据源下载...
  •  在matlab下进行操作的步骤如下:(训练样本容量为1500)  第一步,产生一个随机数组,数组是1到1500的随机数  第二步,对原始数据进行行移动  第三步,得到新产生的随机数据 如上图所示,数据格式是1710*...
  • 但是收集样本数据和标注往往是代价昂贵的,在有限的数据集上,通过数据增强技术可以增加训练样本数量,获得一定程度上的性能提升。 **数据增强(Data Augmentation)**是指在维持样本标签不变的条件下,根据先验知识...
  • 机器学习中训练样本不均衡问题 1. 训练样本不均衡   在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。...
  • 训练样本集的制作

    万次阅读 2016-04-01 10:31:39
    在进行机器学习时,根据处理问题的不同,所需要的训练样本不同,并不是所有的训练样本都可以在网络上搜索到,所有,有时需要根据自己要解决的问题的实际需要,制作自己的样本数据集。 matlab是半自动制作样本训练集...
  • 刚接触机器学习的初学者苦求的图片库 2200张的opencv正样本图片 可用于车辆检测与跟踪。
  • 在做分类时,我们都是有训练样本和测试样本的。当我们选定了一套样本,想要自动分割为训练样本和测试样本时,即可以参考此方法,简单有效。(1)首先:我们要有一套样本点的shp文件。(2)将该shp文件在ArcGIS ...
  • ArcGIS教程:训练样本评估工具

    千次阅读 2015-05-07 17:20:13
    在监督分类中,需创建训练样本来表示类。在多维属性空间中,不同的类应相互隔开。如果某些类互相重叠,可考虑将重叠的类合并为一个类。为检查训练样本的分离程度和分布情况,训练样本管理器 提供了三种评估工具:...
  • 人工神经网络训练样本的选择方法

    万次阅读 2016-02-25 20:41:41
    人工神经网络训练样本的选择一般有三种方法,即随机遍历法、正交设计法和均匀设计方法。
  • 问题描述:样本维度为n,测试样本数量为m1,训练样本数量为m2。求出描述测试样本与训练样本之间的距离的矩阵dists,其中dists.shape为(m1, m2)。测试集为矩阵X,维度为(m1, d);训练集为矩阵X_train,维度为(m2, d)...
  • 人头检测训练样本

    热门讨论 2014-02-11 15:37:44
    做人头检测使用的人头样本库,jpg格式,五千多张
  • 车牌检测训练样本,共1350张

    热门讨论 2015-12-03 14:46:04
    能够用于交通电子警察场景时的车牌检测分类器训练,检出率较高
  • 假设训练样本有30个,从训练样本中随机获得10个作为测试样本,剩下20个继续作为训练样本 import numpy as np trainingSet = list(range(30)) # 训练样本下标 testSet = [] for i in range(10): randIndex = int...
  • 基于SVM的训练样本采集与处理

    千次阅读 2018-11-17 21:44:21
  • 下面让我们一起看看泛化误差与样本数量和模型数量的关系。当H\mathcal H中模型数有限时证明一致收敛性我们假设H={h1,...,hk}\mathcal H =\{h_1,...,h_k\},这里只考虑二分类情况,即H\mathcal H中每个模型都能够将...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 277,059
精华内容 110,823
关键字:

训练样本