训练样本_python训练样本 - CSDN
精华内容
参与话题
  • 训练样本和测试样本

    万次阅读 2017-04-14 10:01:14
    一, 训练样本和测试样本 训练样本的目的是 数学模型的参数,经过训练之后,可以认为你的模型系统确立了下来。 建立的模型有多好,和真实事件的差距大不大,既可以认为是测试样本的目的。 一般训练样本和测试...

    一, 训练样本和测试样本

    训练样本的目的是 数学模型的参数,经过训练之后,可以认为你的模型系统确立了下来。

    建立的模型有多好,和真实事件的差距大不大,既可以认为是测试样本的目的。

    一般训练样本和测试样本相互独立,使用不同的数据。


    网上有人说测试样本集和验证样本集不一样,测试样本集数据主要用于模型可靠程度的检验,验证样本集的样本数据要在同样条件下,再另外采集一些数据用来对模型的准确性进行验证。(?)
    有人采用交叉验证,交叉验证指的的训练样本集、测试样本集、验证样本集、三中数据集都组合在一起,数据的划分采用交叉取样的方法。

     

     

    二,如何选择训练集和测试集

    未完待续

    网上有人说 经常采用的是m-folder cross validation的方法,把样本分成m份,轮流把其中一份作为测试集。至于m取多少看样本数量而定,样本充足的话m=10,另外m=3也是经常被使用的

     

    至于验证集,通常并不需要。

     


    三,Clementine中如何选择节点将数据分为训练集和测试集

    前期整理好数据后,选择partition节点 连接入数据流,在里面可以设置训练集、测试集及验证集,若要平分在测试集及训练集栏位内填上50%。 
    另外可以设置标签及数值;下面的设置是对数据表中增加标志字段(区分测试集和训练集)的数值进行选择,第一个表示使用1、2、3这样的数值来表示,第二个是 使用“1_training“等来表示,第三个是使用”training“等来表示,可以通过第二个图中的value来观察。此外下面还有设置随机种子的 选项。

    ps:在分割完不同集合后,可以右击partition节点,选择cache中enable,这样随机分割完的数据就可以暂时存在缓存中,这样不同时候进行不同建模的时候就不会因为样本不同而使结构受影响!(第一次执行后会在节点的右上方出现绿色的文件件的标签)

     

     

    四,如何建立测试模型

    如果训练好模型后,把所得的模型节点从右上方拖到数据流的测试集后,建立连接后,再加个分析节点或一些结果的节点就可以了。

    展开全文
  • 图像识别训练样本

    万次阅读 2018-06-18 13:39:48
    图像识别训练样本集ImageNetImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。能够从图片识别物体。目前已经包含14197122张...

    图像识别训练样本集

    ImageNet

    ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。能够从图片识别物体。目前已经包含14197122张图像,是已知的最大的图像数据库。每年的ImageNet大赛更是魂萦梦牵着国内外各个名校和大型IT公司以及网络巨头的心。图像如下图所示,需要注册ImageNet帐号才可以下载,下载链接为http://www.image-net.org/

     

    PASCAL VOC

    PASCALVOC 数据集是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。图像如下图所示,包含VOC2007(430M),VOC2012(1.9G)两个下载版本。下载链接为http://pjreddie.com/projects/pascal-voc-dataset-mirror/

    Labelme

    Labelme是斯坦福一个学生的母亲利用休息时间帮儿子做的标注,后来便发展为一个数据集。该数据集的主要特点包括

    (1)专门为物体分类识别设计,而非仅仅是实例识别
    (2)专门为学习嵌入在一个场景中的对象而设计
    (3)高质量的像素级别标注,包括多边形框(polygons)和背景标注(segmentation masks)
    (4)物体类别多样性大,每种物体的差异性,多样性也大。
    (5)所有图像都是自己通过相机拍摄,而非copy
    (6)公开的,免费的

    图像如下图所示,需要通过matlab来下载,一种奇特的下载方式,下载链接为http://labelme2.csail.mit.edu/Release3.0/index.php

    COCO
    COCO是一种新的图像识别,分割和加字幕标注的数据集。主要由Tsung-Yi Lin(Cornell Tech),Genevieve Patterson (Brown),MatteoRuggero Ronchi (Caltech),Yin Cui (Cornell Tech),Michael Maire (TTI Chicago),Serge Belongie (Cornell Tech),Lubomir Bourdev (UC Berkeley),Ross Girshick (Facebook AI), James Hays (Georgia Tech),PietroPerona (Caltech),Deva Ramanan (CMU),Larry Zitnick (Facebook AI), Piotr Dollár (Facebook AI)等人收集而成。其主要特征如下

    (1)目标分割
    (2)通过上下文进行识别
    (3)每个图像包含多个目标对象
    (4)超过300000个图像
    (5)超过2000000个实例
    (6)80种对象
    (7)每个图像包含5个字幕
    (8)包含100000个人的关键点

    图像如下图所示,支持Matlab和Python两种下载方式,下载链接为http://mscoco.org/

    SUN
    SUN数据集包含131067个图像,由908个场景类别和4479个物体类别组成,其中背景标注的物体有313884个。图像如下图所示,下载链接为http://groups.csail.mit.edu/vision/SUN/

    Caltech
    Caltech是加州理工学院的图像数据库,包含Caltech101和Caltech256两个数据集。该数据集是由Fei-FeiLi, Marco Andreetto, Marc 'Aurelio Ranzato在2003年9月收集而成的。Caltech101包含101种类别的物体,每种类别大约40到800个图像,大部分的类别有大约50个图像。Caltech256包含256种类别的物体,大约30607张图像。图像如下图所示,下载链接为http://www.vision.caltech.edu/Image_Datasets/Caltech101/

    Corel5k

    这是Corel5K图像集,共包含科雷尔(Corel)公司收集整理的5000幅图片,故名:Corel5K,可以用于科学图像实验:分类、检索等。Corel5k数据集是图像实验的事实标准数据集。请勿用于商业用途。私底下学习交流使用。Corel图像库涵盖多个主题,由若干个CD组成,每个CD包含100张大小相等的图像,可以转换成多种格式。每张CD代表一个语义主题,例如有公共汽车、恐龙、海滩等。Corel5k自从被提出用于图像标注实验后,已经成为图像实验的标准数据集,被广泛应用于标注算法性能的比较。Corel5k由50张CD组成,包含50个语义主题。

    Corel5k图像库通常被分成三个部分:4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。

    该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。图像如下图所示,很遗憾本人也未找到官方下载路径,于是github上传了一份,下载链接为https://github.com/watersink/Corel5K

    CIFAR(Canada Institude For Advanced Research)

    CIFAR是由加拿大先进技术研究院的AlexKrizhevsky, Vinod Nair和Geoffrey Hinton收集而成的80百万小图片数据集。包含CIFAR-10和CIFAR-100两个数据集。 Cifar-10由60000张32*32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类。CIFAR-100由60000张图像构成,包含100个类别,每个类别600张图像,其中500张用于训练,100张用于测试。其中这100个类别又组成了20个大的类别,每个图像包含小类别和大类别两个标签。官网提供了Matlab,C,Python三个版本的数据格式。图像如下图所示,下载链接为http://www.cs.toronto.edu/~kriz/cifar.html

    人脸数据库:

    AFLW(Annotated Facial Landmarks in the Wild)

    AFLW人脸数据库是一个包括多姿态、多视角的大规模人脸数据库,而且每个人脸都被标注了21个特征点。此数据库信息量非常大,包括了各种姿态、表情、光照、种族等因素影响的图片。AFLW人脸数据库大约包括25000万已手工标注的人脸图片,其中59%为女性,41%为男性,大部分的图片都是彩色,只有少部分是灰色图片。该数据库非常适合用于人脸识别、人脸测、人脸对齐等方面的究,具有很高的研究价值。图像如下图所示,需要申请帐号才可以下载,下载链接为http://lrs.icg.tugraz.at/research/aflw/

    LFW(Labeled Faces in the Wild)
    LFW是一个用于研究无约束的人脸识别的数据库。该数据集包含了从网络收集的13000张人脸图像,每张图像都以被拍摄的人名命名。其中,有1680个人有两个或两个以上不同的照片。这些数据集唯一的限制就是它们可以被经典的Viola-Jones检测器检测到(a hummor)。图像如下图所示,下载链接为http://vis-www.cs.umass.edu/lfw/index.html#download

    AFW(Annotated Faces in the Wild)

    AFW数据集是使用Flickr(雅虎旗下图片分享网站)图像建立的人脸图像库,包含205个图像,其中有473个标记的人脸。对于每一个人脸都包含一个长方形边界框,6个地标和相关的姿势角度。数据库虽然不大,额外的好处是作者给出了其2012 CVPR的论文和程序以及训练好的模型。图像如下图所示,下载链接为http://www.ics.uci.edu/~xzhu/face/

    FDDB(Face Detection Data Set and Benchmark)

    FDDB数据集主要用于约束人脸检测研究,该数据集选取野外环境中拍摄的2845个图像,从中选择5171个人脸图像。是一个被广泛使用的权威的人脸检测平台。图像如下图所示,下载链接为http://vis-www.cs.umass.edu/fddb/

    WIDER FACE
    WIDER FACE是香港中文大学的一个提供更广泛人脸数据的人脸检测基准数据集,由YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou收集。它包含32203个图像和393703个人脸图像,在尺度,姿势,闭塞,表达,装扮,关照等方面表现出了大的变化。WIDER FACE是基于61个事件类别组织的,对于每一个事件类别,选取其中的40%作为训练集,10%用于交叉验证(cross validation),50%作为测试集。和PASCAL VOC数据集一样,该数据集也采用相同的指标。和MALF和Caltech数据集一样,对于测试图像并没有提供相应的背景边界框。图像如下图所示,下载链接为http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/

    CMU-MIT

    CMU-MIT是由卡内基梅隆大学和麻省理工学院一起收集的数据集,所有图片都是黑白的gif格式。里面包含511个闭合的人脸图像,其中130个是正面的人脸图像。图像如下图所示,没有找到官方链接,Github下载链接为https://github.com/watersink/CMU-MIT

    GENKI

    GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片的人脸的尺度大小,姿势,光照变化,头的转动等都不一样,专门用于做笑脸识别。GENKI-SZSL包含3500个图像,这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。图像如下图所示,下载链接为http://mplab.ucsd.edu,如果进不去可以,同样可以去下面的github下载,链接https://github.com/watersink/GENKI

    IJB-A (IARPA JanusBenchmark A)
    IJB-A是一个用于人脸检测和识别的数据库,包含24327个图像和49759个人脸。图像如下图所示,需要邮箱申请相应帐号才可以下载,下载链接为http://www.nist.gov/itl/iad/ig/ijba_request.cfm

    MALF (Multi-Attribute Labelled Faces)
    MALF是为了细粒度的评估野外环境中人脸检测模型而设计的数据库。数据主要来源于Internet,包含5250个图像,11931个人脸。每一幅图像包含正方形边界框,俯仰、蜷缩等姿势等。该数据集忽略了小于20*20的人脸,大约838个人脸,占该数据集的7%。同时,该数据集还提供了性别,是否带眼镜,是否遮挡,是否是夸张的表情等信息。图像如下图所示,需要申请才可以得到官方的下载链接,链接为http://www.cbsr.ia.ac.cn/faceevaluation/


    MegaFace
    MegaFace资料集包含一百万张图片,代表690000个独特的人。所有数据都是华盛顿大学从Flickr(雅虎旗下图片分享网站)组织收集的。这是第一个在一百万规模级别的面部识别算法测试基准。 现有脸部识别系统仍难以准确识别超过百万的数据量。为了比较现有公开脸部识别算法的准确度,华盛顿大学在去年年底开展了一个名为“MegaFace Challenge”的公开竞赛。这个项目旨在研究当数据库规模提升数个量级时,现有的脸部识别系统能否维持可靠的准确率。图像如下图所示,需要邮箱申请才可以下载,下载链接为http://megaface.cs.washington.edu/dataset/download.html

    300W
    300W数据集是由AFLW,AFW,Helen,IBUG,LFPW,LFW等数据集组成的数据库。图像如下图所示,需要邮箱申请才可以下载,下载链接为http://ibug.doc.ic.ac.uk/resources/300-W/

    IMM Data Sets

    IMM人脸数据库包括了240张人脸图片和240个asf格式文件(可以用UltraEdit打开,记录了58个点的地标),共40个人(7女33男),每人6张人脸图片,每张人脸图片被标记了58个特征点。所有人都未戴眼镜,图像如下图所示,下载链接为http://www2.imm.dtu.dk/~aam/datasets/datasets.html

    MUCT Data Sets

    MUCT人脸数据库由3755个人脸图像组成,每个人脸图像有76个点的地标(landmark),图片为jpg格式,地标文件包含csv,rda,shape三种格式。该图像库在种族、关照、年龄等方面表现出更大的多样性。具体图像如下图所示,下载链接为http://www.milbo.org/muct/

    ORL  (AT&T Dataset)
    ORL数据集是剑桥大学AT&T实验室收集的一个人脸数据集。包含了从1992.4到1994.4该实验室的成员。该数据集中图像分为40个不同的主题,每个主题包含10幅图像。对于其中的某些主题,图像是在不同的时间拍摄的。在关照,面部表情(张开眼睛,闭合眼睛,笑,非笑),面部细节(眼镜)等方面都变现出了差异性。所有图像都是以黑色均匀背景,并且从正面向上方向拍摄。
    其中图片都是PGM格式,图像大小为92*102,包含256个灰色通道。具体图像如下图所示,下载链接为http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

    行人检测数据库
    INRIA Person Dataset
    Inria数据集是最常使用的行人检测数据集。其中正样本(行人)为png格式,负样本为jpg格式。里面的图片分为只有车,只有人,有车有人,无车无人四个类别。图片像素为70*134,96*160,64*128等。具体图像如下图所示,下载链接为http://pascal.inrialpes.fr/data/human/

    CaltechPedestrian Detection Benchmark
    加州理工学院的步行数据集包含大约包含10个小时640x480 30Hz的视频。其主要是在一个在行驶在乡村街道的小车上拍摄。视频大约250000帧(在137个约分钟的长段),共有350000个边界框和2300个独特的行人进行了注释。注释包括包围盒和详细的闭塞标签之间的时间对应关系。更多信息可在其PAMI 2012 CVPR 2009标杆的论文获得。具体图像如下图所示,下载链接为http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

    MIT cbcl (center for biological and computational learning)Pedestrian Data
    该数据集主要包含2个部分,一部分为128*64的包含924个图片的ppm格式的图片,另一部分为从打图中分别切割而出的小图,主要包含胳膊,脑袋,脚,腿,头肩,身体等。具体图像如下图所示,下载链接为http://cbcl.mit.edu/software-datasets/PedestrianData.html,需要FQ才可以。

    年龄,性别数据库
    Adience
    该数据集来源为Flickr相册,由用户使用iPhone5或者其它智能手机设备拍摄,同时具有相应的公众许可。该数据集主要用于进行年龄和性别的未经过滤的面孔估计。同时,里面还进行了相应的landmark的标注。是做性别年龄估计和人脸对齐的一个数据集。图片包含2284个类别和26580张图片。具体图像如下图所示,下载链接为http://www.openu.ac.il/home/hassner/Adience/data.html#agegender

    车辆数据库
    KITTI(Karlsruhe Institute ofTechnology and Toyota Technological Institute)
    KITTI包含7481个训练图片和7518个测试图片。所有图片都是真彩色png格式。该数据集中标注了车辆的类型,是否截断,遮挡情况,角度值,2维和3维box框,位置,旋转角度,分数等重要的信息,绝对是做车载导航的不可多得的数据集。具体图像如下图所示,下载链接为http://www.cvlibs.net/datasets/kitti/

    字符数据库
    MNIST(Mixed National Instituteof Standards and Technology)
    MNIST是一个大型的手写数字数据库,广泛用于机器学习领域的训练和测试,由纽约大学的Yann LeCun整理。MNIST包含60000个训练集,10000个测试集,每张图都进行了尺度归一化和数字居中处理,固定尺寸大小为28*28。具体图像如下图所示,下载链接为http://yann.lecun.com/exdb/mnist/

    展开全文
  • 转自:http://www.xuebuyuan.com/1409669.htmlcrossvalind交叉验证Generate cross-validation indices 生成交叉验证索引Syntax语法Indices = crossvalind('Kfold', N, K) K折交叉[Train, Test] = crossvalind('...

    转自:http://www.xuebuyuan.com/1409669.html

             https://blog.csdn.net/bbbeoy/article/details/72967794

    针对经验风险最小化算法的过拟合的问题,给出交叉验证的方法,这个方法在做分类问题时很常用:

    一:简单的交叉验证的步骤如下:

    1、 从全部的训练数据 S中随机选择 中随机选择 s的样例作为训练集 train,剩余的 作为测试集 作为测试集 test。

    2、 通过对测试集训练 ,得到假设函数或者模型 。
    3、 在测试集对每一个样本根据假设函数或者模型,得到训练集的类标,求出分类正确率。

    4,选择具有最大分类率的模型或者假设。

    这种方法称为 hold -out cross validation 或者称为简单交叉验证。由于测试集和训练集是分开的,就避免了过拟合的现象

    二:k折交叉验证 k-fold cross validation

    1、 将全部训练集 S分成 k个不相交的子集,假设 S中的训练样例个数为 m,那么每一个子 集有 m/k 个训练样例,,相应的子集称作 {s1,s2,…,sk}。
    2、每次从分好的子集中里面,拿出一个作为测试集,其它k-1个作为训练集

    3、根据训练训练出模型或者假设函数。
    4、 把这个模型放到测试集上,得到分类率。

    5、计算k次求得的分类率的平均值,作为该模型或者假设函数的真实分类率。

    这个方法充分利用了所有样本。但计算比较繁琐,需要训练k次,测试k次。


    三:留一法  leave-one-out cross validation

    留一法就是每次只留下一个样本做测试集,其它样本做训练集,如果有k个样本,则需要训练k次,测试k次。

    留一发计算最繁琐,但样本利用率最高。适合于小样本的情况。


    crossvalind交叉验证

    Generate cross-validation indices  生成交叉验证索引

    Syntax语法

    Indices = crossvalind('Kfold', N, K) K折交叉
    [Train, Test] = crossvalind('HoldOut', N, P)
    [Train, Test] = crossvalind('LeaveMOut', N, M)留M法交叉验证,默认M为1,留一法交叉验证
    [Train, Test] = crossvalind('Resubstitution', N, [P,Q])
    [...] = crossvalind(Method, Group, ...)
    [...] = crossvalind(Method, Group, ..., 'Classes', C)
    [...] = crossvalind(Method, Group, ..., 'Min', MinValue)

    部分转载自https://blog.csdn.net/NNNNNNNNNNNNY/article/details/45789323


    交叉验证是一种随机循环验证方法,它可以将数据样本随机分割成几个子集。交叉验证主要用于评估统计分析或机器学习算法的泛化能力等。
    对于第一种在评估机器学习算法的泛化能力时,我们可以选择随机分割后的一部分数据作为训练样本,另一部分作为测试样本。具体实现流程如下:

    Data = rand(9,3);%创建维度为9×3的随机矩阵样本
    indices = crossvalind('Kfold', 9, 3);%将数据样本随机分割为3部分
    for i = 1:3 %循环3次,分别取出第i部分作为测试样本,其余两部分作为训练样本
        test = (indices == i);
        train = ~test;
        trainData = Data(train, :);
        testData = Data(test, :);
    end
    相应输出结果:
    生成的随机矩阵Data:

    indices数据,即分成的三类,数字相同表示对应的行数为同一类:
    这里写图片描述
    当i=3时的test数据:
    这里写图片描述
    对应的train数据(即对test取反):
    这里写图片描述
    testData(即test数据中‘1’所对应的行的数据)
    这里写图片描述
    trainData:
    这里写图片描述

    k-折交叉验证(k-fold crossValidation):
    在机器学习中,将数据集A分为训练集(training set)B和测试集(test set)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。
    在matlab中,可以利用:
    indices=crossvalind('Kfold',x,k);
    来实现随机分包的操作,其中x为一个N维列向量(N为数据集A的元素个数,与x具体内容无关,只需要能够表示数据集的规模),k为要分成的包的总个数,输出的结果indices是一个N维列向量,每个元素对应的值为该单元所属的包的编号(即该列向量中元素是1~k的整随机数),利用这个向量即可通过循环控制来对数据集进行划分。

    例:

      [M,N]=size(data);//数据集为一个M*N的矩阵,其中每一行代表一个样本
        indices=crossvalind('Kfold',data(1:M,N),10);//进行随机分包
        for k=1:10//交叉验证k=10,10个包轮流作为测试集
            test = (indices == k); //获得test集元素在数据集中对应的单元编号
            train = ~test;//train集元素的编号为非test元素的编号
            train_data=data(train,:);//从数据集中划分出train样本的数据
             train_target=target(:,train);//获得样本集的测试目标,在本例中是train样本的实际分类情况
            test_data=data(test,:);//test样本集
            test_target=target(:,test);//test的实际分类情况
            ...........
          end
    crossvalind函数

    ①indices =crossvalind('Kfold', N, K): 
    该命令返回一个对于N个观察样本的K个fold(意为折,有“层”之类的含义,感觉还是英文意思更形象)的标记(indices)。该标记中含有相同(或者近似相同)比例的1—K的值,将样本分为K个相斥的子集。在K-fold交叉检验中,K-1个fold用来训练,剩下的一个用来测试。此过程循环K次,每次选取不同的fold作为测试集。K的缺省值为5。 使用程序: 

    [m n]=size(data); %data为样本集合。每一行为一个观察样本 
    indices = crossvalind('Kfold',m,10); %产生10个fold,即indices里有等比例的1-10 
    for i=1:10 
    test=(indices==i); %逻辑判断,每次循环选取一个fold作为测试集 train=~test; %取test的补集作为训练集,即剩下的9个fold 
    data_train=data(trian,:); %以上得到的数都为逻辑值,用与样本集的选取 label_train=label(train,:); %label为样本类别标签,同样选取相应的训练集 data_test=data(test,:); %同理选取测试集的样本和标签 label_test=label(test,:); end 
    ②[Train, Test] = crossvalind('HoldOut',N, P): 
    该命令返回一个逻辑值的标记向量,从N个观察样本中随机选取(或近似于)P*N个样本作为测试集。故P应为0-1,缺省值为0.5。 使用程序: 
    groups=ismenber(label,1); %label为样本类别标签,生成一个逻辑矩阵groups,1用来逻辑判断筛选 
    [train, test] = crossvalind('holdOut',groups); %将groups分类,默认比例1:1,即P=0.5 
    ③[Train, Test] = crossvalind('LeaveMOut',N, M): 
    该命令返回一个逻辑值的标记向量,从N个观察样本中随机选取M个样本作为测试集。M的缺省值为1。值得注意的是,LeaveMOut在循环中使用不能保证产生的是互补集合,即每次循环的随机选取是独立的。如果要用互补的话还是使用Kfold命令。 使用程序: 
    [m,n]=size(data); 
    [train,test]=crossvalind('LeaveMOut',m,10) 
    svmStruct = svmtrain(data(train,:),groups(train));  classes = svmclassify(svmStruct,data(test,:));  cp=classperf(groups); cr=cp.CorrectRate 

    ④[Train, Test] = crossvalind('Resubstitution',N, [P,Q]):

    本函数为②的一个特殊情况。当我不想把 P*N 剩下的部分全部作为训练集的时
    候使用该函数,用
    Q 指定一个比例, 选取 Q*N 作为训练集。两个集合的选取以
    最小化交集为原则。


    展开全文
  • 在得到训练样本之后还是要对训练样本做进步一的处理。 需要考虑的问题有,训练样本的正负样本数的比例是怎么样的。比如在实际的应用场景中正负样本的比例的10:1,那么在训练数据的时候要保证训练数据和测试数据的...

    官网:https://scikit-learn.org/stable/index.html

    在经过了数据的筛选,数据的清洗、数据的特征处理,给数据加标签之后就得到了数据的训练样本了。在得到训练样本之后还是要对训练样本做进步一的处理。

    需要考虑的问题有,训练样本的正负样本数的比例是怎么样的。比如在实际的应用场景中正负样本的比例的10:1,那么在训练数据的时候要保证训练数据和测试数据的正负样本比例也是在10:1,如果否则就要做降采样或者增加数据处理

     

     

    展开全文
  • opencv 训练样本

    千次阅读 2018-08-24 13:58:32
    对检测物体要确定其属性:是否为绝对刚性的物体,也就是检测的目标是一个固定物体,没有变化(如特定公司的商标),这样的物体只要提供一份样本就可以进行训练。  但绝大数时候我们想进行训练的目标是非绝对刚性的...
  • 训练样本集的制作

    万次阅读 2016-04-01 10:30:02
    在进行机器学习时,根据处理问题的不同,所需要的训练样本不同,并不是所有的训练样本都可以在网络上搜索到,所有,有时需要根据自己要解决的问题的实际需要,制作自己的样本数据集。 matlab是半自动制作样本训练集...
  • opencv3.3版本训练自己的物体分类器

    万次阅读 多人点赞 2019-05-23 11:04:39
    Opencv训练自己分类器 注:此文是我整理了网上的各方资料汇集而成,由于在实践中遇到了很多坑,...1.准备训练样本图片 1.1样本的采集: 样本图片最好使用灰度图,且最好根据实际情况做一定的预处理;样本数量...
  • 训练样本是用来训练学习机的,测试样本是学习机要识别的对象。比如你想让一台电脑能识别茶杯,首先你要准备一个茶杯(训练样本),然后把茶杯给计算机看(数据输入),并告诉电脑说这样的东东是茶杯(期望输出),电脑看到...
  • 人工神经网络训练样本的选择方法

    千次阅读 2016-11-16 10:39:50
    人工神经网络训练样本的选择一般有三种方法,即随机遍历法、正交设计法和均匀设计方法。
  • 事实上逻辑回归和SVM(线性核)是相似的。最常用的核函数还是线性核,和高斯核
  • 数据挖掘十大经典算法(7) AdaBoost

    万次阅读 热门讨论 2009-05-01 14:35:00
    其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的...
  • 具体来说,(1)训练和测试时数据的样本分布不一致,训练时正负样本比例为1:99,而测试时样本比例为1:1。(2)训练阶段和测试阶段不同类别的权重不一致。 根据上述原因,从两个角度处理样本不均衡问题。 (1)基于...
  • 所谓正样本(positive samples)、负样本(negative samples),对于某一环境下的人脸识别应用来说,比如教室中学生的人脸识别,则教室的墙壁,窗户,身体,衣服等等便属于负样本的范畴。 负样本通过采集的方式获取...
  • 什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子: ①在一个二分类问题中,训练集中class 1的...使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分
  • 一、为什么要分开训练集与测试集在机器学习中,...通常我们假设训练集、测试集都是从样本集中独立同分布采样得到,且测试集、训练集中的样本应该尽可能互斥(测试集中的样本尽量不在训练集中有出现、尽量不在训练过程
  • 使用YOLO训练自己的数据样本经验总结

    万次阅读 热门讨论 2016-11-30 11:42:36
    YOLO近一年多新出的一种object detection的方法,关于目标检测及YOLO的介绍可参见:基于深度学习的目标检测研究进展 , CVPR2016目标检测之识别效率篇:YOLO, G-CNN, Loc-Net ,RCNN学习笔记(6):You Only Look Once...
  • 机器学习中的正负样本

    万次阅读 2018-06-13 08:31:51
    针对与分类问题,正样本则是我们想要正确分类出的类别所对应的样本,例如,我们要对一张图片进行分类,以确定其是否属于汽车,那么在训练的时候,汽车的图片则为正样本,负样本原则上可以选取任何不是汽车的其他图片...
  • OpenCV中Adaboost训练的经验总结

    万次阅读 2014-12-25 16:21:23
    关于使用OpenCV训练Adaboost的经验总结,互相交流,有不对的地方请指教!
  • 上一篇(OpenCV3中的级联分类器目标检测——cv::CascadeClassifier简介)介绍了如何使用级联分类器进行目标检测。这里,我们介绍一下如何训练自己的级联分类器。
  • 增加特征对预测准确率的影响

    千次阅读 2018-07-26 00:05:35
    加入使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是? A. 训练样本准确率一定会降低 B. 训练...
1 2 3 4 5 ... 20
收藏数 214,245
精华内容 85,698
关键字:

训练样本