精华内容
下载资源
问答
  • 专利测试数据集

    2016-10-13 19:36:37
    hadoop实战 专利测试数据集
  • Bert测试数据集,MRPC数据集,方便下载不了的朋友进行测试、实验与学习。数据集中有用的为三部分,train.tsv,dev.tsv和test.tsv。
  • 测试数据集

    2015-11-15 15:42:10
    用于测试数据集合,配套https://github.com/zhangxinxing/basic_of_datamining
  • UCI Germny Credit 数值型数据集独立测试数据,按70%比例抽取,剩余30%独立测试。
  • hive 操作相关的测试数据集hive
  • bp测试数据集

    2016-09-27 10:05:38
    bp神经网络测试小例子用到的数据包,里面的数据仅供测试使用
  • 入侵检测测试数据集,跟darpa2000相似的入侵检测测试数据集
  • UCI Germny Credit 数值型数据集独立测试数据,按70%比例抽取,剩余30%独立测试。 UCI Germny Credit 数值型数据集独立测试数据.csv
  • pytorch测试数据集.rar

    2020-03-10 11:09:29
    测试数据集与训练数据集
  • 分类算法测试数据集

    2018-03-23 21:59:16
    包含了众多数据集,亲测可用,可以放在matlab中使用。
  • 大数据测试数据集

    2018-12-20 20:26:54
    数据是淘宝开源的用户真是产生的数据,包括商品id,用户id,商品品类id,生成时间,用户行为:pv,cut(加入购车车)。。。。
  • Kaggle digita l数据集 包含了42000份训练数据和28000份测试数据
  • 1. 简介在Andrew Ng的机器学习教程里,会将给定的数据集分为三部分:训练数据集(training set)、交叉验证数据集(cross validation set)、测试数据集(test set)。三者分别占总数据集的60%、20%、20%。 那么...

    #1. 简介
    在Andrew Ng的机器学习教程里,会将给定的数据集分为三部分:训练数据集(training set)、交叉验证数据集(cross validation set)、测试数据集(test set)。三者分别占总数据集的60%、20%、20%。
    那么这些数据集分别是什么作用呢?

    #2. 三种数据集的作用
    假设我们训练一个数据集,有下面10中模型可以选择:
    这里写图片描述
    (图片来自Coursera Machine Learning Andrew Ng 第6周:Model Selection and Train/Validation/Test Sets)

    我们想知道两件事:

    • 1)这10中模型中哪种最好(决定多项式的阶数d);
    • 2)最好的模型的 θ \theta θ参数是什么。
      为此,我们需要,
    1. 使用训练数据集分别训练这10个模型;
    2. 用训练好的这10个模型,分别处理交叉验证数据集,统计它们的误差,取误差最小的模型为最终模型(这步就叫做Model Selection)。
    3. 用测试数据集测试其准确性。

    这里有个问题要回答:为什么不直接使用测试数据集(Test Set)来执行上面的第2.步?
    答:如果数据集只分成训练数据集(Training Set)和测试数据集(Test Set),且训练数据集用于训练 θ \theta θ,测试数据集用于选择模型,那么就缺少能够“公平”评判最终模型优劣的数据集,因为最终的模型就是根据训练数据集和测试数据集训练得到的,肯定在这两个数据集上表现良好,但不一定在其他数据上也如此。

    展开全文
  • 训练神经网络模型之前,需要先获取训练数据集和测试数据集,本文介绍的获取数据集(get_data_train_test)的方法包括以下步骤: 1 在数据集文件夹中,不同类别图像分别放在以各自类别名称命名的文件夹中; 2 获取...

    训练神经网络模型之前,需要先获取训练数据集和测试数据集,本文介绍的获取数据集(get_data_train_test)的方法包括以下步骤:
    1 在数据集文件夹中,不同类别图像分别放在以各自类别名称命名的文件夹中;
    2 获取所有图像路径以及分类;
    3 将分类转为字典格式;
    4 将所有图像路径打乱;
    5 将所有图像路径切分为训练部分和测试部分;
    6 获取x部分
    6.1 获取图像;
    6.2 图像尺寸调整;
    6.3 图像降维;
    6.4 图像像素值取反;
    6.5 图像像素值归一化;
    7 获取y部分
    7.1 获取图像的类别名称;
    7.2 找到类别名称对应的id;
    7.3 列表推到;

    import os
    import random
    import math
    import sys
    import cv2
    import numpy as np
    from PIL import Image
    
    #数据集路径
    DATASET_TRAIN_TEST_DIR = 'D:/word/data_train_test'
    DATASET_TEST_DIR = 'D:/word/data_test'
    #随机种子
    RANDOM_SEED = 0
    #验证集数量
    NUM_TEST = 20
    #分类数量
    NUM_CLASS = 10
    
    #获取所有文件以及分类
    def get_filenames_and_classes(dataset_dir):
    	#数据目录
    	directories = []
    	#分类名称
    	class_names = []
    	for filename in os.listdir(dataset_dir):
    		#合并文件路径
    		path = os.path.join(dataset_dir, filename)
    		#判断该路径是否为目录
    		if os.path.isdir(path):
    			#加入数据目录
    			directories.append(path)
    			#加入类别名称
    			class_names.append(filename)
    
    	photo_filenames = []
    	#循环每个分类的文件夹
    	for directory in directories:
    		for filename in os.listdir(directory):
    			path = os.path.join(directory, filename)
    			#把图片加入图片列表
    			photo_filenames.append(path)
    
    	return photo_filenames, class_names
    
    def get_xs(filenames):
    	xs = []
    	for i in range(len(filenames)):
    		image = Image.open(filenames[i]).convert('L')
    		blank = Image.new('L',[28,28],(255))
    		max_length = np.max(image.size)
    		w = int(image.size[0]*28/max_length)
    		h = int(image.size[1]*28/max_length)
    		#图像尺寸不超过28*28
    		image = image.resize((w,h), Image.NEAREST)
    		#图像尺寸调整为28*28
    		blank.paste(image, ((28-w)//2, (28-h)//2))
    		#图像尺寸调整为1*784
    		x = blank.resize((1,784))
    		#图像转换为数组
    		x = np.array(x)
    		#图像降维,如[[1],[2],[3]]变为[1,2,3]
    		x = x.squeeze()
    		#图像像素值取反
    		x = np.full(784, 255) - x
    		#图像像素值归一化
    		max = np.max(x)
    		x = x / np.full(784, max)
    		#获取多幅图像数据
    		xs.append(x)
    	return xs
    
    def get_ys(filenames, class_names_to_ids):
    	ys = []
    	for i in range(len(filenames)):
    		#获得图片的类别名称
    		class_name = os.path.basename(os.path.dirname(filenames[i]))
    		#找到类别名称对应的id
    		class_id = class_names_to_ids[class_name]
    		#列表推到
    		y=[1 if id==class_id else 0 for id in range(NUM_CLASS)]
    		ys.append(y)
    	return ys
    
    def get_data_train_test():
    	#获得所有图片路径以及分类
    	photo_filenames, class_names = get_filenames_and_classes(DATASET_TRAIN_TEST_DIR)
    
    	#把分类转为字典格式,类似于{'A':0, 'B':1, 'C':2}
    	class_names_to_ids = dict(zip(class_names, range(len(class_names))))
    
    	#把数据切分为训练集和测试集
    	random.seed(RANDOM_SEED)
    	random.shuffle(photo_filenames)
    	training_filenames = photo_filenames[NUM_TEST:]
    	testing_filenames = photo_filenames[:NUM_TEST]
    	train_xs = get_xs(training_filenames)
    	train_ys = get_ys(training_filenames, class_names_to_ids)
    	test_xs = get_xs(testing_filenames)
    	test_ys = get_ys(testing_filenames, class_names_to_ids)
    
    	return train_xs, train_ys, test_xs, test_ys
    
    def get_data_test():
    	filenames = []
    	for filename in os.listdir(DATASET_TEST_DIR):
    		#合并文件路径
    		path = os.path.join(DATASET_TEST_DIR, filename)
    		filenames.append(path)
    	xs = get_xs(filenames)
    	return xs
    
    
    展开全文
  • 双目立体匹配测试数据集Middlebury Stereo Datasets,包含Middlebury Stereo官网上面的03,05,06年的三部分数据集,01,14年的数据集下载失败,分享给大家。
  • NASA Pcoe电池测试随机数据集,这是NASA Pcoe电池测试随机数据集第4组数据集,里面有很多的测试数据集,充电,放电,还有时间等,4组分别为RW25,RW26,RW27,RW28,都是.mat文件,还包括matlab仿真程序。。。。。。
  • matlab测试数据集

    热门讨论 2011-06-07 22:23:34
    鸢尾花 购物篮 大豆分类等等的一些数据集
  • clickhouse官方文档中的测试数据集ontime文件百度网盘下载链接。 ontime.csv.xz 数据压缩文件,3.28G, 解压后有61G, 使用该文件导入,由于文件过大,没有成功过; ontime.rar 已经分好区的数据压缩文件,15.2g,下载...
  • uci聚类测试数据集

    2015-07-10 19:39:46
    该文件有六百条数据,每100条是一类。可用于聚类的测试
  • https://blog.csdn.net/u013963380/article/details/82287696博客中使用测试数据集
  • 针对在回归测试中原有的测试数据集往往难以满足新版本软件的测试需求问题,提出一种基于搜索的分层回归测试数据集扩增方法,主要包含覆盖目标方法集获取模块和测试数据生成模块。首先对新版本程序进行抽象分析,提取...
  • 在深度学习或者机器学习训练时,总会对现有数据进行随机采样,分裂出训练数据集和测试数据集,下面就几种情况进行分析: 原始数据集本身随机排列 倘若原始数据集本身是随机排列的话,可以直接采样下面的方式实现 ...

    在深度学习或者机器学习训练时,总会对现有数据进行随机采样,分裂出训练数据集和测试数据集,下面就几种情况进行分析:

    原始数据集本身随机排列

    倘若原始数据集本身是随机排列的话,可以直接采样下面的方式实现

    from sklearn.model_selection import train_test_split
    df_train,df_test = train_test_split(df,test_size = 0.2)
    

    原始数据集按照不同label顺序排列

    按照原来label顺序排列的话,容易对使得训练数据集和测试数据集label分布不均衡,此时采用分层抽样(stratify sample)

    from sklearn.model_selection import train_test_split
    df_train,df_test = train_test_split(df,test_size = 0.2,stratify=df['label'])
    

    参考文献

    https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
    https://answers.dataiku.com/2352/split-dataset-by-stratified-sampling

    展开全文
  • 数据 allmdb 其中包括训练数据和测试数据以及redme ~~~
  • 测试数据集: 训练数据集与测试数据集切分(train test split),将原始数据的80%作为训练数据来训练模型,另外20%作为测试数据,通过测试数据直接判断模型的效果,在模型进入真实环境前改进模型。 监督学习 定义...

    训练数据集&测试数据集:

    训练数据集与测试数据集切分(train test split),将原始数据的80%作为训练数据来训练模型,另外20%作为测试数据,通过测试数据直接判断模型的效果,在模型进入真实环境前改进模型。

    监督学习

    定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

     通俗一点,可以把机器学习理解为我们教机器如何做事情。

    监督学习的分类:回归(Regression)、分类(Classification)  

     

    无监督学习

    定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。

    可以这么说,比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。

     

    监督学习的数据既有特征又有标签,而非监督学习的数据中只有特征而没有标签。

     

    半监督学习——《机器学习》周志华


    参考文章链接:https://www.jianshu.com/p/682c88cee5a8
     

    展开全文
  • 用于双目立体匹配的测试数据集,包含标准视差图,整合了2001、2003、2005、2006四年的数据集
  • bp分类 包含数据集,训练数据测试数据matlab,用于bp神经网络分类问题
  • UCI测试数据集

    千次阅读 2012-04-21 14:17:37
    数据集分类: Default Task - Undo Classification (142) Regression (20) Clus
  • 无人驾驶之测试数据集

    千次阅读 2018-10-23 11:33:44
    目前,全球主流的自动驾驶测试数据集包括Cityscapes、Imagenet(ILSVRC)、COCO、PASCAL VOC、CIFAR、MNIST、KITTI、LFW等。 1.Cityscapes Cityscapes是由奔驰于2015年推出的,提供无人驾驶环境下的图像分割数据集...
  • train_test_split函数是sklearn机器学习库的一个函数,利用这个函数可以自动将数据集按照预定比例划分为测试数据集、训练数据集。 1. 安装sklearn数据库 pip install scikit-learn 2. 声明数据库 from sklearn....
  • 目标跟踪的测试数据集

    千次阅读 2014-07-07 10:22:22
    一个网友收集的运动目标检测,阴影检测的标准测试视频...很权威的change detection检测视频,里面有将近20种主流算法在这个测试集上的运行结果和ROC,PRA曲线 http://changedetection.net/   VIVID Tracking Evalu

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 714,607
精华内容 285,842
关键字:

怎样测试数据集