精华内容
下载资源
问答
  • 常用的样本选取方法有
    千次阅读
    2019-07-08 13:21:50

    留出法
    即按照一定比例留出测试样本,一般来说测试集与训练集互斥

    交叉验证法
    k折交叉验证
    将样本划分为K等份,每次留一份作为测试,训练K个学习器,取测试结果的平均值
    k折K次
    在 k折交叉验证的基础上重复K次(每次都是随机划分)。相当于进行的k*k次训练和测试
    自助法
    通常用于样本规模较小时
    从样本中随机有放回取N个样本作为训练集,最后将从未取到过的样本做测试集。
    N趋于无穷时,训练集约占总样本的0.632
    --------------------- 
    作者:Matrix-yang 
    来源:CSDN 
    原文:https://blog.csdn.net/qq_21768483/article/details/89153623 
    版权声明:本文为博主原创文章,转载请附上博文链接!

    更多相关内容
  • # ------------------选取数据样本的第一行-------------------- print(food_info.loc[0]) #------------------选取数据样本的3到6行---------------------- print(food_info.loc[3:6]) #------------------head选取...
  • 为了提高基于一范数的核主成分分析算法(KPCA-L1)处理异常检测问题的速度,提出了基于样本选取和加权KPCA-L1的异常检测方法。该方法从训练集中选取具有代表性的特征子集,然后为所得特征子集中的样本赋予权重,用带...
  • 为解决上述问题,通过提取图像的相关纹理特征,提出一种样本块大小自适应选取方法。利用图像分解技术对图像进行预处理,利用图像灰度共生矩阵提取待修复图像的纹理特征,通过确定相关纹理特征与最优样本块大小的相互关系...
  • 提出了在支持向量机(support vector machine ,SVM)方法中采用遗传模糊 C-均值( FCM)进行样本选取方法,旨在保留最优分类超平面附近的样本点,去除远处样本点,使训练样本集减小,消除冗余,从而减小所需内存。...
  • 为了测试 al 模型,使用真实数据从较大的数据集中挑选较小的样本会很有用。 另一个应用程序可能是决定随机样本应该多小,以查看过程是否有效。
  • 文中提出了一种区别于通常以插值点为中心展开生成样本点组的新方法 :在求解过程中,用插值点逐步替代初始样本点组中距离验算点较远的点,其目的是使所选取样本点较集中于验算点附近,重新构成下一轮迭代所需的一组...
  • 电信设备-地价调查样本选取信息处理方法及装置.zip
  • SVM样本选取

    2013-04-18 20:10:58
    样本看做是具有权重的,因此在对样本进行选取的时候,它对于SVM的训练和决策函数的优化的影响是权重的,即贡献值不一样。
  • 电信设备-地价调查样本选取信息处理装置.zip
  • 基于模糊k近邻的样本选取的支持向量机分类算法.pdf
  • 将日常工作中遇到的数数据冲突和样本源的方法进行总结,其中主要包括等思路。

    将日常工作中遇到的数数据冲突和样本源的方法进行总结,其中主要包括 实际业务数据冲突、样本选取问题、数据共线性 等思路。
    在这里插入图片描述

    业务数据冲突

    多业务数据源冲突是指来自多个或具有相同业务逻辑但结果不同的系统,环境、平台和工具的数据。根据冲突的不同特征。

    一般数据冲突类型:

    • 数据类型:同字段数据的格式不同。例如注册日期的字段包含字符串。
    • 数据结构冲突:同一数据主体的描述结构存在冲突。
    • 记录粒度不同:订单记录的粒度可以基于ID存储在一条数据中。
    • 数据范围定义&#x
    展开全文
  • BP神经网络训练样本选取对网络的泛化能力较大的影响,特别,怎样从商维大样本数据中选取合适训练样本是一个难点。本文运用因子分析法对大样本数据进行预处理,再利用分析所得的公因子进行聚类分析,这样既可以...
  • yolov3选取正负样本

    千次阅读 2022-01-18 17:51:58
    负责预测目标网格中与ground truth的IOU最大的anchor为正样本(记住这里没有阈值的事情,否则会绕晕) 与全部ground truth的IOU都小于阈值的anchor为负样本 其他是忽略样本 代码未完待续
    • 负责预测目标网格中与ground truth的IOU最大的anchor为正样本(记住这里没有阈值的事情,否则会绕晕)
    • 剩下的anchor中,与全部ground truth的IOU都小于阈值的anchor为负样本
    • 其他是忽略样本
    • 代码未完待续
    • 获取正样本代码,参考这里
    def calculate_iou(_box_a, _box_b):
    		b1_x1, b1_x2 = _box_a[:, 0] - _box_a[:, 2] / 2, _box_a[:, 0] + _box_a[:, 2] / 2
            b1_y1, b1_y2 = _box_a[:, 1] - _box_a[:, 3] / 2, _box_a[:, 1] + _box_a[:, 3] / 2
            b2_x1, b2_x2 = _box_b[:, 0] - _box_b[:, 2] / 2, _box_b[:, 0] + _box_b[:, 2] / 2
            b2_y1, b2_y2 = _box_b[:, 1] - _box_b[:, 3] / 2, _box_b[:, 1] + _box_b[:, 3] / 2
            box_a = torch.zeros_like(_box_a)
            box_b = torch.zeros_like(_box_b)
            box_a[:, 0], box_a[:, 1], box_a[:, 2], box_a[:, 3] = b1_x1, b1_y1, b1_x2, b1_y2
            box_b[:, 0], box_b[:, 1], box_b[:, 2], box_b[:, 3] = b2_x1, b2_y1, b2_x2, b2_y2
            A = box_a.size(0)
            B = box_b.size(0)
            # intersection
            # expand to A*B*2 and compare
            max_xy  = torch.min(box_a[:, 2:].unsqueeze(1).expand(A, B, 2), box_b[:, 2:].unsqueeze(0).expand(A, B, 2))
            min_xy  = torch.max(box_a[:, :2].unsqueeze(1).expand(A, B, 2), box_b[:, :2].unsqueeze(0).expand(A, B, 2))
            # minus and set 0 if result less than 0
            inter   = torch.clamp((max_xy - min_xy), min=0)
            # size:A*B
            inter   = inter[:, :, 0] * inter[:, :, 1]
            area_a = ((box_a[:, 2]-box_a[:, 0]) * (box_a[:, 3]-box_a[:, 1])).unsqueeze(1).expand_as(inter) 
            area_b = ((box_b[:, 2]-box_b[:, 0]) * (box_b[:, 3]-box_b[:, 1])).unsqueeze(0).expand_as(inter)
            union = area_a + area_b - inter
            return inter / union
    '''
    targets是标签列表,长度是batch_size,元素的shape是(真实框个数*5)
    anchors是[[116,90],[156,198],[373,326]]或[[30,61],[62,45],[59,119]]或[[10,13],[16,30],[33,23]]
    in_h, in_w是13,13或26,26或52,52
    num_classes是类别数,voc是20,COCO是80
    '''
    def get_target(targets, anchors, in_h, in_w, num_classes):
        bs=len(targets)
        positive=torch.zeros(bs,len(anchors),in_h, in_w, 5+num_classes,requires_grad = False)
        negtive=torch.ones(bs,len(anchors),in_h, in_w, requires_grad = False)
        for b in range(bs):
            batch_target = torch.zeros_like(targets[b])
            # 计算该特征图上标签的值
            batch_target[:, [0,2]] = targets[b][:, [0,2]] * in_w
            batch_target[:, [1,3]] = targets[b][:, [1,3]] * in_h
            batch_target[:, 4] = targets[b][:, 4]
            batch_target = batch_target.cpu()
            # 计算标签和anchor的IOU
            # 这里可以随便选一个共同中心(0,0),根据高宽计算IOU
            gt_box= torch.FloatTensor(torch.cat((torch.zeros((batch_target.size(0), 2)), batch_target[:, 2:4]), 1))
            anchor_shapes=torch.FloatTensor(torch.cat((torch.zeros((len(anchors), 2)), torch.FloatTensor(anchors)), 1))
            iou=calculate_iou(gt_box, anchor_shapes)
            # 获得与标签最匹配的anchor的索引
            best_ns = torch.argmax(iou, dim=-1)
            for t, best_n in enumerate(best_ns):
                # 第t个标签中心所在网格,种类
                i = torch.floor(batch_target[t, 0]).long()
                j = torch.floor(batch_target[t, 1]).long()
                c = batch_target[t, 4].long()
                positive[b,best_n,j,i,0]=batch_target[t, 0] - i.float()
                positive[b,best_n,j,i,1]=batch_target[t, 1] - j.float()
                positive[b,best_n,j,i,2]=math.log(batch_target[t, 2] / anchors[best_n][0])
                positive[b,best_n,j,i,3]=math.log(batch_target[t, 3] / anchors[best_n][1])
                positive[b,best_n,j,i,4]=1
                positive[b,best_n,j,i,c+5]=1
                negtive[b,best_n,j,i]=0
        return positive,negtive
    
    展开全文
  • 《数理统计》第8章5样本容量的选取.ppt
  • 八种样本抽样方法介绍

    万次阅读 多人点赞 2019-10-16 09:24:15
    介绍 你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存...是否一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整...

    介绍

    你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存不足"错误。

    即使是最优秀的人也会遇到这种事。这是我们在数据科学中面临的最大障碍之一,在受计算限制的计算机上处​​理大量数据(并非所有人都拥有Google的资源实力!)。

    那么我们如何克服这个问题呢?是否有一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整个数据集?

    这种方法称为抽样。我相信你在学校期间,甚至在你的职业生涯中,都会遇到这个名词很多次。抽样是合成数据子集并进行分析的好方法。但是,那我们只是随机取一个子集呢?

    我们将在本文中进行讨论。我们将讨论八种不同类型的抽样技术,以及每种方法的使用场景。这是一篇适合初学者的文章,会介绍一些统计的知识

    目录

    1. 什么是抽样?
    2. 为什么我们需要抽样?
    3. 抽样步骤
    4. 不同类型的抽样技术
    5. 概率抽样的类型
    6. 非概率抽样的类型

    什么是抽样?

    让我们从正式定义什么是抽样开始。

    抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。

    上图完美地说明了什么是抽样。让我们通过一个例子更直观的进行理解。

    我们想要找到Delhi这个城市所有成年男性的平均身高。Delhi的人口大约为3千万,男性大约为1500万(这些都是假想数据,不要当成实际情况了)。你可以想象,要找到Delhi所有男性的身高来计算平均身高几乎是不可能的。

    我们不可能接触到所有男性,因此我们无法真正分析整个人口。那么,什么可以我们做的呢?我们可以提取多个样本,并计算所选样本中个体的平均身高。

    但是,接下来我们又提出了一个问题,我们如何取样?我们应该随机抽样吗?还是我们必须问专家?

    假设我们去篮球场,以所有职业篮球运动员的平均身高作为样本。这将不是一个很好的样本,因为一般来说,篮球运动员的身高比普通男性高,这将使我们对普通男性的身高没有正确的估计。

    这里有一个解决方案,我们在随机的情况下随机找一些人,这样我们的样本就不会因为身高的不同而产生偏差。

    为什么我们需要抽样?

    我确定你在这一点上已经有了直觉的答案。

    抽样是为了从样本中得出关于群体的结论,它使我们能够通过直接观察群体的一部分(样本)来确定群体的特征。

    • 选择一个样本比选择一个总体中的所有个体所需的时间更少
    • 样本选择是一种经济有效的方法
    • 对样本的分析比对整个群体的分析更方便、更实用

    抽样步骤

    将概念形象化是在记忆的好方法。因此,这是一个以流程图形式逐步进行抽样的流程图!

    让我们以一个有趣的案例研究为例,将这些步骤应用于执行抽样。几个月前,我们在印度举行了大选。你一定看过当时每个新闻频道的民意调查:

    这些结果是根据全国9亿选民的意见得出的还是根据这些选民的一小部分得出的?让我们看看是怎么做的。

    第一步

    抽样过程的第一步是明确定义目标群体。

    因此,为了进行民意调查,投票机构仅考虑18岁以上且有资格在人口中投票的人。

    第二步

    抽样框架(Sampling Frame) –这是构成样本总体的个体列表。

    因此,这个例子的抽样框架将是是名字出现在一个选区的所有投票人列表。

    第三步

    一般来说,使用概率抽样方法是因为每一张选票都有相等的价值。不考虑种姓、社区或宗教,任何人都可以被包括在样本中。不同的样品取自全国各地不同的地区。

    第四步

    样本量(Sample Size)-是指样本中所包含的个体的数量,这些个体的数量需要足量以对期望的准确度和精度进行推断。

    样本量越大,我们对总体的推断就越准确。

    在民意调查中,各机构试图让尽可能多的不同背景的人参与抽样调查,因为这有助于预测一个政党可能赢得的席位数量。

    第五步

    一旦确定了目标人群,抽样框架,抽样技术和样本数量,下一步就是从样本中收集数据。

    在民意测验中,机构通常会向人民提出问题,例如他们要投票给哪个政党或前政党做了什么工作,等等。

    根据答案,各机构试图解释选民投票给谁,以及一个政党要赢得多少席位。

    不同类型的抽样技术

    这里是另一个图解!这一个是关于我们可以使用的不同类型的采样技术:

    • 概率抽样: 在概率抽样中,总体中的每个个体都有相等的被选中的机会。概率抽样给了我们最好的机会去创造一个真正代表总体的样本
    • 非概率抽样:在非概率抽样中,所有元素被选中的机会都不相等。因此,有一个显著的风险,即最终得到一个不具代表性的样本,它不会产生可推广的结果

    例如,假设我们的人口由20个人组成。每个个体的编号从1到20,并由特定的颜色(红色、蓝色、绿色或黄色)表示。在概率抽样中,每个人被选中的概率是1/20。

    对于非概率抽样,这些概率是不相等的。一个人被选中的机会可能比别人大。现在我们对这两种抽样类型有了一定的了解,让我们分别深入了解每种抽样类型,并理解每种抽样的不同类型。

    概率抽样的类型

    简单随机抽样

    这是你一定要遇到的一种抽样技术。在这里,每个人都是完全由随机选择的,人口中的每个成员都有被选择的机会。

    简单的随机抽样可减少选择偏差。

    这种技术的一大优点是它是最直接的概率抽样方法。但它有一个缺点,它可能不会选择特别多我们真正感兴趣的个体元素。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

    系统抽样

    在这种类型的抽样中,第一个个体是随机选择的,其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。

    假设我们的总体大小是x,我们必须选择一个样本大小为n的样本,然后,我们要选择的下一个个体将是距离第一个个体的x/n个间隔。我们可以用同样的方法选择其余的。

    假设,我们从第3个人开始,样本容量是5。因此,我们要选择的下一个个体将是(20/5)= 4,从第3个人开始,即7(3 4),依此类推。

    3、3 4=7、7 4=11、11 4=15、15 4=19 . 3、7、11、15、19

    系统抽样比简单随机抽样更方便。然而,如果我们在人群中选择项目时存在一种潜在的模式,这也可能导致偏差(尽管这种情况发生的几率非常低)。

    分层抽样

    在这种类型的抽样中,我们根据不同的特征,如性别、类别等,把人口分成子组(称为层)。然后我们从这些子组中选择样本:

    在这里,我们首先根据红、黄、绿、蓝等不同的颜色将我们的种群分成不同的子组。然后,从每一种颜色中,我们根据它们在人口中的比例选择一个个体。

    当我们想要从总体的所有子组中得到表示时,我们使用这种类型的抽样。然而,分层抽样需要适当的人口特征的知识。

    整群抽样

    在整群抽样中,我们使用总体的子组作为抽样单位,而不是个体。全体样本被分为子组,称为群,并随机选择一个完整的群作为抽样样本。

    在上面的例子中,我们将人口分为5个群。每个群由4个个体组成,我们在样本中选取了第4个群。我们可以根据样本大小包含更多的群。

    当我们集中在一个特定领域或区域时,就会使用这种类型的抽样。

    非概率抽样的类型

    便利抽样

    这可能是最简单的抽样方法,因为个人的选择是基于他们的可用性和参与意愿。

    这里,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

    便利抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

    配额抽样

    在这种抽样中,我们根据预先确定的总体特征来选择样本。考虑到我们必须为我们的样本我们选择一个倍数为4的个体:

    因此,编号为4、8、12、16和20的个人已经为我们的样本保留。

    在配额抽样中,选择的样本可能不是未考虑的人口特征的最佳代表。

    判断抽样

    这也称为选择性抽样。在选择要求参加者时,取决于专家判断。

    假设,我们的专家认为,应该将编号为1、7、10、15和19的人作为我们的样本,因为它们可以帮助我们更好地推断人口。你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。

    雪球抽样

    我很喜欢这种抽样方法。现有的人被要求推荐更多他们认识的人,这样样本的大小就会像滚雪球一样增加。当抽样框架难以识别时,这种采样方法是有效的。

    在这里,我们随机选择了1个人作为样本,然后他推荐了6个人,6个人推荐了11个人,依此类推。

    1-> 6-> 11-> 14-> 19

    雪球抽样有很大的选择偏见风险,因为被引用的个体将与推荐他们的个体具有共同的特征。

    结尾

    在本文中,我们了解了抽样的概念,抽样所涉及的步骤以及不同类型的抽样方法。抽样在统计世界和现实世界中都有广泛的应用。

    欢迎关注磐创博客资源汇总站:http://docs.panchuang.net/

    欢迎关注PyTorch官方中文教程站:http://pytorch.panchuang.net/

    展开全文
  • 关于 Faster RCNN正负样本选取的问题

    千次阅读 2021-10-02 20:47:08
    回顾fast rcnn样本选取问题
  • kennard-stone选取样本算法的matlab的源代码,适用于红外光谱样本的筛选,kennard-stone选取样本算法的matlab的源代码
  • 数据样本的选择方法

    万次阅读 2017-04-26 10:41:33
     在目前我的实验中训练样本主要两种选择方式:(当让还有很多选择方式,比如我在人脸图像亲缘识别的实验中是将所有的数据当作训练样本,在将所有的数据作为测试样本来测试方法的识别率、还有比如交叉验证等很多...
  • 推荐召回阶段-正负样本选取准则

    千次阅读 2020-09-23 10:03:45
    粗排-正负样本选取准则 精排目的是在优中(用户感兴趣的商品中)择优(挑选用户最感兴趣的商品)、粗排从商品池子中挑选出用户感兴趣的商品,了解这一区分性后,对精排和粗排正负样本的选取便会采取不同方式 【结论...
  • Part 1.2 如何选取样本数据

    千次阅读 2019-05-21 14:11:05
    我们需要做的事情是基于Y值去选取我们的建模样本 建模样本一般可以从两个维度去思考 授信维度:判断客户好坏的是 人 从人角度出发,判断客户在某一段时间内是否出现逾期笔数,比如逾期天数超过30天, 1 首先判断...
  • 目标检测大量的算法,这篇文章对其中正负样本选取方法进行了总结。对于正样本,是回归与分类都进行,而负样本由于没有回归的对象,不进行回归,只进行分类(分类为背景)。 二、正文 1.Fast R-CNN 构造如下:...
  • 针对一个GT,计算anchor中心点与GT中心点的L2距离,选取K个最近anchor作为候选正样本; 2. 计算K个候选正样本与GT的IOU,再计算这些IOU的均值Mg和标准差Dg; 3. 根据阈值Mg+Dg,选取大于阈值的候选正样本作为最终的...
  • 示例(instance)或样本(sample):每条记录是关于一个事件或者对象的描述。 属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项。 属性值(attribute value):属性上的取值。 ...
  • 常用样本数据集介绍与下载汇总

    千次阅读 多人点赞 2020-07-22 11:24:55
      本文整理了近些年常用的小样本数据集,提供了数据集介绍,参考文献以及下载地址。我手头资源的都已经上传至百度云盘,其他数据集也提供了官方的下载地址(有些可能需要翻墙)。最后还对各个数据集的情况做了一...
  • 的过拟合的问题,给出交叉验证的方法,这个方法在做分类问题时很常用: 一:简单的交叉验证的步骤如下: 1、 从全部的训练数据 S中随机选择 中随机选择 s的样例作为训练集 train,剩余的 作为 测试 集 作为测试集 ...
  • 数学建模13种常见方法

    万次阅读 多人点赞 2018-11-24 10:22:00
    下面来介绍一下数学建模大赛中常用的13中建模方法: 1、层次分析法,简称AHP,是指将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。该方法是美国运筹学家匹茨堡...
  • 遥感影像深度学习样本制作

    千次阅读 2020-10-24 14:35:48
    今天介绍一下如果已经了遥感影像和对应的类别矢量,如何快速制作影像分割的深度学习样本呢? 思路1:矢量转栅格-----》转换后的标签影像同原始影像数据同时裁剪。 (1)矢量数据处理:需要在矢量数据中加入像素值...
  • 处理不平衡样本集的采样方法

    千次阅读 2019-06-09 22:12:11
    例如,如果正负样本比例达到1:99,则分类器简单地将所有样本都判定为负样本能达到99%的正确率,显然这并不是我们想要的,我们想让分类器在正样本和负样本上都足够的准确率和召回率。 为什么很多分类模型在训练数据...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 95,879
精华内容 38,351
热门标签
关键字:

常用的样本选取方法有