精华内容
下载资源
问答
  • 采样方法
    千次阅读
    2020-12-21 11:33:02

    展开全部

    最邻近法(Nearest Neighbor):最邻近法直接将与某像元位置最邻近的像元值作为该像32313133353236313431303231363533e58685e5aeb931333431366363元的新值。该方法的优点是方法简单,处理速度快,且不会改变原始栅格值,但该种方法最大会产生半个像元大小的位移。

    适用于表示分类或某种专题的离散数据,如土地利用,植被类型等。以下示意图为栅格数据经过平移和旋转的几何变换之后。

    就是根据一类象元的信息内插出另一类象元信息的过程。在遥感中,重采样是从高分辨率遥感影像中提取出低分辨率影像的过程。

    常用的重采样方法有最邻近内插法(nearest neighbor interpolation)、双线性内插法(bilinear interpolation)和三次卷积法内插(cubic convolution interpolation)。

    扩展资料:

    双线性内插法是通过取采样点到周围4邻域像元的距离加权来计算其栅格值新值。具体操作是首先在Y方向做一次内插(或X方向),再在X方向(或Y方向)内插一次,通过距离加权计算得到该像元的栅格值。

    用该法进行重采样,结果往往会比最邻近法重采样的结果更加光滑,但是会改变原来的栅格值,丢失一些局部细微的特征。适用于表示某种现象分布、地形表面的连续数据,如DEM影像、温度统计、降雨量分布、坡度等,这些数据一般就是通过采样点多次内插得到的连续表面。

    更多相关内容
  • 此 MATLAB 工具包包含演示四种不同重采样方法的函数和脚本: - 多项式- 剩余的- 分层- 系统(通用抽样)。 该工具包的主要入口点是: - 运行分析.m - 运行示例.m 这些算法的 C++ 版本是 MRPT 库 ( ...
  • RWO采样:一种用于不平衡数据分类的随机游走过采样方法
  • 点云采样方法

    千次阅读 2021-06-29 14:50:00
    点云采样方法点云采样分类1. 格点采样2. 均匀采样3. 几何采样 Reference: 点云采样 点云采样分类 点云采样方法有很多种,常见的有均匀采样、几何采样、随机采样、格点采样等。下面介绍一些常见的采样方法: 1. ...

    Reference:

    1. 点云采样

    点云采样分类

    点云采样的方法有很多种,常见的有均匀采样、几何采样、随机采样、格点采样等。下面介绍一些常见的采样方法:

    1. 格点采样

    格点采样,就是把三维空间用格点(栅格?)离散化,然后每个格点里采样一个点。具体方法如下:

    1. 创建格点:如中间图所示,计算点云的包围盒,然后把包围盒离散成小格子。格子的长宽高可以用户设定,也可以通过设定包围盒三个方向的格点数来求得。
    2. 每个小格子包含了若干个点,取离格子中心点最近的点作为采样点,如右图所示:

    在这里插入图片描述
    格点采样的特点:

    • 效率非常高;
    • 采样点分布比较均匀,但是均匀性没有均匀采样高;
    • 可以通过格点的尺寸控制点间距;
    • 不能精确控制采样点个数。

    2. 均匀采样

    均匀采样的方法有很多,并且有一定的方法来评估采样的均匀性。这里介绍一种简单的均匀采样方法,最远点采样。具体方法如下:
    输入点云记为 C C C,采样点集记为 S S S S S S初始化为空集。

    1. 随机采样一个种子点Seed,放入 S S S,如图1所示;
    2. 每次采样一个点,放入 S S S。采样的方法是,在集合 C C C里,找一个距离集合 S S S距离最远的点。其中点到集合的距离为,这点到集合里所有点距最小的距离。如图2-6所示,采样点 S S S的数量分别为2,4,10,20,100。

    在这里插入图片描述
    最远点采样的特点:

    • 采样点分布均匀;
    • 算法时间复杂度有些高,因为每次采样一个点,都要计算集合到集合之间的距离。可以采用分治的方法来提高效率;
    • 采样点一般先分布在边界附近,这个性质在有些地方是有用的,比如图元检测里的点采样。

    3. 几何采样

    几何采样,在点云曲率越大的地方,采样点个数越多。下面介绍一种简单的几何采样方法,具体方法如下:
    输入是一个点云,目标采样数 S S S,采样均匀性 U U U

    1. 点云曲率计算比较耗时,这里我们采用了一个简单方法,来近似达到曲率的效果:给每个点计算 k k k邻域,然后计算点到邻域点的法线夹角值。曲率越大的地方,这个夹角值就越大;
    2. 设置一个角度阈值,比如5度。点的邻域夹角值大于这个阈值的点,被放入几何特征区域 G G G。这样点云就分成了两部分:几何特征区域 G G G和其他区域;
    3. 均匀采样几何特征区域 G G G和其他区域,采样数分别为 S ∗ ( 1 − U ) S * (1 - U) S(1U) S ∗ U S * U SU

    下图是一个均匀采样和几何采样的比较图,这个采样方法的特点:

    • 几何特征越明显的区域,采样点个数分布越多;
    • 计算效率高;
    • 采样点局部分布是均匀的;
    • 稳定性高:通过几何特征区域的划分,使得采样结果抗躁性更强。

    在这里插入图片描述

    展开全文
  • 为研究各种重采样方法的不同特点,采用比较分析法,在充分分析最邻近内插法、双线性内插法和三次卷积法数学原理的基础上,对3种方法的实现效果以及程序耗时进行了分析.结果表明:采用最合适的影像重采样算法进行几何校正...
  • 水质109项采样方法汇总.doc
  • 基于k-modes聚类的不平衡数据混合采样方法.pdf
  • 基于分类进化的重采样方法
  • 基于密度峰值聚类的自适应欠采样方法.pdf
  • 基于层次聚类的不平衡数据加权过采样方法.pdf
  • SPWM采样方法.doc

    2019-11-25 16:41:52
    电力电子技术中所用到的SPWM采样方法有以下三种 1. 自然采样法 将基准正弦波与一个载波三角波相比较,由两者的交点决定出逆变器开关模式的方法。 2. 对称规则采样法 它由经过采样的正弦波(实质上是阶梯波)与...
  • 多种采样方法

    千次阅读 2022-04-16 21:10:57
    1 采样的作用 采样在机器学习中有着非常重要的应用: 它可以将复杂的分布简化为离散的样本点; 可以用重采样对样本集进行调整以更好地适应后期的模型学习; 可以用于随机模拟以进行复杂模型的近似求解或推理。 ...

    目录

    1 采样的作用

    2 蒙特卡洛

    2.1 逆转换方法

    2.2 接受拒绝方法

    3 重要性采样

    4 Metropolis-Hastings采样

    5 吉布斯采样

    6 自助法

    7 Jackknife (刀切法)


    1 采样的作用

            采样在机器学习中有着非常重要的应用:

    • 它可以将复杂的分布简化为离散的样本点;
    • 可以用重采样对样本集进行调整以更好地适应后期的模型学习;
    • 可以用于随机模拟以进行复杂模型的近似求解或推理。
    • 另外, 采样在数据可视化方面也有很多应用, 可以帮助人们快速、 直观地了解数据的结构和特性。

    采样是从特定的概率分布中抽取对应的样本点。

    采样的作用:

    (1)采样本质上是对随机现象的模拟, 根据给定的概率分布, 来模拟产生一个对应的随机事件。 采样可以让人们对随机事件及其产生过程有更直观的认识。 例如, 通过对二项分布的采样, 可以模拟“抛硬币出现正面还是反面”这个随机事件, 进而模拟产生一个多次抛硬币出现的结果序列, 或者计算多次抛硬币后出现正面的频率。

    (2)另一方面, 采样得到的样本集也可以看作是一种非参数模型即用较少量的样本点(经验分布) 来近似总体分布, 并刻画总体分布中的不确定性。 从这个角度来说, 采样其实也是一种信息降维, 可以起到简化问题的作用。 例如, 在训练机器学习模型时, 一般想要优化的是模型在总体分布上的期望损失(期望风险) , 但总体分布可能包含无穷多个样本点, 要在训练时全部用上几乎是不可能的, 采集和存储样本的代价也非常大。 因此, 一般采用总体分布的一个样本集来作为总体分布的近似, 称之为训练集, 训练模型的时候是最小化模型在训练集上损失函数(经验风险) 。 同理, 在评估模型时, 也是看模型在另外一个样本集(测试集) 上的效果。 这种信息降维的特性, 使得采样在数据可视化方面也有很多应用, 它可以帮助人们快速、 直观地了解总体分布中数据的结构和特性。

    (3)对当前的数据集进行重采样, 可以充分利用已有数据集, 挖掘更多信息, 如自助法和刀切法(Jack knife) , 通过对样本多次重采样来估计统计量的偏差、 方差等。 另外, 利用重采样技术, 可以在保持特定的信息下(目标信息不丢失) ,有意识地改变样本的分布, 以更适应后续的模型训练和学习, 例如利用重采样来处理分类模型的训练样本不均衡问题。

            此外, 很多模型由于结构复杂、 含有隐变量等原因, 导致对应的求解公式比较复杂, 没有显式解析解, 难以进行精确求解或推理。 在这种情况下, 可以利用采样方法进行随机模拟, 从而对这些复杂模型进行近似求解或推理。 这一般会转化为某些函数在特定分布下的积分或期望, 或者是求某些随机变量或参数在给定数据下的后验分布等。 例如, 在隐狄利克雷模型和深度玻尔兹曼机(Deep Boltzmann Machines, DBM) 的求解过程中, 由于含有隐变量, 直接计算比较困难, 此时可以用吉布斯采样对隐变量的分布进行采样。 如果对于贝叶斯模型, 还可以将隐变量和参数变量放在一起, 对它们的联合分布进行采样。 注意, 不同于一些确定性的近似求解方法(如变分贝叶斯方法、 期望传播等) , 基于采样的随机模拟方法是数值型的近似求解方法。

    2 蒙特卡洛

    2.1 逆转换方法

    蒙特卡洛(Monte Carlo, MCMC)方法的原理和应用_哔哩哔哩_bilibili

            概率密度函数PDF 转化为累积分布函数CDF。

           在使用逆转换方法的时候,需要先对目标概率密度函数PDF求积分,得到累计分布函数CDF,再对CDF进行反函数求解,得到从均匀分布到目标分布的转化函数,这样就能实现从简单均匀分布出发,得到满足复杂目标分布的随机值。但之前求积分和反函数的步骤,会很麻烦,因此有了接受拒绝方法。

    2.2 接受拒绝方法

    3 重要性采样

            重要性采样是蒙特卡洛积分的一种采样策略,所以在介绍重要性采样之前我们先来介绍一下蒙特卡洛积分的一些基本内容。

           首先,当我们想要求一个函数   在区间  上的积分  时有可能会面临一个问题,那就是积分曲线难以解析,无法直接求积分。这时候我们可以采用一种估计的方式,即在区间  上进行采样:  ,值为  。 

            如果采样是均匀的,即如下图所示:

     

            那么显然可以得到这样的估计:  ,在这里  可以看作是上面小长方形的底部的“宽”,而  则是竖直的“长”。

    重要性采样

            上述的估计方法随着取样数的增长而越发精确,那么有什么方法能够在一定的抽样数量基础上来增加准确度,减少方差呢?这就需要我们人为地对抽样的分布进行干预,首先我们看下图:

     

            很明显在圆形区域的函数值对积分的贡献比方形区域要大很多,所以我们可以在抽样的时候以更大的概率抽取圆形区域的样本,这样一来就能够提高估计的准确度。假设我们以分布  在原函数上进行采样:

     

             依照这个分布进行采样我们一定程度上可以使得在原函数对积分贡献大的区域获得更多的采样机会。但这时我们不能对  进行简单的求和平均来获得估计值,因为此时采样不是均匀分布的,小矩形的“宽”并不等长,所以我们要对其进行加权,这个权重就是重要性权重。 

            在得到重要性权重之前我们要重新思考一个问题:为什么我们要引入一个新的分布  ? 

            原因就是原函数  也许本身就是定义在一个分布之上的,我们定义这个分布为  ,我们无法直接从  上进行采样,所以另辟蹊径重新找到一个更加简明的分布  ,从它进行取样,希望间接地求出  在分布  下的期望。

            搞清楚了这一点我们可以继续分析了。首先我们知道函数  在概率分布  下的期望为:  ,但是这 个期望的值我们无法直接得到,因此我们需要借助  来进行采样,当我们在  上采样  后可以估计  在分布  下的期望为:  。

             接着我们可以对式子进行改写,即:  ,所以我们可以得到:

             

            这个式子我们可以看作是函数  定义在分布  上的期望,当我们在  上采样  后可以估计  的期望 ,在这里  就是重要性权重。

    4 Metropolis-Hastings采样

     

     

     

     

     

     

    5 吉布斯采样

    不是拒绝采样。

    至少是二维的。

    Monte Carlo-吉布斯采样_哔哩哔哩_bilibili

    ​​​​​​​

     

     

     

    6 自助法

            在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random sampling with replacement)。对于小数据集,自助法效果很好。

            最常用的一种Bootstrap自助法,假设给定的数据集包含d个样本。该数据集有放回地抽样m次,产生m个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集)。 显然每个样本被选中的概率是1/m,因此未被选中的概率就是(1-1/m),这样一个样本在训练集中没出现的概率就是m次都未被选中的概率,即(1-1/m)^m。当m趋于无穷大时,这一概率就将趋近于e^-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。

            例如:人工样本为1,2,3;只有三个样本,则可以从随机变量X,分布为P(X=k)=1/3, k=1,2,3; 这样的经验分布中用计算机根据上述分布自动产生样本,如产生5个样本:1 2 3 2 1;也可以是:3 3 2 1 1

            自助法在数据集较小、难以有效划分训练集测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。

    7 Jackknife (刀切法)

            Jackknife 方法由 Quenouille(1949) 提出,并由 Tukey(1958) 创造了 Jackkife 这一术语。Jackknife 是一种再抽样方法,其原始动机是「降低估计的偏差」。

            Jackknife类似于“Leave one out”的交叉验证方法。令X=(X1,X2,…,Xn)为观测到的样本,定义第i个Jackknife样本为丢掉第i个样本后的剩余样本即

            ​​​​​​​

            具体来看,对于未知分布的总体,从中抽取样本容量为  的样本,以样本统计量  来估计总体参数  会产生一定误差,尤其在小样本的情况下。为解决这样一个问题,可以将从原样本切去第  个个体后计算得到的统计量记为 。一般而言,估计值与实际值之间会相差一个常量 (偏差) 和一个无穷小量:

                           

             将  与  的差定义为切去第  个个体后的虚拟值  (pesudovalues),则有:

                  

            虚拟值的期望值等于总体参数减去一个无穷小量,由此表明它对总体参数的估计相对于  更为精确。因此,可以用虚拟值的均值作为总体参数的一个无偏估计: 

                    

              的方差:

                   

    重要性采样(Importance Sampling) - 知乎

    展开全文
  • 分析了现行对比监测方法在设备运行稳定性、等时采样、废液二次污染等方面存在的主要问题,相应地提出了改进措施。建议按照国家规定的采样方法对检测结果进行去全面分析和同步采集,避免悬浮物对监测结果产生影响。
  • 基于聚类和实例硬度的入侵检测过采样方法.pdf
  • 文章主要介绍了单片机AD采样程序的设计方法
  • 在线游戏用户的流失预测:基于不平衡数据的采样方法比较
  • 摘要: 本文基于对自适应采样时频分布的推导, 提出了一种时频滤波重构自适应采样方法; 从理论上证明了时频滤波重构方法的可行性, 也通过实例验证了该重构方法可实现自适应采样的重构, 并且, 定性分析了时间窗对重构...
  • 为了模拟图像分类任务中待分类目标的可能分布,使特征采样点尽可能集中于目标区域,基于Yang...在PASCAL VOC 2007和2010两个数据集上进行实验,平均精度比随机选取的特征采样方法能够提高约0.5%,验证了算法的有效性。
  • 基于特征相关度分析的不平衡数据混合采样方法,刁新平,高欣,通过采样方式使数据信息平衡是解决数据不平衡问题的一种主要途径。本文基于混合采样的思想,提出了一种基于特征相关度分析的不平
  • 利用均匀采样的原因是该方法简单高效,虽然另一个看起来更好的方法可能是利用负样本的分数进行采样,但作者认为该方法不仅需要更多的空间存储三元组的分数,并且会因为负样本分布变化和假负样本引入更多偏差。...

    笔记整理 | 陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习

    Introduction

    研究知识图谱表示学习(KnowledgeGraph Embedding)可以解决当前很多应用的基本问题,这些方法旨在将知识图谱中的实体(Entity)和关系(Relation)都映射到低维向量空间中,并且捕获实体和关系之间的语义信息。当前很多知识图谱表示学习的方法都着重于设计新的得分函数(Score Function)从而可以捕获实体和关系之间复杂的交互。

    然而在知识图谱表示学习的过程中,一个重要的部分——负采样(Negative Sampling)并没有被足够的重视。在知识图谱中,负样本采样的需求来源于KG中仅包含真实的正样本三元组,而在训练知识图谱表示的过程中,每个正样本需要对应相应的负样本。当前很多方法都使用均匀采样(Uniform Sampling)的方式,然而这样的方式很容易造成训练过程中的梯度消失,也就是很多负样本都是很容易被划分为负样本的简单样例,得分函数很自然的对这一类负样本给出较低的分数,从而导致训练过程中梯度为零。

    所以高质量的负样本应该是得分函数给出较高分数(被误认为是正样本)的负样本,这篇文章探讨了在知识图谱表示学习模型的学习过程中(1)如何捕获并且建模负样本的动态分布,以及(2)如何有效地进行负样本的采样。

    作者发现负样本的分数分布是高度偏斜的(Skewed),也就是说只有少量的负样本的分数较高,其余的分数较低的负样本的对后续的训练几乎无用。这个发现促使作者设计模型来维护这部分高质量的负样本三元组,并且在训练的过程中动态地更新。

    Proposed Model

    图1. 负样本的分数分布举例

    图1(a)中展示了某一个三元组在训练过程中,负样本分布的变化;图1(b)中展示了在训练完成后,不同三元组的负样本分布情况。最终得出的结论是,负样本分数的分布是高度偏斜的,并且只有很少一部分的负样本有较大的分数。是否可以设计一个模型直接监控那些分数较高的负样本。这篇文章提出了NSCaching的方法,该方法只要解决了以下两个问题:

    1、如何建模负样本的动态分布?

    2、如何有效的采样负样本?

    模型设计了一个缓存机制,保存了知识图谱中每个三元组对应的分数较高的负样本三元组,Algorithm2中展示了基于该缓存机制的知识图谱表示学习模型的学习过程。

    具体来说,缓存分为头实体缓存(head-cache)和尾实体缓存(tail-cacahe),其中头实体缓存利用(r, t)进行索引,尾实体缓存利用(h, r)进行索引,他们分别存储的是知识图谱中的头实体和尾实体。在算法中,首先会确定一个正样本,然后得到该正样本在缓存中对应的部分(步骤5),然后会根据相应的缓存构造负样本(步骤6-7),最后更新缓存(步骤8)。

    考虑模型的具体细节,这里如何从缓存中采样负样本(步骤6)以及如何更新缓存(步骤8)呢?

    对于步骤6,作者采用的是从缓存中进行均匀采样。利用均匀采样的原因是该方法简单高效,虽然另一个看起来更好的方法可能是利用负样本的分数进行采样,但作者认为该方法不仅需要更多的空间存储三元组的分数,并且会因为负样本分布变化和假负样本引入更多偏差。

    对于步骤8,这里采用重要性采样(Importance Sampling,IS)。首先从所有的三元组中均匀采样一部分实体,然后把这部分实体和原本缓存的实体放在一起,并计算分数,利用如下公式计算每个负样本三元组的重要性,也就是被采样进入更新后的缓存的概率。

     完整的缓存更新算法如下:

    Experiments

    作者在多个标准数据集上进行了实验,如下图是在利用TransE,在不同标准数据集上,和其他负采样方法对比的结果(更多利用其余KGE的实验结果请参考原文),可以看出这里提出的NSCacheing优于其他的负采样方法。

    图2. 在不同标准数据集上的结果

    更多的,作者还探讨了缓存的更新和采样机制的不同选择带来的不同结果,具体实验结果请参考原文。

    OpenKG

    OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

    点击阅读原文,进入 OpenKG 网站。

    展开全文
  • 《空气和废气监测分析方法》(第四版),废气中汞有高锰酸钾溶液吸收法和玻璃纤维滤膜(滤筒)两种采样方法。溶液吸收法适合气态汞采样,滤膜(滤筒)采样法适合颗粒态汞采样。本文将两种采样方法串联对某石化企业的石油...
  • 针对传统欠采样方法对不平衡数据集重采样时容易丢失多数类样本信息的问题,提出一种基于数据密度分布的欠采样方法US-DD。该方法引入数据密度的概念,并以此概念为依据将数据划分为高密度数据簇和低密度数据簇,高...
  • 采样方法总结

    千次阅读 2020-08-18 09:42:49
    一、采样是什么? 采样,顾名思义就是从特定的概率分布中抽取相应样本点的过程。采样在机器学习中有着非常重要的应用:它可以将复杂的分布简化为离散的样本点;可以用重采样对样本集进行调整以更好地适应后期的模型...
  • 产生带宽为30 GHz的光混沌信号, 利用1.25 GHz低速模数转换器, 成功地对0~10 GHz频带内的5个频率随机、幅度随机的频域稀疏信号进行压缩采样和信号重构, 并对混沌光子压缩采样的重构性能与传统方法做出详细比较。...
  • 几种采样方法

    千次阅读 2020-03-26 17:35:22
    采样的几种方法拒绝采样蒙特卡罗法采样Metropolis-Hastings算法 采样是指通过模拟的方式来采集符合某个分布p(x)p(x)p(x)的一些样本,一般来说,要采集的分布比较复杂。 拒绝采样 拒绝采样,也叫接受-拒绝采样。...
  • 视频采集与处理方法 视频采集与处理方法 视频采集与处理方法
  • 通过对模拟信号压缩采样原理进行研究,深入分析和推导随机解调采样原理及其数学模型,提出了基于压缩感知的直扩信号采集系统构架,并对压缩比取值影响因素进行了分析;给出了随机解调压缩采样系统硬件实现方案,并对其...
  • 采样方法

    万次阅读 多人点赞 2019-04-02 10:02:31
    搜上采样的文章,看到了这篇,虽然现在自己还用不太到,但是觉得挺好的,万一哪天就用着了,所以果断转载啦~这里附上原创...缩小图像(或称为下采样(subsampling)或降采样(downsampling))的主要目的有两个:...
  • 针对宽带频域稀疏信号采样时数据量大、不利于存储和传输问题,结合压缩感知和时间交替采样技术提出一种可压缩的采样方法.基于压缩感知原理提出了由多个并行同步压缩器组成的数据压缩电路,在时间交替采样的基础上,...
  • 一种从采样数据构造概率密度函数的方法 sample to pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 465,419
精华内容 186,167
关键字:

采样方法