精华内容
下载资源
问答
  • 样本分布

    千次阅读 2020-02-28 08:54:09
    样本分布是样本所受随机性影响的最完整的描述. 要决定样本分布, 就要根据观察值的具体指标的性质 (这往往涉及有关的专业知识), 以及对抽样方式和对试验进行的方式的了解, 此外常常还必须加一些人为的假定 EX1: 一...

    样本既然是随机变量, 就有一定的概率分布, 这个概率分布就叫作样本分布. 样本分布是样本所受随机性影响的最完整的描述.
    我们知道样本是由总体中抽取的一部分个体组成.
    要决定样本分布, 就要根据观察值的具体指标的性质 (这往往涉及有关的专业知识), 以及对抽样方式和对试验进行的方式的了解, 此外常常还必须加一些人为的假定
    X = ( X 1 , ⋯   , X n ) X=\left(X_{1}, \cdots, X_{n}\right) X=(X1,,Xn)取可能取值的全体成为样本空间 , 记为 X \mathcal{X} X

    样本的两重性和简单随机样本

    样本的两重性是说, 样本既可看成具体的数, 又可以看成随机变量 (或随机向量). 在完成抽样后,它是具体的数;在实施抽样前,它被看成随机变量. 因为在实施具体抽样之前无法预料抽样的结果, 只能预料它可能取值的范围, 故可把它看成一个随机变量,因此才有概率分布可言。为区别起见, 今后用大写的英文字母表示随机变量或随机向量, 用小写字母表示具体的观察值.对理论工作者, 更重视样本是随机变量这一点, 而对应用工作者虽则将样本看成具体的数字, 但仍不可忽视样本是随机变量 (或随机向量) 这一背景. 否则, 样本就是一堆杂乱无章毫无规律可言的数字,无法进行任何统计处理. 样本既然是随机变量 (或随机向量), 就有分布而言, 这样才存在统计推断问题.简单随机样本:样本具有随机性,独立性
    抽样是指从总体中按一定方式抽取样本的行为. 抽样的目的是通过取得的样本对总体分布中的某些未知因素做出推断, 为了使抽取的样本能很好的反映总体的信息, 必须考虑抽样方法. 最常用的一种抽样方法叫作 “简单随机抽样”, 它要求满足下列两条:
    (1) 代表性. 总体中的每一个体都有同等机会被抽入样本, 这意味着样本中每个个体与所考察的总体具有相同分布. 因此, 任一样本中的个体都具有代表性.
    (2) 独立性. 样本中每一个体取什么值并不影响其它个体取什么值. 这意味着, 样本中各个体 X 1 ,X 2 ,··· ,X n 是相互独立的随机变量
    E X 1 : \mathcal{EX1:} EX1:

    一大批产品共有 N N N 个, 其中废品 M 个, N N N已知, 而 M 未知. 现在从中抽出 n n n 个加以检验, 用以估计 M 或废品率 p = M N p = \frac{M}{N} p=NM
    (1) 有放回抽样, 即每次抽样后记下结果, 然后将其放回去, 再抽第二个, 直到抽完 n n n个为止. 求样本分布.
    (2) 不放回抽样, 即一次抽一个, 依次抽取, 直到抽完 n n n 个为止.求样本分布.


    P ( X i = 1 ) = M / N , P ( X i = 0 ) = ( N − M ) / N P\left(X_{i}=1\right)=M / N, P\left(X_{i}=0\right)=(N-M)/N P(Xi=1)=M/N,P(Xi=0)=(NM)/N

    P ( X 1 = x 1 , ⋯   , X n = x n ) = ( M N ) a ( N − M N ) n − a P\left(X_{1}=x_{1}, \cdots, X_{n}=x_{n}\right)=\left(\frac{M}{N}\right)^{a}\left(\frac{N-M}{N}\right)^{n-a} P(X1=x1,,Xn=xn)=(NM)a(NNM)na

    x 1 , … , x n x_1,\dots,x_n x1,,xn都为0或者1, ∑ i = 1 n x i = a \sum\limits_{i=1}^{n}x_i=a i=1nxi=a(样本随机独立)

    采用不放回抽样,

    ∑ i = 1 n x i = a \sum\limits_{i=1}^{n}x_i=a i=1nxi=a x 1 , … , x n x_1,\dots,x_n x1,,xn都为0或者1

    P ( X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n ) P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right) P(X1=x1,X2=x2,,Xn=xn)
    = M N ⋅ M − 1 N − 1 ⋯ M − a + 1 N − a + 1 ⏟ x i = 1 ⋅ N − M N − a ⋯ N − M − n + a + 1 N − n + 1 ⏟ x i = 0 =\underbrace{\frac{M}{N} \cdot \frac{M-1}{N-1} \cdots \frac{M-a+1}{N-a+1} }_{x_i=1}\cdot \underbrace{\frac{N-M}{N-a} \cdots \frac{N-M-n+a+1}{N-n+1}}_{x_i=0} =xi=1 NMN1M1Na+1Ma+1xi=0 NaNMNn+1NMn+a+1(随机不独立)


    E X 2 : \mathcal{EX2:} EX2:

    为估计一物件的重量 a, 用一架天平将它重复称 n 次, 结果记为 X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn , 求样本 X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn 的联合分布.


    (1) 假定各次称重是独立进行的, 即某次称重结果不受其它次称重结果的影响. 这样 X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn就可以认为是相互独立的随机变量.
    (2) 假定各次称重是在 “相同条件” 下进行的, 可理解为每次用同一天平, 每次称重由同一人操作, 且周围环境 (如温度、湿度等)都相同. 在这个假定下, 可认为 X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn 是同分布的. 在上述两个假定下, X 1 , ⋯   , X n X_{1}, \cdots, X_{n} X1,,Xn 是 n 个独立同分布的随机变量, 即为简单随机样本.

    由概率论中的中心极限定理可知这种误差近似服从正态分布. 再假定天平没有系统误差, 则可进一步假定此误差为均值为 0 的正态分布. 可以把X 1 (它可视为物重 a 加上称量误差之和) 的概率分布为 N ( a , σ 2 ) N\left(a, \sigma^{2}\right) N(a,σ2)

    f ( x 1 , ⋯   , x n ) = ( 2 π σ ) − n exp ⁡ { − 1 2 σ 2 ∑ i = 1 n ( x i − a ) 2 } f\left(x_{1}, \cdots, x_{n}\right)=(\sqrt{2 \pi} \sigma)^{-n} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-a\right)^{2}\right\} f(x1,,xn)=(2π σ)nexp{2σ21i=1n(xia)2}


    正态总体样本均值和样本方差的分布

    设随机变量 X 1 , ⋯   , X n i . i . d . ∼ N ( a , σ 2 ) , c 1 , c 2 , ⋯   , c n X_{1}, \cdots, X_{n} i.i.d. \sim N\left(a, \sigma^{2}\right), \quad c_{1}, c_{2}, \cdots, c_{n} X1,,Xni.i.d.N(a,σ2),c1,c2,,cn为常数

    T = ∑ k = 1 n c k X k ∼ N ( a ∑ k = 1 n c k , σ 2 ∑ k = 1 n c k 2 ) T=\sum\limits_{k=1}^{n} c_{k} X_{k} \sim N\left(a \sum_{k=1}^{n} c_{k}, \sigma^{2} \sum_{k=1}^{n} c_{k}^{2}\right) T=k=1nckXkN(ak=1nck,σ2k=1nck2)


    c 1 = ⋯ = c n = 1 / n , T = 1 n ∑ i = 1 n X i = X ˉ c_{1}=\cdots=c_{n}=1 / n,T=\frac{1}{n} \sum_{i=1}^{n} X_{i}=\bar{X} c1==cn=1/n,T=n1i=1nXi=Xˉ

    X ˉ ∼ N ( a , σ 2 / n ) \bar{X} \sim N\left(a, \sigma^{2} / n\right) XˉN(a,σ2/n)


    展开全文
  • 本文选择有代表性的33个资源型城市2006-2011年的面板数据为样本,以生态效率反映可持续发展状况,在借助因子分析等方法测算资源效率、环境效率进而计算生态效率的基础上,建立面板数据模型,通过实证检验经济发展...
  • 人脸识别的影响因素

    千次阅读 2019-01-23 21:38:15
    影响算法性能的因素: 1.训练集: 一般训练集类别数越多,图像数量越多,训练效果越好。此外训练集的收集和标注质量,不同类别的样本数量是否均衡,都对训练有影响。 2.CNN: 一般CNN的容量越大,训练效果越好。CNN...
    摘录:https://zhuanlan.zhihu.com/p/34436551

    影响算法性能的因素:

    1.训练集: 一般训练集类别数越多,图像数量越多,训练效果越好。此外训练集的收集和标注质量,不同类别的样本数量是否均衡,都对训练有影响。
    2.CNN: 一般CNN的容量越大,训练效果越好。CNN的模型容量参考ImageNet上的分类性能,与参数数量和运行速度并不是正比关系。
    3.LOSS: 这部分才是前面介绍的loss相关影响,特别注意,对比某个loss的性能提升,要综合考虑训练集和CNN,不能简单的看LFW上的识别率。

    最常用的两个人脸识别测试库,和以上推荐算法的性能比较,结果来自论文:
    LFW:,使用最多的必跑测试库,从2015年FaceNet的99.63%开始就接近饱和了,目前所有算法都在99%以上,比较意义不大。特别举两个用Softmax loss训练的例子:COCO中half MS-1M训练Inception ResNet是99.75%,ArcFace中MS1M训练ResNet100是99.7%。
    MegaFace:,目前最大也最具挑战性的测试集,但由于这个数据集质量较差,非常容易作弊,建议以有开源代码的算法,自行训练的结果为准。
    在这里插入图片描述
    注: 上表中AM-Softmax和InsightFace都做了更细致的训练集重叠清洗,最后一行代表InsightFace对测试集也做了清洗的结果。

    展开全文
  • 样本学习

    千次阅读 2019-06-20 21:58:36
    最近实验室再研究有关于小样本学习的论文,搜集了大量的文献整理了这一块。不自然感觉快成神仙了,玄学真是有意思 下面总结总结有关的 主题的专题 深度学习 识别 ...场景和代表性, 语言与推...

    最近实验室再研究有关于小样本学习的论文,搜集了大量的文献整理了这一块。不自然感觉快成神仙了,玄学真是有意思

    下面总结总结有关的

     

    主题的专题

    深度学习

    识别

    赛格、分组、形状

    统计,物理,理论,和数据集

    3D多视图

    三维单视图& RGBD

    人脸&身体

    行动和视频

    运动和生物识别技术

    合成

    摄影与制图

    低级&优化,

    场景和代表性,

    语言与推理

    应用程序、医疗机器人技术

    还是蛮多的这些可以研究的专题

    好像前几天,深度学习还被批了,人工智能被批不环保,训练一个神经网络的排炭量竟比5辆车还多,有兴趣可以搜搜

    其实这必然会影响到学界对深度学习人工智能的变革,改变之前大数据好效果的模型训练方式,关注用少量的数据来达到较好的任务表现,

    从几篇论文中得出一些总结

    分类任务上的少样本学习

    图网络(Graph Neural Network, GNN)由于节点与节点之间具有相关性可以实现更丰富的信息传递,在近期来涉及到的推理问题(Reasoning)或者是视觉问答(Visual Question Answering)等任务上都有不少的尝试,而少样本学习(few-shot learning)的难点通常是在于可用样本有限,所以样本之间潜在的关联性在学习过程中就变得非常重要了,通用的前传网络很难捕捉到样本之间丰富的关联信息,图网络正好可以弥补这一点:图网络在节点之间构建的丰富的连接,使得其能够利用节点之间的信息传递机制得到邻节点的信息并且进行聚合,通过一定复杂程度的图网络,就能够表达数据个体之间丰富的关联互动特征。

    常见的图网络关注于节点的表示与特征嵌入,为了更充分的利用节点的关联信息,

    边标记图网络(Edge-Labeling Graph Neural Network,EGNN),类比于关注节点信息的 GNN,EGNN 通过迭代更新连接边的信息直接可以反映节点之间的类内相似度(intra-cluster similarity)与类间差异度(inter-cluster dissimilarity)从而获取正确的类别分配结果。另一方面,EGNN 在无需 re-train 的情况下能很好地适应不同数目的类别,并且很容易扩展到转换式推理(Transductive Inference)上面,同时在现有的 GNN 方法中,EGNN 在分类任务上实现了大幅的性能提升。

    在完整观察 EGNN 结构之前,我们先理解 EGNN 里的节点与对应的连接边信息的基本更新方式:

     

    在图中首先更新节点特征,之后再更新节点之间连接边的特征,因为一组节点的特征有变化,进而也会影响到连接边上的特征,以及衡量节点之间的类内相似度(intra-cluster similarity)与类间差异度(inter-cluster dissimilarity)的参数也会对应得到更新,在边和点的特征都得到更新之后,计算边损失(Edge Loss),用 episodic training 的训练策略来更新 EGNN 的权重。

    接下来我们会从少样本分类学习的问题定义入手,结合一个二分类的例子来阐述 EGNN 的各个模块与更新算法规则,帮助我们理解 EGNN,最后顺延扩展到论文实验中真正部署的多分类任务。少样本分类顾名思义就是通过每个类别极少或较少的训练样本来学习泛化而且鲁棒的分类器能够保持较高的准确度并且具有扩展性从而识别新的类别。由此,每个分类的任务 T(Task)都包含一个支持集 S(Support Set)与查询集 Q(Query Set),支持集是一个已包含标签的数据集,查询集则是未经标记的数据集,也正是学好的分类器进行验证的一个数据集。如果支持集 S 包含 N 个类,每个类别对应有 K 个标记数据,那么我们称此类问题为 N 路 K 样本分类问题(N-way K-shot classification problem),现在我们假设手上有两个类别的数据,支持集 S 中每个类别有两个样本,查询集 Q 有一个未标记样本(类似测试样本,我们已知标签,但是对于网络并不透露它)我们将这个问题归为 2 类 2 样本问题,参考下图 EGNN 框架图,我们一个模块一个模块来理解推导:

    原始的两类五个样本数据都是图像,所以首先 a)我们将图像输入到卷积神经网络(Convolutional Neural Networks)中提取特征,得到数据样本的特征表示,之后根据已有特征建立邻接边并初始化,形成一张全连接图(fully-connected graph),每一条边都指代着它连接的两个节点的关系类型。图的构造用数学形式表示为 G=(V,E;T),对于每一个任务 T,一个图对应着一个节点集合 V,一个边集合 E。对于支持集的边标签我们采用节点的标签进行表示如下:

    至于边的特征 e 我们一个数值范围在 [0,1] 区间内的二维向量来分别表示该条边连接的两个节点类内相似度(intra-cluster similarity)与类间差异度(inter-cluster dissimilarity),图网络同样也是多层网络,每层均可以按照类似的规则进行初始化。

    b)图初始化完成之后,我们就根据之前提到过的信息更新流程,首先更新节点特征:

    之后就是根据变换后的节点信息来更新边的特征:

    c)在数次的节点、连接边特征迭代更新之后,我们可以从最近更新的边特征上得到最终的节点类别预测,用非常直接的加权投票(weighted voting)方法,结合支持集 S 里的样本标签以及它们与查询样本连接边的预测值,我们就可以很容易的推出待查询样本的所属类别,节点的预测概率可以表达为:

    同样地,EGNN 的推理过程算法正如上述各个模块流程所述,详细的网络模块图与算法流程图如下:

     

    利用了图结构学习节点关联的特性

     

    数学中集合运算的基本概念:集合的并(Union),交(Intersection),补(Complement)三大运算对于我们都不陌生。但是今天这篇论文提出,小样本学习(few-shot learning)情况下的图像多标签分类(multi-label classification)也能够实现类似集合一样的交,并,补操作。

    对于小样本学习来说,核心难点经常是可用训练样本数目不足,解决的方法也多是寻求各种形式的样本合成(Example Synthesis),当然样本合成基本都是针对于单标签的普通分类情况,LaSO(Label Set Operation networks)在此基础上,提出了一个应用于多标签小样本分类场景下的样本合成方法,将一组图片输入到 LaSO 网络里,获取两张图片各自的特征,并将他们结合起来,学习在特征空间上的并集特征(union feature),交集特征(intersection feature)以及补集特征(compelemt feature)表示,这三个学习到的特征也会对应我们在多分类上的语义标签的并,交,补操作。

    举例子来说明:我们希望训练一个野外各种类动物的分类器,然而目前我们手上仅有的却都是少量的关在笼子里的动物样本图片,笼中动物显然无法很好地泛化和学习到野外动物的特征表示,所以在 LaSO 提出的场景下,我们先将一张笼中公鸡与一张笼中兔的图片配位一对输入到网络中,让 LaSO 不只是学习到兔和公鸡的特征,同时还有我们完全没有涉及的笼子的特征,而笼子的特征恰好是两张输入图片的交集(intersection),我们取出这样的交集特征,同时再次输入一只笼中老虎的照片获得笼中虎特征,此时对笼中虎特征求它与笼子特征的补集(complement),我们从一定程度上就获得了「无笼子」的野生老虎的特征了,示意图如下:

     

    接下来我们一起看看 LaSO 的整个模型结构:

     

    LaSO 模型接受一对图片 X,Y 为输入,分别进入骨干网络 B(文章采用 InceptionV3 以及 Resnet 作为特征提取网络)进行特征提取得到特征 Fx,Fy。在对两张图片的特征进行连接之后,根据我们希望学到的图像中个体类别的交,并,补,所以连接好的特征分别进入 LaSO 的交、并、补网络模块 Mint,Muni,Msub 中学习合成对应的特征 Zint,Zuni,Zsub,特征 Z 可以认为是对应着一张假设的图像 I,这张图像 I 中的个体类别恰好对应着输入 X,Y 的标签的并/交/补,举例说明 Zint 可以看做假设图 I 的提取特征,而图 I 的标签 L(I)正是输入 X 与 Y 的标签交集。

    在这之后结合我们已经渠道的所有特征,训练一个分类器 C 并使用交叉熵损失函数(Binary Cross-Entropy Loss, BCE)来学习这个多标签分类的问题,同时之前学习合成特征 Z 的三个 LaSO 模块也采用一样的损失函数进行参数更新,具体表达式如下:

    交叉熵损失函数:

    分类器 C 损失函数:

    LaSO 模块损失函数:

    除此之外考虑到操作对称因素以及模型稳定因素,基于重构的均方误差(Mean Square Error,MSE)也作为另一部分的损失加载到模型的最后:

    对称损失:

    模型稳定损失:

    在实验过程部分,论文主要采用了 MS-COCO 2014 与 celebA 的数据集来进行实验和对比分析,将 COCO 数据集的 80 的物体类别随机分成 64 个已知类别与 16 个未知类别,并且使用平均精度(mean Average Precision,mAP)来衡量 LaSO 模块的学习能力,结果具体如下:

    综合看来,这篇 LaSO 论文选题的角度非常有创新性,少量样本来学习多标签分类,并且使用集合中并、补、交的数学概念来操作图像标签,进行样本增广,反过来又辅助了少样本学习情况下样本缺乏的问题,提出的网络架构也非常直观易懂,虽然目前看来分类效果还有待提升,同时网络的训练目前也还是分批来进行,扩展的实验也没有那么丰富,但是它提出的新颖角度和方法,也仍然是值得关注的,相信之后也会有更多的思考和新的工作会更新,根据原文,LaSO 的代码也即将在近期公布供读者参考验证。

    检测任务上的少样本学习

    3.RepMet: Representative-based metric learning for classification and few-shot object detection (detection)

    paper: https://arxiv.org/abs/1806.04728深度度量学习(Deep Metric Learning,DML)顾名思义,通过衡量映射在某一空间上的样本之间的距离,来学习样本的相似度与区分度。比如在分类任务学习中,不同类别的图像样本通过神经网络抽取特征得到一个个表征之后,通过欧式距离衡量样本表征之间的相隔远近,从而推导出样本所属的类别。在这样的朴素衡量思想下,少样本分类学习即可以非常容易的继承这样的算法思路:采用一个合适的嵌入空间(embedding space)来表征样本,再套入合适的距离度量损失来衡量新入样本与各个未知类别之间的距离大小,从而得到待测样本的应属类别。

    在深度度量学习的大框架启发下,本篇论文提出了一个新式的深度度量学习方法来同时应用到分类以及检测任务上:该方法以一种端到端的(end-to-end)训练过程同时学习骨干网络参数,嵌入空间,以及每一个物体类别的多模态分布(multi-modal distribution)。之后论文在几个任务和数据及上都做了实验和对比,证明这个新的深度度量学习方法在少样本的目标检测上面的有效性 并在 ImageNet-LOC 数据集上取得了目前为止最好的成绩。

    接下来让我们大致看一下 RepMet 方法的思路:类似 Faster-RCNN 一类的常用检测方法,通常是一个提取 ROI(Region of Interest)的网络 RPN(Region Proposal Network),再加上一个分类提取出来的 ROI 的分类器头(cleassifier head),整体构成整个检测模型,论文依托于这个大的结构不变,将模型中的分类器头用一个子网络(subnet)进行了替换:将 ROI 通过池化后提取的嵌入特征向量作为子网络输入,子网络通过提出的深度度量学习新方法,对比嵌入特征向量(embedding features)到每一个类别的表征向量(representatives)之间的距离,学习并计算每个 ROI 的所属类别后验概率(posteriors)。所以在少样本检测的系列实验中,我们将新类别提供的少量训练样本送入骨干网络提取得到前景 ROI 并计算出它们的嵌入特征向量,用这部分嵌入特征向量替代之前从已知类别里学到的表征向量(representatives),从而得到新类别的表征,再计算后验概率。训练和测试阶段的大致流程可以参考如下的流程图:

    在对 RepMet 的设计思路有了大致了解之后,我们来看这整个模块的网络架构:

    首先图像输入骨干网络并通过池化得到输入 RepMet 子网络模块的输入特征向量,输入特征进入到几个全连接层构成的 DML 嵌入模块得到对应的嵌入特征向量 E,之后便是距离衡量的模块,计算出嵌入特征 E 与多个类别的表征向量的距离,此距离也在之后用来计算所给出图像的后验概率,公式如下:

    除了计算类别后验概率,论文同样计算了开放的背景类别后验概率:

    至于损失,类别损失论文就采用了基础的交叉熵损失,另一部分则是 margin 损失,保持嵌入向量 E 与表征向量之间至少有一定的距离,公式如下:

    根据论文所提出的子网络以及其对应的损失函数设计,可以使得其能同时训练一个深度度量学习的嵌入表达网络与一个计算类别后验概率的多模态混合分布模型,二者加在一起就组成了替代传统检测器的分类器头(classifier head)的模块,于是同样可以组合到特征提取的骨干网络中,进行端到端的训练过程。

    实验首先将 RepMet 整个模块作为分类器的性能在多个数据集上与其余 SOTA 方法做了对比,取得了一定的精度提升:

    另一方面,在少样本的检测任务上,RepMet 与现有的唯一一个 LSTD 方法做了对比,取得了当前最好的少样本检测精度:

    这篇论文综合看来关注了比较新颖的少样本检测问题,提出的方法简单直接,并且也取得了不错的效果,对于少样本检测任务是一个非常有趣的开端,遗憾的是文章提出的方法更侧重的还是在提取到 ROI 之后的分类器上做变动和改进,我们期待朝后会有更多的工作陆续出来并且能够对整个分类器的改进提出新思路,同时据论文内容,代码也将在不久之后公开供读者参考借鉴。

    4. Few Shot Adaptive Faster R-CNN(detection)

    paper: https://arxiv.org/abs/1903.09372在实际生活中人眼可以非常轻易地在不一样的新场景下识别出类似的场景或者物体,比如晴天状况下的街道和雨天状况下同一条街道,正午的故宫和傍晚的故宫,又或者是崭新的一台越野车以及车身附着泥浆的越野车。

    作为人类不会因为气候,光照,或者物体细小的外观变化导致最后无法识别该物体,但是神经网络就会,对于局域的场景变换(domain shift)比较敏感的检测器会因为如上的一些原因造成检测器大幅度性能下降,为了解决此类问题,现有的大部分解决方法均基于无监督的区域适应(unsupervised domain adaptation, UDA),此类方法通常要求大量的目标域数据,相对也需要较长的适应时间,目前适用的领域也大都集中于分类问题,对于检测或者更复杂的视觉问题,应用起来效果并不理想。

    本篇论文着眼于以上问题,探索了仅仅依靠少量目标域标记数据来训练一个检测器完成区域适应的可能性,提出了名为 FAFRCNN(few-shot adaptive Faster R-CNN)的网络结构,这个新的框架由图像(image)与实例个体(instance)两层级的的适应模块组成,并搭配一个特征配对机制,与一个强力的正则化,配对机制的引入,使得图像层级的模块能够均衡地抽取并对齐成对的多粒度特征(multi-grain patch features),最终更好的捕捉全局的域变换(global domain shift),例如说光照,而在个体对象层级上,语义上成对匹配的个体特征能够更好地提供不同物体类别之间的区分度,消除不确定性。另一边,强化的正则引入,它能够使得适应过程训练更加稳定并且避免过度适应(over-adaption)问题的发生。

    在宏观地了解了 FAFRCNN 的设计思想和初衷之后,我们来进一步地看看整个框架的网络结构:

    假设我们有非常充裕的原场景区域数据(source domain data)用于训练,表示为(Xs,Ys),同时还有一个非常小的目标域数据集(target domain data),表示为(Xt,Yt),其中 Xs 与 Xt 各自代表着对应数据集的输入图片,Ys 指代着完整的 bounding box 标记。使用 f 指代特征抽取器,那么输入网络后得到的特征就表示为 f(x),受之前图到图转化(image-to-image translation)的启发,文章提出使用分离池化(split pooling, SP),以不同的高宽比和缩放尺度设置窗口,均匀地从各个位置提取局部特征块。

    如上述网络结构左上角所示的那样,设置不同缩放比、宽高比之下的网格窗口(grid window)宽高分别为 w, h,最终得到 9 对 w,h 的组合,对于每一对宽高来说,网格中生成的无边界矩形(non-border rectangles)在通过池化之后都会变成固定大小的特征向量,池化使得不同大小的网格都能最终统一地兼容在一个区域分类器(domain classifier)上,在特征经过不同缩放尺度的池化之后,我们得到三个池化向量 SPl(f(X)),SPm(f(X)),SPs(f(X)), 正是这些局部块的特征最终可以影响图像层级的域变换,例如光照,天气状况等。之后根据得到的特征,我们建立了对抗网络来学习区域的变换,对抗网络中的判别器尝试分清原场景域数据与目标域数据,与此同时特征生成器尝试生成真假难辨的特征来迷惑判别器。以小尺度缩放的判别器举例来说,函数的最终目的就是最小化如下的损失:

    对于其他尺度的函数公式也是同样的,所以最终图像层级 (image-level) 的域变换判别器,想要达到的目的就是最小化三者的和:

    对于个体层级(instance-level)的域变换来说,也是类似的情况,判别器尝试最小化

    在此同时生成器尝试最小化:

    最终在四个数据集上的场景下,FAFRCNN 都取得了目前最好的成绩:

    综合看来,文章提出的域适应问题是非常有实际应用价值的,在之前一些工作的基础上,FAFRCNN 提出了用少样本学习来完成检测器中的域适应过程,并与 Faster-RCNN 进行融合,实验结果也非常具有说服力,值得一提的是网络结构为了学习域变化,整体用了三个对抗网络训练,在应用中是否能够如 Faster-RCNN 一样的高效呢?在速度和准确性的 trade-off 之间表现如何,目前还没有文章作者会放出代码的更新,我们可以期待之后是否有相应地更新以及应用于其他数据集上的更新。

    其他任务的少样本学习

    1.Deep Tree Learning for Zero-shot Face Anti-Spoofing

    paper: https://arxiv.org/abs/1904.02860本文针对人脸识别过程中反欺诈(face Anti-Proofing) 的问题,提出了一个深度树网络(Deep Tree Network)来进行零样本的人脸反欺诈(Zero-Shot Face Anti-Proofing, ZSFA)工作,在之前的工作中仅能零样本识别 1-2 类别的识别欺诈攻击,本篇工作提供了更加深入的探索将可探测到的欺诈类别扩展到了 13 类,同时引入了首个人脸反欺诈的数据库,涵盖了多个类别的欺诈攻击,并证明了本身提出的论文达到了目前为止最好的性能。

    2.Few-Shot Learning with Localization in Realistic Settings

    paper: https://arxiv.org/abs/1904.08502传统的识别方法通常要求体量大而且类别均衡的训练数据,同时少样本学习的时候要求在认为造成的小规模数据集上进行测试,然而现实世界中我们遇到的识别类问题却恰恰是显示了一种类别分布的重尾效应(heavy-tailed class distribution)。在这篇文章中证明了之前在人为设计数据及上学习到的少样本学习方法在此类分布模式的数据上并不起作用,根据已有的 meta-iNat benchmark 结果,文章提出了新的 parameter-free 思考与三个训练提升方式,最终在该 benchmark 上达到了非常好的提升效果。

    3.Doodle to Search: Practical Zero-Shot Sketch-based Image Retrieval

    paper: https://arxiv.org/abs/1904.03451这篇论文主要关注的内容是基于草图的零样本图像检索(zero-shot sketch-based image retrival, ZSSBIR):当人们画出一个大致轮廓的草图作为检索请求,算法能够准确地检索到之前未见过类别中的图片,在前作基础上,文章提出了新的策略将草图与实际图像建模合并到同一个嵌入特征空间,同时外来的语义知识也被加入进来作为语义迁移的助力,并且成功在该任务上取得了不错的效果

    4.Zero-Shot Task Transfer

    paper: https://arxiv.org/abs/1903.01092这篇文章理论性相对稍强,它提出一种名为 TTNet 的新型元学习算法,TTNet 可以做到没有任何标签的情况下对面临的新任务,回归出其该有的参数,也即是零样本的任务学习。文章在 Taskonomy 数据集上针对四个任务:曲面法线,空间布局,深度,以及相机姿态估计做了如上所述的零样本任务学习,而提出的方法 TTNet 超越了目前所有的 SOTA 模型,另一点值得提出的是,这篇论文也是首次尝试将零样本学习应用在任务转化中的一篇作品。

    CVPR 其他少样本学习/无监督学习论文列表

    注:加粗文章为 oral 文章, 未加粗文章是 poster

    1.Generating Classification Weights with Graph Neural Networks for Few-Shot Learning(Oral)

    2.Gradient Matching Generative Networks for Zero-Shot Learning(Oral)

    paper:http://openaccess.thecvf.com/content_CVPR_2019/html/Huang_Generative_Dual_Adversarial_Network_for_Generalized_Zero-Shot_Learning_CVPR_2019_paper.html3.Learning Inter-pixel Relations for Weakly Supervised Instance Segmentation(Oral)

    paper:https://arxiv.org/abs/1904.050444.Unsupervised Person Image Generation with Semantic Parsing Transformation

    paper:https://arxiv.org/abs/1904.033795.Rethinking Knowledge Graph Propagation for Zero-Shot Learning(Oral)

    paper:https://arxiv.org/abs/1805.117246.Meta-Transfer Learning for Few-Shot Learning(Poster)

    paper:https://arxiv.org/abs/1812.023917.Generative Dual Adversarial Network for Generalized Zero-shot Learning(Poster)

    paper:https://arxiv.org/abs/1811.048578.Hierarchical Disentanglement of Discriminative Latent Features for Zero-shot Learning(Poster)

    paper:https://arxiv.org/abs/1803.067319.Marginalized Latent Semantic Encoder for Zero-Shot Learning(Poster)

    10.Spot and Learn: A Maximum-Entropy Image Patch Sampler for Few-Shot Classification(Poster)

    11.Large-Scale Few-Shot Learning: Knowledge Transfer with Class Hierarchy(Poster)

    12.Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders(Poster)

    paper:https://arxiv.org/abs/1812.0178413.Dense Classification and Implanting for Few-shot Learning(Poster)

    paper:https://arxiv.org/abs/1903.0505014.On zero-shot recognition of generic objects(Poster)

    paper:https://arxiv.org/abs/1904.0495715.out-of-distribution detection for generalized zero-shot action recognition(Poster)

    paper:https://arxiv.org/abs/1904.08703

     

     

     

    展开全文
  • 样本量和测序深度的Alpha多样稀释曲线本节作者:刘永鑫,文涛版本1.0.1,更新日期:2020年6月22日本项目永久地址:https://github.com/YongxinLiu/...

    样本量和测序深度的Alpha多样性稀释曲线

    本节作者:刘永鑫,文涛

    版本1.0.1,更新日期:2020年6月22日

    本项目永久地址:https://github.com/YongxinLiu/MicrobiomeStatPlot ,本节目录 212RareCurve,包含R markdown(*.Rmd)、Word(*.docx)文档、测试数据和结果图表,欢迎广大同行帮忙审核校对、并提修改意见。提交反馈的三种方式:1. 公众号文章下方留言;2. 下载Word文档使用审阅模式修改和批注后,发送至微信(meta-genomics)或邮件(metagenome@126.com);3. 在Github中的Rmd文档直接修改并提交Issue。审稿人请在创作者登记表 https://www.kdocs.cn/l/c7CGfv9Xc 中记录个人信息、时间和贡献,以免专著发表时遗漏。

    基本概念

    稀释曲线(Rarefaction Curve,也称稀疏曲线):一般在微生物组研究中用于评估测序量或样本量的饱和情况。

    本方法主要用于检测测序量是否充足时。这里用到的方法是逐步扩大随机抽样的测序深度,如果样本测序深度增大但曲线不再有明显升高(准确来讲,曲线斜率平滑,变化较小)时,则认为测序量已充足,再增加测序量,样本的alpha多样性指标也不会有明显的变化,即样本alpha多样性指标达到稳定。

    本方法也常用于评估样本量是否足够,是从样本中随机抽取一定数量的个体,统计出这些个体所代表物种数目,并以个体数与物种数来构建曲线。它可以用来比较测序不同数量样本的物种丰富度,也可以用来说明样本量大小是否合理。评估样本量是否足够,通常分析采用对原始样本进行随机抽样的方法,以抽到的样本与它们所有特征(如OTU)的数目构建稀释曲线。在样本稀释曲线图中,当曲线趋向平坦时,说明取样量充足且合理,更多的取样只会产生少量新的特征,反之则表明继续取样还可能产生较多新的特征,有必要进一步增加取样量。因此,通过绘制稀释性曲线,可以得出样品的取样量是否充足的结论。 

    但是就目前扩增子测序深度而言,其实稀释曲线的判断样本测序量是否足够的问题已经不是非常重的科学问题,目前在样本量是否充足和宏基因组测序基因集是否饱和方面越来越广泛的应用。alpha多样性的计算目前只能通过抽平来计算。但是一次抽平有概率 (小概率)在一定程度上评估错误的alpha多样性结果。所以现在有一些研究者通过多次抽平计算alpha多样性,并通过求取均值的方式来叫矫正alpha多样性。稀释曲线是对单个alpha多样性结果的补充,可以从不同梯度全面地分析和展示结果。因此,基于不 深度或样本量水平上展示了alpha多样性,更加有利于对微生物群体多样性的综合评估。

    文献解读

    稀释曲线多用于测序量和样本量是否饱和的评估,在高通量测序初期(5前的文章)中应用较多,目前文章结果种类越来越多样,而且更多注重结果的新发现而不是评估,在扩增子文章中使用频率逐渐下降,但在宏基因组的文章中使用频率较来越多。

    例1. 各组中各样本的多样性随测序深度变化

    本文是在Microbiome杂志上发表的杨树各部分微生物组的16S测序描述文章(Beckers et al., 2017),图1采用稀释曲线描述各样本的测序深度与多样性的变化。这篇文章分析思想比较和内容都非常简单,文章发表3年引用过百次,详见 - 《Microbiome: 简单套路发高分文章—杨树微生物组》

    注:关于Microbiome的图片格式和质量说明。Microbiome杂志的文章图片都是位图,不仅图片有时会字看不清,而且无法被搜索引擎检索。此图在文章主页中插入的图片质量非常差,是仅有37.5 KB的webp格式,点击查看原图(Full size )图片仍为webp,且仅为48.1 KB,图中文字比较模糊。再使用Adobe Reader打开PDF,复制到Word中,再另存为jpg/png,图片更清楚,分别为200/500 KB。

    图1. 每种取样部位(Compartment)中每株杨树测序数据绘制绘制Good的覆盖率估算值稀释曲线。A 根际土、B 根、C 茎、D 叶。展示测序的饱合情况,同时展示不同生态位的差异(Y轴坐标不同,即Alpha多样性差别很大),还有每颗树间也有较大的差别(图中的每条线代表来自一棵树的样品)

    Average Good’s coverage estimates (%) and rarefaction curves of individual poplar trees per plant compartment (a rhizosphere soil, b root, c stem, d leaf). Good’s coverage estimates represent averages of 15 independent, clonally replicated poplar trees (rhizosphere soil and root samples) and 11 replicates (stem and leaf samples) (± standard deviation) and were calculated in mothur based on 10,000 iterations. Lowercase letters represent statistical differences at the 95% confidence interval (P < 0.05). Rarefaction curves were assembled showing the number of OTUs, defined at the 97% sequence similarity cut-off in mothur, relative to the number of total sequences.

    结果:为了构建alpha稀释曲线(图1),我们从数据集中删除了单体(只有一个序列的OTU),因为这些单体可能是由于测序错误造成的。为每个单独的样品构建了稀释曲线,显示了观察到的OTU的数量,相对于已鉴定的细菌rRNA序列的总数(图1),该数量定义为以Mohur表示的97%序列相似性阈值下的序列数量。正如预期的那样,内生细菌群落(图1b–d)的多样性远低于根际群落(图1a)。此外,与根际样品相比,内生样品的稀释曲线形状变化程度更高。评估每个样品的OTU丰富度的稀释曲线通常接近饱和度。大多数根内生样品的饱和度约为250–300 OTUs,而对于茎和叶样品只有50–150 OTUs左右。

    To construct alpha rarefaction curves (Fig. 1), we removed singletons (OTUs with only one sequence) from the dataset since these singletons could be due to sequencing artefacts. Rarefaction curves were constructed for each individual sample showing the number of observed OTUs, defined at a 97% sequence similarity cut-off in mothur, relative to the number of total identified bacterial rRNA sequences (Fig. 1). As expected, endophytic bacterial communities (Fig. 1b–d) were much less diverse than rhizospheric communities (Fig. 1a). Furthermore, the endophytic samples exhibited a higher degree of variation in the shape of their rarefaction curves as compared to the rhizospheric samples. Rarefaction curves evaluating the OTU richness per sample generally approached saturation. The majority of the root endophytic samples saturated around 250–300 OTUs and around 50–150 OTUs for the stem and leaf samples.

    讨论:当比较根际土和根内样品时,我们观察到OTU稀释曲线的形状明显不同(图1)。根际土样品显示均匀的稀释曲线(图1a),而内生样品的稀释曲线形状的变化要大得多,尤其是茎和叶样品(图1b-d)。如稀释曲线所示,内生OTU丰富度的高变异性可能是由杨树的根和植物地上部的散发和非均匀定植引起。Gottel等人将这种变异的一部分归因于无法对细菌内生菌群落进行足够深而均匀的测序,这是由于宿主16S rRNA基因(本研究检测到67,000个叶绿体和65,000个线粒体序列)的高度共扩增引起。但是,我们的数据显示出大致相同的模式,没有对非目标DNA进行共扩增,并且Good的覆盖率估算值很高(图1)。因此,我们的数据表明内生菌落的大量变化是稀释曲线高度变化的主要原因。根际定植主要是由以下因素驱动的:(a)植物(根际沉积)沉积大量碳(例如,根系分泌物,根冠粘液等),以及(b)相对简单或不完善的化学作用-将细菌(和其他微生物)吸引到根系分泌物中。

    We observed remarkably dissimilar shapes of the OTU rarefaction curves when comparing rhizosphere soil  and endosphere samples (Fig. 1). Rhizosphere soil samples displayed uniform rarefaction curves (Fig. 1a) whereas the variation in the shape of the rarefaction curves from the endophytic samples was much higher, especially for the stem and leaf samples (Fig. 1b–d). High variability of endophytic OTU richness, as depicted by the rarefaction curves, could possibly be caused by sporadic and non-uniform colonization of the roots and aerial plant compartments of Populus [36]. Gottel et al. attributed part of the variation to their inability to sequence the bacterial endophytic community deeply and uniformly enough because of the high co-amplification of organellar 16S rRNA (67,000 chloroplast and 65,000 mitochondrial sequences) [36]. However, our data exhibit roughly the same pattern without the co-amplification of non-target DNA (Table 1) and with high Good’s coverage estimates (Fig. 1). Therefore, our data suggest considerable variation in endophytic colonization as a major reason for the high variability in the rarefaction curves. Indeed, rhizosphere/rhizoplane colonization is primarily driven by (a) the deposition of large amounts of carbon (e.g., root exudates, mucilage by the root caps, etc.) by plants (rhizodeposition) and (b) the relatively simple or inelaborate chemo-attraction of the bacteria (and other microorganisms) to the root exudates.

    例2. 样品和百分比抽样稀释曲线

    本文是我负责分析发表于Naute Biotechnology(简称NBT)的封面文章(Zhang et al., 2019),介绍了水稻群体层面微生物组的研究并揭示宿主调控根系微生物参与氮利用的现象。详见《NBT封面:水稻NRT1.1B基因调控根系微生物组参与氮利用》

    附图1. 代表性的籼稻和粳稻品种在根细菌群成员中的覆盖度
    (a)样本稀释曲线:随着样品数量的增加,根微生物群的细菌种类稀释曲线达到饱和阶段,这表明我们群体中的根微生物捕获了每个水稻亚种的大部分根细菌成员。分别显示了两个位置的籼稻和粳稻品种。(b)随着测序深度的增加,从籼稻和粳稻品种根系菌群中检测到的细菌OTU的稀释曲线达到饱和阶段。每个误差线代表标准误差。该图中重复样本的数量如下:在地块I中,籼稻(n = 201),粳稻(n = 80),土壤(n = 12);在地块II中,籼稻(n = 201),粳稻(n = 81),土壤(n = 12)。

    Supplementary Figure 1. Coverage of members in the root bacterial microbiota by the representative indica and japonica varieties.
    (a) Rarefaction curves of detected bacterial species of the root microbiota reach the saturation stage with increasing numbers ofsamples, indicating that the root microbiota in our population capture most root bacteria members from each rice subspecies. Indicaand japonica varieties in two locations are shown separately. (b) Rarefaction curves of detected bacterial OTUs of the root microbiotafrom indica and japonica varieties reach saturation stage with increasing sequencing depth. Each vertical bar represents standard error.The numbers of replicated samples in this figure are as follows: in field I, indica (n = 201), japonica (n = 80), soil (n = 12); in field II,indica (n = 201), japonica (n = 81), soil (n = 12).

    例3. 样品和基因(簇)数量的稀释曲线或等差箱线图

    本文是华大基因覃俊杰、李瑞强、王俊等负责分析发表于Naute的文章(Qin et al., 2010),构建了人类肠道基因集1.0版本,虽然发表近10年,但是里程碑式的成果,目前被引用近8千次。详见:《Nature:基于宏基因组测序构建人类肠道微生物组参考基因集》

    图2. 预测人体肠道微生物组中的开放阅读框(稀释曲线展示样本量与基因或基因家族数量的关系)。a,测序样本量与非冗余基因数量的稀释曲线。基因积累曲线对应于Sobs值(观察到的基因数),该值是使用EstimateS 8.2.0对随机选择的100个样本(由于内存限制)计算得出。b,采用三种不同相似度计算来自89种常见肠道微生物物种的基因覆盖数量和比例的关系。c,基于已知直系同源基团(OG;底部),已知加未知直系同源基团(包括例如假定的、预测的、保守的假定功能;中间)和从宏基因组中恢复直系同源的基因,通过调查的样本数量捕获的功能同源簇和新基因家族(> 20个蛋白质)(上)。箱线表示第一和第三四分位数(分别为第25个和第75个百分位数)之间的四分位间距(IQR),内部的线表示中位数。轴须线分别表示距第一个和第三个四分位数的1.5倍IQR内的最小和最高值。圆圈表示轴须以外的异常值。

    Figure 2: Predicted ORFs in the human gut microbiome. a, Number of unique genes as a function of the extent of sequencing. The gene accumulation curve corresponds to the Sobs (Mao Tau) values (number of observed genes), calculated using EstimateS21 (version 8.2.0) on randomly chosen 100 samples (due to memory limitation). b, Coverage of genes from 89 frequent gut microbial species (Supplementary Table 12). c, Number of functions captured by number of samples investigated, based on known (well characterized) orthologous groups (OGs; bottom), known plus unknown orthologous groups (including, for example, putative, predicted, conserved hypothetical functions; middle) and orthologous groups plus novel gene families (>20 proteins) recovered from the metagenome (top). Boxes denote the interquartile range (IQR) between the first and third quartiles (25th and 75th percentiles, respectively) and the line inside denotes the median. Whiskers denote the lowest and highest values within 1.5 times IQR from the first and third quartiles, respectively. Circles denote outliers beyond the whiskers.

    结果

    我们检查了在所有个体中发现的流行基因的数量,要求至少两个读长的基因才被计算在内,绘制该基因数量与测序样本量累计分布曲线(图2a)。是由100个人确定的(EvaluateS程序可以容纳的最高人数)基于指示的覆盖范围丰富度估计值,表明我们的目录涵盖了85.3%的流行基因。尽管这可能被低估了,但它仍然表明该基因集包含了该队列的绝大多数流行基因。

    We examined the number of prevalent genes identified across all individuals as a function of the extent of sequencing, demanding at least two supporting reads for a gene call (Fig. 2a). The incidence-based coverage richness estimator (ICE), determined at 100 individuals (the highest number the EstimateS program could accommodate), indicates that our catalogue captures 85.3% of the prevalent genes. Although this is probably an underestimate, it nevertheless indicates that the catalogue contains an overwhelming majority of the prevalent genes of the cohort.

    我们将330万个肠道ORF映射到人类肠道中89个常见微生物参考基因组的319,812个基因(目标基因)。在90%的相似度阈值下,80%的靶基因至少有80%的长度被ORF覆盖(图2b)。这表明该基因组包括大多数已知的人类肠道细菌基因。

    We mapped the 3.3 million gut ORFs to the 319,812 genes (target genes) of the 89 frequent reference microbial genomes in the human gut. At a 90% identity threshold, 80% of the target genes had at least 80% of their length covered by a single gut ORF (Fig. 2b). This indicates that the gene set includes most of the known human gut bacterial genes.

    为了研究流行基因集的功能组成,我们计算了n个个体(n = 2–124;见图2c)的任何组合中存在的直系同源基因簇和/或基因家族的总数。这种稀释性分析表明,“已知”功能(在eggNOG或KEGG中注释)迅速饱和(观察到5569个簇):对50个个体的任何子集进行采样时,大多数被检测到。然而,四分之三的普遍肠道功能由未表征的直系同源基因簇和/或全新的基因家族组成(图2c)。当包括这些基因簇时,稀释曲线仅在最后阶段才开始趋于平稳,并达到更高的水平(检测到19,338个簇),这证实了大量个体的大量采样对于获得如此大量新颖或未知功能的基因是必须的。

    To investigate the functional content of the prevalent gene set we computed the total number of orthologous groups and/or gene families present in any combination of n individuals (with n = 2–124; see Fig. 2c). This rarefaction analysis shows that the ‘known’ functions (annotated in eggNOG or KEGG) quickly saturate (a value of 5,569 groups was observed): when sampling any subset of 50 individuals, most have been detected. However, three-quarters of the prevalent gut functionalities consists of uncharacterized orthologous groups and/or completely novel gene families (Fig. 2c). When including these groups, the rarefaction curve only starts to plateau at the very end, at a much higher level (19,338 groups were detected), confirming that the extensive sampling of a large number of individuals was necessary to capture this considerable amount of novel/unknown functionality.

    绘图实战

    测试数据和代码准备教程,详见- 211.Alpha多样性箱线图(样章,11图2视频)
    安装R包出现问题,可以下载预编译的R包,地址项目 https://github.com/YongxinLiu/MicrobiomeStatPlot - Data 目录 - BigDataDownlaodList.md 文档。

    安装和加载依赖R包

    检查依赖关系是否安装,有则跳过,无则自动安装。

    # github安装包需要devtools,检测是否存在,不存在则安装
    if (!requireNamespace("devtools", quietly = TRUE))
        install.packages("devtools")
    library(devtools)
    # 检测amplicon包是否安装,没有从源码安装
    if (!requireNamespace("amplicon", quietly = TRUE))
        install_github("microbiota/amplicon")
    # library加载包,suppress不显示消息和警告信息
    suppressWarnings(suppressMessages(library(amplicon)))
    
    # Biconductor包安装,需要BiocManager
    if (!requireNamespace("BiocManager", quietly = TRUE))
        install.packages("BiocManager")
    library("BiocManager")
    # 检测amplicon包是否安装,没有从源码安装
    p_list = c("phyloseq", "microbiome")
    for(p in p_list){
      if (!requireNamespace(p, quietly = TRUE))
        BiocManager::install(p)}
    USEARCH结果绘制稀释曲线+标准误

    USEARCH中的usearch -alpha_div_rare可以快速计算抽平后特征表的稀释曲线数据(详见:USEARCH流程),我们配合amplicon包中的alpha_rare_curve函数,可以基于稀释曲线数据一行命令绘制稀释曲线(Rarefaction curve)+标准误(standard error)的图。

    通过?alpha_rare_curve查看函数内容。本函数使用计算好的alpha稀释曲线表格仅仅用于对图形的绘制,按照分组展示不同处理的稀释曲线。

    使用内置数据快速绘制,输入文件为对样本从1-100%重采样的丰富度(richness / Observed OTU),样本元数据和分组列名

    (p = alpha_rare_curve(alpha_rare, metadata, groupID = "Group"))
    # 保存图片,指定图片为pdf格式方便后期修改,图片宽89毫米,高56毫米
    ggsave(paste0("p1.rare_curve.pdf"), p, width=89*1.5, height=56, units="mm")
    ggsave(paste0("p1.rare_curve.png"), p, width=89*1.5, height=56, units="mm")

    图1. 按分组绘制的稀释曲线+标准误。我们可以看到三组的丰富度存在明显区别。输出图片可以拉长宽度,或减少高度,以使图片尺寸更宽,可用于突出曲线平滑,测序量充足的效果。

    我们更常用的使用方法,是从外部读取数据,查看输入数据格式,逐步绘图,最后保存图片。

    # 设置数据目录位置,可以为本地或网络;这里设为网络地址,方便大家直接运行
    dir="http://210.75.224.110/github/MicrobiomeStatPlot/Data/Science2019/"
    # 读取元数据,参数指定包括标题行(TRUE),列名为1列,制表符分隔,无注释行,不转换为因子类型
    metadata <- read.table(paste0(dir, "metadata.txt"), header=T, row.names=1, sep="\t", comment.char="", stringsAsFactors = F)
    # 预览元数据前3行,前6列,注意分组列名
    metadata[1:3, 1:6]
    # 读取usearch生成的稀释表
    alpha_rare = read.table(paste0(dir, "alpha/alpha_rare.txt"), row.names= 1, header=T, sep="\t",  comment.char="", stringsAsFactors = F)
    # 预览稀释表前3行和9列
    alpha_rare[1:3,1:9]
    
    # 绘制稀释曲线+标准误,本次选择地点"Site"分组
    (p = alpha_rare_curve(alpha_rare, metadata, groupID = "Site"))
    ggsave(paste0("p2.rare_curve.pdf"), p, width=89*1.5, height=56, units="mm")
    ggsave(paste0("p2.rare_curve.png"), p, width=89*1.5, height=56, units="mm")

    图2. 按地点(Site)分组绘制的稀释曲线+标准误。我们可以看到朝阳、昌平和海淀三组的丰富度没有明显区别。

    想要修改图片的细节,或进一步修改代码,可以直接运行函数名称(如alpha_rare_curve),显示完整代码,进一步编辑修改。

    基于特征表绘制稀释曲线

    我们更多的时候是只有特征表,如计算型(reads count)的OTU表。可以使用alpha_rare_all函数计算并绘制不同处理的稀释曲线,?alpha_rare_all查看函数功能。

    • 计算alpha多样性部分,包含了phyloseq和microbiome包的全部alpha多样性指数,总共超过20种alpha多样性指数可供选择。

    • 提供start参数可以指定合适的抽平数量

    • 提供step参数用于控制抽平序列的间隔,默认100,意思是按照100条序列间隔多次抽平,直到达到最大序列数量。这里的最大序列数量为所有样本中序列数量最多的那一个,其他序列数目较少的样本抽平到自己的最大条数后便自动停止。为了缩短抽平时间,可以将这个参数设置大一些。

    # 依赖phyloseq和microbiome包
    result = alpha_rare_all(otu = otutab, map = metadata, group = "Group", method = "chao1", start = 500, step = 500)
    # 结果返回列表,1为样本稀释曲线,2为数据表,3为按组均值的稀释曲线,4为组置信区间
    
    # 样本稀释曲线
    (p = result[[1]])
    ggsave(paste0("p3.rare_curve.pdf"), p, width=89*1.5, height=56, units="mm")
    ggsave(paste0("p3.rare_curve.png"), p, width=89*1.5, height=56, units="mm")

    图3. 按样本绘制的稀释曲线,并按组着色。类似于例1 Microbiome的结果,但尤其样本多时互相重叠,很难观察规律,使用较少。

    也可以导出原始数据,作为文章的附表,或使用其它工具进一步绘图。

    # 预览数据前3行
    head(result[[2]], n=3)
    write.table(result[[2]], file="t1.rare_curve.txt", sep="\t", quote=F, row.names=F)
    # 按组均值绘图
    (p = result[[3]])
    ggsave(paste0("p4.rare_curve_group.pdf"), p, width=89*1.5, height=56, units="mm")
    ggsave(paste0("p4.rare_curve_group.png"), p, width=89*1.5, height=56, units="mm")

    图4. 按样本分组绘制的稀释曲线,并按组着色。类似于图1,不同的是usearch是基于抽平的结果,各组线长度相同,而本函数可基于末抽平的特征表,绘制与实际测序量相同的结果。

    # 按照分组绘制标准差稀释曲线
    (p = result[[4]])
    ggsave(paste0("p5.rare_curve_group_CI.pdf"), p, width=89*1.5, height=56, units="mm")
    ggsave(paste0("p5.rare_curve_group_CI.png"), p, width=89*1.5, height=56, units="mm")

    图5. 按样本分组+置信区间绘制的稀释曲线,并按组着色。

    Phyloseq输入的稀释曲线

    这里设置从1000条序列开始抽平,并按照1000条间隔进行逐步抽样,速度快很多,但是图形锯齿化化程度会更多一下。

    library(phyloseq)
    # 构造phyloseq对象
    ps = phyloseq(otu_table(otutab, taxa_are_rows=TRUE), sample_data(metadata))
    # 输入为Phyloseq的绘图
    result = alpha_rare_all(ps = ps, group = "Group", method = "chao1", start = 1000, step = 1000)
    (p = result[[4]])
    ggsave(paste0("p6.rare_curve_group_CI.pdf"), p, width=89*1.5, height=56, units="mm")
    ggsave(paste0("p6.rare_curve_group_CI.png"), p, width=89*1.5, height=56, units="mm")

    图6. 按样本分组+置信区间绘制的稀释曲线,并按组着色,步长为1000。

    样本箱线图稀释曲线

    我们也经常要评估样本量是否达到物种、非冗余基因、基因家庭的饱和。这里编写了alpha_sample_rare函数可以基于reads counts值的特征表,直接绘制箱线图稀释曲线。详细帮助见?alpha_sample_rare

    主要参数:

    • otutab:特征表,推荐使用计数值的特征表(OTU/ASV/基因/KO),也可以是抽平或标准化的。

    • length:样本重采样的梯度数量,对应图中的箱体数量,默认为18;本版图推荐6-10,全版图推荐15-10;最大值<样本量,不然会有重复的箱体;

    • rep: 每个样本梯度下的抽样次数,即对应每个箱体中的样本量,默认为30。提高会增加计算量。

    # 默认值绘制样本箱线图稀释曲线
    library(amplicon)
    (p = alpha_sample_rare(otutab, length=18, rep=30, count_cutoff=1))
    ggsave(paste0("p7.sample_rare.pdf"), p, width=89*1.5, height=56, units="mm")
    ggsave(paste0("p7.sample_rare.png"), p, width=89*1.5, height=56, units="mm")

    图7. 样本稀释梯度箱线图,从1-18个样本对应的丰富度值。可以看到在5个以上样本时多样性趋于稳定。

    # 修改样本量箱体数量,length从默认18修改为9,用于不同趋势或图片布局
    (p = alpha_sample_rare(otutab, length=9))
    # 箱体少时,可减少图片的宽度比例,如从1.5-2降低为1
    ggsave(paste0("p8.sample_rare.pdf"), p, width=89*1, height=56, units="mm")
    ggsave(paste0("p8.sample_rare.png"), p, width=89*1, height=56, units="mm")

    图8. 样本稀释梯度箱线图,从1-18个样本对应的丰富度值。只计算并展示9个梯度。

    # 默认值绘制样本箱线图稀释曲线
    (p = alpha_sample_rare(otutab, count_cutoff=9))
    ggsave(paste0("p9.sample_rare.pdf"), p, width=89*1.5, height=56, units="mm")
    ggsave(paste0("p9.sample_rare.png"), p, width=89*1.5, height=56, units="mm")

    图9. 样本稀释梯度箱线图,从1-18个样本对应的丰富度值。阈值(count_cutoff)从1修改为9,即9个读长才算可检测的特征,多样性增长的趋势变明显。因此阈值对多样性有极大的影响,可以适合不同场景表达不同的意义。如你有特别多的样品,如果count_cutoff=1显示很少样本就达到饱和,则应该提高阈值,来突出本项目有足够多的样本才收集到如此高的多样性,即表达大样本量是非常有必要且有意义的。

    此外,QIIME 2中都有相应绘制稀释曲线的方法,详见之前的教程:

    如果你使用本教程的代码,请引用:

    • Yong-Xin Liu, Yuan Qin, Tong Chen, et. al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein Cell 41, 1-16, doi:10.1007/s13238-020-00724-8 (2020)

    • Jingying Zhang, Yong-Xin Liu, et. al. NRT1.1B is associated with root microbiota composition and nitrogen use in field-grown rice. Nature Biotechnology 37, 676-684, doi:10.1038/s41587-019-0104-4 (2019).

    声明:由于个人时间和知识有限,文中定有很多不足之处,欢迎大家留言批评指正。

    作者贡献:刘永鑫负责本文的主体框架和大部分写作,编写了alpha_rare_curve、alpha_sample_rare函数;文涛参与本文部分创作,编写了alpha_rare_all函数。

    致谢:感谢西北农林科技大学的席娇对本文的校对,并提出宝贵修改意见。

    参考文献

    Bram Beckers, Michiel Op De Beeck, Nele Weyens, Wout Boerjan & Jaco Vangronsveld. (2017). Structural variability and niche differentiation in the rhizosphere and endosphere bacterial microbiome of field-grown poplar trees. Microbiome 5, 25, doi: https://doi.org/10.1186/s40168-017-0241-2

    Jingying Zhang, Yong-Xin Liu, Na Zhang, Bin Hu, Tao Jin, Haoran Xu, Yuan Qin, Pengxu Yan, Xiaoning Zhang, Xiaoxuan Guo, Jing Hui, Shouyun Cao, Xin Wang, Chao Wang, Hui Wang, Baoyuan Qu, Guangyi Fan, Lixing Yuan, Ruben Garrido-Oter, Chengcai Chu & Yang Bai. (2019). NRT1.1B is associated with root microbiota composition and nitrogen use in field-grown rice. Nature Biotechnology 37, 676-684, doi: https://doi.org/10.1038/s41587-019-0104-4

    Junjie Qin, Ruiqiang Li, Jeroen Raes, Manimozhiyan Arumugam, Kristoffer Solvsten Burgdorf, Chaysavanh Manichanh, Trine Nielsen, Nicolas Pons, Florence Levenez, Takuji Yamada, Daniel R. Mende, Junhua Li, Junming Xu, Shaochuan Li, Dongfang Li, Jianjun Cao, Bo Wang, Huiqing Liang, Huisong Zheng, Yinlong Xie, Julien Tap, Patricia Lepage, Marcelo Bertalan, Jean-Michel Batto, Torben Hansen, Denis Le Paslier, Allan Linneberg, H. Bjørn Nielsen, Eric Pelletier, Pierre Renault, Thomas Sicheritz-Ponten, Keith Turner, Hongmei Zhu, Chang Yu, Shengting Li, Min Jian, Yan Zhou, Yingrui Li, Xiuqing Zhang, Songgang Li, Nan Qin, Huanming Yang, Jian Wang, Søren Brunak, Joel Doré, Francisco Guarner, Karsten Kristiansen, Oluf Pedersen, Julian Parkhill, Jean Weissenbach, H. I. T. Consortium Meta, Maria Antolin, François Artiguenave, Hervé Blottiere, Natalia Borruel, Thomas Bruls, Francesc Casellas, Christian Chervaux, Antonella Cultrone, Christine Delorme, Gérard Denariaz, Rozenn Dervyn, Miguel Forte, Carsten Friss, Maarten van de Guchte, Eric Guedon, Florence Haimet, Alexandre Jamet, Catherine Juste, Ghalia Kaci, Michiel Kleerebezem, Jan Knol, Michel Kristensen, Severine Layec, Karine Le Roux, Marion Leclerc, Emmanuelle Maguin, Raquel Melo Minardi, Raish Oozeer, Maria Rescigno, Nicolas Sanchez, Sebastian Tims, Toni Torrejon, Encarna Varela, Willem de Vos, Yohanan Winogradsky, Erwin Zoetendal, Peer Bork, S. Dusko Ehrlich & Jun Wang. (2010). A human gut microbial gene catalogue established by metagenomic sequencing. Nature 464, 59-65, doi: https://doi.org/10.1038/nature08821

    责编:刘永鑫,中科院遗传发育所

    版本1.0.0,提供USEARCH稀释结果、OTU表输入、QIIME2和样本稀释曲线多种方案
    版本1.0.1,整合席娇的审稿意见,并全文修改

    猜你喜欢

    10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

    系列教程:微生物组入门 Biostar 微生物组  宏基因组

    专业技能:学术图表 高分文章 生信宝典 不可或缺的人

    一文读懂:宏基因组 寄生虫益处 进化树

    必备技能:提问 搜索  Endnote

    文献阅读 热心肠 SemanticScholar Geenmedical

    扩增子分析:图表解读 分析流程 统计绘图

    16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

    在线工具:16S预测培养基 生信绘图

    科研经验:云笔记  云协作 公众号

    编程模板: Shell  R Perl

    生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

    学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

    点击阅读原文,跳转最新文章目录阅读

    展开全文
  • 训练样本

    万次阅读 2017-03-08 22:55:01
    此数据库信息量非常大,包括了各种姿态、表情、光照、种族等因素影响的图片。 AFLW 人脸数据库大约包括 25000 万已手工标注的人脸图片,其中 59% 为女性, 41% 为男性,大部分的图片都是彩色,只有少部分是灰色图片...
  • 经济增长是我国宏观经济政策的目标之一,研究影响经济增长的因素对促进我国经济快速发展有着十分重要的意义。本次实验运用R软件编写代码拟合多元线性回归模型、选择最优模型,最终进行区间预测,定性的研究影响我国...
  • 十六、比较两个样本 原文:Comparing Two Samples 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 最近邻分类方法的动机是这样的,个体可能像最近的邻居。 从另一个角度来看,我们可以说一个...
  • 因素方差分析(One Way ANOVA)

    万次阅读 2017-10-23 20:09:37
    因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。 因素影响研究对象的某一指标、变量。水平:因素变化的各种状态或因素...
  • 2. 从用户生命周期分析客户流失的可能影响因素 5 3. 确定初选变量 6 (二) 预测变量与目标变量的相关性 7 1. 分类变量的直方图检验 7 2. 分类变量的卡方检验 11 3. 连续变量与目标变量的相关性...
  • 图像识别训练样本

    万次阅读 2018-06-18 13:39:48
    图像识别训练样本集ImageNetImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。能够从图片识别物体。目前已经包含14197122张...
  • 样本量确定(sample size determination),又称样本量估计(sample size estimation),是指为满足统计的准确和可靠(I类错误的控制和检验效能...
  • 对抗样本(二)L-BFGS

    千次阅读 2020-02-29 14:33:52
    论文文献二、论文背景及简介三、论文所使用的符号及数据等信息四、论文主要内容1、第一个特征 神经元的语义信息2、第二个特征 神经网络的盲点五、实验结果六、模型的不稳定分析七、总结 一、论文相关信息   1....
  • 方差分析是假设数据满足正态分布和方差齐的前提下,计算总体相等但在当前样本量下由于偶然原因导致均值出现差异的概率,或者说基于当前样本量,结局均值的差异有多大的可能(概率)是由于偶然原因造成的。...
  • 简介用来检验来自两配对总体的均值是否在统计上有显著差异配对样本均数t检验简称配对t检验(paired t test),又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的...
  • 为引入间隔, 本文根据小样本场景特点提出了多路对比损失, 使得小样本学习模型可以学习到一个更加具有判别的度量空间,同时泛化误差可以减小。带间隔的小样本学习是一个通用的框架,可以同各种基于度量的小样本...
  • 样本(特征)选择:通过构建出具有“鲁棒的高层级特征提取”功能的自编码器进行特征提取。在重构误差较小的情况下,通过在源域、目标域、中间域上同时最小化损失函数来完成这一过程。 2.合并边信息:通过中间域的...
  • 快速了解AB实验和样本量计算原理

    千次阅读 2021-02-20 10:56:10
    AB实验简介 什么是AB实验 将测试对象随机分成A,B两组,然后比较两组之间的差异 AB测试是为Web或App界面或流程制作两个...随机:为了排除实验条件以外的干扰因素,我们需要确保两个组的用户是随机选取,这是为了排除
  • 随着深度学习研究的深入,相关应用已经在许多领域展现出惊人的表现。一方面,深度神经网络(DNN)的强大能力着实吸引着学术界和产业...经过精心调整的能够误导神经网络的输入就被称为是恶意样本(Adversarial Example)
  • 文章目录学习目标质量控制样本水平WC 学习目标 转换计数的无监督聚类方法(unsupervised clustering methods) 用主成分分析(Principal Components Analysis)评价样品质量 数据集中样本的层次聚类(Hierarchical ...
  • 人工智能是怎么准备训练样本

    千次阅读 2018-12-20 15:43:42
    前面说过,训练数据的正确对模型质量有非常非常大的影响,依靠人力的标注很难百分比保证正确,但还是有必要保证大的正确率。需要通过各种工程手段、管理方法,从立项、准备数据到确定标注群体、确定工期、确定...
  • python调用sklearn库BP神经网络基于小样本进行痘痘预测尝试背景:数据集证明下痘痘数据的真实(自己每天记录),竟近似于正态分布: 代码: 背景: 曾几何时,在学数学建模,看他人用了一次svm分类。自那刻起,...
  • Few-shot learning (FSL)在机器学习领域具有重大意义和挑战,是否拥有从少量样本中学习和概括的能力,是将人工智能和人类智能进行区分的明显分界点,因为人类可以仅通过一...
  • 受此影响,很多同行在开展科研的过程中不分青红皂白地遵循这四大原则。特别是对于“均衡”这一概念,很多研究者总是觉得要是实验组和对照组不平衡(样本量相差甚远)的话,研究结果就不够可靠。殊不知,并非所有...
  • 相信每一位研究深度学习的朋友都明白,深度学习能够在这几年取得如此爆炸式的发展,除了算法本身的改进与创新,最关键的因素就是拥有海量的数据和强大的计算资源。那么,我们很自然的会问:没有海量数据怎么办?现实...
  • 试述样本程序比赛的几个理由

    千次阅读 热门讨论 2007-05-09 15:02:00
    在以从事“行业应用软件”开发为主的软件企业中,大部分的工程师做的是一种定制化“脚本”的工作。...而一个设计良好的“样本程序”可起到事半功倍的效果,这就好比初学做古诗,古诗学的约束要素有很
  • 因素方差分析

    万次阅读 2019-10-19 11:00:00
    总第173篇/张俊红01.前言在前面我们讲过简单的单因素方差分析,这一篇我们讲讲双因素方差分析以及多因素方差分析,双因素方差分析是最简单的多因素方差分析。单因素分析就是只...
  • 《通过自定义采样产生基于决策的对抗噪声》 作为有效的黑盒对抗攻击,基于决策的方法通过查询目标模型来消除对抗噪声。 其中,边界攻击由于其强大的噪声压缩能力而被广泛应用,尤其是与基于传输的方法结合使用时。...
  • 由于上市股票种类繁多,计算全部上市股票的价格平均数或指数的工作是艰巨而复杂的,因此人们常常从上市股票中选择若干种富有代表性样本股票,并计算这些样本股票的价格平均数或指数。用以表示整个市...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 27,104
精华内容 10,841
关键字:

影响样本代表性的因素