精华内容
下载资源
问答
  • Precise recovery of latent vectors from generative adversarial networks 翻译 摘要: 生成对抗网络(GAN)将潜在向量转换为视觉上合理的图像。 通常认为原始的GAN的构想没有提供开箱即用的方法来反向映射,将...

    Precise recovery of latent vectors from generative adversarial networks 翻译

    摘要:

    生成对抗网络(GAN)将潜在向量转换为视觉上合理的图像。 通常认为原始的GAN的构想没有提供开箱即用的方法来反向映射,将图像投射回潜在空间。 我们介绍一种简单的基于梯度的技术,称为随机剪切。 在实验中,对于由GAN生成的图像,我们在100%精确地恢复它们的潜在向量预图像。 另外的实验证明该方法对噪声具有鲁棒性。 最后,我们表明,即使是看不见的图像,我们的方法似乎恢复了独特的编码。

    1 引言

    深度卷积神经网络(CNN)现在是机器学习从业者的标准工具。 目前,它们在包括图像分类和目标检测在内的识别学习问题上优于所有其他计算机视觉技术。 生成对抗网络(GAN)(Goodfellow,2014; Radford等,2015)使确定的深度神经网络适应生成建模的任务。

    GAN由生成器和鉴别器组成。 生成器将样本从低维潜在空间映射到图像空间。 鉴别器试图区分由生成器产生的图像和真实图像。 在训练期间,生成器试图愚弄鉴别器。 经过训练,研究人员通常会丢弃鉴别器。 然后可以通过从潜在空间中抽取样本并将它们传递通过生成器来生成图像。

    虽然GAN的生成能力众所周知,但如何最好地执行反向映射(从图像空间到潜在空间)仍然是一个开放的研究问题。 Donahue et al.(2016) 建议对GAN的扩展,其中第三个模型明确地学习反向映射。 Creswell&Bharath(2016)认为反转生成器很困难,注意到原则上,单个图像\phi \left ( z \right )可以映射到多个潜在向量z。 他们提出了一种基于梯度的方法来恢复潜在的向量,并评估图像空间中重建误差的过程。

    我们通过在潜在表示的组成上执行梯度下降来重建潜在向量,并引入称为随机剪切的新技术。 据我们所知,这是DCGANS可以反转为任意精度的第一个经验证明。 此外,我们证明这些重建对增加的噪声是稳健的。 在向图像添加少量高斯噪声之后,我们仍然恢复潜在向量z而几乎没有保真度损失。

    在这项研究中,我们还寻求有关神经网络损失表面优化的见解。 我们寻求问题的答案:(i)优化是否会实现全局最小的0损失或陷入次优临界点? (ii)优化每次都会精确恢复相同的输入吗? 超过1000个实验,我们发现在预训练的DCGAN网络中,具有随机剪切的梯度下降将100%的真实潜在向量恢复到任意精度。

    相关工作:

    一些论文尝试基于梯度的方法来反演深度神经网络。 Mahendran和Vedaldi(2015)将判别CNN转换为理解隐藏的表示。 Creswell&Bharath(2016)反转了GANS的发生器,但没有报告在潜在空间中找到忠实的重建。 我们注意到,找到非凸映射的前图像的任务在计算机视觉中具有至少可以追溯到Bakır等人的历史。

    2 基于梯度的输入重构和随即剪切

    为了反转生成器学习的映射,我们应用以下想法。 对于潜在矢量z,我们产生图像\phi \left ( z \right )。 然后我们初始化一个与z相同形状的新的随机向量{z}'。 该新矢量{z}'映射到对应的图像\phi \left ( {z}' \right )。 为了对输入z进行反向工程,我们接连更新{z}'的分量,以便将表示)推得更接近原始图像\phi \left ( z \right )。 在我们的实验中,我们最小化L2范数,产生以下优化问题:

    我们通过梯度下降优化{z}',执行更新,直到满足一些收敛标准。 学习速率η随时间衰减。 请注意,此优化的全局最小值为0.但是,我们不知道实现此全局最小值的解决方案是否唯一。 此外,这种优化是非凸的,因此我们知道这种优化应该精确地恢复原始矢量是没有理论原因的。 在许多情况下,我们知道原始输入来自有界域。 对于DCGANS,所有潜在向量均匀地从\left [ -1,1 \right ]^{100}超立方体采样。 为了强制执行此约束,我们应用修改后的优化

    使用标准剪切,我们用最大允许值替换太大的组成,并用最小允许值替换太小的组成。 标准剪辑精确地恢复了大部分矢量z。 对于失败的情况,我们注意到重建的{z}'有一些组成停留在-1或1.因为,我们知道一个组成应该位于边界的概率接近于零。 为了防止这些重建被卡住,我们引入了一种称为随机裁剪的启发式技术。 当使用随机剪切时,我们不是将组成设置为-1或1,而是在允许的范围内随机均匀地重新分配剪切的组成。 虽然这不能防止内部局部最小值,但如果唯一的局部最小值包含卡在边界处的组件成,则会有所帮助。

    3 实验

    我们现在总结一下我们的实验结果。 如Radford等人(2015年)所述,所有实验均使用DCGAN进行。 并由Amos(2016)在Tensorflow中重新实施。 首先,我们可视化重建过程,显示初始化、100次迭代和20k次迭代后的\phi \left ( {z}' \right )(图1)。 重建({z}')产生一张无法从原始图像区分的图像。

    接下来,我们考虑100k更新后重建的保真度。 在表1中,我们表明即使使用保守阈值来确定重建成功,随机阈值也可以恢复100%的潜在向量。 我们使用1000个示例评估这些数字。

    然后我们考虑这些重建对噪声的鲁棒性。 我们应用高斯白噪声η,试图从重建z。 我们的实验表明,即使对于大量噪声,z空间中的重建误差也很低,并且似乎与增加的噪声成比例增长(图2)。

    最后,我们询问对于看不见的图像,恢复的矢量是否始终相同。 为了确定恢复的矢量的一致性,我们为同一图像恢复1000个矢量并绘制重建之间的平均成对距离。

    4 结论

    我们证明了GAN发生器在实践中可以反向到任意精度。 这些反向对噪声很鲁棒,即使对于看不见的图像,反转也是独一无二的。 随机剪切比标准剪切更准确,更稳健。 我们怀疑随机剪切还应该从判别CNN重建中提供更好和更稳健的图像重建,将这些实验留给未来的工作。

     

     

     

     

     

     

    展开全文
  • 大多数单词向量方法(Most word vector methods)依赖于单词向量(pairs of word vectors)对之间的距离或角度(angle ),作为评估这样一组单词表示的内在质量(intrinsic quality)的主要方法。 最近,Mikolov等人...

    摘要:最近学习单词的向量空间表示(vector space representations of words)的方法已成功地使用向量算法(vector arithmetic)捕获细粒度的语义(fine-grained semantic)和句法规则(syntactic regularities ),但这些规则的起源仍然是不透明的(opaque)。 我们分析并明确了(explicit)在单词向量中出现这种规则性所需的模型属性(model properties)。结果是一个新的全局logbilinear回归模型,它结合了文献中两个主要模型族的优点:全局矩阵分解(global matrix factorization)和局部上下文窗口方法(local context window methods)。 我们的模型通过仅训练单词 - 单词共生矩阵(cooccurrence matrix)中的非零元素而不是整个稀疏矩阵(entire sparse matrix)或大型语料库(a large corpus)中的各个上下文窗口来有效地利用(leverages)统计(statistical )信息。该模型产生一个具有有意义子结构(meaningful substructure)的向量空间,其最近一个单词类比任务(word analogy task)的性能为75%。 它在相似性任务(similarity tasks)和命名实体识别(named entity recognition)方面也优于相关模型。

    1 Introduction(简介)

    语言的语义向量空间模型(Semantic vector space models)用实值向量表示每个单词。 这些向量可以用作各种应用中的特征,例如信息检索(information retrieval)(Manning等,2008),文档分类(document classification)(Sebastiani,2002),问题回答(question answering)(Tellex等,2003),命名实体识别(named entity recognition)(Turian) et al,2010)和解析(Socher et al,2013)。

    大多数单词向量方法(Most word vector methods)依赖于单词向量(pairs of word vectors)对之间的距离或角度(angle ),作为评估这样一组单词表示的内在质量(intrinsic quality)的主要方法。 最近,Mikolov等人。 (2013c)引入了一种基于单词类比(word analogies)的新评估方案(evaluation scheme),通过检查单词向量之间的标量距离( scalar distance),而不是它们各种不同的差异,探讨(probes)单词向量空间的更精细结构(the finer structure)。

    例如,类比“国王是女王,男人是女人”应该在向量空间中由向量方程式王 - 女王=男人 - 女人编码(be encoded in)。 该评估方案(This evaluation scheme)倾向于(favors )产生意义维度(dimensions of meaning)的模型,从而捕获(thereby capturing)分布式表示的多聚类(multi-clustering)思想(Bengio,2009)。

    学习单词向量(learning word vectors)的两个主要模型族(model families)是:**1)全局矩阵分解方法(global matrix factorization),如潜在语义分析( latent semantic analysis–LSA)(Deerwester等,1990)和2)**局部上下文窗口方法(local context window methods),如skip-gram模型 Mikolov等(2013c)。 目前,两类模型方法(both families)都有明显的缺点( significant drawbacks)。 虽然像LSA这样的方法有效地利用(efficiently leverage)了统计信息,但它们对类比任务(word analogy task)这个词的表现相对较差(relatively poorly),表明了次优的向量空间结构( sub-optimal vector space structure)。 像skip-gram这样的方法在类比任务(word analogy task)上可能做得更好,但是它们很难利用( poorly utilize)语料库的统计数据(the statistics of the corpus),因为它们在单独的本地上下文窗口(local context windows)而不是在全局共现计数(global co-occurrence counts)上进行训练。

    在这项工作中,我们分析了产生线性方向意义(linear directions of meaning)所必需的模型属性(model properties necessary),并认为(argue that)全局对数双线性回归模型(global log-bilinear regression models)适合这样做(are appropriate for doing so)。 我们提出了一种特定的加权最小二乘模型(specific weighted least squares model),该模型训练全局词 - 词共现计数(global word-word co-occurrence counts),从而有效地利用统计数据(makes efficient use of statistics)。 该模型产生一个具有有意义子结构的单词向量空间(a word vector space with meaningful substructure),其最先进的性能(state-of-the-art)是对单词类比数据集的75%准确性所证明(as evidenced by)。 我们还证明了(demonstrate )我们的方法在几个单词相似性任务上(word similarity tasks)以及通用的命名实体识别(common named entity recognition-NER)基准上优于(outperform)其他当前方法(other current methods)。我们在http://nlp.stanford.edu/projects/glove/上提供了模型的源代码以及训练过的单词向量。

    2 Related Work(相关工作)

    矩阵分解方法(Matrix Factorization Methods)。 用于生成低维字表示(generating low-dimensional word representations)的矩阵分解方法可以追溯到LSA。 这些方法利用低秩近似(utilize low-rank approximations)来分解(decompose )捕获关于语料库的统计信息(statistical information about a corpus)的大矩阵。 由这些矩阵捕获的特定类型的信息因应用而异。在LSA中,矩阵是“术语 - 文档”类型,即,行对应于单词或术语,并且列对应于语料库中的不同文档。 相反(In contrast),例如,语言的超空间模拟(the Hyperspace Analogue to Language)(HAL)(Lund和Burgess,1996)利用“术语 - 术语”类型的矩阵,即行和列对应于单词,而条目对应于单词的次数 给定的单词出现在另一个给定单词的上下文中。

    HAL相关方法的一个主要问题是最频繁的单词对相似性度量的贡献不成比例(the most frequent words contribute a disproportionate amount to the similarity measure):例如,the和and,他们的语义相关性相对较少(semantic relatedness),但the与or共同出现的次数很多。 存在许多解决(addresses)HAL的这种缺点的技术,例如COALS方法(Rohde等人,2006),其中共生矩阵( co-occurrence matrix)首先通过基于熵或相关的归一化来变换(entropy or correlation-based normalization)。这种类型的变换的优点在于,对于可能跨越8或9个数量级的合理大小的语料库的(which for a reasonably sized corpus might span 8 or 9 orders of magnitude)原始共现计数(raw co-occurrence counts)被压缩,以便在更小的间隔中(a smaller interval)更均匀地分布。 各种新模型也采用这种方法(pursue this approach),包括一项研究(Bullinaria和Levy,2007),表明积极的逐点互信息(PPMI)是一个很好的转变。 最近,Hellinger PCA(HPCA)形式的平方根类型转换(Lebret和Collobert,2014)已被建议作为学习单词表示( learning word representations)的有效方式。

    基于浅窗的方法(Shallow Window-Based Methods)。 另一种方法是学习有助于在本地上下文窗口中进行预测的单词表示。 例如,Bengio等人。 (2003)引入了一个模型,学习单词矢量表示作为语言建模的简单神经网络体系结构的一部分。 Collobert和Weston(2008)将矢量训练一词与下游训练目标分离,这为Collobert等人铺平了道路(paved the way)。 (2011)使用单词的完整(full context of a word)上下文来学习单词表示,而不仅仅是前面的上下文,就像语言模型一样。

    最近,用于学习有用的单词表示的完整神经网络结构(full neural network structure)的重要性已经受到质疑(called into question)。 Mikolov等人的skip-gram和连续词袋(CBOW)模型。 (2013a)提出了一种基于两个词向量之间的内积的简单单层架构。 Mnih和Kavukcuoglu(2013)也提出了密切相关的矢量对数 - 双线性模型,vLBL和ivLBL,以及Levy等。 (2014)提出了基于PPMI度量的显式单词嵌入。

    在skip-gram和ivLBL模型中,目标是在给定单词本身的情况下预测单词的上下文,而CBOW和vLBL模型中的目标是在给定其上下文的情况下预测单词。 通过对单词类比任务(analogy task)的评估,这些模型展示了(demonstrated)将语言模式(linguistic patterns )学习为单词向量之间的线性关系的能力。

    与矩阵分解方法不同,基于浅窗口的方法的缺点在于它们不直接对语料库的共现统计进行操作(they do not operate directly on the co-occurrence statistics of the corpus)。 相反,这些模型扫描整个语料库(corpus)中的上下文窗口,这无法利用数据中的大量重复的信息(which fails to take advantage of the vast amount of repetition in the data)。

    3 The GloVe Model(GloVe 模型)

    语料库中(corpus)单词出现的统计数据是所有无监督学习单词表示方法的主要信息来源(primary source),虽然现在存在许多这样的方法,如何从这些统计数据产生(meaning)含义,以及生成的单词向量如何表示该(meaning)含义。 在本节中,我们对这个问题有所了解(we shed some light on this question)。 我们使用我们的见解(insights )构建一个新的单词表示模型(a new model for word representation),我们称之为GloVe,用于全局向量,因为全局语料库统计数据是由模型直接捕获的(the global corpus statistics)。

    首先,我们建立一些符号(notation)。 将字 - 词共同出现次数(word-word co-occurrence counts)的矩阵表示为X,其条目XijX_{ij}表示word j出现在单词i的上下文中的次数。 设Xi=kXikX_i = \sum _kX_{ik}是任何单词出现在单词i的上下文中的次数。 最后,让Pij=P(ji)=Xij/XiP_{ij} = P(j|i)= X_{ij} / X_i是单词j出现的概率
    在这里插入图片描述
    表1:具有来自60亿 token corpus(就是该语料库含有60亿个词。注:可重复) 的所选上下文词(selected context words)的目标词(target words)ice和steam的共现概率(Co-occurrence probabilities)。 只有在这个比例中,来自water和fashion等非歧视性词语(non-discriminative)的噪音才会抵消(cancel out),因此大的值(远大于1)与ice的特性相关性很好,而小值(远小于1)与特定的属性关系良好steam。

    我们从一个简单的例子开始,展示了如何直接从共现概率(occurrence probabilities)中提取意义的某些方面。 考虑两个表示感兴趣的特定方面的词i和j; 具体而言(for concreteness),假设我们对热力学阶段(thermodynamic phase)的概念感兴趣,我们可以采用i = ice和j = steam。 可以通过研究它们的共现概率(cooccurrence probabilities)与各种探测词(probe words)k的比率(the ratio of their)来检验(examined)这些词的关系。 对于与ice而不是steam相关的单词k,比如说k = solid,我们预计比率Pik/PjkP_{ik} / P_{jk}会很大。类似地(Similarly),对于与steam而非ice相关的单词k,比如k = gas,该比率应该很小。 对于像ice或fashion这样的词语k,无论是ice与steam,还是两者都不相关,这个比例应该接近1。 表1显示了这些概率及其与大型语料库的比率(ratios),数字证实了这些期望。 与原始概率相比(raw probabilities),该比率能够更好地(is better able to)区分(distinguish)相关词(solid 和 gas)与不相关词(ice和fashion),并且还能够更好地区分(discriminate)两个相关词。

    上述论点表明(The above argument suggests that),单词向量学习的适当起点(appropriate starting point)应该是共现概率的比率( ratios of co-occurrence probabilities)而不是概率本身(probabilities themselves)。 注意到比率Pik/PjkP_{ik} / P_{jk}取决于三个单词i,j和k,最通用的模型采用的形式,
    在这里插入图片描述
    其中wRdw\in \mathbb{R}^{d}是单词向量,wRdw\in \mathbb{R}^{d}是单独的上下文单词向量,其作用将在4.2节中讨论。在该等式中,右侧(right-hand side)是从语料库(corpus)中提取的,并且F可以取决于一些尚未指定(as-of-yet unspecified)的参数。 F的可能性很大(The number of possibilities for F is vast),但通过强制执行一些需求(desiderata ),我们可以选择一个独特的选择。 首先,我们希望F对在字向量空间中呈现比率Pik/PjkP_{ik} / P_{jk}的信息进行编码。 由于向量空间本质上是线性结构(inherently linear structures),因此最自然的方法是使用向量差异(vector differences)。有了这个目标,我们可以将我们的考虑限制在仅依赖于两个目标词的差异(the difference of the two target words),修改Eqn的那些函数F. (1)到,
    在这里插入图片描述
    接下来,我们注意到公式(2)中的F的参数是向量,而右侧(right-hand side)是标量(scalar)。 虽然F可以被认为是由例如神经网络参数化的复杂函数(complicated function parameterized),但是这样做会混淆(obfuscate)我们试图捕获的线性结构。 为了避免这个问题,我们可以先拿参数的点积(dot product),
    在这里插入图片描述
    这可以防止F以不希望(undesirable )的方式混合矢量尺寸。 接下来,请注意(note that),对于单词共现矩阵,单词和上下文单词之间的区别是任意的,我们可以自由地交换这两个角色。为了这样做的一致性(To do so
    consistently),我们不仅要交换ww~w\leftrightarrow \widetilde{w},同时也要交换XXTX\leftrightarrow X^{T}。我们的最终模型在这种重新标记下(relabeling)应该是不变的(invariant),但是Eqn(3)不是。 但是,对称性(symmetry)可以分两步恢复(restored)。首先,我们要求F是群(R,+)(\mathbb{R},+)(R>0,×)(\mathbb{R}_{>0},\times )之间的同态(homomorphism)
    在这里插入图片描述
    其中,由Eqn(3),解决了,
    在这里插入图片描述
    公式(4)的解是F=exp,也就是
    在这里插入图片描述
    接下来,我们注意到公式(6)如果不是右侧的log(Xi)log(X_i),则表现出交换对称性(exhibit the exchange symmetry)。 然而,该项与k无关,因此它可以被吸收到wiw_i的偏置bib_i中。 最后,为w~k\widetilde{w}_k添加额外的偏差b~k\widetilde{b}_k可以恢复对称性(restores the symmetry),
    在这里插入图片描述
    公式(7)是对公式(1)的极大简化。 但它实际上是不明确的(it is actually ill-defined),因为只要参数(argument)为零,对数(logarithm)就会发散(diverges)。该问题的一个解决方案(resolution )是在对数中包括加性偏移(additive shift)log(Xik)log(1+Xik)log(X_{ik})\rightarrow log(1 + X_{ik}),它保持了X的稀疏性(sparsity of X),同时避免了分歧(divergences)。将共生矩阵( co-occurrence matrix )的对数分解(factorizing the log)的想法与LSA密切相关,我们将使用得到的模型作为我们实验中的基线(baseline)。 这种模式的一个主要缺点(A main drawback)是,它平等地权衡所有共现(it weighs all co-occurrences equally),甚至是那些很少或从未发生的共现。 这种罕见的共现是嘈杂(noisy)的,并且信息比较频繁的信息少 - 但即使只有零条目(zero entries)占X中数据的75-95%,这取决于词汇量(vocabulary size)和语料库(corpus)。

    我们提出了一种新的加权最小二乘回归模型(weighted least squares regression model)来解决这些问题(addresses these problems)。 将公式(7)作为最小二乘问题(least squares problem)并将加权函数f(Xij)f(X_{ij})引入到成本函数中给出了模型
    在这里插入图片描述
    其中V是词汇量的大小(the size of the vocabulary)。 加权函数应遵循以下属性(The weighting
    function should obey the following properties):

    • f(x)=0f(x)=0。如果ff被视为连续的函数,f应该随着x0x\rightarrow 0而趋于0,并且有limx0f(x)log2xlim_{x\rightarrow 0}f(x)log^2x趋于无穷。
    • f(x)应该是非递减的,以便罕见(rare)的共现(co-occurrences)不会超重(overweighted)。
    • 对于较大的x值,f(x)应该相对较小,因此频繁的(frequent)共现不会超重(overweighted)。

    当然,大量函数满足(satisfy )这些属性,但我们发现可以很好地工作的一类函数可以参数化为,
    在这里插入图片描述
    The performance of the model depends weakly on the cutoff,我们所有的实验都设定xmax=100x_{max}=100 我们发现α\alpha= 3/4比使用α\alpha= 1的线性版本提供了适度的改进(modest improvement)。虽然我们仅提供选择3/4值的经验动机(empirical motivation),但有趣的是,发现类似的分数功率缩放(fractional power scaling)以提供最佳性能(best performance)。(Mikolov等,2013a)。
    在这里插入图片描述

    展开全文
  • X-VECTORS:稳健的DNN嵌入式,用于声纹识别 摘要   在本文中,我们使用数据增强来提高深层神经网络(DNN)嵌入对于说话人识别的性能。 DNN经过训练以区分说话者,将可变长度的话语映射到我们称为x向量的固定维度...

    X-VECTORS:稳健的DNN嵌入式,用于声纹识别

    摘要

     

    在本文中,我们使用数据增强来提高深层神经网络(DNN)嵌入对于说话人识别的性能。 DNN经过训练以区分说话者,将可变长度的话语映射到我们称为x向量的固定维度嵌入。之前的研究发现,嵌入比i向量更好地利用大规模训练数据集。但是,收集大量用于训练的标记数据可能具有挑战性。我们使用数据增加,包括增加的噪声和回报,作为一种廉价的方法来增加训练数据的数量并提高鲁棒性。将x向量与野外扬声器和NIST SRE 2016 Can-tonese上的i-vector基线进行比较。我们发现虽然增强在PLDA分类器中是有益的,但它在i向量提取器中没有帮助。然而,由于其受过监督的训练,x-vector DNN有效地利用了数据增加。因此,x向量在评估数据集上实现了卓越的性能。

    索引术语 - 说话人识别,深度神经网络,数据增强,x向量

     

    1.简介

     

    使用深度神经网络(DNN)来捕捉说话人特征是目前非常活跃的研究领域。 在我们的方法中,称为x向量的表示是从DNN中提取出来的,并且像i向量一样使用。 本文以我们最近的DNN嵌入式架构为基础[1]。 我们表明,通过噪声和混响人为地增加训练数据是提高DNN嵌入系统性能的一种非常有效的策略。

    大多数说话人识别系统都基于i向量[2]。 标准方法包括通用背景模型(UBM)和大投影矩阵T,它们以不受控制的方式学习以最大化数据可能性。 投影将来自UBM的高维统计数据映射到低维表示,称为i-vector。 概率线性判别分析(PLDA)[3]分类器用于比较i向量,并启用相同或不同的说话者决策[4,5,6]。

    在说话人识别中最常见的DNN被训练为自动语音识别(ASR)的声学模型,然后用于增强i-vector UBM中的语音建模:来自ASR DNN的后验替换来自高斯混合模型的后者( GMM)[7,8]或瓶颈特征从DNN中提取并与声学特征相结合[9]。 在任何一种情况下,如果ASR DNN接受域内数据训练,那么对传统声学i向量的改进是相当大的[10,11,12]。 然而,与传统的i向量相比,该方法引入了对转录训练数据的需求并且极大地增加了计算复杂性。

    或者,可以直接优化神经网络以区分扬声器。这有可能产生功能强大,紧凑的系统[13],只需要扬声器标签即可进行训练。在早期系统中,神经网络被训练为分离扬声器,并且从网络提取帧级表示并用作高斯说话者模型的特征[14,15,16]。 Heigold等人介绍了一个端到端的系统,对“OK Google”这个短语进行了培训,它共同学习嵌入以及相似度量来比较嵌入对[13]。 Snyder等人将这种方法应用于与文本无关的应用程序,并在网络中插入一个临时池池来处理可变长度的段[17]。 [1]中的工作将端到端方法分为两部分:用于生成嵌入的DNN和用于比较它们的单独训练的分类器。这有助于使用多年来为i向量开发的所有累积后端技术,例如长度归一化,PLDA评分和域自适应技术。

     

    DNN嵌入性能似乎随着训练数据量的增加而高度可扩展。 因此,这些系统已经成功利用大型专有数据集[13,17,18]。 然而,最近的系统已经显示出仅在公开可用的说话人识别语料库上训练的有希望的表现[1,19,20]。 该文章基于[1]中的工作,并将数据增强应用于DNN培训程序。 这增加了现有训练数据的数量和多样性,并实现了x矢量系统的显着改进。 与x向量相比,我们还提供了i向量系统中增强的研究。

     

    1. 声纹识别系统

    本节描述了为本研究开发的说话人识别系统,它由两个i向量基线和DNN x向量系统组成。 所有系统都是使用Kaldi语音识别工具包构建的[21]。

     

     

    2.1.Acoustic i-vector

     

    基于[11]中描述的GMM-UBM配方的传统i-vector系统用作我们的声学特征基线系统。 这些特征是20个MFCC,帧长为25ms,在最多3秒的滑动窗口上进行均值归一化。 附加增量和加速度以创建60维特征向量。 基于能量的语音活动检测(SAD)系统选择与语音帧相对应的特征。 UBM是2048组分的全协方差GMM。 系统使用600维i矢量提取器和PLDA进行评分(参见第2.4节)。

    2.2.Phonetic瓶颈i-vector

    这种i-vector系统结合了ASR DNN声学模型的语音瓶颈特征(BNF),类似于[9]。 DNN是具有p范数非线性的时滞声学模型。 ASR DNN在Fisher English语料库上进行训练,并使用与[11]第2.2节中描述的系统相同的配方和架构,不同之处在于倒数第二层被60维线性瓶颈层取代。 除了不需要计算BNF的softmax输出层,DNN有920万个参数。

    BNF与2.1节中描述的相同的20维MFCC连接,加上三角形,以创建100维特征。 系统的其余组件(特征处理,UBM,i矢量提取器和PLDA分类器)与2.1节中的声学系统相同。

    2.3 x-vector系统

    本节介绍x-vector系统。 它基于[1]中的DNN嵌入,并在那里进行了更详细的描述。

    我们的软件框架已在Kaldi工具包中提供。 一个示例配方位于Kaldi的主要分支https:

    //github.com/kaldi-asr/kaldi/tree/master/egs/ sre16 / v2和一个预训练的x-vector系统可以从http://kaldi-asr.org/models.html下载。 配方和模型类似于4.4节中描述的x向量系统。

    这些特征是24维滤波器组,帧长为25ms,在最多3秒的滑动窗口上进行均值归一化。 与基线系统中使用的相同的能量SAD过滤掉非语音帧。

    DNN配置在表1中列出。假设输入段具有T帧。 前五个层对语音帧进行操作,其中小的时间上下文以当前帧t为中心。 例如,帧frame3的输入是frame2的拼接输出,在帧t 3,t和t + 3.这建立在较早层的时间上下文之上,因此frame3看到15帧的总上下文。

    统计池图层聚合来自图层帧5的所有T帧级输出,并计算其均值和标准差。统计数据是1500维向量,为每个输入段计算一次。此过程在时间维度上聚合信息,以便后续层在整个段上运行。在表1中,这由0的层上下文和T的总上下文表示。平均值和标准偏差连接在一起并通过分段级层传播,最后传播到softmax输出层。非线性都是整流线性单元(ReLU)。

    DNN经过培训,可以对训练数据中的N个发言者进行分类。训练示例包括一大块语音特征(平均约3秒)和相应的扬声器标签。在训练之后,从层段6的仿射分量中提取嵌入。排除softmax输出层和segment7(因为在训练后不需要它们),总共有420万个参数。

    2.4.PLDA分类器

    相同类型的PLDA [3]分类器用于x向量和i向量系统。 表示(x向量或i向量)居中,并使用LDA进行投影。 LDA维度在SITW开发中针对i向量设置为200,对于x向量设置为150。 在降维后,表示被长度标准化并由PLDA建模。 使用自适应s-范数对分数进行归一化[22]。

    3.实验设置

     

    3.1。培训数据

    培训数据包括电话和麦克风语音,其中大部分是英语。所有宽带音频都被下采样到8kHz。

    SWBD部分由交换机2阶段1,2和3以及交换机蜂窝组成。总的来说,SWBD数据集包含来自2.6k扬声器的约28k录音。 SRE部分包括2004年至2010年的NIST SRE以及Mixer 6,并包含4.4k扬声器的约63k录音。在4.1-4.4节的实验中,提取器(UBM / T或嵌入DNN)在SWBD和SRE上进行训练,PLDA分类器仅在SRE上训练。数据增强在第3.3节中描述,并应用于第4节中解释的这些数据集。

    在4.5节的最后一个实验中,我们将来自新VoxCeleb数据集[19]的音频合并到提取器和PLDA训练列表中。该数据集由来自1,251名名人讲述者的视频组成。虽然SITW和VoxCeleb是独立收集的,但我们发现两个数据集之间有60个扬声器重叠。在将VoxCeleb用于培训之前,我们从VoxCeleb中移除了重叠的扬声器。这将数据集的大小减少到1,191个扬声器和大约20k的记录。

    在i-vector(BNF)系统中使用的ASR DNN在Fisher English语料库上进行了训练。为了实现有限形式的域适应,来自SITW和SRE16的开发数据被合并并用于居中和得分归一化。没有对这些列表应用扩充。

    3.2.Evaluation

    我们的评估包括两个不同的数据集:野外演讲者(SITW)核心[23]和NIST SRE 2016评估(SRE16)[24]的粤语部分。 SITW由不受约束的英语发音视频音频组成,具有自然发出的噪音,混响,以及设备和编解码器的可变性。 SRE16部分包括粤语会话电话语音。 插入和测试SITW话语的长度均在6-240秒之间变化。 对于SRE16,注册话语包含大约60秒的语音,而测试话语在10-60秒之间变化。

    我们以等误差率(EER)和标准化检测成本函数(DCF)的最小值报告结果,在PTarget = 10-2和PTarget = 10-3。 请注意,SRE16结果尚未“均衡[24]”。

    3.3。数据增强

    扩充增加了现有训练数据的数量和多样性。我们的策略采用添加剂噪音和反应。混响涉及将房间脉冲响应(RIR)与音频进行卷积。我们使用Ko等人描述的模拟RIR。在[25]中,混响本身是用Kaldi ASpIRE配方中的多条件训练工具进行的[21]。对于额外的噪音,我们使用MUSAN数据集,其中包含900多种噪音,42小时不同类型的音乐和12种语言的60小时演讲[26]。 MUSAN和RIR数据集均可从http://www.openslr.org免费获取。

    我们使用3倍增强功能,将原始的“干净”训练列表与两个增强副本相结合。为了增加录音,我们随机选择以下其中一项:

    bab呀声:从MUSAN语音中随机挑选三到七个扬声器,加在一起,然后加到原始信号(13-20dB SNR)。

    音乐:从MU-SAN中随机选择一个音乐文件,根据需要进行修剪或重复以匹配持续时间,并添加到原始信号(5-15dB SNR)。

    噪音:在整个录音过程中以1秒的间隔添加MUSAN噪音(0-15dB SNR)。

    混响:通过与模拟RIR的卷积人为地对训练记录进行混响。

    4.RESULTS

    主要结果见表2,并在第4.1-4.5节中引用。 我们比较了两个i-vector系统的性能,标记为i-vector(声学)和i-vector(BNF),与x-矢量系统。 这些系统分别在第2.1,2.2和2.3节中描述。 在以下各节中,我们使用术语提取器来指代UBM / T或嵌入DNN。

    4.1。原始系统

    在本节中,我们将评估没有数据扩充的系统。提取器在第3.1节中描述的SWBD和SRE数据集上进行训练。 PLDA分类器仅针对SRE数据集进行训练。在不使用增强的情况下,通过i-vector(BNF)获得SITW的最佳结果,其比DCF10-2的x-载体系统好12%。声学i-矢量系统也实现了比SITW上的x矢量系统略低的误码率。然而,即使没有增强,SRE16 Can-tonese的最佳结果也是通过x向量获得的。就DCF10-2而言,这些嵌入比i-vector系统好大约14%。我们观察到i-vector(BNF)对于这个粤语演讲没有优于i-vector(acous-tic)的优势。这与最近的研究相呼应,这些研究发现BNF在英语演讲中获得的巨大收益不一定可以转换为非英语数据[27]。

     

    4.2.PLDA增强

    在本实验中,增强策略在Section中描述

    3.3仅适用于PLDA培训列表。我们使用与上一节相同的提取器,这些提取器在原始数据集上进行了训练。相对于4.1节,PLDA增强导致所有三个系统的明显改善。然而,似乎x-载体可能比PLDA增加更多地受益于基线系统。在SITW上,x向量系统实现了比i向量(声学)稍低的错误率,但在大多数操作点处仍然落后于i向量(BNF)。在SRE16上,x向量在DCF10-2中比i向量保持约14%的优势。

    4.3。提取器增强

    我们现在将数据扩充应用于提取器(UBM / T或嵌入式DNN)训练列表,但不应用于PLDA列表。 增强UBM / T的效果在i-vector系统中是不一致的。 先前对i载体的研究支持了这一观察结果,研究发现增强仅在PLDA分类器中有效[28,29]。 另一方面,增加嵌入DNN训练列表会带来很大的改进。 与i-vector系统相比,这比增加PLDA训练列表更有效。 在SITW上,x向量系统实现了比i向量(声学)更低的错误率,现在已经赶上了i-vector(BNF)系统。 在SRE16上,x向量现在比DCF10-2中的i向量好25%,这几乎是单独使用PLDA增强时DNN嵌入的改进的两倍。 本节的研究结果表明,数据增加仅对受过监督培训的提取者有益。

    4.4.PLDA和提取器

    在前面的章节中,我们看到PLDA增强在i-vector和DNN嵌入系统中都是有帮助的,尽管提取器增强在嵌入系统中显然是有益的。 在本实验中,我们将数据增强应用于提取器和PLDA训练列表。 我们继续使用SWBD和SRE进行提取器培训,仅使用SRE进行PLDA。 在SITW上,x矢量现在比i-vector(声学)好10-25%,并且在所有操作点都比i-vector(BNF)略好。 在SRE16粤语中,x向量继续保持在第4.3节中建立的i向量系统的巨大领先优势。

    第4.1-4.4节中的训练数据以电话语音为主。 在本实验中,我们将探讨在4.4节中向系统添加大量麦克风语音的效果。 VoxCeleb数据集[19]被扩充,并添加到提取器和PLDA列表中。 如第3.1节所述,我们发现60个发言者与SITW重叠; 这些发言者的所有发言都从培训名单中删除。

    在SITW上,i-vector和x-vector系统都有显着改善。 然而,x向量比i向量系统更好地利用了域内数据量的大量增加。 与i-vector(声学)相比,X矢量在EER中更好44%,在DCF10-2中更好29%。 与i-vector(BNF)系统相比,它现在在EER中更好32%,在DCF10-2中更好17%。 在SRE16上,与第4.4节相比,i向量系统保持大致相同,但x向量在所有操作点上都有少量改进。这些结果通过图1和2中的检测误差权衡(DET)图来说明。

     

    5.结论

    本文研究了DNN嵌入用于说话人识别。我们发现数据增加是一种易于实施且有效的策略,可以提高其性能。我们还在Kaldi工具包中提供了x-vector系统 - 我们的DNN嵌入实现。我们发现x-vector系统在SRE16广东话上显着优于两个标准的i-vector基线。在包含大量增强麦克风语音之后,x向量实现了比我们在Wild中的扬声器上的最佳基线低得多的错误率。 ASR DNN的瓶颈功能用于我们最好的i-vector系统,因此在训练期间需要转录数据。另一方面,x向量DNN仅需要扬声器标签来训练,使其成为具有很少转录语音的域的理想选择。更一般地说,似乎x向量现在是用于说话者识别的下一代表示的有力竞争者。

     

    展开全文
  • 最近在学习视频编解码相关的目标跟踪知识,看到了这一篇论文,并对其进行全部翻译,深有所感,希望能对大家有用。 I.Introduction——引言 全景变焦(PTZ)摄像机的自主控制是一个有趣的研究领域,具有许多应用,...

    最近在学习视频编解码相关的目标跟踪知识,看到了这一篇论文,并对其进行全部翻译,深有所感,希望能对大家有用。

    I.Introduction——引言

           全景变焦(PTZ)摄像机的自主控制是一个有趣的研究领域,具有许多应用,例如录制演讲,研讨会,体育赛事现场直播,视频监控等。该项目在这方面的工作是初步的。这项工作针对的是录制现场演讲的更为简单的场景,即对象受限制的运动.PTZcamera可以实时录制对象并由h.264编码器实时生成编码的比特流。传统的面部识别算法可用于跟踪对象,但在某些情况下会失败,例如对象背对着摄像机或背景中的海报。此项目的目的是通过简单地使用位中可用的运动矢量来帮助传统的面部识别算法提高其准确性。我们提出了一种算法来跟踪每帧中运动的多个对象。假设记录演讲的场景,该主题就是演讲者的脸。从某种意义上说,该算法是通用的,可以很容易地扩展到先前建议的其他应用程序。

           在第二部分中,我们概述了成功的视频编码标准之一MPEG-2。在第三节中,我们概述了H.264。在本节中,我们主要介绍H.264建议的基于MPEG-2的改进,以及它们如何有助于提高压缩效率。在第四节中,我们描述了使用运动矢量进行面部跟踪的算法,并使用一些样本帧演示了其工作原理。在第五节中,我们通过建议针对本技术的其他应用程序来总结。


    II.Overview of MPEG-2——MPEG-2的概述

           视频本质上是以恒定帧速率捕获的一系列图片。视频压缩是一种利用空间和时间冗余来最小化存储视频所需位数的方法。压缩可以是有损的或无损的,其中在实践中更优选前者。已经提出了几种视频压缩标准,包括MPEG-2,H.264,HEVC等。

           让我们首先了解视频的每个组成部分。视频由一系列图片组成。固定数量的图片被分组在一起,称为图片组(GOP)。图片中的每个16x16像素段都构成MPEG的基本编码单元。该单元称为“宏块”。连续的一组宏块称为“切片”。切片对于解码器处理错误很有用。如果出现错误,解码器会跳过当前片段并跳至下一个片段以继续进行解码。"块''由8X8像素组成,是最小的编码单位。它可以是亮度(Y)或色度(Cr,Cb)块。根据YUV格式的类型,每个宏块都有不同数量的块。例如4:2:0每个宏块有4个亮度块和2个色度块。

           MPEG-2标准定义了帧内(I),预测(P)和双向(B)三种类型的图像。I图片仅使用该图片中的信息进行编码。通过将最近的(正向)I或P图片作为参考图片对P图片进行编码.P图片使用运动补偿,因此可提供更高的压缩效率。B图片同时使用前向和后向预测,因此具有最高的压缩效率。每个GOP都包含准确的I图片。B和P图片的数量是一种设计选择,这会带来多种后果。

    图1   视频序列组成的层次结构

           例如,M = 3,N = 12给出了GOP结构IBBPBBPBBPBB。M是两个锚图像(I或P)之间的距离,N是两个I图像之间的距离。具有更多的B图片会增加对视频进行编码的时间,同时还会提高压缩效率。N较大会降低随机访问视频的能力(I图片提供随机访问点)。需要注意的重要一点是,帧的显示顺序与视频中存储的顺序不同。

           帧内编码不涉及运动补偿。它依靠空间冗余来实现良好的压缩效率。基本压缩范例由以下框图描述。MPEG-2在每个8X8块上使用离散余弦变换(DCT)。根据预定义的量化矩阵对所得的系数进行量化,该预定义的量化矩阵为每个频率系数设置量化参数。较高的频率比较低的频率更粗糙,因为人类对高频的敏感度较低。可变长度码用于压缩这些量化的DCT系数。游程编码,然后是霍夫曼编码是最常见的选择。进行之字形扫描以生成零的长时间运行,因此减少了表示每个DCT系数的位。

    图2   基本变换编码范例

           使用参考图片(I或P)对P图片进行编码。大部分压缩归因于时间冗余。根据参考图片预测P图片中的每个16x16宏块,并由运动矢量(mv_{x},mv_{y})表示。这意味着当前宏块的16x16块在失真方面是最接近的匹配,这是主题平方误差(MSE)计算。穷举搜索受search_width限制,search_height用于计算运动矢量。H.264中提供了更高级的搜索算法。原始宏块与预测宏块之间的差异是呼叫预测误差,然后使用DCT量化熵编码进行编码,类似于帧内编码。

           双向预测会略有不同,因为每个宏块都可以使用前向预测或后向预测,或同时使用两者。当两者都使用时,它取过去和将来预测的宏块的平均值。诸如速率控制[7]和自适应量化之类的高级概念需要深入研究,这超出了该项目的目标。


    III.Overview of H.264

           在本节中,我们将研究H.264在MPEG-2上的主要改进。从广义上讲,在变换编码,熵编码,运动补偿和配置文件方面进行了改进。

           选择8X8以上的DCT作为变换工具,以进行帧内编码和运动预测误差编码。尽管DCT具有非常接近KKT的优势,并且具有快速实现算法(FFT)[5],但它具有一些不良的特性。DCT将整数值图像转换为需要浮点运算的实值系数。因此,在H.264中引入了一个新的整数变换,它可以在4x4的块上运行[3] [4]。这不需要浮点运算,并且可以在解码器处进行精确的重构。

           H.264帧内编码的另一个改进是它具有9个方向用于空间预测[4]。H.264使用两种熵编码模式:上下文自适应可变长度编码(CAVLC)和上下文自适应二进制算术编码(CABAC)。CAVLC与MPEG-2非常相似,只是在可用的4个VLC表中,根据相邻块的统计信息,选择一个。另一方面,CABAC实现了显着的压缩效率,并且具有很高的计算复杂度[3]。自适应算术代码随输入的变化而变化。还可以将非整数位数分配给符号,从而自适应地最小化位速率。

    图3  H.264中可用的九种空间预测模式


           运动补偿方面的改进可以概括为以下几个方面:

    • 宏块分区类型数量增加

           允许选择不同的宏块分区大小可提高压缩效率。对于单调的背景,没有分区的16x16宏块,对于更详细的前景4x4分区,对于相同数量的位,可以将失真降至最低。H.264提供大小为8x8、16x8、8x16和16x16luma样本的宏块分区,以及其他大小为8x8、8x4、4x8或4×4 luma样本的子宏块分区。

    • 多画面预测

           H.264最多允许将15张图片用作预测的参考图片[3]。这在类似于场景切换的情况下特别有用。

    • 运动矢量的四分之一像素分辨率

           四分之一像素分辨率提供了比MPEG-2 [4]中使用的半像素分辨率更好的PSNR。四分之一像素内插运动补偿分两个阶段实现:1)由6抽头滤波器生成的半像素预测,然后,2)与相邻像素进行线性平均。

    • 去块滤波

           基于块的帧内编码和运动估计通常会导致“块状伪像” [4]。因此H.264定义了自适应环路内去块滤波。有关详细研究,请参阅[6]。


           MPEG-2定义了6个配置文件(简单,主要,4:2:2配置文件,SNR,空间和高)和4个级别(高,高1440,主要和低)。配置文件给出了所使用的编码工具的类型(B图片,熵编码类型)。级别给出了编码参数的范围(比特率,分辨率)。H.264定义了三个配置文件,Baseline,Main和Extended,可以根据不同的应用进行选择。

           运动估计极大地提高了任何视频压缩标准的编码复杂度。以下是可用的各种搜索算法的子集[2]:

    • Full search——全搜索

           对\pm W搜索范围内的所有宏块进行搜索,使预测误差最小化。误差的标准可以是绝对差之和(SAD)或平方差之和(SSD)。如果我们有N个参考图片和M个块类型,则总共有搜索候选M\ast N\ast (2W+1)^{2}。该算法计算量大,研究了以下几种搜索算法以降低其复杂度。

    • Fast Full Search (FFS) (default)——快速完全搜索(FFS)(默认)

           根据连续消除算法(SEA)得出SAD的下限如下:

           SEA的计算比SAD容易得多,并且可并行化。如果SEA大于当前的最小值,我们可以跳过该块并继续进行下一个。也可以使用每个4x4块的SEA来计算较大块的SEA。因此,从本质上讲,我们拥有一种具有较低复杂度的FFS算法,而不会降低性能。

    • Simplified Hexagon Search——简化的六边形搜索

           与菱形搜索类似,它具有半径2的大六边形图案和半径1的小六边形图案。计算所有点的失真。如果中心点失真最小,则对较小的六边形图案重复此过程。否则,将大六角形图案的中心移到失真最小的点,然后继续。

    • Enhanced Predictive Zonal Search (EPZS)——增强型预测性区域搜索(EPZS)

           与许多预测算法类似,EPZS具有三个主要步骤[1]。

    1. 预测器选择:这是任何预测算法中最重要的步骤。其准确性直接影响该算法的性能和计算复杂度。最常用的一组预测变量是“中位数预测变量”,三个空间相邻的MV(左,上和右上)以及参考帧中并置的MV。不必像提前终止步骤中所述那样考虑每个预测变量。

    2. 自适应提前终止:基于三个相邻块,并置的块以及预定的a_{k}b_{k}的SAD选择阈值T_{k},如下所示:T_{k}=a_{k}\ast min\left \{ MSAD_{1}, MSAD_{2}, ..., MSAD_{n} \right \}+b_{k}如果所选集合中的任何预测变量的SAD小于阈值,我们可以停止搜索并将该预测变量选择为运动矢量。否则,我们将继续执行第3步,以优化我们的最佳预测指标。

    3. 预测细化:如果不符合提前终止标准,则通过使用步骤1中定义的最佳预测器中心附近的Diamond / Hexagonal搜索进一步           完善运动估计。


    IV.Algorithm for Facial Recognition——人脸识别算法

           我们针对的主要应用是PTZcamera录制实时说话的人,并实时跟踪其面部。因此,这里固有的假设是,任何帧中的大部分运动都是由面部贡献的,而前景或背景中没有其他运动。

           我们使用编码比特流中可用的宏块每个分区的运动矢量信息来识别运动面部。这样做的简单方法是识别特定帧中的所有非零运动矢量。如果我们的假设是正确的,那就是只有脸部在任何帧中移动,那么我们已经成功地识别出它。但是在视频序列中通常会观察到两个偏差。

    • 首先,帧中可能存在杂散运动,这意味着尽管帧的该部分没有明显的运动,但是某些宏块可能具有非零运动矢量。
    • 其次,框架的其他部分可能具有比面部更多的运动,例如手,腿等。

           因此,我们提出了一种算法来处理这两种冲突并以合理的准确度识别被摄对象的面部,算法如下:


    I.  我们创建一个哈希表,以便其范数在指定范围内的4x4子宏块分区将属于同一存储桶。这表示帧中运动的直方图。

    II.  接下来,我们确定4x4子宏块分区具有最高(N_{1})和第二高(N_{2})数量的存储桶。如果N_{1} - N_{2} < 15 \ast \frac{N_{1}}{100}并且第二高的存储桶的范数小于最高的存储桶的范数,则选择第二高的存储桶的较低范数值作为阈值。否则,我们选择最高存储桶的较低标准值。

    III.  从每个4x4块的运动矢量中,我们确定16x16宏块是如何划分的。这是通过为宏块定义一个森林来完成的,其中每个4x4块都是一个节点,并且如果相邻(空间)节点具有相同的运动矢量,则它们之间存在一条边。通过在该森林的每个断开连接的图上运行广度优先搜索(BFS)算法,我们得到每个宏块分区的左上角像素和右下角像素。

    图4  在每个4x4块上使用BFS识别宏块分区

    IV.  我们将两个宏块分区之间的连接定义为至少有一个像素重叠。然后,我们对超过上一步计算的阈值的所有分区运行强连接组件算法,这将导致多个不相交的分区组,其中每个组具有空间连接的分区(至少一个像素)。此类最大的组代表框架中具有运动的主要对象,我们围绕该对象绘制一个框。


           在编码的比特流中,我们具有每个帧的每个宏块的每个4x4块的运动矢量。如第三节所述,每个宏块可以划分为几种类型。挑战之一是确定分区的类型,这在我们算法的步骤III中进行了处理。步骤I,II计算运动矢量范数的动态阈值。步骤III使用BFS识别大于阈值的宏块分区。步骤IV标识连接的运动大于步骤II中阈值的最大分区组。

           为了了解该算法如何最小化上述两个偏差,我们首先分析步骤II。实施静态阈值是不可行的,因为运动矢量的范数的大小随帧而变化。因此选择动态阈值,以使同一存储桶中的大量分区必须属于我们感兴趣的对象(面部)。但是由于我们使用的是固定的哈希表,因此可能会在两个不同的存储桶之间划分分区。因此检查15%,这可以最大程度地减少框架中的杂散运动。

    图5  在样本帧中的所有宏块分区,GREATERTHAN动态阈值。

           我们如何处理在同一帧中移动的多个对象?我们迭代算法仅在面部是突出对象(占据帧的重要部分)时才起作用。如果两个宏块分区之间至少有一个公共像素,我们定义它们之间存在边/连接。这将生成分区森林。通过在该目录林上运行最强连接组件算法版本,我们可以获得断开连接的分区集。最大的此类集合代表运动中大于动态阈值的帧中的“突出对象”。

    图6  运行SCC后,同一样本帧上的每个分区集合都用红色边框标记

    图7  在最大的一组分区周围绘制大方框的结果


    V.Future Work——未来的工作

           在此项目中,我们概述了MPEG-2和H.264视频压缩标准。然后,我们在对对象进行实时视频录制的情况下分析了面部识别的特定问题。我们提出了一种算法,该算法考虑了一般视频序列的非理想性,这些序列在帧中具有杂散运动和多个运动。该算法可以很容易地扩展到跟踪多个对象运动的更复杂的情况。

           如前所述,该算法主要用于补充传统面部识别算法的性能。需要做进一步的工作来创建这样的混合方案。我们算法的另一个有趣的应用领域是自主直播体育报道。这是一个特别具有挑战性的任务,因为每个帧中都有很多运动,并且很难将目标对象的运动与所有其他运动分开。视频监控也是另一个有趣的应用。要注意的是,这些应用程序均不需要对所提出的算法进行任何根本性改变,而仅需对阈值和要跟踪的对象数量进行一些改进。将这项工作扩展到HEVC编码的比特流是未来研究的另一条途径。图7:在最大的分区集周围绘制大方框的结果。

    VI.References——参考文献

    [1] A.M.Tourapis, "Enhanced Predictive Zonal Search for Single and Multiple Frame Motion Estimation”,in proceedings of Visual Communications and Image Processing 2002 (VCIP-2002), pp. 1069-79, San Jose, CA, Jan’02.

    [2] Liyin,Xie, Su Xiuqin, and Zhang Shun,"A review of motion estimation algorithms for video compression”.Computer Application and System Modeling (ICCASM), 2010 International Conference on.Vol. 2.IEEE, 2010.

    [3] Michael Igarta,“Astudy of MPEG-2 and H.264 video coding”,MS. Thesis,Purdue University,U.S.A, (2004).

    [4] Wiegand, Thomas, et al. "Overview of the H. 264/AVC video coding standard". Circuits and Systems for Video Technology, IEEE Transactions on13.7 (2003): 560-576.

    [5] E. Feigand S. Winograd, "Fast algorithms for the discrete cosine transform", IEEE Trans. Signal Process., Vol. 40, September 1992.

    [6] P. List, A. Joch, J. Lainema, G. Bjøntegaard, and M. Karczewicz, “Adaptivedeblocking filter,” IEEE Trans. Circuits Syst. Video Technol., vol.13, pp. 614–619, July 2003.

    [7] Westerink, Peter H., Rajesh Rajagopalan, and Cesar A. Gonzales. "Two-pass MPEG-2 variable-bit-rate encoding."IBM Journal of Research and Development43.4 (1999): 471-488.

     

    展开全文
  • 《Fast loop-closure detection using visual-word-vectors from image sequences》翻译及分析笔记Abstract1.Inroduction2.From image to sequence description2.1. Single-image-based visual place recognition2.2...
  • 前一篇已经翻译过termvectors的使用方法了,这对于学习如何使用tf-idf来说是很有帮助的了。 更多内容参考我整理的ELK教程 什么是TF-IDF? 今天早晨起来,看《ES IN ACTION》的时候,遇到了这个术语,看英文实在不...
  • 在Elasticsearch中查询Term Vectors词条向量信息 这篇文章有点深度,可能需要一些Lucene或者全文检索的背景。...额,对于这个专业词汇,暂且就叫做词条向量吧,因为实在想不出什么标准的翻译。说的...
  • 来自吴恩达深度学习系列视频:序列模型第二周作业1:Operations on word vectors。如果英文对你来说有困难,可以参照:【中文】【吴恩达课后编程作业】Course 5 - 序列模型 - 第二周作业 - 词向量的运算与Emoji生成...
  • 翻译: CS224n: Natural Language Processing with Deep Learning Lecture Notes: Part II Word Vectors II: GloVe, Evaluation and Training 这套注释首先介绍了用于训练单词向量的GloVe模型。然后,通过查看如何对...
  • 1、课程介绍 了解有效的现代深度学习方法 - 首先回顾一些基础知识,...- 单词的意思,依赖解释(dependency parsing),机器翻译,问题回答 2、人类语言和词义 2.1 我们怎样表达一个词的意思? 定义:meaning(...
  • NLP的应用无处不在,因为人们几乎用语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻译、医疗报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用了不需要传统的、任务特定的特征...
  • 资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=1(中英文字母版,不过可能由于up主不了解专业术语,许多专业术语翻译的不是很好,不过也要感谢up的辛苦劳作了~) (2019的感觉相对于之前的少了许多...
  • 本人也是刚入门,有些地方因为不是很理解翻译的不好,希望大家积极指正!!! 一、word2vec的复习 迭代语料库中的每个单词 使用词向量预测周围的单词 向量是行向量的形式。U*v4是外围词向量和中心词向量的乘积...
  • 香侬科技近期提出 Glyce,首次在深度学习的框架下使用中文字形信息(Glyph),横扫 13 项中文自然...(7) 语义决策标注 (8) 语义相似度 (9) 意图识别 (10) 情感分析 (11) 机器翻译 (12) 文本分类 (13) 篇章分析。 ...
  • 本文是2019斯坦福公开课CS224N课程的个人学习笔记,对视频中教授讲授的知识进行了整理和翻译,并且加入自己的一些理解。
  • Co-whitening of i-vectors for short and long duration speaker verification论文翻译 用于短期和长期说话者验证的i向量的共同白化 摘要   I-vector是语音话语的固定长度和低等级表示。它已广泛用于与文本...
  • 本文翻译自作者在medium发布的一篇推文,这里是原文链接本文是 Word Embedding 系列的第一篇。本文适合中级以上的读者或者训练过word2vec/doc2vec/Paragraph Vectors的读者阅读,但别担心,我将在接下来的推文中介绍...
  • NLP的应用无处不在,因为人们几乎用语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻译、医疗报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用了不需要传统的、任务特定的特征...
  • 1请抄写抽到论文的题目,并用中文翻译论文题目和关键词。(10分) Preference-inspired co-evolutionary algorithms using weight vectors 使用权重向量的偏好启发式协同进化算法 进化算法,多目标优化,多目标,协同...
  • — 每天翻译一篇教程,这就是我写给houdini的情书。【首发于同名公众号:“致houdini的情书”】 【】█ “世外桃源 ” 前言不搭后语:不可能图形(impossible figure又称undecidable figure或impossible ...
  • 翻译文章第六章4-7

    2017-05-30 17:12:00
    Visualizing an SVM fit 格式化SVM To visualize the built model, one can first use the plot function to generate a scatter plot of data input and the ... In this plot, support vectors and classes ar...
  • 《Convolutional Neural Networks for Sentence Classification》——2014年 《基于CNN的句子级别的文本分类》Abstract 摘要1 Introduction 引言2 Model 模型2.1 Regularization 正则化3 ...trained Word Vectors 预训
  • 2 To train your own GloVe vectors, first you'll need to prepare your corpus as a single text file with all words separated by a single space. If your corpus has multiple docume...
  • 1.词向量转换(Transforming word vectors) 1.1 基本原理 概述:先得到源语言和目标语言的词向量,再通过变换矩阵R将源语言的词向量转换成目标语言的词向量,距离转换后词向量最近的词向量即为最可能的翻译结果 ...

空空如也

空空如也

1 2 3 4
收藏数 73
精华内容 29
关键字:

vectors翻译