精华内容
下载资源
问答
  • 研究人员开发了许多统计方法和基于语言规则的方法来研究自动摘要(Banko et al., 2000;Dorr等,2003;Zajic等,2004;科恩和拉帕塔,2008)。随着神经网络在NLP中的发展,越来越多的研究出现在生成式摘要中,神经网络...

    搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多AI干货

    csdn:https://blog.csdn.net/abcgkj

    github:https://github.com/aimi-cn/AILearners


    Global Encoding for Abstractive Summarization

    source:ACL(2018)

    author:Junyang Lin, Xu Sun, Shuming Ma, Qi Su

    MOE Key Lab of Computational Linguistics, School of EECS, Peking University,School of Foreign Languages, Peking University


    Abstract

    • 提出问题:在神经网络的生成式摘要中,传统的seq2seq模型往往存在重复和语义无关的问题。
    • 解决问题:为了解决这一问题,我们提出了一个全局编码框架,它根据源上下文的全局信息控制从编码器到解码器的信息流。它由一个卷积门控单元组成,用于执行全局编码以改进源端信息的表示。
    • 评估(优点):对LCSTS和英语Gigaword的评估都表明,我们的模型优于基准模型,分析表明,我们的模型能够生成更高质量的摘要,减少重复

    1 introduction


    • 介绍了生成式摘要的一些已有模型:

      • Encoder : 主要是RNN,通常为LSTM和GRU
      • Decoder: 通常也为RNN(但也有CNN)
      • attention mechanical:添加注意力或者全局注意力在相关源侧信息上
    • 并举例提出了主要问题
      在这里插入图片描述
      在这里插入图片描述

    2 Global Encoding(proposed model)

    我们的模型是建立在seq2seq模型的基础上的。对于编码器,我们设置了一个卷积门控单元( convolutional gated unit)用于全局编码。全局编码以RNN编码器的输出为基础,利用CNN对源上下文的表示进行细化,以改善单词表示与全局上下文的连接。下面将详细介绍这些技术。
    本文的主要创新点:
    在这里插入图片描述

    2.1 Atention-based seq2seq

    RNN编码器依次从源文本接收每个单词的词向量。包含整个源文本信息的最终隐藏状态成为解码器的初始隐藏状态。这里我们的编码器是一个双向LSTM编码器,其中编码器在每个时间步长从两个方向输出
    在这里插入图片描述

    我们实现了一个单向的LSTM解码器来读取输入的单词并逐词生成摘要,并读取在一个高维空间Y的固定目标词汇表向量。

    2.2 Concolutional Gated Unit

    生成式摘要要求在每个编码时间步骤中都有核心信息。为了达到这个目标,我们在每个时间步长编码器输出的顶部设置了一个门控单元,这是一个CNN它对所有编码器输出进行卷积。卷积核的参数共享使模型能够提取特定类型的特征,特别是n-gram特征。与图像相似,语言也包含局部相关,如短语结构的内部相关。卷积单元可以提取句子中的这些共同特征,并指出源注释之间的相关性。

    2.3 Training


    给定参数θ和source text x,模型生成的摘要为y^~。学习过程是将生成的summary y^~与reference y之间的负对数可能性最小化
    在这里插入图片描述
    其中,损失函数等价于最大化给定参数和源序列x的汇总y的条件概率。

    3 Experiment Setup

    下面,我们将介绍在其上进行实验的数据集、实验设置以及与之进行比较的基线模型。

    3.1 Datasets

    • LCSTS是中国著名社交媒体网站新浪微博(胡et al., 2015)上收集的大型中文短文本摘要数据集,包含240多万对文本摘要对。原始文本短于140个汉字,摘要是手动创建的。我们按照之前的研究(胡et al., 2015)对训练、验证和测试的数据集进行分割,其中训练语句对240万对,验证语句对8K,测试语句对0.7K。
    • 英语的Gigaword是一个基于带注释的Gigaword (Napoles et al., 2012)的句子摘要数据集,是由句子对组成的数据集,其中句子对是所收集的新闻文章的第一句话和相应的标题。我们使用Rush等人(2015)预处理的380万对句子对进行训练,8K进行验证,2K进行测试。

    3.2 Experiment Settings

    • 实验设置:在PyTorch用NVIDIA 1080Ti GPU
    • 词嵌入维数和隐藏单元数均为512。
    • 在两个实验中,batchsize=64batch size=64
    • 使用Adaam optimizer(Kingma and Ba,2014) with the default setting
      α=0.001,β1=0.9,β2=0.999,ϵ=1108\alpha=0.001,\beta_1=0.9,\beta_2=0.999,\epsilon=1*10^{-8}
    • 学习率每隔一段时间就减半(The learning rate is halved every epoch.)
    • (Gradient clippingis applied with range [-10, 10])
    • 评估:ROUGE score:计算生成的摘要和参考之间的重叠程度,including the number
      of n-grams. F1 scores of ROUGE-1, ROUGE-2 and ROUGE-L are used as the evaluation metrics.

    3.3 Baseline models

    当我们将我们的结果与原始论文中报告的基线模型的结果进行比较时,两个数据集上的评估有不同的基线。下面,我们将分别介绍LCSTS和Gigaword的基线。

    下面介绍LCSTS的基线。RNN和RNN-context是基于RNN的seq2seq模型(胡et al., 2015),分别没有注意机制和有注意机制。Copy- Net是基于注意力的seq2seq模型,具有复制机制(Gu et al.,2016)。SRB是一种改进源文本和摘要之间语义关联的模型(Ma et al., 2017)。DRGD是传统的seq2seq,带有一个深度循环生成解码器(Li et al., 2017)。
    在这里插入图片描述

    至于Gigaword的基线,ABS和ABS+是具有local attention和handcrafted的模型(Rush et al., 2015)。Feats是一个完整的RNN seq2seq模型,具有一些特定的方法来控制词汇量。RASLSTM和RAS-Elman分别是带有卷积编码器和LSTM解码器以及Elman RNN解码器的seq2seq模型。SEASS是一个带有选择gate机制的seq2seq模型。DRGD也是Gigaword的基准。
    在这里插入图片描述
    我们在两个数据集上实现传统seq2seq模型的结果也用于评估我们所提议的卷积门控单元(CGU)的改进。

    4 Analysis

    在这里插入图片描述

    5 Related work

    研究人员开发了许多统计方法和基于语言规则的方法来研究自动摘要(Banko et al., 2000;Dorr等,2003;Zajic等,2004;科恩和拉帕塔,2008)。随着神经网络在NLP中的发展,越来越多的研究出现在生成式摘要中,神经网络似乎可以帮助实现这两个目标。Rush等人(2015)首次应用seq2seq+attention的序列模型进行生成式摘要,实现了显著的成果。Chopra et al.(2016)使用RNN解码器改变ABS模型,Nallapati et al.(2016)将系统改为全RNN序列到序列模型,取得了优异的性能。Zhou等(2017)提出了一种selective gate mechanism to filter secondary information。Li等(2017)提出了一种deep recurrent generative decoder to learn latent structure information。Ma等人(2018)提出了一种generates words by querying word embeddings的模型。

    6 Conclusion

    • 本文提出了一种新的生成式摘要模型。卷积门控单元对源端信息进行全局编码,保留核心信息,过滤次要信息。
    • 在LCSTS和Gigaword上的实验表明,我们的模型性能优于基准模型,分析表明,与传统的seq2seq模型相比,该模型能够
      • 减少生成摘要的重复
      • 并且对不同长度的输入具有更强的鲁棒性

    相关链接

    1.Global Encoding for Abstractive Summarization
    2.Global Encoding for Abstractive Summarization论文海报
    3.本文代码
    4.Global Encoding for Abstractive Summarization 论文代码复现1——生成式文本摘要
    5.Global Encoding for Abstractive Summarization 论文代码复现2——生成式文本摘要

    展开全文
  • seq2seq模型在2014年提出,第一篇论文是将seq2seq模型应用在abstractive summarization任务上比较早期的论文, 本篇文章为seq2seq+attention的开山之作 。同组的人还发表了第二篇(NAACL2016),在这篇的基础上做了...

    搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多AI干货

    csdn:https://blog.csdn.net/abcgkj

    github:https://github.com/aimi-cn/AILearners


    • A Neural Attention Model for Abstractive Sentence Summarization
    • Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

    两篇文章都出自于Harvard NLP组,是姊妹篇,故放在一起阅读。seq2seq模型在2014年提出,第一篇论文是将seq2seq模型应用在abstractive summarization任务上比较早期的论文,本篇文章为seq2seq+attention的开山之作。同组的人还发表了第二篇(NAACL2016),在这篇的基础上做了更多的改进,效果也更好。这两篇都是在abstractive summarization任务上使用seq2seq模型的经典的baseline


    Abstract

    简介研究任务与挑战、解决思路与方法、实验效果与结论。


    Paper 1


    • 提出了一个fully data-driven的方法来生成句子摘要。我们的方法使用了一个基于局部注意的模型,在给定输入句子的情况下,生成摘要的每个词。模型结构非常简单,可以套用流行的end2end框架来训练,并且很容易扩展到大型训练数据集上。
    • 模型在DUC-2004任务中效果优于几个不错的baselines。

    Paper 2


    本文使用一种conditional RNN来生成摘要,该条件由一种新颖的基于卷积注意的编码器提供(convolutional attention-based encoder),用来确保每一步生成词的时候都可以聚焦到合适的输入上。模型仅仅依赖于学习到的features,并且很容易在大规模数据上进行end2end式地训练,并且在Gigaword语料上和DUC-2004任务中取得了更好的效果。

    两篇paper的模型框架都是seq2seq+attention,最大的区别在于选择encoder和decoder的模型,第一篇的模型偏容易一些,第二篇用了rnn来做。seq2seq或者说end2end现在火的不得了,最初在机器翻译开始使用,后面推广到多模态学习,对话生成,自动问答,文本摘要等等诸多领域。

    Introduction

    本文属于headlines generation,输入的是一段话,输出的是一句话或者一个标题。


    Paper 1


    受最近机器翻译中seq2seq技术的启发,本文将Neural Language Model和带有上下文的encoder结合起来,其中encoder与Bahdanau(Neural machine translation by jointly learning to align and translate)的attention-based encoder一样。该attention是为了学习输入文本的latent soft alignment,以此来帮助生成摘要。encoder和decoder在句子摘要任务中共同训练。另外,decoder中也使用了beam search进行摘要生成。本文的方法简称ABS(Attention-Based Summarization),可以轻易扩展到大规模数据集进行训练,而且可以在任何document-summary对中进行使用。本文采用Gigaword语料集进行训练,包括大约400万篇新闻文章。为了检验模型的效果,与多种类型的文摘系统进行了对比,并且在DUC-2004任务上获得了最高分。

    Paper 2


    本文的模型有一个条件RNN组成,decoder很像是一个RNN Language model,decoder生成摘要依赖的条件输入是encoder的输出,根据RNN的当前状态,encoder会计算输入句子中每个词的分数,这个分数可以理解为对输入作软对齐(soft alignment),也就是说decoder在生成下一个单词时需要注意输入中的哪些单词。
    encoder和decoder要在一个sentence-summary数据集中进行共同训练。本文的模型可以看作第一篇ABS模型的扩展,ABS模型中decoder是用FNN LM,而本文使用RNN,encoder部分本文更加复杂,将输入单词的位置信息考虑在内,并且本篇的encoder使用了卷积网络来编码输入单词。本文模型效果优于第一篇paper。

    两篇paper都是seq2seq在sentence-level abstractive summarization任务中早期的尝试,给文本摘要方法带来了新鲜血液,第一篇paper中encoder和decoder都用了比较简单的模型,但已经得到了优于传统方法的结果,再一次地证明了deep learning在解决问题上的优势,第二篇paper升级了encoder和decoder,考虑了更复杂的细节,得到了更好的效果,相信后面会有大量的paper套用seq2seq+attention,再配合一些其他的技术来提升模型的效果,但整体的思路基本已固定下来,如果想要更大的突破,可能还需要提出另外一种框架来解决问题。

    Related work

    seq2seq的意义在于完全基于数据本身,从数据中学习feature出来,并且得到了更好的效果。本文的方法比较简单,decoder也只用了FNNLM(2003年由Bengio提出),而seq2seq在机器翻译中应用时都采用的是RNNLM,所以在Future Work中作者会用RNNLM,于是就有了第二篇paper。


    Background

    本节是用数学语言定义句子摘要问题,两篇文章解决的问题相同。给定一个输入句子,目标是生成一个压缩版的摘要。


    • 句子级别的摘要问题可以定义如下(arg max F(x,y)就是指当F(x,y)取得最大值时,变量x,y的取值):
      定义1
      x表示输入句子,y表示生成的摘要句子集合,定义一个系统是abstractive的,就是从生成句子集合中找到score最大的那一个。
    • 而extractive摘要系统可以定义如下:
      定义2
    • 与此相关的句子压缩问题,即集中于从输入中删除单词:
      定义3
      然而abstractive summarization存在一个更加困难的生成过程。
      用了一个简单的数学公式将问题描述地非常清楚,包括一些细节,比如输入长度大于输出长度,输出长度为固定值,输入输出拥有相同的词汇表等等。从数学公式来看score函数的定义很重要,考虑的参数类型不同会有不同的score,也就是不同的模型,明显看得出abstractive要远难于extractive和sentence compression。

    Model

    模型部分是paper的重头戏,分为Objective,Encoder,Decoder,Generating Summaries,Training五个子部分来讨论。


    Paper 1

    Objective

    • 目标函数是Negative Log-Likelihood(NLL)
      scoring function(把之前单词的固定窗口考虑进去),其中,ycy_cyiy_i的前C个词:
      scoring function
    • 这里当前生成词的窗口词向量由下式表示(C为窗口的大小):
      窗口词
    • 为了考虑conditional log-probability
      conditional
      其实也就是NNLM中的N-gram,用来预测下一个词。目标函数表示为
      目标函数
      做一个马尔科夫假设,context的size为C,并且当i<1时,yiy_i是一个特殊的开始符号<S>。
    • 考虑到这个评分函数,我们的主要重点将是对local conditional分布进行建模:
      local condition
      接下来建模的部分就是研究如何表达条件概率。
      目标函数用生成词的条件概率的对数来表示是NLP中非常常用的做法。不同的模型都在研究如何表示条件,比如encoder的表示,encoder输出的表示,decoder中当前词前序词的表示等。

    Encoder

    如果没有encoder,这个模型只是一个依赖生成句子上下文的语言模型。通过encoder可以将输入x也编码进生成过程中,这样最终生成的概率同时包含了输入x和上下文yc的信息。本文介绍了三种encoder。

    • Bag-of-Words Encoder
      词袋模型是最简单的一个模型,将输入的句子用词袋模型降维到H,生成一个word embedding层。模型如下:
      词袋模型
      1.首先通过embedding矩阵F将输入x编码成H*M维的矩阵,每个word由原来的V维降为H维(H<V)。
      2.构造均匀分布的注意力向量p,相当于在估计下一个生成word时给输入句子x中的每个词相同的权重。
      3.将x变化为H维的语义向量,这个过程丢失了原来句子的语序关系,因此效果并不好。
      词袋模型并不会考虑词序的关系,效果并不会太好,但是作为paper中的一个baseline模型会有很好的对比结果。

    • Convolutional Encoder
      一个深层卷积模型,这个模型较BoW的优势在于可以获取相邻单词之间的组合信息, 这个encoder同样没有考虑将上下文信息yc编码进来。
      卷积模型
      CNN通过结合word embedding将句子表示成一个matrix,通过不同尺寸的卷积核来filter出句子中的feature,本质上和N-gram一样,N-gram的N就是卷积核的尺寸,构建出多种feature maps,然后max pooling,然后filter,然后pooling,最终采用一个MLP得出结果。
      CNN的模型容量远大于BoW,但是每生成一个摘要词语,输入x中所有单词贡献的权重是一样的。这显然违背我们的直觉,因为摘要中每个词只对应输入文本中的一部分词语,所以这里提出了第三个encoder。

    • Attention-Based Encoder
      虽然卷积模型比词袋模型更能捕捉句子的特征,却同样需要对整个句子做表示,机器翻译领域在解决相同问题时采用了注意力模型来构建context,然后基于生成的context来构建representation。本文采用一种类似于词袋模型(比卷积模型简单很多)的注意力模型,模型如下:
      基于attention的encoder
      其中矩阵G是context的word embedding矩阵,D 是word embedding的大小,P是一个权重矩阵,权重连接着输入word embedding和context embedding,Q是一个光滑窗口,其定义和BoW的很接近,如下式所示。:
      attention-based encoder定义
      这里对式子进行简单推导:

      1.对上下文yc进行embedding,由于G是DV维,所以embedding之后再Flatten的yc为CD1维。

      2.对输入x进行embedding,由于F是HV维,所以embedding之后的x是HM维。

      3.矩阵P是输入x和上下文yc之间的一个软对齐,大小为H*(CD)维,因此p是M*1维的输 出向量。这里重要的是对这个向量p的理解:向量p代表在当前上下文yc的情况下,生成下一个词语y(i+1)对输入x中各个词语的依赖概率,也就是注意力概率。

      4.对embedding矩阵~x进行平滑,具体做法是用一个大小为2Q+1的窗口对相邻词语向量求平均,实际上就是由2Q+1个词向量组成短语向量。

      5.最终的输出enc(x, yc)代表对输入x和上下文yc进行结合的语义向量。(上下文yc按照不同的注意力概率对输入x中的各个短语向量进行加权求和)

      本文的注意力模型可以视作将词袋模型中的P向量用一个待学习的soft alignment来替换了。
      三种encoder模型给出了input sentence的表示,第三种还给出了summary和input之间的关系,encoder的输出将作为decoder的输入,来生成summary。

    • 一个生成摘要的例子,横轴代表生成的摘要句子,纵轴代表输入的原始句子。图中每一列代表生成该词语时,其上下文对输入句子中词语的注意力概率热力图。
      软对齐

    Decoder

    模型融合了一个神经网络语言模型和一个encoder,其整体框架如下
    Decoder

    1.Neural Network Language Model

    神经语言模型是如上图红圈部分,采用了Bengio提出的NNLM语言模型,其定义如下式所示:
    decoder模型
    对这个模型的解释如下所示:

    • 通过embedding矩阵E对上下文yc进行embedding,生成上下文的压缩表示。由于矩阵E是DV维的,yc是VC维的,所以E·yc生成的是DC维的矩阵,再经过_Flatten_操作()变为CD1维的向量。
      转变为一维向量的flatten()操作 - liguandong - CSDN博客

    • yc的embedding表示经过全连接再激活之后生成语义向量h,该向量是当前的上下文yc的语义压缩,表示yc的下一个词,操作如图所示
      语义向量h的生成过程

    • 通过一个encoder将输入x和上下文yc编码成H维的向量enc(x,yc),这个向量实际上就是一个注意力向量。矩阵W和V分别将NNLM和encoder的输出转化为V维向量再进行join,最后经过softmax变为下一个摘要文字的生成概率。

    第i+1位摘要文字的生成概率

    待求的参数是word embedding矩阵E,输入层到隐藏层的权重矩阵U,隐藏层到decoder输出层的权重矩阵V,encoder输出层到decoder输出层的权重矩阵W。黑盒函数enc是上下文编码术语,返回表示输入和当前上下文的大小为H的向量;我们考虑了三个可能的变体。
    NNLM是一个经典的语言模型,本质上就是一个神经网络多分类器,文中也提到可以考虑用RNNLM来作decoder,也就有了第二篇paper的模型。

    Generating Summaries

    现在我们回到生成摘要的问题。 回忆一下公式4,我们的目标是,
    目标公式
    一般的语言模型都是基于上下文生成概率最高的一个词,但对于生成摘要句子来说还不够。通常的做法是用一种搜索算法在一定的可行域之内找到几组可行的解。
    精确译码和贪婪译码之间的折衷方法是使用beam-search decoder(算法1),该译码器保持完整的词汇量V,同时在摘要的每个位置将自己限制为K个潜在的假设。这里显示了beam-search decoder。
    本文采用beam search,也是之前机器翻译领域生成翻译结果时常用的算法,算法描述如下:
    算法
    给定一个beam size K,在生成每一个summary word时,都保留概率最大的K个词,从生成第二个词开始,计算所有路径的概率,只保留概率最大的前K个分枝,裁剪掉剩余的分枝,继续生成第三个词,依次进行下去,直到生成的词是EOS或者达到最大句子长度限制。最后得到的结果是K个最好的sentence summary。

    Training

    本文采用mini-batch SGD(小批量随机梯度下降)算法对训练集进行训练,使得NLL(negative log-likelihood)最小。细节在第七节描述。
    因为在生成summary时并没有什么约束条件,所以本方法可以拓展到任意input-output pairs中使用。

    ABS+

    作者提出了一个纯数据驱动的模型之后,又提出了一个abstractive与extractive融合的模型,在ABS模型的基础上增加了feature function,修改了score function,也就是结果对比中的ABS+模型。

    Paper 2


    本文模型简称为RAS(Recurrent Attentive Summarizer

    Objective

    目标函数如下:
    目标函数
    两篇paper都是采用NLL,但不同的是第二篇paper目标函数条件概率中的条件与第一篇不同,本文采用decoder的所有上文,而不是一个窗口内的上文。

    Encoder

    • encoder的输出是decoder的输入,对于每一个time step,encoder都需要给出一个context vector,本文encoder的重点在于如何计算时间相关的context。

    • 输入句子每个词最终的embedding是各词的embedding与各词位置的embedding之和,经过一层卷积处理得到aggregate vector:
      在这里插入图片描述

    • 给定这些词的aggregate vector,计算context vector ctct(编码器输出)为:
      在这里插入图片描述

    • 其中权重由下式计算:
      在这里插入图片描述

    Decoder

    • decoder的部分是一个RNNLM,这里的RNN Hidden Layer使用的是LSTM单元。decoder的输出由下式计算:
      在这里插入图片描述
    • 其中c(t)是encoder的输出,h(t)是RNN隐藏层,由下式计算:
      在这里插入图片描述
      这里隐藏层的单元有两种思路,一种是常规的Elman RNN,一种是LSTM。
      注:RNNLM的Hidden Unit可以不用LSTM或者GRU这么复杂,普通的隐藏层Elman RNN可以解决问题,采用Truncate-BPTT对RNN进行训练(详见Tomas Mikolov的PhD Thesis)。况且LSTM和GRU会带来更多的参数,造成overfit。

    Generating Summaries

    生成过程中也采用beam search算法进行summary生成。

    Training

    给定一个训练集,包括大量的sentence-summary pairs,用SGD将NLL函数最小化得到最优的参数集,参数包含encoder和decoder两个部分的参数。

    注:SGD是一种常用的优化算法,在解决NLP问题中非常有效,其中最常见的mini batch训练方法。

    Experiment


    Paper 1


    Dataset

    本文采用经过处理的约400万Gigaword数据集作为训练集和验证集,在DUC2004数据集上进行评测,评测使用ROUGE方法。
    DUC的比赛经常会包括文本摘要,所以常常用来比较每个模型或系统的优劣。

    Baselines

    1.PREFIX,这个baseline是取输入的前75个字符作为headline。
    2.TOPIARY。
    3.COMPRESS。
    4.IR
    5.W&L。
    6.MOSES+。
    baselines选择了几组非常有代表性的系统。

    Implementation

    本文的程序用Torch实现,并且开源在Github上,处理1000个mini batch大概用时160s,最好的验证集参数出现在第15个epoch。

    Torch是一个使用率非常高的开源工具,尤其是在研究领域。相比于Theano的难以调试,Torch具有非常简单、易用、灵活、易调试的特点。

    Paper 2


    Dataset

    与第一篇相同的训练集和处理方法,同样使用DUC2004作为评测数据,ROUGE作为评测方法。

    Baselines

    1.ABS(第一篇paper中的方法)
    2.ABS+(第一篇paper中的方法)

    Implementation

    同样使用Torch开发,在训练时用摘要的混乱度(perplexity)作为评价指标控制训练过程。

    Result


    Paper 1

    在这里插入图片描述
    分别在DUC2004和Gigaword数据集上进行了对比,本文的ABS模型在DUC2004上评测结果相比于最好的baseline MOSES+并不如意,MOSES+是一个基于短语的统计机器翻译系统(Koehn,2007),在Gigaword训练集上比MOSES+好一些。但增加了人工feature的ABS+模型比ABS模型和MOSES+系统表现好了非常多。
    在这里插入图片描述
    ABS模型实际上的效果并不理想,所以本文作者又提出了一种所谓的ABS+模型,将人工feature融合到了ABS模型中,得到了不错的效果。如果只看这一篇paper,可能会觉得不理想的原因是seq2seq在自动文摘中的效果一般,但看过第二篇paper之后,就会明白是因为本文的模型太过简单,第二篇paper也就有了意义。

    从另一个角度来看,纯粹的data-driven方法如果配合上一些extractive的方法会得到更好的结果,这点对于实际系统的开发非常有意义。

    Paper 2

    在这里插入图片描述
    在Gigaword数据集上对比各个模型,RAS-Elman模型表现最好,说明了seq2seq相比于传统的文摘系统和算法,可以更好地解决问题,又一次证明了deep learning的强大。
    同时也验证了普通的RNN不见得比LSTM或者GRU表现差,尤其是当序列长度不是特别长的情况。
    在这里插入图片描述
    在DUC2004数据集上对比各个模型,得到了相同的结论。
    在这里插入图片描述
    5种不同的模型在混乱度这个指标上比较,本文算法RAS-Elman具有明显的优势。

    Conclusion


    Paper 1


    基于神经机器翻译的最新进展,提出了一种attention-based model的生成式模型。我们将这种概率模型与生成算法相结合,生成精确的生成式摘要。下一步,我们希望以data-driven的方式进一步提高摘要的语法性,并扩展此系统以生成段落级别的摘要。两者都在生成的有效对齐和一致性方面带来了额外的挑战。

    Paper 2


    我们将state-of-art的生成式句子摘要模型(Rush et al., 2015)扩展到一个RNN架构。我们的模型是机器翻译的编解码器框架的简化版本(Bahdanau et al., 2014)。该模型基于Gigaword语料库进行训练,根据每篇新闻文章的第一行生成标题。尽管我们的模型不依赖于额外的抽取功能,但在Gigaword数据和ducc -2004挑战上,我们都轻松超越了之前最先进的技术。
    两篇文章都使用了seq2seq模型+attention,但是第二篇的实验效果要好很多,原因是第一篇的模型过于简单

    参考文献


    1.A Neural Attention Model for Abstractive Sentence Summarization
    2.Abstractive Sentence Summarization with Attentive Recurrent Neural Networks

    展开全文
  • 综述了自动文摘技术的研究进展。面向自动文摘系统用户,介绍了自动文摘系统及其应用,分析了机械文摘和理解文摘各自的特点,展望了自动文摘技术今后的发展方向和趋势。
  • 介绍了目前自动文摘的四种实现方法,并对这四种方法的优缺点进行了较为详细的分析与比较,介绍了它们的应用实例。最后讨论了一种面向非受限领域的综合式中文自动文摘方法。
  • 一种基于统计的自动文摘系统,姚建仁,王枞,自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在文章中,我们提出了基于连续��
  • 介绍了XML文本自动摘要的研究现状,对现存的XML文本自动文摘技术进行了分析和评估,论述了目前该研究方向上尚未解决的一些问题和未来的发展趋势。
  • 提出一种基于主题词集的文本自动文摘方法,用于自动提取文档文摘。该方法根据提取到的主题词集,由主题词权重进行加权计算各主题词所在的句子权重,从而得出主题词集对应的每个句子的总权重,再根据自动文摘比例选取...
  • 近年来,基于英文和中文的自动文摘技术获得广泛关注并取得长足进展,而对少数民族语言的自动文摘研究还不够充分,例如维吾尔语。构造了一个面向维吾尔语的自动文摘系统。首先利用维吾尔语的语言学知识对文档进行...
  • 多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。...
  • 针对统计和理解相结合的自动文摘方法,提出了一种新的内容词、有效词和特征词的动态加权函数以及句子重要性的动态加权函数。鉴于基于统计的自动文摘结果常常出现语句间缺乏连贯性及信息冗余的问题,设计了句间语义...
  • 为了消除个体分类器间的相关性,提高集成器分类性能及稳定性,提出了基于Fisher线性判别方法的分类器提取方法。该方法将高维分类器空间压缩至低维分类器空间,并在该空间内学习集成器。在多个数据集上的比较实验结果...
  • 描述逻辑是本体的重要表示方式,但只能处理严格的确定性的知识,并不能处理自然界中广泛存在的模糊的和不确定的知识。通过对最基本的描述逻辑ALC进行扩展,提出了能够处理不确定知识的基于本体和云模型不确定描述...
  • 在协作通信中为了对抗同步误差,可基于OFDM技术在中继节点采用空频码实现协作分集和多径分集。OFDM可以抗定时误差,但对载波频率偏移非常敏感,对于协作通信,多个载波频率偏移的存在使得频率补偿很难实现。...
  • 为了有效地对Blog进行摘要抽取,以一种合理的方式挑选出对Blog摘要抽取有帮助的评论,然后在考虑句子词频的基础上结合Blog的结构化信息和挑选出的评论信息来计算Blog句子权重。针对基于句子权重选择摘要句容易忽略...
  • 论文笔记整理:刘雅,天津大学硕士。链接:https://aaai.org/ojs/index.php/AAAI/article/view/6525动机近年来,随着计算机视觉以及自然语言处...

    论文笔记整理:刘雅,天津大学硕士。


    链接:

    https://aaai.org/ojs/index.php/AAAI/article/view/6525


    动机

    近年来,随着计算机视觉以及自然语言处理技术的发展,多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络,同时利用注意力机制来辅助挑选图片。这种做法容易带来模态偏差的问题,即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程。该论文提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数,即在文本损失的基础上增加图片选择的损失函数。


    亮点

    论文亮点主要包括:

    (1)提出一种新的评估指标,该论文是第一个从信息完整性的角度评估多模式摘要的方法,该方法学习了模型摘要和参考摘要的联合多模式表示形式。包含信息完整性的评估指标与人类判断的相关性更好。

    (2)提出一种多模态损失函数,以多模态参考为指导,以利用摘要生成和图象选择中的损失


    概念及模型

    该方法由三部分组成:

    • 首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准,主要采用两种方式,即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序。

    • 在模型上添加图片判别器用于训练图片挑选的过程,模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成。

    • 通过数据集中的图片和文本描述构造文本-图片对齐片段从而用来训练能够更好地评价多模态片段的评价模型,具体而言论文将两对图片-描述的文本部分(或图像部分)进行交换去构造两个匹配的多模态片段。

    模型整体框架如下

    多模态匹配片段构造示意图如下:

    多模态目标函数

    为了在训练中利用多峰参考,论文提出了一种多峰目标函数,该函数除了考虑文本摘要的负对数似然损失外,还考虑了图像选择的交叉熵损失。论文将多模态摘要分解为两个任务:摘要生成和文本图像关系识别。为此,论文提出了一种图像识别器来指导图像选择。图像鉴别器将确定图像是否与文本内容有关。我们应用多任务学习来同时训练两个子任务。在多任务设置中,共享两个子任务的文本编码器和摘要解码器。论文使用另一个图片解码器将全局图象特征g转化为g.

    可以通过两种方式显示文本信息:(1)文本编码器的最后一个隐藏状态;或(2)摘要解码器的最后隐藏状态。为了将两个向量投影到一个联合语义空间中,论文使用两个具有ReLU激活功能的多层感知器将文本向量和视觉向量转换为Itxt和Ivis。图象和文本信息之间的相关性可以表示为:

    图像分为文本相关和非文本相关,这意味着可以将文本-图像关系识别视为分类任务。因此,论文采用了交叉熵损失:

    其中PA(img)表示图像的实际概率分布(如果选择排名前k位的图像作为目标,则图像的概率为1 / k。)。最后,将交叉熵损失(由超参数λ加权)添加到摘要生成的损失函数中,以产生一个同时考虑了文本参考和图像参考的新损失函数:

    联合多模态表示

    在跨模式检索中,输入是一对图像和一个文本。但是在该论文提出的模型中,输入变成一对多模态分段(ma,mb),其中ma =(Imagea,Texta)和mb =(Imageb,Textb)。关键问题是如何构建训练数据。MSMO数据集中有很多图像字幕对,并且假定每个图像都与相应的字幕相匹配。因此,通过交换两个图像标题对的图像(或文本)以获得匹配的多模态分段对(ma*,m*b),其中m*a =(Imageb,Texta)和m*b =(Imagea ,Textb)。值得注意的是,由于m*b中的Imagea与m*a中的Texta相匹配,而m*a中的Imageb与m*b中的Textb相匹配,因此m*a在语义上与m*b相匹配对图像和文本进行编码,然后使用多模式注意力机制融合文本向量和图像特征。最后模型是在一个新的最大利润率损失下训练的:

    其中(m,m *)是匹配的多模态分段对,(m,)是从批次中采样的负对。论文还使用MSMO数据集中的图像字幕对构造训练数据。


    理论分析

    实验

    目前多模态自动文摘的数据集还比较匮乏,这项工作在MSMO数据集上进行实验验证。一般图文式摘要的评价关注三个方面的指标:图片准确率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系统输出中图片文本的相关度(Msim)。该论文引入一个新的自动评价指标MRmax用来直接度量两个多模态信息之间的相似度(输出和参考答案的最大相似度)。MMAE是对IP、ROUGE和Msim的组合,MMAE++是IP、ROUGE、Msim和MRmax四个自动评价指标的组合。利用与人工打分之间的相关度来对比不同的自动评价指标。

    下表给出了不同的自动评价指标与人工打分的相关度,可以看出融入了直接测量多模态片段的评价指标MR之后,新的自动评价模型MMAE++相比于MMAE在与人工打分的相关度上有一个显著的提升。为了衡量论文提出的多模态基准指导的模型,论文同多个强基线模型进行了对比,包括融入全局或者局部视觉特征的多模态注意力机制的生成式自动文摘模型(ATG、ATL)、层次化的多模态自动文摘模型(HAN)以及基于图模型的抽取式自动文摘模型(GR)

    下表给出了不同模型生成的图文式摘要的质量对比,可以看出在引入多模态基准指导后,模型的图片挑选质量(IP)得到了显著的改善,并且文本生成质量也有略微改进,从而生成更高质量的图文摘要。相对于使用编码器隐层状态而言,采用解码器隐层状态去进行图片选择效果会更好。另一方面,使用图片描述与文本摘要之间ROUGE值的大小对图片排序获得的多模态基准对于模型的指导作用更加明显。

    同时,本论文也对比了不同的图片选择损失函数权重对于模型性能的影响,可以看到当图片和文本的损失函数的权重都相同时,图文摘要的质量是最好的。

    论文对比了在计算图片损失中考虑的图片数量(即top-K图片作为gold standard)所带来的影响,并且发现当 K=3的时候,模型取得了最好的效果。

    总结

    在本文中,论文着重于通过提出一种多模式目标函数来改进多模式摘要,该目标函数同时考虑了文本摘要生成的负对数似然损失和图像选择的交叉熵损失。实验表明,该模型可以在真实的人工标记测试集和自动构建的测试集上提高多模式输出的质量。

     


     

    OpenKG

    开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

    点击阅读原文,进入 OpenKG 博客。

    展开全文
  • 从Luhn1958年发表第一遍自动文摘论文开始,自动文摘(Automatic document summarization)一直是自然语言处理中最为活跃的分支。自动文摘希望通过计算机自动将冗长的文本压缩到规定长度内,同时保持原始文本主要信息...

    从Luhn1958年发表第一遍自动文摘论文开始,自动文摘(Automatic document summarization)一直是自然语言处理中最为活跃的分支。自动文摘希望通过计算机自动将冗长的文本压缩到规定长度内,同时保持原始文本主要信息不丢失。在信息爆炸的互联网时代,每时每刻互联网上都在积累更多的文本;而移动互联网的到来,对信息的呈现方式也提出了更高的要求,因此自动文摘的重要性和迫切需求更为凸显。一份自动文摘的质量主要从以下三方面进行度量:

    1. 信息的覆盖度(coverage of information):这是自动文摘最需要保证的基础,摘要的内容要尽可能的覆盖原始文本传达的信息,保留最重要的信息,这样的摘要才不会对读者造成误导。
    2. 内容的冗余度(redundancy in information):也可以理解成内容的多样性(diversity),摘要的长度有着严格的限制,如果对某一方面的内容描述占用了大部分篇幅,不仅会造成冗余也会影响后续内容的生成。因此一份合格的摘要既要准确的描述各方面的信息,也要保证描述的简练
    3. 内容的可读性(coherent/readable text):生成的摘要要内容连贯,可读性强

    至今,各种各样的自动摘要方法被提出,根据摘要的生成方式,自动文摘方法可以分为抽取式摘要(extractive summarization)和生成式摘要(abstractive summarization)。抽取式摘要直接从原始文本中抽取具有显著性的句子构成摘要,这类方法虽然相对简单粗暴,但是直接复用原文中的句子能够准确的捕获原文意图;另一方面,因为是句子级别的操作,生成的摘要连贯性较低,可读性因此会差一些。生成式摘要采用更加复杂的自然语言生成技术,在对原文理解的基础上,生成新的描述形成摘要,因此可能出现原始文本中不存在的单词句子,这类方法更加贴合人类手写摘要的过程,因此生成的摘要可读性更强,但对内容的复现上可能会有偏差。
    本系列将关注自动文摘的研究进展,对该领域的主要论文进行整理。首先将专注于抽取式方法,总结其中最具代表性的几类方法,本文是该系列的第一篇。

    1、基于中心(Centroid-based)的方法

    Radev, Dragomir R., et al. “Centroid-based summarization of multiple documents.” Information Processing & Management 40.6(2004):919-938.
    中心性(centrality)可以看作是句子的一个统计特征,Radev在2004年的论文中明确提出将中心度作为句子重要性度量的一个特征,扩展了传统的基于统计(Statistical-based)的方法,常用的统计特征包括但不限于以下:句子位置(position)、关键词频率(TF)、TF-IDF、首句/标题相似度(resemblance)、句子相对长度(length)、专有词(numerical data,name entity etc.)、信息熵(information gain)、互信息(mutual information)等。
    在该论文中,作者提出了一种基于中心的多文档摘要方法,作者将中心(centroid)定义为:统计上能够代表关于某一主题的一系列文章的单词集合。 因此首先要对文档进行聚类,确定簇中心,步骤如下:

    • 将每篇文章用TF-IDF向量表示;
    • 将初始中心确定为第一篇文章;
    • 比较后续文章与中心的相似度,在阈值范围内,则加入类簇中,同时更新TF-IDF,生成新的中心;
      Sim(D,C)=k(dkckidf(k))k(dk)2k(dk)2 Sim(D,C)=\frac{\sum_k(d_k*c_k*idf(k))}{\sqrt{\sum_k(d_k)^2}\sqrt{\sum_k(d_k)^2}}
    • 迭代步骤二、三,直至处理完所有文本,形成一个个文章簇和簇中心。

    假设:如果一个句子含有越多的中心词,那么这个句子越能代表这个文章簇。 因此作者考虑以下三个特征作为句子筛选的依据:

    • 中心值:Ci=wCw,iC_i=\sum_wC_{w,i}
    • 位置值:Pi=ni+1nCmaxP_i=\frac{n-i+1}{n}*C_{max}
    • 首句吻合度:Fi=s1siF_i=\vec{s_1}\vec{s_i}

    最终句子总得分为
    SCORE(Si)=ωcCi+ωpPi+ωfFi SCORE(S_i)=\omega_cC_i+\omega_pP_i+\omega_fF_i

    2、基于图(graph-based)的方法

    基于统计特征的方法只能从预先规定好的特征上孤立的给每个句子打分,忽略了文本自身的结构,因而有研究者提出了基于图(graph-based)的方法,将文本表示成一个图模型,充分利用文本自身的结构,在全局上(global information)确定文本单元(句子、单词短语、unigram、bigram、trigram)的重要度。在图模型中,文本单元被表示成顶点,边用来连接具有相似性的两个顶点。在网络建立好后,重要句子通过随机游走(random walk)算法被筛选出来。
    ①Mihalcea, Rada, and P. Tarau. “TextRank: Bringing Order into Texts.” Emnlp (2004):404-411.
    TextRank算法是基于图模型的文本摘要最具代表性的方法,由Mihalcea等人于2004年提出。TextRank采用与Google PageRank类似的算法用于确定句子重要度,其背后的思想是“voting”或者“recommendation”。当一个顶点链接到另一个顶点时,它也完成了对另一个顶点的一次投票,当为一个顶点投的票数越多,这个顶点的重要性也就越高。此外,投票顶点自身的重要性也决定了该次投票的分量,PageRank算法也考虑了这一信息。因此,一个顶点的重要性由这个顶点收到的投票数以及投这些票的顶点的重要度共同决定。
    (1)S(Vi)=(1d)+djIn(Vi)1Out(Vj)S(Vj) S(V_i)=(1-d)+d*\sum_{j\in In(V_i)}\frac{1}{|Out(V_j)|}S(V_j) \tag 1

    其中d是阻尼系数,在0-1之间取值,通常设置为0.85。TextRank对PageRank稍作了修改,(1)用无向边代替了有向边;(2)用带权图替代了无权图,边的权值是相连两顶点的相似度。
    (2)WS(Vi)=(1d)+dVjIn(Vi)ωjiVkOut(Vj)ωjkWS(vj) WS(V_i)=(1-d)+d*\sum_{V_j\in In(V_i)}\frac{\omega_{ji}}{\sum_{V_k\in Out(V_j)}\omega_{jk}}WS(v_j) \tag 2

    TextRank算法主要步骤如下:

    1. 确定最适合待解决问的文本单元,并将它们作为顶点加入图模型中;
    2. 定义连接文本单元的关系,用这些关系补全图中的边;
    3. 迭代基于图的排序算法直至收敛;
    4. 基于顶点最终得分对顶点进行排序。

    TextRank可以用于关键词提取也可以用于文本摘要。在关键词提取方面,图的顶点表示从文本中提取的一个或多个词汇单元组成的序列,边定义为顶点之间的共现(co-occurrence)关系:如果两个顶点对应的词汇单元在大小为N的窗口中共同出现(co-occur),则在这两个顶点之间添加一条边。共现窗口的大小N通常设置为2-10。在句子抽取方面,图的顶点代表句子,边表示顶点对应的句子之间的相似度(similarity),作者在论文中将相似度定义为两个句子内容的重合度:
    (3)Similarity(Si,Sj)={wkwkSiwkSj}log(Si)+log(Sj) Similarity(S_i,S_j)=\frac{|\{w_k|w_k\in S_iw_k\in S_j\}|}{log(|S_i|)+log(S_j)} \tag 3

    ②Erkan G, Radev D R. LexPageRank: Prestige in Multi-Document Text Summarization[C], EMNLP 2004, 2004:365-371.
    LexRank是同一时期另外一个研究组提出的一种与TextRank类似的基于图的文本摘要模型。在论文中,作者假设:与文档簇中很多句子相似的句子更加靠近文档簇的主题中心。 关于重要度有两点需要澄清:
    一、如何定义两个句子之间的相似度,在论文中作者采用了TF-IDF余弦相似度
    (4)Similarity(x,y)=wx,ytfw,xtfw,y(idfw)2xix(tfxi,xidfxi)2yiy(tfyi,yidfyi)2 Similarity(x,y)=\frac{\sum_{w\in x,y}tf_{w,x}tf_{w,y}(idf_w)^2}{\sqrt{\sum_{x_i\in x}(tf_{x_i,x}idf_{x_i})^2}\sqrt{\sum_{y_i\in y}(tf_{y_i,y}idf_{y_i})^2}} \tag 4

    二、在给定一个句子与其他句子的相似度之后,如何计算一个句子的overall centrality。 作者首先设定了一个阈值,过滤掉相似性较低的值,构成一个无向无权相似图。随后作者定义了两种centrality:
    1、Degree Centrality
    一个句子Degree Centrality定义为其对应的顶点在相似图中的度,其弊端是将每条边看作是一个投票同等对待。
    2、Eigenvector Centrality
    Degree Centrality的弊端可以通过考虑投票顶点权威性得以解决,因此一个顶点的Eigenvector Centrality定义为:
    (5)p(u)=vadj[u]p(v)deg(v) p(u)=\sum_{v\in adj[u]}\frac{p(v)}{deg(v)} \tag 5

    等价的,上述公式可以写成矩阵形式:
    (6)p=BTporpTB=pT p=B^Tp\quad or\quad p^TB=p^T \tag 6

    其中B是相似图邻接矩阵中每个元素除以这一行的和得到的矩阵:
    (7)B(i,j)=A(i,j)kA(i,k) B(i,j)=\frac{A(i,j)}{\sum_kA(i,k)} \tag 7

    等式6中,pTp^T是矩阵B的特征向量,对应的特征值为1。为了保证这种特征向量的存在,并且能够唯一的识别和计算,我们需要引入马尔可夫链知识。
    一个随机矩阵XX(每一行元素之和等于1)就是一个马尔可夫链的状态转移矩阵,其中元素X(i,j)X(i,j)指定了马尔可夫链中从状态ii转移到状态jj的概率,状态转移矩阵为XX的马尔可夫链收敛到一个平稳分布如果:
    (8)limnXn=1Tr \lim_{n\to\infty}X^n=\textbf{1}^T\textbf{r} \tag 8

    其中,1=(1,1,,1)\textbf{1}=(1,1,\dots,1)r\textbf{r}是平稳分布向量。一个马尔可夫链如果满足以下两个性质:

    1. 不可约:任何一个状态能够转移到其他所有状态;
    2. 非周期:经过任意次转移都不会回到自身。

    那么这个马尔可夫链一定能收敛到唯一的平稳分布,且这个平稳分布r\textbf{r}满足:
    rX=r \textbf{r}X=\textbf{r}

    因为等式6中的相似矩阵BB满足每一行之和等于1,所以我们能够将它看作是一个马尔可夫链。centrality vector pp对应于平稳分布r\textbf{r}。然而,我们需要保证相似矩阵总是不可约和非周期的,为了解决这个问题,Page等人建议预留一些较低概率用于转移到任意状态,通过这种方式,随机游走者可以从周期性或者无连接中“逃脱”,从而使图不可约和非周期性。如果为跳转到图中任意顶点指定统一的概率,我们将得到公式5的修改版,也就是PageRank算法:
    p(u)=dN+(1d)vadj[u]p(v)deg(v) p(u)=\frac{d}{N}+(1-d)\sum_{v\in adj[u]}\frac{p(v)}{deg(v)}

    上述公式同样可以写成矩阵形式:
    p=[dU+(1d)B]Tp p=[dU+(1-d)B]^Tp

    其中,UU是一个所有元素都等于1/N的方阵。

    总结

    系列第一篇主要总结了基于统计(中心度特征)的方法和基于图的方法,特别是基于图的方法是对基于统计方法的一次大的提升,将自动文摘的研究带入到一个新的方向,目前很仍然有很多将图模型与其他方法相结合的研究。话说回来,统计特征仍然是自然语言处理的基础,同样非常重要。

    参考文献

    [1]Radev, Dragomir R., et al. “Centroid-based summarization of multiple documents.” Information Processing & Management 40.6(2004):919-938.
    [2]Mihalcea, Rada, and P. Tarau. “TextRank: Bringing Order into Texts.” Emnlp (2004):404-411.
    [3]Page L. The PageRank Citation Ranking : Bringing Order to the Web[J]. Stanford Digital Libraries Working Paper, 1998, 9(1):1-14.
    [4]Erkan G, Radev D R. LexPageRank: Prestige in Multi-Document Text Summarization[C], EMNLP 2004, 2004:365-371.

    展开全文
  • 关键词抽取与自动文摘

    千次阅读 2017-01-26 10:42:59
    关键词抽取与自动文摘在自然语言处理中对于关键词抽取与自动文摘这两个主题,有着多种多样的方式去解决它们,这里将介绍一种叫做TextRank的方法,就可以解决这两个问题。我将结合具体的代码,试图将算法解释地更加...
  • 由于毕业设计论文给定的题目是《基于TextRank算法的单文档自动文摘研究》,所以在毕业的前夕有幸接触自然语言处理的相关内容学习,前段时间一直忙于毕业的事情,也准备读研期间认真撰写技术博客,因此在研0暑假开始...
  • 自动文摘学习资料汇总(1) 0. NLP入门 AI、神经网络、机器学习、深度学习和大数据的核心知识备忘录分享 深度学习与NLP 深度学习|机器学习|人工智能 精品视频教程合集分享 NLP研究入门之道(github) 自然语言处理...
  • 基于组块的中文自动文摘系统研究.pdf 相关论文,可供借鉴
  • 自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S

    万次阅读 多人点赞 2017-12-02 16:51:51
    前言最近在看自动文摘论文,之前对Rouge评测略有了解,为了更好的理解Rouge评测原理,查了些资料,并简单总结。关于RougeRough(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译...
  •  基于ESA的自动文摘算法,单从论文标题可以看出是ESA作为一种工具在“自动文摘”领域中的具体应用,就同《基于显性语义分析的专家相似度研究》一样是在“专家检索”中的应用。所以很好奇想通过比较,探究一下ESA的...
  • 自动文摘评测方法:Rouge-L、Rouge-N

    千次阅读 2019-05-09 17:32:14
    Rouge-L 的初认识 ...由此可见,Rough-L 作为自动文摘评测方法是特别有用的,接下来我讲解一下。 Rouge-L 论文: https://www.aclweb.org/anthology/W04-1013 BLEU-4 的学习,可以看我的另一篇博客,有助...
  • 研究方向为自然语言处理与文本挖掘,研究兴趣包括自动文摘与文本生成、情感分析与观点挖掘、语义计算与信息推荐等,在相关学术会议与期刊上发表高水平学术论文上百篇。担任计算语言学顶级国际期刊Computat
  • 最近在看自动文摘论文,之前对Rouge评测略有了解,为了更好的理解Rouge评测原理,查了些资料,并简单总结。 关于Rouge Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译...
  • 介绍了一个基于句子抽取的单文档自动文摘系统,在该系统基础上应用了命名实体识别和指代消解技术,最后通过人工评价和自动评价结果讨论命名实体识别和指代消解对文摘系统的贡献。
  • 万小军论文_自动摘要

    2011-12-13 10:20:53
    文摘专家万小军博士关于自动文摘的有关介绍
  • 作者:宋欣仪来源:大数据文摘(ID:BigDataDigest)原标题:《拯救期末!大四留学生发“论文机器人”,替你读文献给方向调格式,已被ACL2019收录》期末季,谁...
  • 引言自动文摘(auto text summarization)在信息检索(IR)和自然语言处理(NLP)领域有很多应用,自动文摘主要分成extractive,抽取式,从原文中找到一些关键的句子,另一种是abstractive,摘要式,这需要计算机读懂原文...
  • 聚焦查询的自动文摘方法以搜索引擎为问题查询工具,利用汉宁窗函数计算句子重要度,以体现问题与预期答案中的词密度特性。通过窗口从头到尾滑动来计算句子的权值选择出权值高的作为文摘。实验结果表明该方法形成的...

空空如也

空空如也

1 2 3 4 5
收藏数 84
精华内容 33
关键字:

自动文摘论文