精华内容
参与话题
问答
  • 文本自动生成研究进展与趋势

    万次阅读 2017-12-02 14:30:42
    CCF 中文信息技术专业委员会 ...按照不同的输入划分,文本自动生成可包括文本文本生成、意义到文本生成、数据到文本生成以及图像到文本生成等。上述每项 技术均极具挑战性,在自然语言处理

    CCF 中文信息技术专业委员会

    万小军 冯岩松 孙薇薇

    北京大学计算机科学技术研究所,北京

    摘要

    我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文 本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本 到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等。上述每项 技术均极具挑战性,在自然语言处理与人工智能领域均有相当多的前沿研究,近几年业界也 产生了若干具有国际影响力的成果与应用。本文对上述前沿技术的国内外研究现状进行了全 面总结,并对发展趋势进行了展望。

    关键词:自然语言生成、文本到文本的生成、意义到文本的生成、数据到文本的生成、图像到文本的生成

    Abstract

    We expect that computers can write high-quality natural language texts like human beings in the near future. Automatic text generation is the key technique for achieving this goal. According to different data types of inputs, automatic text generation techniques include text-to-text generation, meaning-to-text generation, data-to-text generation and image-to-text generation. All the above text generation techniques are very challenging, and they are the frontier research topics in the natural language processing and artificial intelligence fields. In recent years, a few internationally influential achievements and applications have been yielded in academia and industry. In this article, we conduct a comprehensive survey of recent advances of automatic text generation at home and abroad. We also discuss the research and development trends.

    Keywords: natural language generation, text-to-text generation, meaning-to-text generation, data-to-text generation, image-to-text generation

    1. 引言

    文本自动生成是自然语言处理领域的一个重要研究方向,实现文本自动生成也是人工智能走向成熟的一个重要标志。简单来说,我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文本自动生成技术极具应用前景。例如,文本自动生成技术可以应用于智能问答与对话、机器翻译等系统,实现更加智能和自然的人机交互;我们也可以通过文本自动生成系统替代编辑实现新闻的自动撰写与发布,最终将有可能颠覆新闻出版行业;该项技术甚至可以用来帮助学者进行学术论文撰写,进而改变科研创作模式。

    按照不同的输入划分,文本自动生成可包括文本到文本的生成(text-to-text generation)、意义到文本的生成(meaning-to-text generation)、数据到文本的生成(data-to-text generation) 以及图像到文本的生成(image-to-text generation)等。上述每项技术均极具挑战性,在自然语言处理与人工智能领域均有相当多的前沿研究,近几年业界已产生了若干具有国际影响力的成果与应用。最值得一提的是,美联社自 2014 年 7 月开始已采用新闻写作软件自动撰写新闻稿件来报道公司业绩,这大大减少了记者的工作量。美国洛杉矶时报也有一种用来撰写突发新闻的应用软件。美国已有多家公司能够提供新闻写作软件与服务,比如美国“自动洞察力”公司(Automated Insights)已采用“语言专家”软件撰写了 3 亿篇报道,包括橄榄球、财经报道。这些进展标志着文本自动生成不再属于纸上谈兵的技术,而是已经对人类工作和生活产生了重大影响。

    目前国内学界与工业界对文本自动生成技术的重视程度并不够,普遍缺乏对该方向前沿技术与进展的了解。因此,本技术报告将首次对文本自动生成前沿技术进行综合全面的调研、分析与总结,为国内同行提供一个全面了解文本自动生成技术的重要参考。同时,期望学界和工业界一起努力,尽早实现中文文本自动生成系统,抢占中文文本自动生成技术的制高点。

    需要指出的是,自然语言处理领域的自然语言生成技术专指从机器可读数据生成自然语言文本的技术,而本文所介绍的文本自动生成技术的范畴则更加广泛,还包括了文本到文本的生成技术、以及图像到文本的生成技术。

    2.文本到文本的生成

    2.1 国际研究现状

    文本到文本的生成技术主要指对给定文本进行变换和处理从而获得新文本的技术,具体说来包括文本摘要(Document Summarization)、句子压缩(Sentence Compression)、句子融合 (Sentence Fusion)、文本复述(Paraphrase Generation)等。国际上对上述不同技术均进行了多年的研究,相关研究成果主要发表在自然语言处理相关学术会议与期刊上,例如 ACL、EMNLP、NAACL、COLING、AAAI、IJCAI、SIGIR、INLG、ENLG 等。国际上几个主要的研究单位包括密歇根大学、南加州大学、哥伦比亚大学、北德克萨斯大学、爱丁堡大学等。需要指出的是,机器翻译从某种程度上也可看作是一种从源语言到目标语言的文本生成技术,但由于机器翻译自身是相对独立的一个研究领域,因此本文的内容不再涵盖机器翻译技术。

    2.1.1 文本摘要

    文本摘要技术通过自动分析给定的文档或文档集,摘取其中的要点信息,最终输出一篇短小的摘要(通常包含几句话或上百字),该摘要中的句子可直接出自原文,也可重新撰写所得。摘要的目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的内容描述。

    根据不同的划分标准,文档摘要可以主要分为以下几种不同类型:

    根据处理的文档数量,摘要可以分为单文档摘要和多文档摘要。单文档摘要只对单篇文档生成摘要,而多文档摘要则对一个文档集生成摘要。

    根据是否提供上下文环境,摘要可以分为主题或查询无关的摘要和主题或查询相关的摘要。主题或查询相关的摘要在给定的某个主题或查询下,能够诠释该主题或回答该查询;而主题或查询无关的摘要则指不给定主题和查询的情况下对文档或文档集生成的摘要。

    根据摘要所采用的方法,摘要可以分为生成式和抽取式。生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。而抽取式方法则相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。抽取式方法应用较为广泛,通常采用的结构单元为句子。

    根据摘要的应用类型,摘要可以分为标题摘要、传记摘要、电影摘要等。这些摘要通常为满足特定的应用需求,例如传记摘要的目的是为某个人生成一个概括性的描述,通常包含该人的各种属性,例如姓名、性别、地址、出生、兴趣爱好等。用户通过浏览某个人的传记摘要就能对这个人有一个总体的了解。

    文档自动摘要的研究在图书馆领域和自然语言处理领域一直都很活跃,最早的应用需求来自于图书馆。图书馆需要为大量文献书籍生成摘要,而人工摘要的方式效率很低,因此亟需自动摘要方法取代人工高效地完成文献摘要任务。随着信息检索技术的发展,文档自动摘要在信息检索系统中的重要性越来越大,逐渐成为研究热点之一。文档自动摘要技术的第一篇论文来自 Luhn (1958) [[1]],经过数十年的发展,同时在 DUC1与 TAC[2]组织的自动摘要国际评测的推动下,文本摘要技术已经取得长足的进步。值得一提的是,由南加州大学 Chin-Yew Lin 博士(现就职于微软亚洲研究院)开发的摘要质量自动评估工具 ROUGE[3]的广泛使用也是自动摘要技术快速发展的一个推动力。国际上文档自动摘要方面比较著名的几个系统包括 ISI 的NeATS 系统[2],哥伦比亚大学的 NewsBlaster 系统[4] [3],密歇根大学的 NewsInEssence 系统[5] [4] 等。2013 年雅虎耗资 3000 万美元收购了一项自动新闻摘要应用 Summly,标志着新闻摘要技术走向成熟。

    目前的文本摘要方法主要基于句子抽取,也就是以原文中的句子作为单位进行评估与抽取。这类方法的好处是易于实现,能保证摘要句子具有良好的可读性。该类方法主要包括两个步骤:一是对文档中的句子进行重要性计算或排序,二是选择重要的句子组合成最终摘要。第一个步骤可采用基于规则的方法,利用句子位置或所包含的线索词来判定句子的重要性;也可采用各种机器学习方法(包括深度学习方法),综合考虑句子的多种特征进行句子重要性的分类、回归或排序,例如 CRF[5], HMM[6], SVM[7][8], RNN[9]等。第二个步骤则基于上一步结果,需要考虑句子之间的相似性,避免选择重复的句子(如 MMR 算法[10]),并进一步对所选择的摘要句子进行连贯性排列(如自底向上法[11]),从而获得最终的摘要。近几年学界进一步提出了基于整数线性规划的方法[12][13][14]以及次模函数最大化的方法[15][16],可以在句子选择的过程中同时考虑句子冗余性。

    不同于上述方法,压缩式文本摘要方法则考虑对句子进行压缩,以在较短长度限制下让摘要涵盖更多的内容。最有代表性的做法为同时进行句子选择与句子压缩[17][19][19],能够取得更优的 ROUGE 性能。除了压缩之外,部分工作还利用句子融合等技术来对已有句子进行变换,得到新的摘要句子[20][21]。

    国际上还有部分研究者研究真正意义上的生成式摘要,也就是通过对原文档进行语义理解,将原文档表示为深层语义形式(例如深层语义图),然后分析获得摘要的深层语义表示(例如深层语义子图),最后由摘要的深层语义表示生成摘要文本。最近的一个尝试为基于抽象意义表示(Abstract Meaning Representation, AMR)进行生成式摘要[22]。这类方法所得到的摘要句子并不是基于原文句子所得,而是利用自然语言生成技术从语义表达直接生成而得。这类方法相对比较复杂,而且由于自然语言理解与自然语言生成本身都没有得到很好的解决,因此目前生成式摘要方法仍属于探索阶段,其性能还不尽如人意。

    上述摘要方法均面向新闻摘要,而近年来针对学术文献的摘要越来越受到大家的重视。一方面,可以利用学术文献之间的引用关系以及引文来帮助进行学术文献摘要[23];另一方面,对学术文献进行自动综述也是一个很有意思的研究问题 [24]。更多的有关文本摘要技术的内容可参考综述[25]。

    2.1.2 句子压缩与融合

    句子压缩与句子融合技术一般用于文本摘要系统中,用于生成信息更加紧凑的摘要,获得更好的摘要效果。

    句子压缩技术基于一个长句子生成一个短句子,要求该短句保留长句中的重要信息,也就是重要信息基本不损失,同时要求该短句是通顺的。下面给出一个句子压缩的例子:

    原句:But they are still continuing to search the area to try and see if there were, in fact, any further shooting incidents.

    压缩后的句子:They are continuing to search the area to see if there were any further incidents.

    学界尝试了多种方法实现句子压缩,包括从句子中删除词语[26],或对句子中的词语进行替换、重排序或插入[27]。其中,从句子中直接删除词语的做法因其复杂程度较低而成为主流方法。研究人员提出多种方法用于实现基于词语删除的句子压缩,包括噪声信道模型[28],结构化辨别模型[29],树到树的转换[30], 整数线性规划[31],等等。但就总体效果而言,对于大部分句子所删除的词语一般较少,压缩效果体现并不明显。

    句子融合技术则是合并两个或多个包含重叠内容的相关句子得到一个句子。根据目的的不同,一类句子融合只保留多个句子中的共同信息,而过滤无关的细节信息(类似于集合运算中的取交集运算),另一类句子融合则只过滤掉多个句子之间的重复内容(类似于集合运算中的取并集运算)。下面给出两个相关的句子以及人工合并后得到的句子:

    句子 1:In 2003, his nomination to the U.S. Court of Appeals for the District of Columbia sailed through the Senate Judiciary Committee on a 16-3 vote.

    句子 2:He was nominated to the U.S. Court of Appeals for the District of Columbia Circuit in 1992 by the first President Bush and again by the president in 2001.

    合并后的句子(取交集):He was nominated to the U.S. Court of Appeals for the District of Columbia Circuit.

    合并后的句子(取并集):In 2003, his nomination by the first President Bush, and again by the second Bush in 2001 to the U.S. Court of Appeals for the District of Columbia sailed through the Senate Judiciary Committee on a 16-3 vote.

    针对句子融合问题,MIT 的 Regina Barzilay 和哥伦比亚大学的 Kathleen McKeown 提出一条流水线算法,包括共同信息识别(Identification of Common Information)、融合网格计算 (Fusion lattice computation)、网格线性化(Lattice linearization)三个步骤 [20]。研究人员针对句子融合问题提出的其它代表性方法包括基于结构化辨别学习的方法[32], 基于整数线性规划的方法[33], 基于图最短路径的方法[34]等。

    上述研究均面向英文,少数研究者在网上公开了所使用的数据集,但这些数据集的规模相对较小,覆盖面较窄,业界也没有组织过句子压缩或融合相关的评测。近些年,与句子压缩与句子融合技术相关的学术论文比较少见,与上述因素不无关系。

    2.1.3 文本复述

    文本复述生成技术通过对给定文本进行改写,生成全新的复述文本,一般要求输出文本与输入文本在表达上有所不同,但所表达的意思基本一样。文本复述生成技术应用相当广泛,例如,在机器翻译系统中可利用文本复述技术对复杂输入文本进行简化从而方便翻译,在信息检索系统中可利用文本复述技术对用户查询进行改写,在儿童教学系统中可利用文本复述技术将难以理解的文本简化为儿童容易理解的文本。

    根据实际的需求,通过复述生成技术得到的输出文本与原文本相比,可以只是一两个词发生了改变(如例 1),也可以是整段文本面目全非(如例 2)。

    例1:all the members of –> all members of

    例2:He said there will be major cuts in the salaries of high-level civil servants. =>

    He claimed to implement huge salary cut to senior civil servants.

    简单的文本复述生成可以通过同义词替换来实现,也可以通过人工或自动构建的复述规则来实现[35],例如根据变换状语位置的一条规则,可以获得下面句子的简单复述句子:

    输入:He booked a single room in Beijing yesterday.

    输出:Yesterday, he booked a single room in Beijing.

    为了实现复杂的文本复述生成,研究人员提出了基于自然语言生成的方法[36]、基于机器翻译的方法[37]与基于支点(Pivot)的方法[38][39]等。基于自然语言生成的方法模拟人类的思维方式,首先对输入句子进行语义理解,获得该句子的语义表示,然后基于得到的语义表示生成新的句子。基于机器翻译的方法则将文本复述生成问题看作是单语言机器翻译问题,从而利用现有机器翻译模型(例如噪声信道模型)来为给定文本生成复述文本。基于支点的方法则将当前语言中的输入文本翻译到另一种语言(支点),然后将翻译得到的文本再次翻译回当前语言。由于每次翻译过程均要求源语言和目标语言中文本的语义保持一致,因此可以预期最后得到的文本在语义上能跟输入文本保持一致。注意支点语言可以只采用一种语言,也可采用多种语言。例如,下面的例子中采用意大利语作为支点语言,通过两次翻译为输入的英文句子生成复述文本:

    输入英文句子:What toxins are English most hazardous to expectant mothers?

    翻译后的意大利文句子:Che tossine sono più pericolose alle donne incinte?

    再次翻译后的英文句子:What toxins are more dangerous to pregnant women?

    总体而言,现有方法能够为给定文本生成具有较小差别的复述文本,但是难以有效生成高质量的具有很大差别的复述文本,原因在于对于改写甚多的复述文本而言,一方面难以保证其与原文本的语义一致性,另一方面则难以保证该文本的可读性。近几年已经极少在自然语言处理重要会议上看到文本复述生成相关的学术论文,表明针对该问题的研究已经遇到了瓶颈。

    需要指出的是,句子简化(Sentence Simplification)可以看作是一类特殊的复述生成问题,其目的是将复杂的长句改写成简单、可读性更好、易于理解的多个短句,方便用户快速阅读。在实现上仍可采用上述各类方法,例如基于单语言机器翻译的方法[40],基于树转换的方法 [41] 等。针对句子简化问题的很多研究都采用维基百科[6]以及对应的简单维基百科[7]数据来进行学习和测试。简单维基百科面向的阅读对象为儿童以及正在学习英语的成人,简单维基百科的作者要求使用简单的词汇和简短的句子来撰写文章。一个简单维基百科文章一般对应一个普通维基百科文章,因此通过这种文本之间的对齐关系能够获取大量的有用语料。爱丁堡大学的 Kristian Woodsend 与 Mirella Lapata 则提出基于准同步文法(Quasi-synchronous grammar) 与整数线性规划模型将普通维基百科文章简化为简单维基百科文章[42]。

    2.2 国内研究现状

    2.2.1 文本摘要

    相比机器翻译、自动问答、知识图谱、情感分析等热门领域,文本摘要在国内并没有受到足够的重视。在文本摘要方面从事过研究的单位包括北京大学计算机科学技术研究所、北京大学计算语言所、哈工大信息检索实验室、清华大学智能技术与系统国家重点实验室等。其中,北京大学计算机科学技术研究所在文本摘要方面进行了长期深入的研究,提出了多种基于图排序的自动摘要方法[43][44][45][46]与压缩式摘要方法[47],并且探索了跨语言摘要、比较式摘要、演化式摘要等多种新颖的摘要任务[4[8]][4[9]][50]。在学术文献摘要方面,则分别提出基于有监督学习和整数线性规划模型的演示幻灯片的自动生成方法[51]与学术论文相关工作章节的自动生成方法[52]。

    国内早期的基础资源与评测8举办过单文档摘要的评测任务,但测试集规模比较小,而且没有提供自动化评价工具。2015 年 CCF 中文信息技术专委会组织了 NLPCC 评测9,其中包括了面向微博的新闻摘要任务,提供了规模相对较大的样例数据和测试数据,并采用自动评价方法,吸引了多支队伍参加评测,目前这些数据可以公开获得。但上述中文摘要评测任务均针对单文档摘要任务,目前还没有业界认可的中文多文档摘要数据,这在事实上阻碍了中文自动摘要技术的发展。

    近些年,市面上出现了一些文本挖掘产品,能够提供文档摘要功能(尤其是单文档摘要),例如方正智思、拓尔思(TRS),海量科技等公司的产品。百度等搜索引擎都能为检索到的文档提供简单的单文档摘要。这些文档摘要功能均被看作是系统的附属功能,其实现方法均比较简单。由于这些模块均未参加公开评测,因此其性能不得而知。

    2.2.2 句子压缩与融合

    国内有少数单位与学者对句子压缩问题进行了研究,例如北京大学语言计算与互联网挖掘研究室提出基于对偶分解的句子压缩方法[53],清华大学智能信息获取研究小组提出基于马尔科夫逻辑网的句子压缩方法[54], 等等。而对于句子融合问题的研究,国内单位和学者基本没有涉猎。

    国内学者的上述研究仍面向英文数据,主要原因在于缺少相关的中文评测数据,而构建一个高质量的中文句子压缩或融合评测数据集并不简单,需要依靠对语言有深刻理解的标注者。

    2.2.3 文本复述

    国内有少数单位和学者对文本复述生成进行了一些研究,例如哈工大信息检索中心与微软亚洲研究院、百度等单位合作,提出利用多种资源(包括多种词典、平行语料等在内)改进基于机器翻译的复述生成方法[55]、利用多种机器翻译引擎的复述生成方法[56],以及面向不同应用的复述生成方法[57]。

    上述研究仍面向英文领域,采用英文数据进行评测,而中文复述生成技术则极少有人涉足,这是一件很令人遗憾的事情。

    2.3 发展趋势与展望

    文本到文本的生成包括多项任务,这些任务之间具有紧密的联系,很多方法也都对不同任务具有通用性。在未来几年,随着深层语义分析技术的发展,研究者可以在研究过程中充分利用深层语义分析结果,此外,深度学习技术的成熟则为我们的研究打开了另外一扇门,但是大家需要认真思考如何才能用好深层语义分析技术与深度学习技术。而随着社交媒体的广泛使用,我们也可充分利用社交媒体数据为我们的研究服务。

    为了更好的推动文本到文本的生成技术的发展,业界可从以下几个方面着手:

    其一,构建大规模评测数据集。数据是研究的基石,大规模、高质量的评测数据集对于研究工作至关重要,而目前上述多个任务均缺少大规模评测数据集,尤其是中文评测数据集。数据集的构建需要耗费大量人力物力,因此一个可行的途径就是采用众包的方式。

    其二,构建开源平台。尽管针对上述各项任务业界均提出了多种解决方法,但很多方法并不易实现。业界需要为每个任务构建一个开源平台,将主流算法集成到该平台中,将会极大方便后来者的研究,推动研究的发展。

    3.意义到文本的生成

    3.1 国际研究现状

    不同于文本到文本的生成,意义到文本的生成这一任务的输入在学界并没有达成一致,其根本在于不论是哲学家还是语言学家对何为自然语言的语义都未能形成较为一致的定义。

    在计算语言学领域,研究人员普遍遵循的语义研究原则建立在“真值条件(Truth Condition)” 的基础上,认为寻找到了能够使自然语言语句成真的条件,即是在某种程度上刻画了自然语言的语义。在真值条件假设基础上,学者普遍采用逻辑的方法来对语义进行表征,并分别从模型论(Model Theory)和证明论(Proof Theory)两个角度来展开研究,很多学者也常常称这类型的语义为逻辑语义。目前已有的意义到文本的生成研究,普遍假设使用逻辑语义表征——以逻辑表达式为代表——作为输入,而以自然语言语句作为输出,本文也围绕这些研究展开介绍。图 3.1 给出了一个基于类型 λ 演算进行语义表征的实例,在该例子中,问题的输入是一个 λ 表达式,而输出是一个英语句子。

    λ表达式到文本的生成实例

    图3.1 λ表达式到文本的生成实例

    意义到文本的生成和组合语义分析(Compositional Semantic Parsing)密切相关,语义分析旨在对线性的词序列进行自动句法语义解析并得到其真值条件。因为在分析过程中遵循了弗雷格所提之组合原则(Principle of Compositionality),因而称为组合语义分析,以与分布式语义(Distributional Semantics)相区别。组合语义分析是自然语言处理的一项核心技术,是迈向深度语义理解的一座重要桥梁,在多个自然语言处理核心任务中有着潜在应用,如智能问答、机器翻译等。从问题自身的定义来看,意义到文本的生成与组合语义分析是一对互逆的自然语言处理任务。在当前的国际研究中,仅专注于意义到文本的生成这一任务的学者并不多,部分以句法语义分析研究为主的学者会兼顾这方面的研究。

    3.1.1 基于深层语法的文本生成

    在早期的自然语言处理研究中,计算语言学发挥了很大的作用,计算语言学家从形式化、可计算的角度对自然语言进行建模,提出一系列的旨在解释语言运作机理的句法语义模型,并根据这些模型构建自然语言处理系统。相关研究在上个世纪八九十年代取得了丰硕的研究成果,一系列兼具语言本体解释力和可计算性的语法范式(Grammar Formalism)被提出,如组合范畴语法(Combinatory Categorial Grammar;简称 CCG)[59]和中心语驱动的短语结构语法(Head-driven Phrase-Structure Grammar;简称 HPSG)[60]等。不同于目前句法分析所主要使用的上下文无关文法(Context-Free Grammar;简称 CFG),上述语法范式具有超越上下文无关的表达能力,其语法推导过程往往更复杂,蕴含更多的信息,而这些信息可以用来做更透明的语义分析,简单而言,这些深层语法范式能够更好地支持句法语义同步的语言分析。在深层语法的支撑下,通过句法语义的协同推导可以获取自然语言的组合语义;而当以语义表征作为输入,通过其逆过程可以完成意义到文本的生成。

    Shieber [61]提出了一个统一的框架用于进行句法语义分析与生成。在这一框架中,Shieber 将语言处理统一理解为逻辑推演(Deduction)过程,其差别在于推演的始点——公理——与推演的终点——目标——不同。在这一视角下,传统的句法分析(Parsing)技术可以移植到文本生成上来,如线图分析法(Chart Parsing)技术可以转化为线图生成(Chart Generation)技术[62]。Shieber 后续又同其他学者合作,将推演的思想细化,利用合一语法来表达句法语义接口(Syntax-Semantics Interface),提出了语义中心驱动的生成[63]。

    深层语法复杂度较高,如何构造对错综复杂的语言现象具有高覆盖度(Broad Coverage)的语法规则本身是一个极大的难题。以上研究主要是对原型算法进行讨论,而因为真实可用的大型深层语法当时没有得到很好的开发,以上研究并没有呈现极具代表性意义的经验结果。经过十余年的漫长开发,研究人员在 HPSG 理论的基础上开发了英语资源语法(English Resource Grammar;简称 ERG)[10] [64],它是一个比较成功的具有较高覆盖率的深层语法规则系统,而围绕的 ERG 所展开的文本生成研究也取得了有益的进展。Carroll 和 Oepen [65]基于ERG 和真实测试数据重新讨论了基于线图的生成技术,给出了极具参考意义的经验评估;另外,他们也提出了两项新的技术来改进基于合一语法的可行解紧致表示(Compact Representation)及其相关解码算法——Selective Unpacking,尤其后者,有效地利用了判别式学习模型来改进文本生成过程中所遇到的歧义消解。

    组合范畴语法是一个广受自然语言处理领域学者关注的语法范式,其设计遵循了类型透明(Type Transparency)的原则,具有精简的语法语义接口,常常被语义分析[66]和文本生成[67]模型所采用。White 和 Baldridge [67]讨论了如何将线图生成法与组合范畴语法结合,并开发了开源的基于组合范畴语法的句子实现(Realization)工具——OpenCCG[11]。White 又同其他学者联合提出了一些进一步改进文本生成的算法[68][69][70]。

    3.1.2 基于同步文法的文本生成

    在过去的二十年间,统计句法分析与统计机器翻译是公认的两个取得长足进步的自然语言处理任务。除了从成熟的统计句法分析中借鉴成功经验——如判别式消歧——之外,不少学者也尝试复用成功的机器翻译模型来完成文本生成。机器翻译的目标是将某种自然语言语句翻译成另外一种自然语言的语句,并尽量保持意义不变;而文本生成则可以视为将某种形式语言语句翻译成一种自然语言语句,二者具有极强的可比性。

    Chiang [71]提出了层级基于短语的翻译模型(Hierarchical Phrase-based Model),其核心是利用同步上下文无关文法(Synchronous Contex-Free Grammar)来协同源语言语句的解析和目标语言语句的生成。目前同步文法也已经被借鉴到文本生成的研究中[72][58]。Wong 与Mooney [72]两位作者讨论了两种形式语言用于表征意义:第一种是用于指挥机器人动作的形式语言,第二种是一种无变量的数据库检索语言;而 Lu 与 Ng [58] 则针对表达能力极强的类型 λ 表达式(Typed λ-expression)展开研究。两项研究的共同点是构建形式语言的基于树的结构,在将相关结构与待生成的自然语言的树结构建立一致性对应,从而完成文本生成任务;另一个共同点则是广泛地使用了现有的机器翻译技术(包括开源软件等)来进行文法抽取、解码等。

    3.2 国内研究现状

    国内语言学界与计算语言学界针对自然语言语义的形式化研究较少,针对汉语进行全方面组合语义刻画的研究目前尚属空白。另一方面,从事自然语言处理的研究人员也较少涉猎深层语言结构处理问题,而对意义到文本的生成研究则更是鲜有,很少能见到相关学术成果发表在重要学术会议和期刊上。

    3.3 发展趋势与展望

    随着深层自然语言理解的发展,研究者将越来越多的目光投向了意义到文本的生成这一自然语言生成核心任务上。意义到文本的生成这一任务随着意义表征体系的不同问题的复杂度也会随之变化,传统的基于深层语法分析的生成方法面临的解码效率差、语法鲁棒性不够等问题仍需要更好的技术解决方案。近些年来,有零星的一些工作尝试将较为成熟的组合优化技术应用到在句法分析和机器翻译,如拉格朗日松弛[73][74],尝试去求解一些所涉及到的NP 难问题。应对意义到文本的生成这一复杂度高的问题,我们也可以尝试应用相关技术。而针对深层语法鲁棒性不够的问题,基于数据驱动的语法近似(Grammar Approximation)[75] 取得了不错的结果,结果显示低阶语法近似能够有效改进深层语法分析的鲁棒性,如何应用相关思想来解决文本生成中所遇到的问题也是一个非常值得研究的方向。

    而就针对汉语的文本生成研究来说,需要国内外学界做出更大的努力。首先,在语言本体分析方面,需要学者们建立相关的语义表征体系及针对汉语的特殊语言现象的分析,以支持汉语的深层处理。其次,在文本生成算法方面,也需要我们投入更多的科研精力设计适合汉语自动生成的模型算法等。

    4.数据到文本的生成

    4.1 国际研究现状

    数据到文本的生成技术指根据给定的数值数据生成相关文本,例如基于数值数据生成天气预报文本、体育新闻、财经报道、医疗报告等。数据到文本的生成技术具有极强的应用前景,目前该领域已经取得了很大的研究进展,业界已经研制出面向不同领域和应用的多个生成系统。针对数据到文本的生成技术的研究单位主要集中少数几个单位,例如英国阿伯丁大学、英国布莱顿大学、爱丁堡大学等,相关研究成果主要发表在 INLG、ENLG 这几个专业学术会议上。

    英国阿伯丁大学的 Ehud Reiter 在三阶段流水线模型[76]的基础上提出了数据到文本的生成系统的一般框架,见下图:

    数据到文本的生成系统的一般框架

    图4.1 数据到文本的生成系统的一般框架

    其中:

    信号分析模块(Signal Analysis)的输入为数值数据,通过利用各种数据分析方法检测数据中的基本模式,输出离散数据模式。例如股票数据中的峰值,较长期的增长趋势等。该模块与具体应用领域和数据类型相关,针对不同的应用领域与数据类型所输出的数据模式是不同的。

    数据阐释模块(Data Interpretation)的输入为基本模式与事件,通过对基本模式和输入事件进行分析,推断出更加复杂和抽象的消息,同时推断出它们之间的关系,最后输出高层消息以及消息之间的关系。例如针对股票数据,如果跌幅超过某个值则可以创建一条消息。还需要检测消息之间的关系,例如因果关系、时序关系等。值得说明的是,数据阐释模块并不是在所有文本生成系统中都需要,例如,在天气预报文本生成系统中,基本的模式足以满足要求,因此并不需要采用数据阐释模块。

    文档规划模块(Document Planning)的输入为消息及关系,分析决定哪些消息和关系需要在文本中提及,同时要确定文本的结构,最后输出需要提及的消息以及文档结构。从更高的层次来说,信号分析与数据阐释模块会产生大量的消息、模式和事件,但文本通常长度受限,只能描述其中的一部分,因此文档规划模块必须确定文本中需要说明的消息。一般可根据专家知识、消息的重要性、新颖性等来进行选择和确定。当然,该模块与领域也很相关,不同领域中对消息的选择所考虑的因素不一样,文档的结构也会不一样。

    微规划与实现(Microplanning and Realisation)模块的输入为选中的消息及结构,通过自然语言生成技术输出最终的文本。该模块主要涉及到对句子进行规划以及句子实现,要求最终实现的句子具有正确的语法、形态和拼写,同时采用准确的指代表达。所采用的技术在学术界有相当多的研究,具体可参考本文第 3 节“意义到文本的生成”。

    目前,业界已经研制了面向多个领域的数据到文本的生成系统,这些系统的框架与上述一般框架并无大的差别,部分系统将上述框架中的两个模块合并为一个模块,或者省去了其中一个模块。

    数据到文本的生成技术在天气预报领域应用最为成功,业界研制了多个系统对天气预报数据进行总结,生成天气预报文本。例如,FoG 系统[78]能够从用户操作过的数据中生成双语天气预报文本;SumTime 系统[79]能够生成海洋天气预报文本,实验评测表明用户有时候更倾向于阅读 SumTime 所生成的天气预报,而非专家撰写的天气预报[80]。此外,英国阿伯丁大学的 Anja Belz 提出概率生成模型进行天气语言文本的生成[81]。Anja Belz 和 Eric Kow 进一步基于天气预报数据分析对比了多种数据到文本的生成系统,结果表明采用自动化程度较高的方法并不会降低文本生成质量,同时文本质量的自动评价方法会低估基于手工规则构建的系统,而高估自动化系统[82]。

    业界面向其他领域也研制多个文本生成系统,例如针对空气质量的文本生成系统[83],
    针对财经数据的文本生成系统[84],面向医疗诊断数据的文本生成系统 TOPAZ[85]、Suregen [86]、

    BT-45 [87]等。其中 BT-45 能够为新生儿重症监护病房(NICU)的监控数据生成文本摘要,帮助医生进行决策。下面两张图分别给出了 BT-45 系统的输入样例与生成得到的文本。

    NICU 数据样例,从上到下分别表示 HR, TcPO2, TcPCO2, SaO2, T1 & T2, and Mean BP [Portet et al., 2009]

    图4.2 NICU 数据样例,从上到下分别表示 HR, TcPO2, TcPCO2, SaO2, T1 & T2, and Mean BP [Portet et al., 2009]

    BT-45 系统生成的对应文本 [Portet et al., 2009]

    图4.3 BT-45 系统生成的对应文本 [Portet et al., 2009]

    由于数据到文本的生成技术的巨大应用价值,工业界成立了多家从事文本生成的公司,能够为多个行业基于行业数据生成行业报告或新闻报道,从而节省大量的人力。比较知名的公司有 ARRIA[12]、AI[13]、NarrativeScience[14]等。其中 ARRIA 是一家总部设在欧洲的公司,其前称为 Data2Text,由来自阿伯丁大学的两名教授 Ehud Reiter 与 Yaji Sripada 创办,后来自然语言生成领域的另一位科学家 Robert Dale 也加入了该公司,该公司的核心技术为 ARRIA NLG 引擎。AI (Automated Insights) 则是一家美国人工智能公司,由一名思科的前工程师 Robbie Allen 所创办,最早基于体育数据生成文本摘要,目前能为包括金融、个人健身、商业智能、网站分析等在内的多个领域内的数据生成文本报告,其核心技术为 WordSmith NLG 引擎。目前,AI 公司已经为美联社等多家单位生成数亿篇新闻报道,造成了巨大的影响力。NarrativeScience 则是根据美国西北大学的一个研究项目 StatsMonkey 发展而来,其核心技术为 Quill NLG 引擎。Forbes 是 NarrativeScience 的一个典型客户,在网站上有个 NarrativeScience 专页[15],全部文章都是由 NarrativeScience 自动生成。下面给出一篇自动生成的样例新闻:

    NarrativeScience 自动生成的样例新闻

    图4.4 NarrativeScience 自动生成的样例新闻

    4.2 国内研究现状

    国内学术界对数据到文本的生成鲜有研究,也很少见到相关学术成果发表在重要学术会议和期刊上。国内工业界则有部分单位研制了基于模板的文本生成系统。例如新华社已开发了从财报数据生成企业财报年报的系统,该系统基于人工模板,将需要的数据填入写好的模板中,从而生成财报年报。由于采用的模板比较固定,所以为不同企业生成的财报年报都比较类似,而不够生动。

    4.3 发展趋势与展望

    从数据到中文文本的生成技术很有研究意义,同时实用性很强。如果能实现从数据到中文新闻的生成,那么将极大缓解编辑和记者的负担,实现媒体、出版行业的变革。而实现这样的系统,必须依靠科研院所和新闻出版机构的合作,新闻出版机构能够提供大量的数据和专家知识,而科研院所则擅长自然语言理解与生成的理论与方法。

    此外,要研制一套通用的面向不同领域的数据到文本的生成系统相当复杂和困难,因此一个更好的做法是先选择一两个领域(如财经、体育)进行系统研制,待系统成熟后再考虑将系统迁移到其他领域。

    5.图像到文本的生成

    5.1 国际研究现状

    图像到文本的生成技术是指根据给定的图像生成描述该图像内容的自然语言文本,例如新闻图像附带的标题、医学图像附属的说明、儿童教育中常见的看图说话、以及用户在微博等互联网应用中上传图片时提供的说明文字。依据所生成自然语言文本的详细程度及长度的不同,这项任务又可以分为图像标题自动生成和图像说明自动生成。前者需要根据应用场景突出图像的核心内容,例如,为新闻图片生成的标题需要突出与图像内容密切关联的新闻事件,并在表达方式上求新以吸引读者的眼球;而后者通常需要详细描述图像的主要内容,例如,为有视力障碍的人提供简洁详实的图片说明,力求将图片的内容全面且有条理的陈述出来,而在具体表达方式上并没有具体的要求。

    对于图像到文本的自动生成这一任务,人类可以毫不费力地理解图像内容,并按具体需求以自然语言句子的形式表述出来;然而对于计算机而言,则需要综合运用图像处理,计算机视觉和自然语言处理等几大领域的研究成果。作为一项标志性的交叉领域研究任务,图像到文本的自动生成吸引着来自不同领域研究者的关注。自2010年起,自然语言处理界的知名国际会议和期刊ACL、TACL和EMNLP中都有相关论文的发表;而自2013年起,模式识别与人工智能领域顶级国际期刊IEEE TPAMI以及计算机视觉领域顶级国际期刊IJCV也开始刊登相关工作的研究进展,至 2015 年,计算机视觉领域的知名国际会议 CVPR 中,更是有近10篇相关工作的论文发表,同时机器学习领域知名国际会议ICML中也有2篇相关论文发表。图像到文本的自动生成任务已被认为是人工智能领域中的一项基本挑战。

    与一般的文本生成问题类似,解决图像到文本的自动生成问题也需要遵循三阶段流水线模型[76],同时又需要根据图像内容理解的特点,做出一些调整:

    在内容抽取方面,需要从图像中抽取物体、方位、动作、场景等概念,其中物体可以具体定位到图像中的某一具体区域,而其他概念则需要进行语义标引。这部分主要依靠模式识别和计算机视觉技术。

    在句子内容选择方面,需要依据应用场景,选择最重要(如图像画面中最突出的,或与应用场景最相关的),且意义表述连贯的概念。这部分需要综合运用计算机视觉与自然语言处理技术。

    最后,在句子实现部分,根据实际应用特点选取适当的表述方式将所选择的概念梳理为合乎语法习惯的自然语言句子。这部分主要依靠自然语言处理技术。

    早期工作主要依照上述三阶段的流水线模式来实现。例如,在Yao等人的工作[88]中,图像被细致的分割并标注为物体及其组成部分,以及图像所表现的场景,并在此基础上选择与场景相关的描述模板,将物体识别的结果填充入模板得到图像的描述文字。而 Feng 与Lapata[89][90]则采用概率图模型对文本信息和图像信息同时建模,并从新闻图片所在的文字报道中挑选合适的关键词作为体现图像内容的关键词,并进而利用语言模型将所选取的内容关键词、及必要的功能词汇链接为基本合乎语法规则的图像标题。还有一些工作[91] [92][93] [94][95]则依靠计算机视觉领域现有的物体识别技术从图像中抽取物体(包括人物、动物、花草、车、桌子等常见的物体类型),并对其定位以获得物体之间的上下位关系,进而依赖概率图模型和语言模型选取适当的描述顺序将这些物体概念、介词短语块串联成完整的句子。Hodosh等人[96]则利用基于核函数的典型关联分析(Kernel Canonical Correlation Analysis,KCCA)来寻找文本与图像之间的关联,并依据图像信息对候选句子排序,从而获得最佳描述句子。值得说明的是,Hodosh等人的工作[96]和Feng与Lapata的工作[90][91]均没有依靠现有的物体识别技术。

    一种典型的流水线模型

    图5.1 一种典型的流水线模型

    随着深度学习方法在模式识别、计算机视觉及自然语言处理领域的广泛应用,基于海量数据的大规模图像分类、语义标注技术得到了快速发展;同时,统计机器翻译等与自然语言生成相关的技术也有了显著的提高。这也催生了将图像语义标注及自然语言句子生成进行联合建模的一系列工作,一方面在图像端采用多层深度卷积神经网络(Deep Convolution Neural Network,DCNN)对图像中的物体概念进行建模,另一方面在文本端采用循环神经网络(Recurrent Neural Network,RNN)或递归神经网络(Recursive Neural Network)对自然语言句子的生成过程进行建模[97]。传统图像语义标注工作主要关注具体某个物体的识别以及物体之间的相对位置关系,而对动作等抽象概念的关注较少。Socher 等人 [98] 提出利用递归神经网络对句子建模,并利用句法解析树突出对于动作(动词)的建模,进而将图像端与文本端进行联合优化,较好的刻画了物体与动作之间的关系。为了将两种不同模态的数据统一在一个框架下,Chen与Zitnick[99]将文本信息与图像信息融合在同一个循环神经网络中,利用图像信息作为记忆模块,从而指导文本句子的生成,同时又借助于一个重构图像信息层,实现了图像到文本、文本到图像的双方向表示。而Mao等人[100]则通过DCNN得到的图像信息与文本信息融合到同一个循环神经网络(m-RNN)中,将图像信息融入到了自然语言句子生成的序列过程中,取得了不错的结果。类似的想法也被 Donahue 等人[101]应用于动作识别和视频描述生成过程中。但在m-RNN的句子生成过程中,在图像端并没有显著的约束,例如在下图中,当生成单词“man”的时候,并没有与图像信息中的任务标注发生直接或间接的关联。

    多模态m-RNN模型

    图5.2 多模态m-RNN模型

    谷歌和加拿大蒙特利尔大学和多伦多大学的研究人员则分别借鉴了统计机器翻译领域的最新研究进展来推进图像到文本自动生成的联合建模[102] [103]。前者利用深层卷积神经网络DCNN 对图像建模,将图像信息“编码”(encoding)后,直接由另一个与之相连接的 LSTM 神经网络(Long-Short Term Memory Network,LSTM)“解码”(decoding)成自然语言句子,无需进行图像-词对齐、调序等传统模型的子步骤。而后者则在基于神经网络的机器翻译框架下,提出利用计算机视觉领域中的“注意”(Attention)机制来促进词语和图像块之间的对齐,从而在句子生成过程中,模拟人视觉的“注意”转移过程能够与词语序列的生成过程相互促进,使生成的句子更符合人的表述习惯。

    视觉“注意”引导的图像标题生成过程

    图5.3 视觉“注意”引导的图像标题生成过程

    此外,微软的研究人员[104]利用卷积神经网络 CNN 和多示例学习(Multiple Instance Learning,MIL)对图像建模,并利用判别式语言模型生成候选句子,并采用统计机器翻译研究中经典的最小误差率训练(Minimum Error Rate Training,MERT)来发掘文本和图像层面的特征对候选句子进行排序。

    虽然图像到文本的生成技术还处在探索阶段,距离实际产业应用还有一定的距离,但工业界已经开始注意到这一技术的理论研究价值和潜在应用前景,积极与学术界合作拓展研究方向。在 2015 年的计算机视觉知名国际会议 CVPR 2015 上举办的 LSUN Challenge(Large-scale Scene Understanding)挑战活动中也进行了图像标题自动生成的评测任务,最终谷歌公司[102]和微软研究院[104]取得了总成绩并列第一名,蒙特利尔-多伦多联队[103]和另一只微软研究院队伍[105]总成绩并列第三名,加州伯克利分校 [101]获得第五名。

    5.2国内研究现状

    国内学术界对图像到文本的生成技术研究开展较晚,大部分科研单位专注于跨媒体数据的语义标注和检索等任务上,只有人大、清华、北大、北航和中科院等科研单位开展了相关研究,如人民大学与腾讯合作在 2015 年欧盟组织的 ImageCLEF 评测中,在图像句子生成(Image Sentence Generation)任务中取得了第一名。

    在工业界方面,百度和腾讯等科研机构也依靠自身在跨媒体语义标注、分类和检索等方面的研究优势,逐步开展相关方向的研究工作,如百度与UCLA合作的m-RNN系统在CVPR 2015 LSUN评测的图像标题自动生成任务中也取得了不错的成绩。

    5.3 发展趋势与展望

    从图像到文本的生成技术需要集成模式识别与机器学习、计算机视觉、自然语言处理,甚至认知科学领域的研究成果,具有极高的理论研究价值和实用前景。从一定程度上讲,这一技术同图像语义标注等任务一道,已成为各大顶尖科研机构在人工智能领域综合研究实力的较量方式,必将促进其快速发展。

    而对于这一任务本身而言,更大的挑战仍然在于如何正确的抽取图像的内容,同时根据人类的语言习惯选择适当的表述方式将图像内容转换为自然语言句子。需要指出的是,目前的研究仍然聚焦在是否将图像中的物体概念抽取完全,是否选择了正确的词语,所生成的句子是否符合语法习惯等;可以预见在不久的将来,实际应用场景和上下文语境等约束将进一步推进相关技术的进步,必将广泛应用于新闻传播、在线教育、智能家居等多个领域。

    6.总结与展望

    本文对文本自动生成技术进行了全面的介绍,包括文本到文本的生成、意义到文本的生成、数据到文本的生成、图像到文本的生成等。由于上述每项技术均有众多的研究者在研究,相关的学术成果也层出不穷,因此本文的总结难免有遗漏之处。希望本文的内容能够对相关研究人员和从业者有所帮助。

    对文本自动生成技术的国际研究现状和国内研究现状进行比较可以看到,国内对该领域的研究投入和产出均远远不够,原创性的方法、资源、系统以及产品都相对比较匮乏,而且该领域没有受到业界足够的关注。我们必须奋起直追,建设相关中文资源,提出原创性文本生成方法,搭建中文文本生成系统并开发相关产品,才能占领中文文本生成的制高点。我们期待第一个中文文本生成系统由国内单位研制而成。

    参考文献

    [1]         Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of research and development, 2(2), 159-165.

    [2]         Lin, C. Y., & Hovy, E. (2002, July). From single to multi-document summarization: A prototype system and its evaluation. In Proceedings of the 40th Annual Meeting on Association for Computational

    Linguistics (pp. 457-464). Association for Computational Linguistics.

    [3]         Evans, D. K., Klavans, J. L., & McKeown, K. R. (2004, May). Columbia newsblaster: multilingual news summarization on the Web. In Demonstration Papers at HLT-NAACL 2004 (pp. 1-4). Association for Computational Linguistics.

    [4]         Radev, D., Otterbacher, J., Winkel, A., & Blair-Goldensohn, S. (2005). NewsInEssence: summarizing online news topics. Communications of the ACM, 48(10), 95-98.

    [5]         Shen, D., Sun, J. T., Li, H., Yang, Q., & Chen, Z. (2007, January). Document Summarization Using Conditional Random Fields. In IJCAI (Vol. 7, pp. 2862-2867).

    [6]         Conroy, J. M., & O’leary, D. P. (2001, September). Text summarization via hidden markov models. In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 406-407). ACM.

    [7]         Schilder, F., & Kondadadi, R. (2008, June). FastSum: fast and accurate query-based multi-document summarization. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers (pp. 205-208). Association for Computational Linguistics.

    [8]         Ouyang, Y., Li, W., Li, S., & Lu, Q. (2011). Applying regression models to query-focused multi-document summarization. Information Processing & Management, 47(2), 227-237.

    [9]         Cao, Z., Wei, F., Dong, L., Li, S., & Zhou, M. (2015, February). Ranking with recursive neural networks and its application to multi-document summarization. In Twenty-Ninth AAAI Conference on Artificial Intelligence.

    [10]      Carbonell, J., & Goldstein, J. (1998, August). The use of MMR, diversity-based reranking for reordering documents and producing summaries. In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 335-336). ACM.

    [11]      Bollegala, D., Okazaki, N., & Ishizuka, M. (2010). A bottom-up approach to sentence ordering for multi-document summarization. Information processing & management, 46(1), 89-109.

    [12]      McDonald, R. (2007). A study of global inference algorithms in multi-document summarization (pp. 557-564). Springer Berlin Heidelberg.

    [13]      Gillick, D., & Favre, B. (2009, June). A scalable global model for summarization. In Proceedings of the Workshop on Integer Linear Programming for Natural Langauge Processing (pp. 10-18). Association for Computational Linguistics.

    [14]      Li, C., Qian, X., & Liu, Y. (2013, August). Using Supervised Bigram-based ILP for Extractive Summarization. In ACL (1) (pp. 1004-1013).

    [15]      Lin, H., & Bilmes, J. (2010, June). Multi-document summarization via budgeted maximization of submodular functions. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp. 912-920). Association for Computational Linguistics.

    [16]      Lin, H., & Bilmes, J. (2011, June). A class of submodular functions for document summarization. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 (pp. 510-520). Association for Computational Linguistics.

    [17]      Qian, X., & Liu, Y. (2013). Fast Joint Compression and Summarization via Graph Cuts. In EMNLP (pp. 1492-1502).

    [18]      Li, C., Liu, Y., Liu, F., Zhao, L. & Weng, F. (2014). Improving Multi-documents Summarization by Sentence Compression based on Expanded Constituent Parse Trees. In EMNLP.

    [19]      Berg-Kirkpatrick, T., Gillick, D., & Klein, D. (2011, June). Jointly learning to extract and compress. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 (pp. 481-490). Association for Computational Linguistics.

    [20]      Barzilay, R., & McKeown, K. R. (2005). Sentence fusion for multidocument news summarization. Computational Linguistics, 31(3), 297-328.

    [21]      Bing L., Li P., Liao Y., Lam W., Guo W., & Passonneau R. J. (2015). Abstractive Multi-Document Summarization via Phrase Selection and Merging. In ACL.

    [22]      Liu, F., Flanigan, J., Thomson, S., Sadeh, N., & Smith, N. A. (2015). Toward Abstractive Summarization Using Semantic Representations. In NAACL.

    [23]      Abu-Jbara, A., & Radev, D. (2011, June). Coherent citation-based summarization of scientific papers. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 (pp. 500-509). Association for Computational Linguistics.

    [24]      Saif Mohammad, Bonnie Dorr, Melissa Egan, Ahmed Hassan, Pradeep Muthukrishan, Vahed Qazvinian, Dragomir Radev, and David Zajic. 2009. Using citations to generate surveys of scientific paradigms. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 584-592. Association for Computational Linguistics.

    [25]      Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining Text Data (pp. 43-76). Springer US.

    [26]      Knight, K., & Marcu, D. (2002). Summarization beyond sentence extraction: A probabilistic approach to sentence compression. Artificial Intelligence, 139(1), 91-107.

    [27]      Cohn, T., & Lapata, M. (2008, August). Sentence compression beyond word deletion. In Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1 (pp. 137-144). Association for Computational Linguistics.

    [28]      Knight, K., & Marcu, D. (2000, August). Statistics-based summarization-step one: Sentence compression. In AAAI/IAAI (pp. 703-710).

    [29]      McDonald, R. T. (2006, April). Discriminative Sentence Compression with Soft Syntactic Evidence. In EACL.

    [30]      Cohn, T. A., & Lapata, M. (2009). Sentence compression as tree transduction. Journal of Artificial Intelligence Research, 637-674.

    [31]      Clarke, J., & Lapata, M. (2008). Global inference for sentence compression: An integer linear programming approach. Journal of Artificial Intelligence Research, 399-429.

    [32]      Thadani, K., & McKeown, K. (2013). Supervised sentence fusion with single-stage inference. In Proceedings of the Sixth International Joint Conference on Natural Language Processing (pp. 1410-1418).

    [33]      Elsner, M., & Santhanam, D. (2011, June). Learning to fuse disparate sentences. In Proceedings of the Workshop on Monolingual Text-To-Text Generation (pp. 54-63). Association for Computational Linguistics.

    [34]      Filippova, K. (2010, August). Multi-sentence compression: finding shortest paths in word graphs. In Proceedings of the 23rd International Conference on Computational Linguistics (pp. 322-330). Association for Computational Linguistics.

    [35]      Barzilay, R., & Lee, L. (2003, May). Learning to paraphrase: an unsupervised approach using multiple-sequence alignment. In Proceedings of the 2003 Conference of the North American Chapter of

    the Association for Computational Linguistics on Human Language Technology-Volume 1 (pp. 16-23). Association for Computational Linguistics.

    [36]      Fujita, A., Inui, K., & Matsumoto, Y. (2005). Exploiting lexical conceptual structure for paraphrase generation. IJCNLP 2005, LNAI 3651, pp. 908-919.

    [37]      Quirk, C., Brockett, C., & Dolan, W. B. (2004, July). Monolingual Machine Translation for Paraphrase Generation. In EMNLP (pp. 142-149).

    [38]      Duboue, P. A., & Chu-Carroll, J. (2006, June). Answering the question you wish they had asked: The impact of paraphrasing for question answering. In Proceedings of the Human Language Technology

    Conference of the NAACL, Companion Volume: Short Papers (pp. 33-36). Association for Computational Linguistics.

    [39]      Max, A. (2009, August). Sub-sentential paraphrasing by contextual pivot translation. In Proceedings of the 2009 Workshop on Applied Textual Inference (pp. 18-26). Association for Computational Linguistics.

    [40]      Wubben, S., Van Den Bosch, A., & Krahmer, E. (2012, July). Sentence simplification by monolingual machine translation. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1 (pp. 1015-1024). Association for Computational Linguistics.

    [41]      Zhu, Z., Bernhard, D., & Gurevych, I. (2010, August). A monolingual tree-based translation model for sentence simplification. In Proceedings of the 23rd international conference on computational linguistics (pp. 1353-1361). Association for Computational Linguistics.

    [42]      Woodsend, K., & Lapata, M. (2011, April). WikiSimple: Automatic Simplification of Wikipedia Articles. In AAAI.

    [43]      Wan, X., Yang, J., & Xiao, J. (2007, January). Manifold-Ranking Based Topic-Focused Multi-Document Summarization. In IJCAI (Vol. 7, pp. 2903-2908).

    [44]      Wan, X., & Yang, J. (2008, July). Multi-document summarization using cluster-based link analysis. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 299-306). ACM.

    [45]      Wan, X., & Zhang, J. (2014, July). CTSUM: extracting more certain summaries for news articles. In Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval (pp. 787-796). ACM.

    [46]      Yan, S., & Wan, X. (2014). SRRank: leveraging semantic roles for extractive multi-document summarization. Audio, Speech, and Language Processing, IEEE/ACM Transactions on, 22(12), 2048-2058.

    [47]      Jin-ge Yao, Xiaojun Wan, Jianguo Xiao. (2015). Compressive Document Summarization via Sparse Optimization. In IJCAI.

    [48]      Yan, R., Wan, X., Otterbacher, J., Kong, L., Li, X., & Zhang, Y. (2011, July). Evolutionary timeline summarization: a balanced optimization framework via iterative substitution. In Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval (pp. 745-754). ACM.

    [49]      Wan, X. (2011, June). Using bilingual information for cross-language document summarization. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 (pp. 1546-1555). Association for Computational Linguistics.

    [50]      Wan, X., Jia, H., Huang, S., & Xiao, J. (2011, July). Summarizing the differences in multilingual news. In Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval (pp. 735-744). ACM.

    [51]      Hu, Y., & Wan, X. (2015). PPSGen: Learning-Based Presentation Slides Generation for Academic Papers. Knowledge and Data Engineering, IEEE Transactions on, 27(4), 1085-1097.

    [52]      Hu, Y., & Wan, X. (2014). Automatic Generation of Related Work Sections in Scientific Papers: An Optimization Approach. In EMNLP.

    [53]      Yao, J. G., Wan, X., & Xiao, J. (2014). Joint Decoding of Tree Transduction Models for Sentence Compression. In EMNLP.

    [54]      Huang, M., Shi, X., Jin, F., & Zhu, X. (2012, July). Using first-order logic to compress sentences. In Twenty-Sixth AAAI Conference on Artificial Intelligence.

    [55]      Shiqi Zhao, Cheng Niu, Ming Zhou, Ting Liu, and Sheng Li. 2008. Combining Multiple Resources to Improve SMT-based Paraphrasing Model. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-08: HLT), pages 1021-1029.

    [56]      Shiqi Zhao, Haifeng Wang, Xiang Lan, and Ting Liu. 2010. Leveraging Multiple MT Engines for Paraphrase Generation. In Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010), pages 1326-1334.

    [57]      Shiqi Zhao, Xiang Lan, Ting Liu, Sheng Li. 2009. Application-driven Statistical Paraphrase Generation.

    In Proceedings of Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP 2009), pages 834-842.

    [58]      Wei Lu; Hwee Tou Ng. 2011. A Probabilistic Forest-to-String Model for Language Generation from Typed Lambda Calculus Expressions. In Proceedingds of the 2011 Conference on Empirical Methods in Natural Language Processing.

    [59]      Mark Steedman. 2000. The Syntactic Process. MIT Press.

    [60]      Carl Pollard, Ivan A. Sag. 1994. Head-Driven Phrase Structure Grammar. University of Chicago Press.

    [61]      Stuart M. Shieber. 1988. A uniform architecture for parsing and generation. In Proceedings of the 12th International Conference on Computational Linguistics.

    [62]      Martin Kay. 1996. Chart Generation. In Proceedings of the 34th annual meeting on Association for Computational Linguistics.

    [63]      Stuart M. Shieber, Gertjan van Noord, Fernando C. N. Pereira, and Robert C. Moore. 1990. Semantic-head–driven generation. Computational Linguistics.

    [64]      Dan Flickinger. 2002. On building a more efficient grammar by exploiting types. Collaborative Language Engineering.

    [65]      Carroll, J., & Oepen, S. (2005). High efficiency realization for a wide-coverage unification grammar. In Natural Language Processing–IJCNLP 2005 (pp. 165-176). Springer Berlin Heidelberg.

    [66]      Luke S. Zettlemoyer and Michael Collins. 2005. Learning to Map Sentences to Logical Form: Structured Classification with Probabilistic Categorial Grammars. In Proceedings of UAI.

    [67]      Michael White and Jason Baldridge. 2003. Adapting Chart Realization to CCG. In Proc. of the 9th European Workshop on Natural Language Generation.

    [68]      Michael White. 2004. Reining in CCG Chart Realization. In Proc. of the 3rd International Conference on Natural Language Generation.

    [69]      Michael White. 2006. CCG Chart Realization from Disjunctive Inputs. In Proc. of the 4th International Conference on Natural Language Generation (INLG-06).

    [70]      Michael White, Rajakrishnan Rajkumar and Scott Martin. 2007. Towards Broad Coverage Surface Realization with CCG. In Proc. of the 2007 Workshop on Using Corpora for NLG: Language Generation and Machine Translation.

    [71]      David Chiang. 2005. A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd annual meeting on Association for Computational Linguistics.

    [72]      Yuk Wah Wong; Raymond Mooney. 2007. Generation by Inverting a Semantic Parser that Uses Statistical Machine Translation. In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics.

    [73]      Terry Koo, Alexander M. Rush, Michael Collins, Tommi Jaakkola, and David Sontag. 2010. Dual Decomposition for Parsing with Non-Projective Head Automata. In Proceedings of EMNLP 2010.

    [74]      Alexander M. Rush and Michael Collins. 2011. Exact Decoding of Syntactic Translation Models through Lagrangian Relaxation. In Proceedings of ACL 2011.

    [75]      Yi Zhang, Hans-Ulrich Krieger. 2011. Large-Scale Corpus-Driven PCFG Approximation of an HPSG.

    In Proceedings of 12th International Conference on Parsing Technologies.

    [76]      Reiter, E. & Dale, R. (2000). Building natural language generation systems (Vol. 33). Cambridge: Cambridge university press.

    [77]      Reiter, E. (2007, June). An architecture for data-to-text systems. In Proceedings of the Eleventh European Workshop on Natural Language Generation (pp. 97-104). Association for Computational Linguistics.

    [78]      Goldberg, E., Driedger, N., & Kittredge, R. (1994). Using natural-language processing to produce weather forecasts. IEEE Expert, 9(2), 45-53.

    [79]      Sripada, S., Reiter, E., & Davy, I. (2003). SumTime-Mousam: Configurable marine weather forecast generator. Expert Update, 6(3), 4-10.

    [80]      Reiter, E., Sripada, S., Hunter, J., Yu, J., & Davy, I. (2005). Choosing words in computer-generated weather forecasts. Artificial Intelligence, 167(1), 137-169.

    [81]      Belz, A. (2008). Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models. Natural Language Engineering, 14(04), 431-455.

    [82]      Belz, A., & Kow, E. (2009, March). System building cost vs. output quality in data-to-text generation. In Proceedings of the 12th European Workshop on Natural Language Generation (pp. 16-24). Association for Computational Linguistics.

    [83]      Bohnet, B., Lareau, F., & Wanner, L. (2007). Automatic production of multilingual environmental information. In Proceedings of the 21st Conference on Informatics for Environmental Protection (EnviroInfo-07), Warsaw, Poland.

    [84]      Kukich, K. (1983, June). Design of a knowledge-based report generator. In Proceedings of the 21st annual meeting on Association for Computational Linguistics (pp. 145-150). Association for Computational Linguistics.

    [85]      Kahn, M. G., Fagan, L. M., & Sheiner, L. B. (1991). Combining physiologic models and symbolic methods to interpret time-varying patient data. Methods of information in medicine, 30(3), 167-178.

    [86]      Hüske-Kraus, D. (2003, April). Suregen-2: A shell system for the generation of clinical documents. In Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics-Volume 2 (pp. 215-218). Association for Computational Linguistics.

    [87]      Portet, F., Reiter, E., Gatt, A., Hunter, J., Sripada, S., Freer, Y., & Sykes, C. (2009). Automatic generation of textual summaries from neonatal intensive care data. Artificial Intelligence, 173(7), 789-816.

    [88]      B. Yao, X. Yang, L. Lin, M. W. Lee, and S.-C. Zhu. 2010. I2t:image parsing to text description. IEEE Xplore.

    [89]      Y. Feng and M. Lapata, “How Many Words Is a Picture Worth? Automatic Caption Generation for News Images,” Proc. Assoc. for Computational Linguistics, pp. 1239-1249, 2010.

    [90]      Y. Feng and M. Lapata. 2013. Automatic caption gen- eration for news images. IEEE Trans. Pattern Anal. Mach. Intell., 35.

    [91]      Y. Yang, C. L. Teo, H. Daume ́ III, and Y. Aloimonos. Corpus-guided sentence generation of natural images. In EMNLP, 2011

    [92]      G. Kulkarni, V. Premraj, S. Dhar, S. Li, Y. Choi, A. C. Berg, and T. L. Berg. 2011. Baby talk: Understanding and generating image descriptions. In CVPR.

    [93]      Kulkarni, Girish, Premraj, Visruth, Ordonez, Vicente, Dhar, Sag- nik, Li, Siming, Choi, Yejin, Berg, Alexander C, and Berg, Tamara L. Babytalk: Understanding and generating simple im- age descriptions. PAMI, IEEE Transactions on, 35(12):2891– 2903, 2013.

    [94]      Mitchell, Margaret, Han, Xufeng, Dodge, Jesse, Mensch, Alyssa, Goyal, Amit, Berg, Alex, Yamaguchi,

    Kota, Berg, Tamara, Stratos, Karl, and Daume ́ III, Hal. Midge: Generating im- age descriptions from computer vision detections. In European Chapter of the Association for Computational Linguistics, pp. 747–756. ACL, 2012.

    [95]      Elliott, Desmond and Keller, Frank. Image description using vi- sual dependency representations. In EMNLP, pp. 1292–1302, 2013.

    [96]      Hodosh, Micah, Young, Peter, and Hockenmaier, Julia. Framing image description as a ranking task:

    Data, models and evalu- ation metrics. Journal of Artificial Intelligence Research, pp. 853–899, 2013.

    [97]      A. Karpathy and L. Fei-Fei. Deep visual-semantic align- ments for generating image descriptions. CVPR, 2015.

    [98]      R. Socher, A. Karpathy, Q. V. Le, C. D. Manning, and A. Y. Ng. Grounded compositional semantics for finding and de- scribing images with sentences. TACL, 2014.

    [99]      X. Chen and C. L. Zitnick. Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation. CVPR, 2015

    [100]   Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang and Alan L. Yuille, Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN), ICLR 2015

    [101]   J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell.

    Long-term recur- rent convolutional networks for visual recognition and de- scription. CVPR, 2015.

    [102]   O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show and tell: A neural image caption generator. CVPR, 2015.

    [103]   Xu, K., Ba, J., Kiros, R., Courville, A., Salakhutdinov, R., Zemel, R., & Bengio, Y. (2015). Show, attend and tell: Neural image caption generation with visual attention. In ICML.

    [104]   H. Fang, S. Gupta, F. Iandola, R. Srivastava, L. Deng, P. Dolla ́r, J. Gao, X. He, M. Mitchell, J. Platt, C.

    L. Zitnick, and G. Zweig. From captions to visual concepts and back. CVPR, 2015

    [105]   Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta, Li Deng, Xiaodong He, Geoffrey Zweig,

    Margaret Mitchell, Language Models for Image Captioning: The Quirks and What Works, arXiv 2015

    作者简介

    万小军 博士,北京大学计算机科学技术研究所研究员,博士生导师。主要研究方向为自然语言处理、文本挖掘。Email: wanxiaojun@pku.edu.cn

    冯岩松 博士,北京大学计算机科学技术研究所讲师。主要研究方向为自然语言处理。Email: fengyansong@pku.edu.cn

    孙薇薇 博士,北京大学计算机科学技术研究所讲师。主要研究方向为计算语言学。Email: ws@pku.edu.cn

    注:本文第 1,2,4,6 节由万小军撰写、第 3 节由孙薇薇撰写、第 5 节由冯岩松撰写。博士生姚金戈参与了校对工作。

    [1] http://duc.nist.gov/

    [2] http://www.nist.gov/tac/

    [3] http://www.berouge.com

    [4] http://www1.cs.columbia.edu/nlp/newsblaster/

    [5] http://lada.si.umich.edu:8080/clair/nie1/nie.cgi

    [6] http://en.wikipedia.org

    [7] http://simple.wikipedia.org

    [8] http://www.863data.org.cn

    [9] http://tcci.ccf.org.cn/conference/2015/pages/page05_evadata.html

    [10] http://www.delph-in.net/erg/

    [11] https://github.com/OpenCCG/openccg

    [12] https://www.arria.com/

    [13] http://automatedinsights.com

    [14] http://www.narrativescience.com

    [15] http://www.forbes.com/sites/narrativescience

    转自 http://www.search1990.com/other/201602272305.html

    展开全文
  • 知识图谱与文本生成

    千次阅读 2020-06-13 15:26:42
    文本生成在自然语言处理领域一直属于热门研究领域。生成文本任务比信息抽取和文本分类等问题要更加困难,收到了学界的广泛关注。受到深度神经网络的影响,许多文本生成模型模型被研发,有基于机器翻译的Seq2Seq框架...

    文本生成在自然语言处理领域一直属于热门研究领域。生成文本任务比信息抽取和文本分类等问题要更加困难,收到了学界的广泛关注。受到深度神经网络的影响,许多文本生成模型模型被研发,有基于机器翻译的Seq2Seq框架,有纯数据驱动模型,也有融合了知识图谱信息的知识驱动模型。本文介绍的是一些融合了知识图谱信息的知识驱动文本生成模型。

    几个Seq2Seq文本生成框架

    Pointer Networks
    本文试图利用seq2seq处理特定的序列问题。我们已经提到,传统seq2seq结构的输出由类似词汇表的某个元素映射表确定,这样就无法应对词汇表随输入变动的情况,例如凸包问题,给定包含一组坐标点的序列,预测构成凸包的点集,此时词汇表的元素应该完全由输入构成,显然传统seq2seq无法处理。本文作者提出了一种精巧的,比传统attention-seq2seq更简单的pointer-net

    Incorporating Copying Mechanism in Sequence-to-Sequence Learning
    在这里插入图片描述
    本文提出的copy-net目标非常明确,就是构造一种copy机制解决上面提到的与输入相关的OOV问题。特别是摘要、对话生成这类问题,输入文本中一些词可以通过传统方式预测,另一部分词则可以直接复制在输出文本中,所以copy-net最终的词概率预测由两部分组成,generate-mode和copy-mode,分别用于传统的预测和copy词的预测。

    Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning

    在这里插入图片描述
    以问答系统为实验场景,在copynet的基础上加入知识检索模块共同配合回复生成。

    Multi-Source Pointer Network for Product Title Summarization
    在这里插入图片描述
    网购商品的摘要生成需要更大程度保留关键信息,同时避免无关内容。本文的结构很像引入知识特征的pointer-generator,利用pointer的思想从输入文本中提取关键词,这里的输入文本是商品的标题,确保信息相关;引入知识特征则是为了更大程度的产生关键信息。

    Learning to Select Knowledge for Response Generation in Dialog Systems
    上面两篇文章分别对copy-net和pointer-generator做知识特征融合,结构上没有很大的改变,基于前者实现也是相对方便的。本文则更侧重于知识特征,强调利用后验知识分布优化对话生成。

    首先,用单独的Encoder模块编码知识和目标输出(训练时),然后通过X,Y计算知识K的先验和后验概率分布,并通过KL散度度量两个概率分布的距离,这里不难理解,先验分布和后验分布相差极小就意味着可以用先验分布采样知识(预测时后验分布未知),并用于生成目标回复Y。第二部分中,通过后验(预测时先验代替)分布采样出与对话相关的知识作为额外的知识特征,与Decoder模块的输入一起编码,再和被encoding的sourceX一起预测下一个词。此外,训练的损失函数包含KL散度,NLL损失和BOW损失,第三部分就是用BOW损失考量被采样出的知识(图中的k2)与目标输出文本相关的概率。

    在这里插入图片描述

    MASS: Masked Sequence to Sequence Pre-training for Language Generation

    在这里插入图片描述

    BERT本身是以学习表示为目标,或者说是NLU方面的探索,随机MASK作为预训练任务被证明效果突出,然而会存在pretraining和fine-tuning数据不一致的问题,如果你想把BERT拼在Encoder端和Decoder端,就要考虑改变BERT的预训练方式。MASS略微修改了BERT的mask方式,在Encoder端连续mask一个子序列,让Decoder用前i-1个词预测第i个,就这样把BERT套进Seq2seq框架,一起pretraining即可。

    相比于不同的模型结构,充分的训练数据似乎更为关键。而对于文本摘要,对话生成这类任务,序列中更需要包含主题,关键实体等特殊信息元,因而融合主题、输入文本、知识特征的策略很可能会带来更多收益。不过,文本生成类任务仍处于初级阶段,复杂花哨的结构也许很难达到可观的效果。因此即便是文本摘要这类任务,仍不妨先试试受众广泛的开源实现,诸如gnmt、fairseq、tensor2tensor等。

    文本摘要生成

    Get To The Point: Summarization with Pointer-Generator Networks
    在这里插入图片描述
    本文模型结构简洁,思路清晰,与基础的seq2seq比较非常方便,在这两年很多摘要生成工作中都作为baseline出现,表现不俗。作为一个子任务工作,项目star已达1.5k+,也说明一定影响力。文中用attention作为分布的方法,就源于2015年的pointer-net。

    考虑实体知识特征的生成类工作,最容易想到的大致有实体,模版以及主题,下面将简要介绍与这三种相关的工作。
    Neural Question Generation from Text- A Preliminary Study
    在文本分类相关任务中,融合外部特征的常见做法,就是编码这些特征,然后选择不同的encoding层做concat,本文在问题生成任务中,对这类融合方式做了实验对比,模型结构上除了加入copy机制外,没有更多值得特别注意的改变。不过本文对concat各种特征做了实验比较,作者选取了word case,POS,NER,answer-tag作为额外特征
    BiSET: Bi-directional Selective Encoding with Template for Abstractive Summarization
    在这里插入图片描述
    模版往往是抽取式模型常用的方式,本文则是提出了利用模版过滤原文编码特征的方法。

    Multi-Source Pointer Network for Product Title Summarization

    在这里插入图片描述
    既然可以用attention作为分布强化原文中词的概率,那用在实体知识特征上当然也没问题。

    退化现象

    重复一直是文本生成类任务的通病,这在一些文章中被称为退化,我们也在寻找合适的应对方案,coverage机制就是一种方案,但并不足够,下面的工作介绍了另一种损失函数,在词和子句(ngram)两个点共同发力应对退化现象。

    ref:

    1. NEURAL TEXT DEGENERATION WITH UNLIKELIHOOD TRAINING
    2. The Curious Case of Neural Text Degeneration

    LevT: Levenshtein Transformer
    在这里插入图片描述
    我们一直奢望找到让生成模型更灵活的方法,传统的自回归模型,无论如何融入特征,基本框架都是编解码器提供历史向量编码,输出端计算词典概率p(x_t|x_old),能否让模型对输出端的token有更强的控制呢?本文提供了一种大胆的思路,从标题已经能看出,作者把编Levenshtein距离的操作和Transformer融合在一起做生成模型,输出端不仅要决定词本身,还要决定对词施加的操作。

    小结

    数据量有限时,pointer-generator可能比复杂的baseline或开源项目更适合,在此基础上,融合实体知识有更多可以参考的工作,此外结合实体知识后分词和词典整理之类的细节不容忽视。相比于语义匹配这类相对成熟的任务,文本生成类工作更难达到一个可以接受的结果,目前的模型都无法完全避免生成重复,生成错误,丢失关键点等问题,在应用场景中。如何应对重复问题,提高生成多样性依旧老生常谈但成效有限,另外Non-autoregressive方向有一些非常新颖的工作,除了上面提到的LevT外,还有一些从生成位置入手的工作值得学习,BERT之后的XLNet也针对Non-autoregressive有独特的设计,可见这一领域的潜力,最后评价指标一直是生成领域的弱项,也为应用。

    Ref:
    https://zhuanlan.zhihu.com/p/71695633
    知识图谱如何助力文本摘要生成
    知识图谱如何应用到文本标签化算法中

    展开全文
  •  文本生成是比较学术的说法,通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等,都属于文本生成的范畴。  2016年里,关于文本生成有许多的新闻事件,引起了学术界以外...

    http://www.renwuyi.com/index.php?action=artinfo&id=19036&cat_id=2#top

     文本生成是比较学术的说法,通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等,都属于文本生成的范畴。

      2016年里,关于文本生成有许多的新闻事件,引起了学术界以外对这一话题的广泛关注。

      2016年3月3日,MIT CSAIL【1】报道了,MIT计算机科学与人工智能实验室的一位博士后开发了一款推特机器人,叫DeepDrumpf,它可以模仿当时的美国总统候选人Donald Trump来发文。

      2016年3月22日,日本共同社报道,由人工智能创作的小说作品《机器人写小说的那一天》入围了第三届星新一文学奖的初审。这一奖项以被誉为“日本微型小说之父”的科幻作家星新一命名。提交小说的是“任性的人工智能之我是作家”(简称“我是作家”)团队【2】。

      2016年5月,美国多家媒体【3】【4】报道,谷歌的人工智能项目在学习了上千本浪漫小说之后写出后现代风格的诗歌。

      基于人工智能的文本生成真的已经达到媒体宣传的水平了吗?这些事件背后是怎样的人工智能技术?关于机器人写小说的工作,我们会在另一篇文章《会有那么一天,机器人可以写小说吗?》里进行深入的讨论,他们的工作更多的是基于模板的生成。在这篇文章里,我们主要想通过三篇文章介绍另一大类方法,即基于统计的文本生成。

     

      令人吃惊的Char-RNN

     

      关于基于深度学习的文本生成,最入门级的读物包括Andrej Karpathy这篇博客【5】。他使用例子生动讲解了Char-RNN(Character based Recurrent Neural Network)如何用于从文本数据集里学习,然后自动生成像模像样的文本。

      图一直观展示了Char-RNN的原理。以要让模型学习写出“hello”为例,Char-RNN的输入输出层都是以字符为单位。输入“h”,应该输出“e”;输入“e”,则应该输出后续的“l”。输入层我们可以用只有一个元素为1的向量来编码不同的字符,例如,h被编码为“1000”、“e”被编码为“0100”,而“l”被编码为“0010”。使用RNN的学习目标是,可以让生成的下一个字符尽量与训练样本里的目标输出一致。在图一的例子中,根据前两个字符产生的状态和第三个输入“l”预测出的下一个字符的向量为<0.1, 0.5, 1.9, -1.1>,最大的一维是第三维,对应的字符则为“0010”,正好是“l”。这就是一个正确的预测。但从第一个“h”得到的输出向量是第四维最大,对应的并不是“e”,这样就产生代价。学习的过程就是不断降低这个代价。学习到的模型,对任何输入字符可以很好地不断预测下一个字符,如此一来就能生成句子或段落。

    图片描述

      Andrej Karpathy还共享了代码【6】,感兴趣的同学不妨下载来试试,效果会让你震惊。Andrej Karpathy在底层使用的RNN的具体实现是LSTM(Long-Short Term Memory),想了解LSTM可以阅读【7】,讲得再清楚不过。

      研究人员用Char-RNN做了很多有趣的尝试,例如,用莎士比亚的作品来做训练,模型就能生成出类似莎士比亚的句子;利用金庸的小说来做训练,模型就能生成武侠小说式的句子;利用汪峰的歌词做训练,模型也能生成类似歌词的句子来。

      在本文一开始提到的【1】,MIT计算机科学与人工智能实验室的博士后Bradley Hayes也正是利用类似的方法开发了一款模仿候任美国总统Donald Trump的推特机器人,叫DeepDrumpf。例如,图二中,这个机器人说,“我就是伊斯兰国不需要的。”

    图片描述

      据作者介绍,他受到一篇模拟莎士比亚的论文启发,以Donald Trump的演讲和辩论(时常大约几个小时)的字幕作为训练语料,使用深度神经网络学习去训练Trump的模型。他也声称,因为有一篇文章调侃Trump的发言只有小学四年级的水平,因而想到用Trump的语料可能是最容易控制的。

      这是一个有趣的应用,记者评论称这个机器人也并不是总能写出好的句子,但至少部分是通顺的。其实,风格并不是很难学到,只要使用的训练语料来自同一个人,而这个人的写作或者发言具有辨识度高的特点。

     

      深度学习生成对话

     

      推荐阅读的第二篇文章是诺亚方舟实验室的尚利峰、吕正东和李航在2015年ACL大会上发表的“Neural Responding Machine for Short-Text Conversation” 【9】。大家也许听说过微软小冰,它因为开创性的主要做闲聊(即以娱乐为目的的聊天)式对话,被哈尔滨工业大学的刘挺教授誉为是第二波人机对话的浪潮的代表【8】。小冰的出现也影响到了学术界。除了原来做知识性的问答,一些研究也开始关注闲聊,让机器人和人类搭话,这方面诺亚方舟实验室发表了一系列有影响力的文章。今天介绍的这篇文章在Arxiv.org上发布短短一年时间,已经有67次的引用。

      【9】这篇文章尝试用encoder-decoder(编码-解码)的框架解决短文本对话(Short Text Conversation,缩写为STC)的问题。虽然encoder-decoder框架已经被成功应用在机器翻译的任务中,但是对话与翻译不同,对应一个输入文本(post)往往有多种不同的应答(responses)。文中举了一个例子,一个人说“刚刚我吃了一个吞拿鱼三明治”,不同的应答可以是“天哪,才早晨11点”、“看起来很美味哟”或是“在哪里吃的”。这种一对多的情况在对话中很普遍也很自然。的确,不同的人会对同一句话做出不同的反应,即使是同一个人,如果每次回答都一模一样也是很无趣的。

      针对这一特点,作者们提出Neural Responding Machine(简称NRM,见图三)框架来解决短文本对话的问题。他们尝试了全局编码和局部编码,最终发现先分别训练,再用图四的结构来做微调训练,效果最佳。全局编码的优点是能够获得全局信息,同样的词在不同情境下会有不同的意义,全局信息可以部分解决这类情况;缺点是,它供给解码的输入比较固定。局部编码利用局部信息,比较灵活多样,刚好可以缓解全局编码的弱点。

    图片描述
    图片描述

      这篇论文的另一大贡献是构建了一个比较大的数据集和标注来评价不同的方法。通过对比,所提出的混合全局和局部的方法比以往基于搜索的方法和机器翻译的方法都要好很多。机器翻译的方法生成的句子往往不通顺,得分最低。能比基于搜索的方法好很多也非常不容易,因为基于搜索的方法得到的已经是人使用过的应答,不会不通顺。大家可以在图五的实例中直接感受一下生成的效果。NRM-glo是全局编码的模型,NRM-loc是局部编码的模型,NRM-hyb是混合了全局和局部的模型,Rtr.-based则是基于搜索的方法。

    图片描述

      2015到2016年,这篇论文的作者组织了NTCIR-12 STC任务【10】,公开他们的数据集,并提供公共评测。有16个大学或研究机构参加了中文短文本对话任务的评测。2017年,他们将会继续组织NTCIR-13 STC【11】,现已开放注册【12】。除了上一届的基于搜索的子任务,这一次还设立了生成应答的子任务。我们预计今年的结果会更精彩。

      被媒体误解的谷歌人工智能写诗

      第三篇文章是Samuel Bowman等发表在Arxiv.org上的名为“Generating Sentences from a Continuous Space”的文章【13】。作者分别来自斯坦福大学、马萨诸塞大学阿姆斯特分校以及谷歌大脑部门,工作是在谷歌完成的。

      这一工作曾被媒体广泛报道,但我发现很多报道(例如【3】【4】)都对论文的工作有一些误解。一些记者将图六所示的文字误认为是机器人写出来的后现代风格的诗歌,其实不然。这只是作者在展示他们的方法可以让句子级别的编码解码更连续。具体而言,在他们学习到的空间中,每个点可以对应一个句子,任意选定两个点,例如在图六中,一对点对应的句子分别是“i want to talk to you.”和“she didn’t want to be with him”,两点之间的连线上可以找出间隔均匀的几个点,将它们也解码成句子,会发现,这些句子好像是从第一句逐渐变化成了最后一句。

    图片描述

      得到这样的结果实属不易。在文章的一开始,作者就给出了一个例子,来说明传统的自动解码并不能很好地编码完整的句子。如图七所示,从句子“i went to the store to buy some groceries”到句子“horses are my favorite animals”,中间取的点经过解码得到的句子呈现在它们之间。可以发现,这些句子未必是符合语法的英文句子。与之相比,图六呈现的句子质量要好很多,不仅语法正确,主题和句法也一致。

    图片描述

      这篇文章的想法非常有意思,他们想使用VAE(varationalautoencoder的简称)学习到一个更连续的句子空间。如图八所示,作者使用了单层的LSTM 模型作为encoder(编码器)和decoder(解码器),并使用高斯先验作为regularizer(正规化项),形成一个序列的自动编码器。比起一般的编码解码框架得到的句子编码往往只会记住一些孤立的点,VAE框架学到的可以想象成是一个椭圆形区域,这样可以更好地充满整个空间。我的理解是,VAE框架将贝叶斯理论与深度神经网络相结合,在优化生成下一个词的目标的同时,也优化了跟先验有关的一些目标(例如KL cost和crossentropy两项,细节请参考论文),使对一个整句的表达更好。

    图片描述

      当然,为了实现这一想法,作者做了很多尝试。首先,对图八所展示的结构做一些变形并没有带来明显的区别。但在优化时,使用退火的技巧来降低KL cost和训练时把适当比例的词变为未知词(即word dropout)这两项技术就非常有效。

      作者们通过两个有意思的实验来展示了他们的结果。一个是做填空题,如图九所示,隐藏句子的后20%,让模型来生成后面的部分。从几个例子看,VAE的方法比RNN语言模型(简称RNNLM)更加通顺和有信息量。第二个实验就是在两个句子之间做轮移(Homotopy,也就是线性插值),对比图六和图七,可以看出VAE给出的句子更平滑而且正确,这一点可以间接说明学习到的句子空间更好地被充满。

    图片描述

      当然,作者们还给出了一些定量的比较结果。在比较填空结果时,他们使用了adversarial evaluation(对抗评价)。具体的做法是,他们取样50%的完整句子作为正例,再拿50%的由模型填空完成的句子作为负例。然后训练一个分类器,如果一个模型填的越难与正例分开,就说明这种模型的生成效果更好,更具欺骗性。因此,可以认为这一模型在填空任务上更出色。实验的结果也支持VAE比RNNLM更好。

      问题与难点

      人工智能真的会创作吗?使用深度学习技术写出的文章或者对话,的确是会出现训练集合里未见过的句子。例如,一个原句的前半段可能会跟上另一个原句的后半段;也可能除了词,搭配组合都是训练集里没有的。这看起来有些创作的意味,但是细究起来,往往是原句的部分更为通顺和有意义。目前的技术可以拼凑,偶尔出现一两个好玩的点,但是写得长了,读起来会觉得没头没脑,这是因为没有统领全篇的精神,跟人类的作家比当然还是相差很远。

      机器学习到的还只是文字表面,没有具备人要写文章的内在动因。人写文章表达的是自己的思想和感受,这是机器所没有的。因此,即使是机器写文章,具体想要表达什么,似乎还要由人来控制。但如果控制得太多,看起来又不那么智能,少了些趣味。我认为,要想让机器更自由地写出合乎逻辑的话来,我们还需要类似VAE那篇文章一样更深入的研究,对句子甚至段落的内在逻辑进行学习。

      另外,人在写一篇文章的时候,很容易自我衡量语句是否通顺、思想是否表达清楚以及文章的结构是否清晰有趣,机器却很难做到。因此,优化的目标很难与真正的质量相一致。目前的自然语言理解技术对于判断句法语法是否正确可能还有些办法,但要想判断内容和逻辑上是否顺畅,恐怕还需要常识和推理的帮助,这些部分暂时还比较薄弱。但也并非毫无办法,我相信未来对文本生成的研究一定会涉及这些方面。

    转载于:https://www.cnblogs.com/DjangoBlog/p/7270445.html

    展开全文
  • 文本生成技术【text generator】

    千次阅读 2018-10-16 14:59:46
    当我们点开某个网站或新闻APP时,经常能看到这样的标题:“14亿人都不知道的真相,历史的血泪……”、...而这就是图鸭君此次会介绍的技术—— “文本摘要自动生成”技术! 文本摘要充斥着我们生活的方方面面,从新...

    当我们点开某个网站或新闻APP时,经常能看到这样的标题:“14亿人都不知道的真相,历史的血泪……”、“删前速看!XXX视频流出”等,但是点进页面时往往会发现,都是标题党!而时间和流量却在悄悄溜走。

    如果这时候有方法能够先阅读新闻,再提炼出关键内容,那么将大大节约时间并精准地找到我们需要的内容。而这就是图鸭君此次会介绍的技术—— “文本摘要自动生成”技术!

    文本摘要充斥着我们生活的方方面面,从新闻关键词的提炼到Google、百度等搜索引擎的结果优化,真正实现搜索中的所见即所得,“Smarter & Faster”。

    主流的文本摘要方式

    目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。

    抽取式顾名思义,就是按照一定权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式是计算机通读原文,在理解整篇文章意思的基础上,重新生成概要。

    抽取式摘要目前已经相对成熟,但抽取质量及内容流畅度均差强人意。伴随着深度学习的研究,生成式摘要对质量和流畅度都有很大的提升,但目前也涉及到原文本长度过长、抽取内容不佳等问题的限制。

    文本摘要的发展概况

    抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想就是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001,再对上述方法得到的关键语句进行排序,即可获得摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”、“孙悟空”这样的词汇都会被独立对待,无法建立文本段落中完整的语义信息。

    Text rank原理如图所示,根据句子的相似性进行排序打分。                                            

    生成式文本摘要主要依靠深度神经网络结构实现,2014年由Goolge Brain团队提出的Sequence-to-Sequence序列,开启了NLP中端到端网络的火热研究。Sequence-to-Sequence又称为编、解码器(Encoder、Decoder)架构。其中Encoder、Decoder均由数层RNN/LSTM构成,Encoder负责把原文编码为一个向量C;Decode负责从向量C中提取提取信息,获取语义,生成文本摘要。

    但是由于“长距离依赖”问题的存在,RNN到最后一个时间步输入单词时,已经丢失了相当一部分信息。此时编码生成的语义向量C同样也丢失了大量信息,就可能导致生成摘要准确性不足。

    Bahdanau等人在14年发表的论文《Neural Machine Translation by Jointly Learning to Align and Translate》中,第一次将Attention机制应用于NLP中。Attention机制是一种注意力(资源)分配机制,在某个特定时刻,总是特地关注跟它相关的内容,其他内容则进行选择性忽视。就像下图,在翻译“Knowledge”时,只会关注“知识”,这样的对齐能让文本翻译或者摘要生成更具针对性。

    RNN/LSTM单元下每个词是按照顺序输入网络的,会记录文章的序列信息,所以大多数NLP任务,都是采用的RNN架构。但是这种架构限制了网络训练及摘要生成的速度,因为RNN必须一个个输入、一个个生成,无法进行并行计算。2016年Facebook AI Research(FAIR)发表了《A Convolutional Encoder Model for Neural Machine Translation》,对Encoder部分采用似乎不擅长处理序列信息的卷积网络(CNN)来实现,结果在翻译、摘要任务中,也达到了当年的最高水准;

    2017年5月,还是FAIR,发布了《Convolutional Sequence to Sequence Learning》,第一次实现Encoder、Decoder均采用CNN单元,使网络在训练阶段能够并行计算,效率进一步提升。同时引入了Multi-step Attention,相比于之前只在最后一层生成翻译时往回看,多跳注意(Multi-step Attentio)的优化点在于Decoder阶段生成每一层的语义向量时都会往回看,进而提升了准确度。同时还有一些其他的trick:像引入单词的位置信息、残差网络、计算Attention时对高层语义信息和低层细节信息兼收并取等。最后在生成翻译和摘要时,速度相比之前最快的网络,提升了近9倍!同时在WMT-14英德、英法两项的单模型训练结果中,BLEU得分达到了25.16、40.46,英法翻译任务也是迄今为止得分最高的模型。

    时隔一个月,17年6月,Google团队发布了名为《Attention Is All You Need》的文章,即不用CNN和RNN单元,只用Self-Attention和Encoder-Decoder Attention,就完全实现了端到端的翻译任务,也是在WMT-14英德、英法翻译任务中,BLEU值达到了28.4和41.0的高分,因为同样可以并行计算,模型的训练及生成速度也有所提升。Self-Attention相比于之前的模型更加关注句子的内部结构,也就是word-pairs的信息,附图是是论文中Attention可视化的结果,可以发现仅在源文端,模型便学习到了“making more difficult”的word-pairs信息。

     

    同理对目标端,模型也会单独学习句子的内部结构信息。之后利用Encoder-Decoder Attention建立源文和目标词组、句子的对应关系。相比于FAIR 的卷积模型得到很高层才能看到句子的完整信息,Self-Attention在第一层便巧妙地建立了每个词和整个句子的联系,同时位置编码采用三角函数的相对位置法表示,理论上可以泛化到训练中未见过的更长长度句子的翻译中。目前Self-Attention仅用在了翻译任务中,但这样的思想,在文本摘要自动生成的任务中,也是可以参照的。

     

    Google Transformer模型的拆解

    总结:

    从传统的Text rank抽取式,到深度学习中采用RNN、CNN单元处理,再引入Attention、Self-Attention机器生成摘要的方式,这一步步的转化使得文本摘要生成的方式跟人类思维越来越像,先理解后提取概要。与此同时生成的摘要效果,也常常让我们惊艳。

    但文本摘要自动生成依然还有很多难题,如段落太长,那机器对于段落的理解时间就会更长,而过长的时间会导致机器对于段落信息的记忆损失;而深度学习非常依赖有标签的样本,标注工作也会是一笔非常大的开销等等,这些都是需要大家去解决与克服的问题。

    简而言之,文本摘要自动生成技术是一项非常具有前景但也是极具挑战性的技术。

    小礼物走一走,来简书关注我

     

    展开全文
  • 论文标题:CoCon: A Self-Supervised Approach for Controlled Text Generation论文作者:Alvin Chan, Yew-Soo...
  • 基于LSTM的文本生成

    千次阅读 2019-03-09 18:02:35
    这是鄙人的毕设题目,最近由于总是在迷茫与纠结中度过,考虑是深造还是直接工作,焦虑到快自刎了,昨天猛然醒悟:是该做点事情来填补这种没营养的空虚感了。 先把寒假前+寒假中所做的事情总结一下。...
  • Tensorflow2.0之文本生成莎士比亚作品

    千次阅读 2020-04-11 16:09:27
    文章目录1、导入数据2、创建模型3、训练3.1 编译模型3.2 配置检查点3.3 训练模型4、预测4.1 重建模型4.2 生成文本 我们将使用 Andrej Karpathy 在《循环神经网络不合理的有效性》一文中提供的莎士比亚作品数据集。...
  • 使用LSTM生成文本

    千次阅读 2019-04-17 11:38:48
    使用LSTM生成文本概述如何生成序列数据生成文本的采样策略文本序列生成程序流程准备并解析初始文本将字符序列向量化构建神经网络模型训练语言模型并采样用模型生成文本 概述 我们的感知模式、语言和艺术作品都具有...
  • GAN+文本生成:让文本以假乱真

    万次阅读 多人点赞 2018-05-23 20:02:48
    转载:...utm_medium=social&utm_oi=623434717970698240&from=timeline&isappinstalled=0&wechatShare=1 论文一、《Generative Advers...
  • 深度学习之文本摘要自动生成

    万次阅读 2017-12-06 13:47:10
    当我们点开某个网站或某个新闻APP的时候,经常能看到这样的题目:“14亿人都不知道的真相,历史的血泪……”、“删前速看!XXX视频流出”等,可是当我们点进去的时候,往往...而这需要的就是“文本摘要自动生成”技术!
  • 文本生成NLG

    2020-03-26 16:57:16
    data to text,如BI报告生成 image to text,如图片自动描述 NLG的发展过程 简单的数据合并 模板化的 NLG 高级 NLG NLG的6个步骤 第一步:内容确定 - Content Determination 作为第一步...
  • 文本生成图像简要回顾 text to image synthesis

    千次阅读 热门讨论 2019-04-18 11:18:02
    文本生成图像作为近几年的热门研究领域,其解决的问题是从一句描述性文本生成与之对应的图片。近一周来,我通过阅读了近几年发表于顶会的近10篇论文,做出本文中对该方向的简要报告。报告中主要阐述了近几年最流行的...
  • 文本生成图像简要回顾text to image https://blog.csdn.net/mohole_zhang/article/details/89374420 文本生成图像论文与代码汇总: ...
  • GAN之根据文本描述生成图像

    万次阅读 2017-11-19 16:47:03
    GAN[2,3]的出现使得图像生成任务有了长足的进步。一些比较好玩的任务也就应运而生,比如图像修复、图像超清化、人脸合成、素描上色等。今天我们将介绍一种更加复杂的应用,那就是基于文本生成图像
  • 该代码是CVPR2018一篇关于文本图像合成的文章,经过测试可以使用
  • VAE for 文本生成

    千次阅读 2020-03-22 14:24:15
    变分自编码器(Variational auto-encoder,VAE)是一类重要的生成模型(generative model),它于2013年由Diederik P.Kingma和Max Welling提出[1]。2016年Carl Doersch写了一篇VAEs的tutorial[2],对VAEs做...
  • 【NLP】基于GAN的文本生成综述

    千次阅读 2018-09-30 10:09:44
    论文一、《Generative Adversarial Nets》NIPS 2014 1、模型简述 ...生成模型的作用是模拟真实数据的分布,判别模型的作用是判断一个样本是真实的样本还是生成的样本,GAN 的目标是训练一个生成模型完...
  • 对抗网络在文本生成图片中的应用

    千次阅读 2017-01-16 22:55:49
    1 简介利用神经网络可以从文本生成图片,即将文本的语义转化为图片; 也可以从图片生成文本,即生成的文本描述图片中的内容,例如一幅图片中有一直小鸟落在枝头。最后由图片生产的文本就可以能可爱的绿色小鸟落于枝头...
  • 文本生成前沿综述

    2018-11-06 00:37:49
    文本生成就是指期待未来有一天计算机能够像人类一样会表达,能够撰写出 高质量的自然语言文本。

空空如也

1 2 3 4 5 ... 20
收藏数 827,388
精华内容 330,955
关键字:

文本生成