精华内容
下载资源
问答
  • 面向机器人学习的对话模版抽取方法 摘 要问答系统的主要任务是在信息抽取文档的支持下提供给自然语言表述的问题一个简单有效的答案实现友好可靠的人机交互方式现有的技术已经能够基本实现部分问答需求在本文中我们将...
  • 信息抽取

    2021-01-06 16:48:51
    信息抽取:信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,最终以结构化的形式进行描述,使信息可以存入数据库以供进一步...

    信息抽取:信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,最终以结构化的形式进行描述,使信息可以存入数据库以供进一步处理。

    知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。

    知识图谱本质上是以三元组结构(主语-谓语-宾语)表示实体及实体关系的语义网络。

    知识抽取 ,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。

    信息抽取 ,即从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。

    信息抽取主要包括三个子任务
        关系抽取:通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系。
        实体抽取:也就是命名实体识别。
        事件抽取:相当于一种多元关系的抽取。

                                                            知识图谱构建流程

    非结构化文本的信息抽取主要包括命名实体识别、属性抽取、关系抽取、事件抽取等四个任务。命名实体识别是知识图谱构建和知识获取的基础和关键,属性抽取可看做实体和属性值之间的一种名词性关系而转化为关系抽取,因此信息抽取可归纳为实体抽取、关系抽取和事件抽取三大任务。

    NER:深度学习、迁移学习使用低维、实值、稠密的向量形式表示字、词、句,再使用RNN/CNN/注意力机制等深层网络获取文本特征表示,避免了传统命名实体识别人工特征工程耗时耗力的问题,且得到了更好的效果,目前常用的框架方法有BiLSTM-CRF、BERT-CRF、BERT-BiLSTM-CRF

    关系抽取三元组抽取,实体间的关系形式化地描述为关系三元组(主语,谓语,宾语),其中主语和宾语指的是实体,谓语指的是实体间的关系。

    根据是否在同一个模型里开展实体抽取和关系分类,可以将关系抽取方法分为流水线(pipeline)学习联合(joint)学习两种

        流水线学习是指先对输入的句子进行实体抽取,将识别出的实体分别组合,然后再进行关系分类,这两个子过程是前后串联的,完全分离。

        联合学习是指在一个模型中实现实体抽取和关系分类子过程。该方法通过使两个子过程共享网络底层参数以及设计特定的标记策略来解决上述问题,其中使用特定的标记策略可以看作是一种序列标注问题。

    #https://cloud.tencent.com/developer/news/692521

    构建知识图谱过程当中,主要涉及以下几个方面的自然语言处理技术:

    a. 实体命名识别(Name Entity Recognition)

    b. 关系抽取(Relation Extraction)

    c. 实体统一(Entity Resolution):将指代同一个实体的多种实体说法进行统一,可解决图谱的稀疏性问题。------实体对齐

    目前实体对齐普遍采用的还是一种聚类的方法,关键在于定义合适的相似度的阈值。一般从三个维度来依次来考察:

    首先会从字符的相似度的维度,基于的假设是具有相同描述的实体更有可能代表同实体。

    第二个维度,是从属性的相似度的维度来看的,就是具有相同属性的和以及属性词的这些实体,有可能会代表是相同的对象。

    第三个维度,是从结构相似度的维度来看,基于的假设是具有相同邻居的实体更有可能指向同对象。

    d. 指代消解(Coreference Resolution):文中出现的一系列的指示代词到底指向哪一个实体。

     

    #关系抽取工具:deepdive

    https://blog.csdn.net/weixin_42001089/article/details/90749577

    模型 任务领域 主要思想方法 论文
    BERT_MRC 命名实体识别 MRC片段抽取(问题+指针网络) A Unified MRC Framework for Named Entity Recognition
    Multi-turn QA 实体关系抽取 多轮对话+指针网络 Entity-Relation Extraction as Multi-turn Question Answering
    HBT 实体关系抽取 指针网络 A Novel Hierarchical Binary Tagging Framework for Joint Extraction of Entities and Relations
    ETL-span 实体关系抽取 指针网络 Joint Extraction of Entities and Relations Based ona Novel Decomposition Strategy

     

    本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。——“本体论”

    #事件抽取

    概念:事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件

    应用场景:事件抽取在网络舆情监控、突发事件告警、情报收集领域有着重要应用。——社会热点事件

    分类:元事件抽取(主要以动词驱动触发主题事件抽取(研究少

    元事件抽取实现方式:基于模式匹配的方式基于机器学习的方式基于神经网络的抽取方法。

    基于模式匹配的方式:人工构建元事件模板。

    基于机器学习的方式:借鉴文本分类的思想,将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。

    对元事件的识别主要包括事件类别的识别与分类以及事件元素识别两大核心任务。

    基于神经网络的抽取方法:有监督多元分类任务。

    事件抽取方法可以分为句子级的事件抽取方法篇章级的事件抽取方法

    元事件抽取分为触发词识别论元识别等任务。

    组成事件的各元素包括: 触发词、事件类型、论元及论元角色

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 行业分类-物理装置-一种对话语料的热点抽取方法.zip
  • 第三模块:信息抽取信息抽取概要 概要介绍 Unstructured Text包括: 图片、文本、VIDEO、音频 这些需要提取特征的处理后才能用模型进行计算。 Information Extraction(IE) 抽取实体(entities):实体...

    一 序

       本文属于贪心NLP训练营学习笔记系列。整体来看,第1模块:语言模型,第二模块:机器学习。第三模块:信息抽取

    二信息抽取概要

      概要介绍

      Unstructured Text包括:
    图片、文本、VIDEO、音频
    这些需要提取特征的处理后才能用模型进行计算。

    Information Extraction(IE)

    抽取实体(entities):实体是现实生活中存在的事物。

    ·医疗领域:蛋白质,疾病,药物.…

    抽取关系(relations)

    位于((locatedin),工作在(work at),部分(is part of)

    例子:

    This hotel is my favorite Hinton Property in NYC! It is located right on 42nd street near Times Square in New York, it is close to all subways, Broadways shows, and next to great restaurants like Junior’s Cheesecake, Virgil’s BBQ and many others.
    抽取实体NER,标注每个实体的类型,关系抽取后:

    注意:It is located right on 42nd street near Times Square in New York.中的it是指什么?This hotel 用分类的方法找到这个it的对应对象就是指代消解。

    实体消歧(apple是苹果还是苹果公司)和实体统一算法(NYC和New York是一样的),后面会展开讲。

    老师引出一个问题:搜索引擎与问答系统

    搜索引擎:给出所有相关文档,用户自己筛选。

    问答系统:系统给出了答案,不用用户选择。level不同:从最开始的返回文档,到返回句子到keyword 或者答案。后面需要依赖知识图谱的支撑。

    命名实体识别介绍(NER)

    是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

    Case: chat bot

    根据提问进行意图识别,然后是分类,看意图是什么,问地点,时间?还是什么东西,然后是基于规则进行回答,规则做不了的才会用到其他解决方案。

    业内:还是优先采用规则,(意图识别可以看做是个分类问题,尝试下智能音箱的对话)

    Case: Extract from News

    通用性工具:HanNLP

    开源工具的缺点是无法进行特定领域的实体识别,例如:医疗、金融等。只能做通用的:人物、时间、事件等。

    搭建命名实体识别分类器

    • 1定义实体类别:业务上定义类别
    • 2准备训练数据
    • 3 训练NER

    准备训练数据
    下面是一个训练数据的实例,第一列是句子及编号,第二列是词,第三列是词的词性标注,第四列是标注是否我们需要关注的词,不关注标记为O,否则标记为《B-类型》的标签例如:B-geo代表地点,B-per代表人。如果有多个词组合成一个实体:B-org,后面的I-org是表示跟前面的组成一个词。

    头一次看这个,感觉怪怪的。中文训练数据也是这样的吗?

    NER方法概述

    利用规则(比如正则)
    投票模型(Majority Voting):经常用做baseline
    利用分类模型
    ·非时序模型:逻辑回归,SVM…
    ·时序模型:HMM,CRF(前两个需要),LSTM-CRF(不需要特征的提取)

    基于规则的方法

    利用已有词库,直接匹配。(靠人工)

    投票模型(Majority Voting)

    统计每个单词的实体类型,记录针对于每个单词,概率最大的实体类型。

    不需要去学习,只需要统计。

    有监督学习-特征提取

    例子:The professor Colin proposed a model for NER in 1999.

    英语的 特征提取比中文的多。

    • 1 bag-of -word ,包括:bigram,trigram
    • 2.词性
    • 3.前缀和后缀(中文没有)
    • 4 当前词的特性

    特征抽取的方法还是需要去试验,中文的拼音也算。

    特征编码feature encoding

    常见的特征种类有:
    连续(continuous)特征;(这里直接用有两种方式,一种是归一化后用,一种是转成高斯分布,除了直接用还可以离散化处理)
    无序类别(categorical)特征;(可以使用One-hot的方法把每个无序特征转化为一个数值向量。)
    有序类别(ordinal)特征。(有序类别的特征不能计算每个间隔之间的区别,例如成绩为ABCD优先级,不知道每个对应的具体分数段是多少,没法量化)

    Ontological Relation

    Ontological 翻译是本体,比较抽象难懂。通常包含两种元素:实体及实体的关系。

    老师画图表示这样的系统,也是一种信息结构的描述。比如医疗领域的例子:药物-作用于->病原体。

    其中的IS-A(Hypernym Relation):代表的是从属关系.很常见的一种关系。

    基于规则的方法以提取IS-A为例

    先人工定义规则,然后从语料库去匹配,把满足规则的保存到数据库。假如我们要筛选水果:

    我们定义的规则集越丰富,那么从文章中抽取到的信息也就越丰富,但是可能存在噪音(异常值),上面截图的car。

    们在定义规则集的时候可以加上一些限制,可以提升准确率,只返回想要的结果。

    整个基于规则的方法优点:
    1、比较准确
    2、无需训练
    随着数据量的增大,我们可以把基于规则的方法替换为基于模型的方法。
    缺点:
    1、low recall rate
    2、人力成本高
    3、规则比较难设计

    基于监督学习方法

    大概步骤:
    1、定义关系类型,例如:疾病与症状的关系。
    2、定义实体类型,例如:疾病、症状、药品
    3、训练数据准备
    3.1标记好实体及类型;
    3.2标记好实体之间的关系。

    和之前的NER有些类似,抽取关系可以转换为多分类的问题,分类目标是将两个实体之间关系归类为某种类型。

    抽取关系的特征工程通常有如下方法:

    • 1、bag of word:bigram
    • 2. 词性的特征:名词、动词
    • 3 实体类型:ORG、PER
    • 位置特征:出现在哪里,标题,句首等
    • 句法分析特征(语法依存特征是单词之间依赖关系,语法树是需要大量语言学知识的,不是一回事)
    •  

    特征提取完了,接下来是分类的算法:有种办法无分类进行过滤(二分类问题),然后再进行分类。分类的算法可以有SVM,NN,GBDT等,自己根据情况试验

    Bootstrap方法

    这个算法与机器学习关系不大,比较经典所以老师做个讲解。由于上面两种方法(基于规则和基于监督)在手工设置规则、标记实体上很麻烦。

    Bootstrap是一种抽样方法,样本之于样本,可以类比样本之于总体。

    例子:假设要找作者和书的关系,开始有3条已知的记录(seed/seeds tuple)。

    第一步:生成规则

    (找规则是先匹配文本里面有没有出现实体,如果有把实体之间文字提前出当做规则)

    最后形成一个规则库

    第二步:规则库生成tuple
    用上面的规则库去扫描文本,得到了三个新的tuple,然后把新的tuple加入到之前的seed tuple中,再不断重复这个过程

    Bootstrap优缺点

    优点:自动的方法,不需要太多的人工介入。
    缺点:提取的规则可能准确率比较低(error accumulation,迭代式的算法都有)

    Snowball

    这个算法是在Bootstrap上的改进,防止错误的累加。

    在bootsrap上,加上过滤的步骤,另外在规则匹配上从= 变为计算近似程度。

    Snowball具体算法实现

    和bootstrap一样,先有seed tuple,然后扫描文本。然后提取规则,这里用的是五元组的方式(为了计算相似度)。

    注意5元组的构成,left,实体1,middle,实体2,right。其中left\middle\right转换为向量(用类似TFIDF之类的方法),这样每个规则之间就可以用向量来进行计算。

    相似度公式:

    \large sim(P,S)=\mu _1L_1\cdot L_2+\mu _2M_1\cdot M_2 +\mu _3R_1\cdot R_2 \\st. \mu _1+\mu _2+ \mu _3=1

    μ是相似度计算的权重,直接用内积表示相似度, 不需要除以模长, 因为L,M,R做了normalization => ||L||=1

    1生成模板

    上面的截图,左侧是计算向量,其中1个词是1,2个词每个是0.75,三个词每个词是0.57因为他们的平方加起来要等于1.

    右侧是规则(模板的pattern)的合并,就是把相似度大的合并起来,使用的就是聚类cluster的方法。

    老师讲的例子采用的是逐个比较相似度,如果相似就合并到一起的思路,然后(2)把多个规则在一组的进行平均操作(centroid),变成一个规则。

    2生成tuple

    有了规则库,就可以生成tuple了.

    先扫描文本,用NER找到实体类型要和模板中的一样的,也用规则的方式表达为五元组,进行相似度计算,如果大于0.7,那么说明我们扫描到了正确的tuple,加入到下面的表中。

    3模板评估

    然后是对模板进行评估,把之前迭代生成的seed tuple作为对的(groud truth)。然后把某条规则(模板)应用到文本上,然后检测出一系列的tuples结果,与对的数据做对比。计算confidence score。判断模板\large P_i 是否要丢弃(比如<0.5)。
     

    4记录评估(tuple evaluation)与过滤

    单个规则生成的,规则分数越高的可信度高,多个规则命中的,规则越多,可信度越高。

    confidence score置信度公式:

    \large confidence(t_i)=1-\sum_{i=1}^{k}confidence(p_i)

    我们也可以设置tuple的confidence score的阈值为0.7来进行过滤

    snowball总结

    snowball 老师给与了高度评价,虽然不是AI算法。但是它解决了bootstrap问题,很多思路可以借鉴。

    信息抽取,神经网络应用不多,基于规则的提取还是占主流。

    实体消歧 (Entity Disambiguiation)

    实体消岐的本质在于一个词很可能有多个意思, 也就是在不同的上下文中所表达的含义不太一样.比如:苹果、小米、还有同名的人。

    在给定一个实体库情况下,如何高效的判断问题中的实体具体是哪个。

    实际上是计算问题中的实体与实体库中的每个对象的相似度的:

    先要把词转换为向量(TFIDF等),取’苹果’两边的字符串。然后再和实体库里面的对象做相似度计算。还可以其他高大上的技术实现。

    实体统一 (Entity Resolution)

    多个实体的描述可能描述的是同一个实体 。(二分类问题)

    举例:给定两个实体:字符串,str1,str2,判断是否两个字符串是否同一个实体。

    算法1:两个词的相似度可以用编辑距离来表示(edit distance)

    算法2:基于规则。

    算法3:有监督的学习方法

    先用tfidf等方法分别转化为两个向量(特征提取),接下来可以有两种方法:

    1.先拼接再丢到模型进行二分类

    2.先计算余弦相似度,然后经过逻辑回归模型,得到分类结果

    算法4. 基于图的实体统一, 关系图:

    还是要计算相似度。通过个体特征,关系相关特征等, 进行相似度的运算

    指代消解 (Co-reference Resolution)

    算法:

    1  指向最近的实体 (不准确)

        2 有监督学习方法:

         2.1收集数据,并标记出对象,例如哪个是人名,哪个是指代的代词

         2.2标记数据:类似上面的句子,标注出每个代词属于哪个对象,形成样本

          2.3在词的周围提取关键词, 构造向量,放入模型.

    从算法上没有太多创新,但是准确率不高,属于未解决的问题之一。

     

    展开全文
  • 文本信息抽取信息检索、智能问答、智能对话等人工智能应用的重要基础,它可以克服自然语言非形式化、不确定性等问题,发掘并捕获其中蕴含的有价值信息,进而用于文档智能审核、知识库及知识图谱构建、流程自动化等...
  • 信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。(来自百度...

    一、什么是信息抽取?

    信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。(来自百度公司官方)

    二、简要介绍一下基于CNN的关系抽取模型

    在此之前,关系抽取领域中多采用基于机器学习的方法,这些机器学习的方法依赖于手动提取的特征。而我们手动提取的特征来自于NLP系统或工具,这些工具难免有其局限性,会带入错误,这些错误会在关系抽取的任务中传播。

    于是提出了利用卷积神经网络提取特征的方法,避免了手动的特征提取,利用神经网络实现了端到端的关系抽取。

    结构:
    在这里插入图片描述
    输入:一段话,并指明了其中的实体;
    输出:一个特征向量,表明了实体间的关系;

    中间层:

    1. 词嵌入
      根据预先训练好的词向量字典,将每个词语转化为对应的固定维度向量。(词向量表征了词之间的语义关系)

    2. 特征抽取
      此模型的特征抽取分为两个层面:词语和句子。
      词语级特征抽取:主要分为三个部分:该词语本身、该词语左右的词、该词语的上位词。
      什么是上位词?
      上位词,概念上外延更广的主题词。可以理解为出现频率高的超集,或者是所属类别。比如,“鲜花”的上位词是“花”,“花”的上位词是“植物”。

      这三个部分的特征与上一层的词向量进行拼接后即构成了词语级特征Y。
      句子级特征抽取
      在这里插入图片描述
      词语级特征虽然能在一定程度上表示词语之间的关系,但在关系抽取中远远不够。在关系抽取任务中,需要在具体语境下学习词语之间的关系,有时候词语之间的距离还比较远,这时需要模型表征语义特征及长距离的特征。
      为此模型设计了Convolution层,设定了两个输入:Word Feature(WF)和Position Feature(PF)。

      Word Feature: 由一定大小窗口拼接起来的特征。设输入序列经过词嵌入层后的序列为(X1,X2,…Xn),窗口大小为3,WF为 {[Xs,X1,X2],[X1,X2,X3],…[Xn-1,Xn,Xe]}

      Position Feature:记录当前词与各实体的相对距离,在此例中,输入句子有两个实体,PF向量为二维向量,一开始PF=[d1,d2]。此后还要初始化到一定维度。

      X=[WF,PF]即构成句子级特征抽取的输入,经过线性变换、最大层池化、激活函数激活后输出为向量g。

    3. 输出层
      将词语级特征与句子级特征拼接起来,为[Y,g],接入全连接层获得特征向量O,最后接入softmax层,输出实体间关系属于预定义类别的概率。

    三、结语
    目前基于CNN的信息抽取模型纷繁多样,有bert+CNN、DGCNN……本文中所介绍的模型属于深度学习应用于信息抽取的早期模型,如今来看,可能有许多瑕疵,比如卷积网络过于简陋,但是它为此领域做了开创性的突破,对我们日后模型的创建仍具有重要的指导意义。

    延伸阅读:《Relation Classification via Convolutional Deep Neural Network》

    展开全文
  • 背景:由于CVAE在summary_yxu的代码和讯飞的自己提取出来的对话数据集上,初见成效,于是这次用在一些官方的数据集上和一些对话... 全文没有对话信息 DUC/TAC 英文|数据集较小|适用于传统摘要方法的评估 Gigaword...

    背景:由于CVAE在summary_yxu的代码和讯飞的自己提取出来的对话数据集上,初见成效,于是这次用在一些官方的数据集上和一些对话摘要的baseline上试一下,万一效果也好呢?

    NOTE:再次提醒自己这次一定要用心,用心!

    一、文本摘要与对话摘要数据集对比

    • 文本摘要

    • 全文没有对话信息
    • DUC/TAC       英文|数据集较小|适用于传统摘要方法的评估
    • Gigaword       英文|启发式规则构成|适用于深度神经网络方法
    • CNN/DailyMail           多句摘要数据|常用于生成式摘要方法
    • NYTAC           长度较短|可用于文本摘要、信息检索、信息抽取
    • ASNAPR         商品评论数据|可用于评论和情感的摘要
    • LCSTS            中文|新浪微博数据|短文本|深度网络摘要方法
    • NLPCC           文本摘要、情感分类、自动问答等任务
    • 对话摘要(数据集相对较少)

    • 两个或两个以上的对话参与者
    • AMI         英|规模小|会议多模态数据|可用于抽取式与生成式摘要
    • SAMSum英|规模大|闲聊数据|人工标注|适用于生成式摘要
    • ICSI         英|规模较小|会议语料库

    二、本次要用的对话摘要数据集的具体格式

    本次要用:AMI Meeting Dataset (Carletta et al., 2005)

    Jean Carletta, Simone Ashby, Sebastien Bourban, Mike Flynn, Mael Guillemot, Thomas Hain, Jaroslav Kadlec, Vasilis Karaiskos, Wessel Kraaij, Melissa Kronenthal, et al. 2005. The ami meeting corpus: A pre-announcement. In International workshop on machine learning for multimodal interaction, pages 28–39. Springer.

    AMI:英文 | 会议 | 多模态数据集,包含100小时的会议录音。大约三分之二的数据是通过参与者在设计团队中扮演不同角色的场景引出的,设计项目从开始到结束。其余部分包括各种领域的自然会议。在会议期间,参与者还可以使用不同步的笔来记录所写的内容。会议以英语记录,使用三个不同声学特性的房间,主要包括非母语人士。

    官方网址:http://groups.inf.ed.ac.uk/ami/corpus/

    中文参照:http://sykv.cn/m/view.php?aid=19912

    来源:虽然AMI会议语料库是为了开发会议浏览技术的联盟的使用而创建的,但它被设计用于广泛的研究领域。此网站上的下载内容包括适合大多数用途的视频, 所有信号和转录以及一些注释都已根据 知识共享署名4.0国际许可(CC BY 4.0)公开发布。

    描述数据的相关论文: 

    • Jean Carletta(2007年)。释放杀手语料库:创建多种一切AMI会议语料库的经验。
    • Steve Renals,Thomas Hain和HervéBourlard(2007)。会议的认可和解释:AMI和AMIDA项目。

    数据集包含:视频、注释(Annotations)、注释手写体,

    大小:(这里我要下载的是下图22MB的这一份)train97 val20 test20【数据集大小】

    We preprocess and divide 457 the dataset into training (97 meetings), development (20 meetings) and test (20 meetings) sets as 459 done by (Shang et al., 2018).

    格式:NXT格式,需要 NXT version 1.4.4,原始数据格式如下图,记录每一时刻的单词是什么

    使用:要想使用的话,需要处理成自己想要的格式。(这里C哥已经有处理好的一份数据,我会直接用这一份)

    三、目前已有的对话摘要论文及效果,哪些能作为baseline

    C哥论文里的baseline:

    • TextRank (Mihalcea and Tarau, 2004) is a graph-based extractive method that selects im- 491portant sentences from the input document. 
    • C&L (Cheng and Lapata, 2016) is an extractive method based on sequence-to-sequence 494framework. Its decoder receives sentence embeddings and outputs sentence labels.
    • SummaRunner (Nallapati et al., 2017) is an extractive method based on hierarchical RNN which iteratively constructs summary representation to predict sentence labels.
    • CoreRank (Shang et al., 2018) is a unsupervised abstractive method which generates summaries by combining several approachs.
    • Pointer-Generator (See et al., 2017) is an abstractive method equips with copy mechanism, its decoder can either generate from the vocabulary or copy from the input.
    • HRED (Serban et al., 2016) is a hierarchical sequence-to-sequence model which is composed of a word-level LSTM and a sentence-level LSTM.
    • Sentence-Gated (Goo and Chen, 2018) is an abstractive method that incorporates dialogue acts by the sentence-gated mechanism.
    • TopicSeg (Li et al., 2019a) is an abstractive method using a hierarchical attention mechanism at three levels (topic, utterance, word).

    及效果

    四、会议摘要的相关工作

    1. 7 Related Work

    2. Meeting Summarization

    3. Graph-to-Sequence Generation

    五、开始跑baseline

    本次我要使用的baseline:

    • Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get to the point: Summarization with pointer-generator networks.
    • Ramesh Nallapati, Feifei Zhai, and Bowen Zhou. 2017. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents.
    • Chih-Wen Goo and Yun-Nung Chen. 2018. Abstractive dialogue summarization with sentence-gated modeling optimized by dialogue acts.

    5.1、 Pointer-Generator

    论文:https://arxiv.org/abs/1704.04368

    代码:https://github.com/abisee/pointer-generator,tf版本

    此处使用:https://github.com/OpenNMT/OpenNMT-pypytorch版本

    source activate onmt_diasum

    pip install OpenNMT-py

    基础模型结构记录
    NMTModel(
      (encoder): RNNEncoder(
        (embeddings): Embeddings(
          (make_embedding): Sequential(
            (emb_luts): Elementwise(
              (0): Embedding(5809, 300, padding_idx=1)
            )
          )
        )
        (rnn): LSTM(300, 200, num_layers=2, dropout=0.3)
      )
      (decoder): InputFeedRNNDecoder(
        (embeddings): Embeddings(
          (make_embedding): Sequential(
            (emb_luts): Elementwise(
              (0): Embedding(5809, 300, padding_idx=1)
            )
          )
        )
        (dropout): Dropout(p=0.3, inplace=False)
        (rnn): StackedLSTM(
          (dropout): Dropout(p=0.3, inplace=False)
          (layers): ModuleList(
            (0): LSTMCell(500, 200)
            (1): LSTMCell(200, 200)
          )
        )
        (attn): GlobalAttention(
          (linear_in): Linear(in_features=200, out_features=200, bias=False)
          (linear_out): Linear(in_features=400, out_features=200, bias=False)
        )
      )
      (generator): Sequential(
        (0): Linear(in_features=200, out_features=5809, bias=True)
        (1): Cast()
        (2): LogSoftmax()
      )
    )

    生成式-已复现

    5.2、SummaRunner

    论文:https://arxiv.org/abs/1611.04230

    代码:无官网代码

    此处使用:https://github.com/kedz/nnsumpytorch版本

    conda(source) activate nnsum

    抽取式-

    5.3、Sentence-Gated

    论文:https://arxiv.org/abs/1809.05715

    代码:https://github.com/MiuLab/DialSum,tf版本

    此处使用:一份C哥自己复现的代码,根据open-nmt改的,pytorch版本,所以直接使用5.1的环境

    生成式-已复现

     

    展开全文
  • 绕了那么久,终于来到了关键信息抽取的神经网络篇,希望这漫长的等待不至于让我被打! 另外需要说明的是,阅读本文前,建议先阅读关键信息抽取:规则篇 和 关键信息抽取:jieba篇 本文依旧以简单入手,从识别开灯和...
  • 信息抽取分为实体抽取与关系抽取 信息抽取分为实体抽取与关系抽取 信息抽取示例 信息抽取示例 NER识别实体 关系分析:分析每个实体之间的关系 指代消解 :it is located right 中的...
  • 事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。然...
  • 信息抽取:SPO三元组知识

    千次阅读 2019-09-13 20:44:11
    向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx信息抽取(Information Extraction, IE)是从自然语言文本中抽取实...
  • 【NLP】信息抽取

    2020-12-03 21:22:40
    信息抽取的定义 从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术,即Making information more machine-readable,换成更方便及其识别的形式,以进行后续的研究。...
  • 事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。然...
  • 事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。然...
  • 事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。然...
  • 随着计算机技术和互联网的飞速发展和知识互联时代的到来,人们期寄着构建一个更加智能的、机器可理解可计算的万维网。...探讨信息抽取研究的意义;然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息
  • 常常在想,自然语言处理到底在做的是一件什么样的事情?到目前为止,我所接触到的NLP其实都是在做一件事情,即将自然语言转化为一种计算机能够理解的形式。这一点在知识图谱、信息抽取、文本摘要这...
  • 信息抽取——实体关系联合抽取 目录 简介 实体关系联合抽取 Model 1: End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures Model 2: Joint Extraction of Entities and Relations ...
  • 信息抽取(IE)是从非结构化、半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务。信息抽取技术为文本挖掘、智能检索、智能对话、知识图谱、推荐系统等应用提供了基本的技术支持。Ne...
  • 事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。然...
  • NLP 的机器学习、对话和交互技术、机器翻译、信息提取和 NLP 应用是前五个最受欢迎的研究方向,每个方向都有超过 200 个提交。 ACL 2020 Tutorial T1: 神经NLP的可解释性与分析,Interpretability and Analysis in ...
  • 常常在想,自然语言处理到底在做的是一件什么样的事情?到目前为止,我所接触到的NLP其实都是在做一件事情,即将自然语言转化为一种计算机能够理解的形式。这一点在知识图谱、信息抽取、文本摘要这...
  • 信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成计算机能够处理的结构,实体抽取、关系抽取、事件抽取等都属于信息抽取的范畴。在NL...
  • 开放域信息抽取信息抽取任务的另一个分支任务,其中抽取的谓语和实体并不是特定的领域,也并没有提前定义好实体类别。更一般的,开放域信息抽取的目的是抽取出所有输入的文本中的形如 的三元组。开放域信息抽取...
  • 背景:前几个月,百度举办了“2019语言与智能技术竞赛”,其中有三个赛道,而我对其中的“信息抽取”赛道颇感兴趣,于是报名参加。经过两个多月的煎熬,比赛终于结束,并且最终结果已经公布。笔者从最初的对信息抽取...
  • 作者:哈工大SCIR 郑子豪摘要现实世界中的信息一般以多模态的形式出现,而由于技术问题,多模态研究进展缓慢。近年来由于单模态研究的进步,多模态的研究有了更扎实的基础。多模态信息抽取是多模...
  • 信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。...
  • 引言信息抽取一直以来都是自然语言处理中最基础的技术之一,它指的是将文本中的非结构化信息通过算法或模型自动提取转换为结构化数据的过程。信息抽取任务有多个子任务:命名实体识别(NER)、关系...
  • ConvQA_CN 基于抽取式模型和生成式模型解决多轮对话式机器阅读理解任务

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,039
精华内容 4,415
关键字:

对话信息抽取