精华内容
下载资源
问答
  • 对话信息抽取
    2021-08-02 23:44:03

    开放信息抽取(OIE)系统(七)-- 开放信息抽取系统资源、应用与中文实战

    目录

    一.开放信息抽取系统应用

    开放信息抽取系统的目的是进行三元组的抽取,三元组自然有很多应用,以下描述的是一些经典应用场景:

    • 构建知识图谱、知识库等(Knowledge Graph),如Magi图搜索引擎思知机器人构建的知识图谱;
    • 知识图谱问答(KBQA, Question Answer),抽取的三元组最为答案的约束, 例如loss中增大三元组的权重;
    • 文本蕴含(Textual Entailment), 舆情监督中, 实体间的包含关系,如飞机与直升飞机;
    • 语义角色标记(Semantic Role Labeling)、共指消解(Resolving Coreference)或本体扩展等.
    • 图嵌入(Graph Embedding)、图推理(Graph Reasoning);

    二.中文开放信息抽取系统资源

    OpenKG.CN—链上的开放知识图谱(17个领域)

    三.中文开放信息抽取系统实践

    Open-Information-Extraction-System

    • 主要思想: 依存句法分析(DP) + 规则(rule-based)
    • 详情:
      • a. 调用LTP依存句法解析, 得到依存关系
      • b. 编写规则抽取三元组
        • 三元组
          • 主谓关系 SBV subject-verb, 我送她一束花 (我 <– 送)
          • 动宾关系 VOB 直接宾语,verb-object 我送她一束花 (送 –> 花)
          • 间宾关系 IOB 间接宾语,indirect-object 我送她一束花 (送 –> 她)
          • 前置宾语 FOB 前置宾语,fronting-object 他什么书都读 (书 <– 读)
          • 定中关系 ATT attribute, 红苹果 (红 <– 苹果)
        • 内容补充
          • 并列关系 COO coordinate 大山和大海 (大山 –> 大海)
          • 左附加关系 LAD left adjunct 大山和大海 (和 <– 大海)
          • 右附加关系 RAD right adjunct 孩子们 (孩子 –> 们)
          • 动补结构 CMP complement 做完了作业 (做 –> 完)
          • 介宾关系 POB preposition-object 在贸易区内 (在 –> 内)
    • 备注
      • 增加并列关系、左附加关系、右附加关系等(递归实现);
      • 这里的依存句法分析只适合简单短句,过长句子、口语化句子dp效果不好会很影响下游抽取。

    四、代码与资源

    希望对你有所帮助!

    更多相关内容
  • 论文: Extractive Dialogue Summarization Without Annotation Based on Distantly Supervised Machine Reading Comprehension in ...这篇文章关注抽取对话摘要,客服对话摘要中可能存在很多的key points,比如下面

    论文:

    Extractive Dialogue Summarization Without
    Annotation Based on Distantly Supervised Machine
    Reading Comprehension in Customer Service

    论文链接:

    https://ieeexplore.ieee.org/document/9645319/authors#authors

    主要动机和思路:

    这篇文章关注抽取式对话摘要,客服对话摘要中可能存在很多的key points,比如下面的例子,这段对话摘要中有四个要点,现有的抽取摘要方法无法全面的捕获这些要点,同时现有的抽取式方法通常以句子为抽取单位,可能会引入很多的噪声。本文设计了一种基于对话阅读理解的抽取式摘要方法。这篇文章自己收集了一个中文的客服对话摘要的数据集,并标注出了对话中的key points,及每个key point对应的子摘要。对于每个key point,预定义一个问题,通过对话阅读理解模型给
    对话中的每个token打分,然后再用一个基于密度的方法根据每个token的得分选出连续的片段作为这个key point的子摘要,将所有key point的子摘要拼接在一起得到最终的摘要。同时本文还额外引入了角色相关的信息,辅助客服对话摘要任务的生成。
    在这里插入图片描述

    方法:

    在这里插入图片描述

    模型总体架构如图所示,对话阅读理解模块将预定义的key point相关的问题和对话拼接在一起,训练BERT模型,对每个token打分。
    因为问题并不是直接来自于对话,所以很难直接将问题和对话中的对应token关联起来,这里利用了参考摘要。如果token出现在一个keypoint的参考子摘要中,定义为gold token,标签为1,否则标签为0。利用这样产生的标签训练对MRC模型,预测每个token出现在这个key point的对应子摘要中的概率。输入包含两部分,预定义的问题和对话,中间用特殊符号[SEP]拼接在一起,每句对话之间也用[EOT]特殊符号分隔开,每句对话前面也添加了一个角色标签[S],用来表示不同角色的交替。输入送入BERT模型中,再经过一个线性层,得到每个token的预测概率
    除此之外,本文还设计了一个新的辅助任务,预测哪个角色是问题的solver,对应的公式如下。哪个一个说话人的句子中包含更多的gold token,这个说话人就是solver,,标签为1,否则标签为0
    在这里插入图片描述
    通过MRC模块得到了每个token的预测概率,但是最终希望得到的是一些连续的对话片段,而不是一些单纯的tokens,这里设计了一个基于密度的方法,对于每个可能的片段,计算下面的得分
    在这里插入图片描述

    这里的l代表片段长度,a是超参数,在0到1之间。最后选择最大的片段作为对应key point的子摘要。对于所有的key point重复这一系列过程,得到了整个摘要。

    展开全文
  • 随着大数据时代的到来,海量数据不断涌现,从中寻找有用信息抽取对应知识的需求变得越来越强烈。针对该需求,知识图谱技术应运而生,并在实现知识互联的过程中日益发挥重要作用。信息抽取作为构建知识图谱的基础...
  • 依据对话的特点,该文提出了融入对话交互信息的实体关系抽取方法,通过交叉注意力机制获取对话交互信息,提升性能,并结合多任务学习来解决语料库数据分布不均衡的问题。 0 引言 实体关系抽取旨在从非结构化文本中...

    实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务。在新闻报道,维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面对对话文本的相关研究的还处于起始阶段。相较于规范文本,对话是一个交互的过程,大量信息隐藏在交互中,这使得面向对话文本的实体关系抽取更具挑战性。依据对话的特点,该文提出了融入对话交互信息的实体关系抽取方法,通过交叉注意力机制获取对话交互信息,提升性能,并结合多任务学习来解决语料库数据分布不均衡的问题。

    0 引言

    实体关系抽取旨在从非结构化文本中获取实体间所具有的语义关系,抽取出来的信息以三元组<X,R,Y>的形式存储,其中,X和Y表示实体,R表示实体间的语义关系。作为信息抽取的核心技术之一,实体关系抽取不仅是自动构建知识库的核心部件之一,还在自动问答、聊天机器人等下游任务中发挥着关键作用。

    目前,受限于语料资源,实体关系抽取相关研究多集中于新闻报道、维基百科等规范文本,而这类文本通常由专业人士编辑,行文规范,文本内容的信息密度大,随着DialogRE数据集的发布,针对对话文本的实体关系抽取研究得以展开。相较于规范文本,对话文本的特点明显,主要体现在:1.对话中存在大量指代和省略现象,特别是人称代词出现频率较高。2.相比规范文本,对话文本中信息密度较低,存在关系的实体对通常出现在不同对话语句中;3.对话内容通常围绕某些特定主题在交互过程中向前推进,因此对话的交互过程蕴含了大量重要信息。因此,在规模有限的对话文本中如何尽可能多地提取有效特征,特别是隐藏在交互过程中的信息,构建面向对面对话文本的实体关系抽取模型则更具挑战性。

    本文采用轻量级的Star-Transformer模型作为主模型,基于这一模型进行了两个核心工作:1.关注对话交互信息:目前已有的研究在处理对话语料时大多选择直接将对话拼接成一段长文,这样做的后果是模型难以获取到对话交互过程的信息。本文以对话者的一问一答作为一轮对话,依次选出两轮对话,使用交叉注意力机制挖掘它们之间的关联信息,最后整合所有的关联信息来表征整个对话对应的交互信息。2.降低数据不均衡的影响:通过分析语料我们发现,语料中共包含37种关系,其中,无明确(unanswerable)关系的数据占到了样本总数的21.5%,远大于其他类型的关系。同时语料中37.6%的样本中包含触发词(trigger),即实体关系是通过某个具体的触发词来传递的。

    为了解决语料中关系分布均衡的问题,我们在主模型之上加入了多任务层,通过增加两个辅助任务来辅助主任务的完成。实验结果表明,本文提出的Star-Transformer+交互信息+Multi-task模型在DialogRE公开数据集上的F_{1}值为54.1%,F_{1c}值为50.7%,证明了本文方法的有效性。后续章节中统一使用STCM代表本文所提出的方法。

    1.相关研究

    近年来深度学习逐渐崛起,学者们将深度学习应用到实体关系抽取任务中,Zeng等人在2014年首次使用CNN进行关系抽取,Katiyar等人在2017年首次将注意力机制Attention与递归神经网络Bi-LSTM结合使用来提取实体和分类关系,Wang等人提出的CNN架构使用了一种新颖的多层次注意力机制提取指定实体的注意力和指定关系的池化注意力。Zhang等人在2018年将一种新的修剪策略和定制的图卷积网络相结合。Guo等人在2019年提出了注意引导图卷积网络,直接以全依赖作为输入,该模型可以更好地利用全依赖树的结构信息。李青青等人在2019年提出了一种基于Attention机制的主辅多任务模型,通过多个关联任务共享信息提升性能。刘苏文等人在2020年提出了一种二元关系抽取和一元功能识别共同决策的联合学习模式,能够融合各个子任务的信息。更多改进的深度学习模型在实体关系抽取任务取得了巨大的进步,学者们不再满足于句子级的实体关系抽取,难度更大的篇章级实体关系抽取任务逐渐成为研究重点。Quirk等人于2017年借助远程监督生成了生物领域的跨句子实体关系抽取数据集。Yao等人在2019年发布了DocRED数据集,该数据集覆盖丰富的领域,并且提供了人工标注和远程监督两个版本。

    然后目前主流的用于实体关系抽取的数据都是针对新闻报道和维基百科这类规范文本的,DialogRE数据集的出现将学者们的目前吸引到针对人类对话的实体关系抽取。Yu等人在发布数据集的同时将一些主流的神经网络模型如CNN、LSTM、Bi-LSTM和BERT等应用到了该任务上,没有针对对话文本的特点进行处理,同时也没有针对数据分布不均衡的问题进行模型的改进。

    本文给出了一个机遇Star-Transformer的实体关系抽取框架,并针对对话文本的特性进行了交互信息的融入,同时结合多任务学习策略来提高模型在对话文本上实体关系抽取的性能。

    2.任务定义和评价方法

    本节介绍对话文本中实体关系抽取任务的定义以及针对该任务提出的评价方法。

    2.1 对话文本中的实体关系抽取 

    给定一段对话D=s_{1}:t_{1},s_{2}:t_{2},\cdots,s_{m}:t_{m}和一个实体对(a_{1},a_{2}),其中s_{i}t_{i}分别代表第i轮对话的对话者和他说的话,m代表总的对话轮数。模型需要提取出现在D中的a_{1}a_{2}之间的关系,图1给出了一个具体的例子,在给定的对话文本中,根据下划线部分可以判断出“Speaker 2”和“Frank”之间的关系是“per:siblings”,而触发词就是“brother”。

     2.2 标准评价方法

    在标准评价方法中,将对话D视为文档d,模型的输入是对话全文d,模型的输入是对话全文d和实体对(a_{1},a_{2}),输出是基于da_{1}a_{2}之间的关系。实验采用准确率P、召回率RF_{1}值对识别结果进行评价。

    2.3 对话评价方法

    在对话评价标准中,将第i(i\leqslant m)轮对话视为d,采用一种新的衡量标准:对话准确率(P_{c})和对话召回率(R_{c})的调和平均值F_{1c},作为F_{1}的补充。下面介绍如何定义F_{1c}:

    当输入为a_{1}a_{2}和第i轮对话时,O_{i}表示输出的预测关系集合。

    对于实体对(a_{1},a_{2})L表示它对应的人工标注的关系类型集合

    R表示37种关系类型的集合,且O_{i},L\subseteq R

    定义一个辅助函数f(x),若x没有出现在对话D中返回m,否则返回x第一次出现时的对话轮次。

    定义辅助函数\Phi (r)

    (1) 对于每个关系类型r\in L,如果存在一个r的人工标注的触发词,则\Phi (r)=f(\lambda _{r})\lambda _{r}表示触发词,否则\Phi (r)=m

    (2) 对于每个r\in R\setminus L\Phi (r)=1

    i轮对话的关系类型集合可以用E_{i}来评价,E_{i}的定义如式(1)所示:

    E_{i}=\left \{ r| i\geqslant max\left \{ f(a_{1}),f(a_{2}),\Phi (r) \right \} \right \}

    式(1)表明,给出第i轮对话中包含的d,如果a_{1}a_{2}和r的触发词都在d中,那么 a_{1}a_{2}之间的关系r是可评估,

    该定义是基于以下假设:根据实体对和触发词的位置,可以大致估计需要多少轮对话来预测两个参数之间的关系。

    对话准确率的定义如式(2)所示,对话召回率的定义如式(3)所示:

    P_{c}\left(D, a_{1}, a_{2}\right)=\frac{\sum_{i=1}^{m}\left|O_{i} \cap L \cap E_{i}\right|}{\sum_{i=1}^{m}\left|O_{i} \cap E_{i}\right|}

    R_{c}\left(D, a_{1}, a_{2}\right)=\frac{\sum_{i=1}^{m}\left|O_{i} \cap L \cap E_{i}\right|}{\sum_{i=1}^{m}\left|L \cap E_{i}\right|}

    对所有实例的对话准确率和对话召回率进行平均,以获得最终的值。计算过程如式(4)~(6)所示:

    P_{c}=\frac{\sum_{D^{\prime} ,a_{1}^{\prime} , a_{2}^{\prime}} P_{c}\left(D^{\prime}, a_{1}^{\prime}, a_{2}^{\prime}\right)}{\sum_{1^{\prime} , a_{1}^{\prime} , a_{2}^{\prime} } 1}

    R_{c}=\frac{\sum_{D^{\prime} , a_{1}^{\prime} , a_{2}^{\prime}} R_{c}\left(D^{\prime}, a_{1}^{\prime}, a_{2}^{\prime}\right)}{\sum_{D^{\prime} , a_{1}^{\prime} , a_{2}^{\prime} } 1}

    F_{1 c}=\frac{2 \cdot P_{c} \cdot R_{c}}{P_{c}+R_{c}}

    在标准评价方法中,模型的输入可以利用整个对话全文,而在对话评价方法中,模型的输入只可以利用根据上述方法得到部分对话。通俗来讲,F_{1c}值就是来评价模型在尽可能少的对话轮数中快速识别出实体间关系的性能。

    3.融入交互信息的实体关系抽取模型

    3.1 STCM模型

    与大多数实体关系识别方法一样,本文也将对话抽取任务转化为一个分类任务

    在把对话D和实体对  a_{1}a_{2} 拼接成一段长文的基础上,拼接上通过交叉注意力机制获取到的交互信息作为模型的输入。

    图2给出了STCM模型的结构,该模型主要包含三个部分:1.获取对话交互信息层。2.基于Star-Transformer的序列编码层。3.多任务学习层。

     3.2 获取对话交互信息层

    本文将对话者的一问一答看作一轮对话u,每个训练样本中平均包含7.5轮对话,依次从中提取出两轮对话来模拟交互过程,使用交叉注意力机制来捕获这两轮对话的关联信息,最后把所有得到的关联信息进行整合得到我们需要的交互信息C。具体过程如图3所示。

     

    其具体计算工程如式(7)、(8)所示

    u_{i+1}^{c}=\text { CrossAttention }\left(u_{i}, u_{i+1}\right)

    C=\operatorname{mean}\left(\left[u_{1}^{c} ; u_{2}^{c} ; \cdots ; u_{L-1}^{c}\right]\right)

    其中,\left[u_{1}^{c} ; u_{2}^{c} ; \cdots ; u_{L-1}^{c}\right]表示将所有向量在0维上进行堆叠,L表示总的对话轮数。

    交叉注意力机制的工作原理如图4所示:

     注意力权重的计算如式(9)所示:

    e_{j k}=\left(u_{i j}\right)^{\mathrm{T}} u_{(i+1) k}

    其中,e_{j k}指的是对话u_{i}中第j个字符与对话u_{(i+1)}中第k个字符的注意力权重。使用软对齐获取两轮对话之间的局部相关性,对话u_{(i+1)}中的第k个字符与对话 u_{i}中相关的语义部分标记为向量{u}_{(i+1), k}^{c},其具体计算过程如式(10)(11)所示:

    3.3 基于Star-Transformer的编码层

     

     

    展开全文
  • 我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习。其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越...

    我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候们面临的问题并不是缺资源,而是找准资源并高效学习。其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学习资源。如果一门课程帮助你清晰地梳理知识体系,而且把有深度的知识点脉络讲清楚,这就是节省最大的成本。为了迎合大家学习的需求,我们这次重磅推出了《自然语言处理高阶研修》。

    首先,全网不可能找得到另外一门系统性的训练营具备如此的深度和广度,这里包括国外的课程,所以从内容的角度来讲是非常稀缺的内容。

    课程覆盖了从预训练模型、对话系统、信息抽取、知识图谱、文本生成所有必要的技术应用和学术前沿,30+项目案例帮助你在实战中学习成长。课程采用全程直播授课模式,博导级大咖全程辅导答疑、帮你告别疑难困惑。

    适合什么样的人来参加呐?

    • 从事AI行业多年,但技术上感觉不够深入,遇到了瓶颈; 

    • 停留在使用模型/工具上,很难基于业务场景来提出新的模型; 

    • 对于机器学习背后的优化理论、前沿的技术不够深入;

    • 计划从事尖端的科研、研究工作、申请AI领域研究生、博士生; 

    • 打算进入顶尖的AI公司如Google,Facebook,Amazon, 阿里等;

    • 读ICML,IJCAI等会议文章比较吃力,似懂非懂,无法把每个细节理解透。

    如果对课程感兴趣,请联系

    添加课程顾问小姐姐微信

    报名、课程咨询

    ????????????

    01 课程大纲

    课程内容上做了大幅度的更新,课程采用全程直播授课模式。带你全面掌握自然语言处理技术,能够灵活应用在自己的工作中;深入理解前沿的技术,为后续的科研打下基础;快速掌握理解预训练技术、对话技术、生成技术以及知识图谱的常用技术;通过完成一系列课题,有可能成为一个创业项目或者转换成你的科研论文。

    模块一 预训练模型

    第一章:预训练模型基础

    | 预训练模型基础、语言模型回顾

    | N-gram、Neural语言模型回顾

    | 预训练方法的发展历程

    | 预训练和transfer learning

    | Pre-BERT时代的transfer learning

    | word2vec,transfer learning in NER

    | Post-BERT时代的transfer learning

    | Pre-train fine-tune范式

    第二章:ELmo与BERT

    | Elmo、Transformer、BERT

    | 更强的BERT:RoBERTa

    | 基于Elmo和BERT的NLP下游任务

    | Huggingface Transformers库介绍 

    | 构建基于BERT的情感分类器

     第三: GPT系列模型

    | GPT、GPT2、GPT3 

    | 基于GPT的fine-tuning

    | 基于GPT的Zero-shot learning

    | 基于GPT模型的文本生成实战

    | Top-k + Top-p 采样

    | 基于给定Prompt生成续写文本

    第四: Transformer-XL与XLNet

    | 处理长文本 

    | Transformer-XL

    | 相对位置编码

    | Permutation Language Model

    | Two-stream attention

    | XLNet

    | 更进阶的预训练任务:MPNet

    第五:其他前沿的预训练模型

    | 考虑知识的预训练模型:ERINE

    | 对话预训练模型:PLATO2, DialoGPT

    | SpanBERT

    | MASS,UniLM

    | BART,T5

    | 实现基于T5的文本分类模型

    第六: 低计算量下模型微调和对比学习

    | 低计算量情况下的预训练模型微调

    | Adapter-based fine-tuning,

    | Prompt-search,P-tuning 

    | 基于对比学习的预训练

    | 对比学习目标:Triplet Loss,InfoNCE Loss

    | 对比学习在NLP中的前沿应用:SimCSE

    第七:多模态预训练和挑战

    | 多模态预训练模型

    | 多模态匹配模型:CLIP,文澜

    | VQ-VAE

    | 多模态生成模型:DALLE,CogView

    | 预训练模型面临的挑战及其前沿进展

    | 模型并行带来的挑战

    | 对于Transformer的改进:Reformer

    模块二 对话系统

    第一:对话系统综述

    | 对话系统发展历程

    | 对话系统的主要应用场景

    | 常见的对话系统类别以及采用的技术

    | 对话系统前沿的技术介绍

    | 基础:语言模型

    | 基础:基于神经网络的语言模型

    第二:对话系统综述

    | 任务型对话系统的总体架构

    | 案例:订票系统的搭建

    | 自然语言理解模块简介

    | 对话管理模块技术

    | 对话生成模型技术

    | 基于神经网络的文本分类和序列标注

    第三:自然语言处理理解模块

    | 自然语言理解模块面临的挑战

    | NLU模型中意图和槽位的联合识别

    | 考虑长上下文的NLU

    | NLU中的OOD检测

    | NLU模型的可扩展性和少样本学习

    | 少样本学习方法介绍

    | 孪生网络、匹配网络、原型网络

    第四:对话管理和对话生成

    | 对话状态追踪

    | 对话策略详解

    | POMDP技术

    | 对话管理的最新研究进展

    | 基于RL的对话管理

    | 对话生成技术

    | 端到端的对话系统

    | 基于预训练模型的DST

    第五:闲聊对话系统

    | 闲聊对话系统基础技术

    | 基于检索的闲聊对话系统

    | 基于生成的闲聊对话系统

    | 融合检索和生成的闲聊对话系统

    | Protoype rewriting, Retrieval augmented generation

    | 闲聊对话系统的主要应用场景

    | 闲聊对话系统技术所面临的主要挑战

    | FAQ系统实战,实现一个自己的FAQ系统

    | 基于RNN/Transformer/BERT的文本匹配模型

    第六:对话系统进阶

    | 情感/共情对话系统

    | 生成带情绪的回复

    | 个性化对话生成

    | 生成符合特定个性人设的回复

    | 风格化对话生成

    | 对话回复的多样性

    | Label Smoothing, Adaptive label smoothing

    | Top-K Sampling, Nuclear Sampling

    | Non-autoregressive 算法在生成模型中的应用

    | 基于Transformer的对话生成模型

    | TransferTransfo

    第七:开源对话系统架构RASA详解

    | RASA的主要架构

    | 基于RASA搭建自己的对话系统

    | 多模态对话、VQA

    | 考虑图像模态的对话回复检索和生成

    | 基于预训练模型的对话系统

    | 基于GPT模型的对话模型

    | Meena,PLA

    模块三 信息抽取&知识图谱

    第一:知识图谱与图数据模型

    | 知识图谱:搜索引擎,数据整合,AI

    | 实体抽取、关系抽取、词向量

    | graph embedding

    | 图数据模型:RDF, Cyper

    | 结构化数据的关系抽取

    | 介绍关系抽取的基本方法

    | 介绍结构化数据的信息过滤

    第二:知识图谱的设计

    | RDF和Property graph的设计

    | 创建KG:数据处理、文本和图像

    | 推断用到的基本方法

    | Path detection

    | Centrality and community Detection

    | 图结构嵌入方法

    | 重要性的基本方法:node,edge

    第三:关系抽取和预测

    | Hand-built patterns

    | Bootstrapping methods

    | Supervised methods

    | Distant supervision

    | Unsupervised methods

    | 实体识别的基本方法

    第四:低资源信息抽取和推断

    | Low-resource NER 

    | Low-resource structured models

    | Learning multi-lingual Embeddings

    | Deepath 

    | DIVA

    | Generic Statistical Relational Entity Resolution in Knowledge Graphs 

    第五:结构化预测模型

    | Sequence labeling

    | 结构化数据类别:Dependency,constituency

    | Stack LSTM

    | Stack RNNS

    | Tree-structure LSTM

    第六:图挖掘的热门应用

    | 基本图概念

    | Link Prediction

    | Recommendation system

    | Anomaly detection

    | Gated Graph Sequence Neural Networks

    模块四 文本生成

    第一:Seq2Seq模型与机器翻译

    | Seq2seq 模型与机器翻译任务

    | 机器翻译中未登录词UNK与subword

    | 文本生成coverage

    | length normalization

    | 低资源语言生成

    | 多任务学习

    | Tearch Force Model

    第二:文本摘要生成(1)

    | 摘要生成技术类别

    | 生成式摘要生成技术

    | 抽取式摘要生成技术

    | 基于CNN的文本生成

    | 基于RNN的文本生成

    第三:文本摘要生成(2)

    | Pointer Network 及其应用

    | CopyNet 于工业界的落地

    | Length Normalization 

    | Coverage Normalization

    | Text summarization 前沿研究

    第四:Creative Writing

    | 可控性文本生成

    | Story Telling 与预先训练GPT

    | 诗词,歌词,藏头诗等文本生成

    | 创作性文本生成技巧

    第五:多模态文本生成

    | ResNet 

    | Inception 等预训练图片特征抽取模型

    | Image Caption 及其应用

    | Table2text

    | 图神经网络与文本生成

    第六:对抗式文本生成与NL2sql

    | 对抗生成网络 GAN模型

    | 强化学习基础

    | 基于 Policy Gradient 的强化学习

    | SeqGAN

    | NL2sql :自然语言转SQL

    02 部分案例和项目

    学员可以选择每个模块完成我们提供的固定项目(以个人为单位),或者以小组为单位完成一个开放式项目(capstone),当然你也可以提出你自己的项目。从项目的立项、中期验收到最终答辩,在这个过程中我们的导师团队会给你建议、并辅助你完成课题, 该课题最终很有可能成为你的创业项目或科研论文!

    如果对课程感兴趣,请联系

    添加课程顾问小姐姐微信

    报名、课程咨询

    ????????????

    03 授课导师

    郑老师:清华大学计算机系(计算机科学与人工智能研究部)博士后

    美国劳伦斯伯克利国家实验室访问学者

    主要从事自然语言处理,对话领域的先行研究与商业化

    先后在ACL,EMNLP,AAAI,NeurIPS,TASLP,等国际会议及期刊上发表过10篇以上论文

    杨老师:香港城市大学博士, UC Merced博士后,主要从事于机器学习,图卷积,图嵌入的研究。先后在ECCV, Trans on Cybernetics, Trans on NSE, INDIN等国际顶会及期刊上发表过数篇论文。

    04直播授课,现场推导演示

    区别于劣质的PPT讲解,导师全程现场推导,让你在学习中有清晰的思路,深刻的理解算法模型背后推导的每个细节。更重要的是可以清晰地看到各种模型之间的关系!帮助你打通六脉!

    ▲源自:LDA模型讲解


    ▲源自:Convex Optimization 讲解

    ▲源自:Convergence Analysis 讲解

    05 科学的课程安排

    采用直播的授课方式,每周3-4次直播教学,包含核心理论课、实战课、复习巩固课以及论文讲解课。教学模式上也参考了美国顶级院校的教学体系。以下为其中一周的课程安排,供参考。 

    06 报名须知

    1、本课程为收费教学。

    2、本期招收学员名额有限

    3、品质保障!学习不满意,可在开课后7天内,无条件全额退款。

    4、学习本课程需要具备一定的机器学习基础和Python编程基础。

    ●●●

    如果对课程感兴趣,请联系

    添加课程顾问小姐姐微信

    报名、课程咨询

    ????????????

    展开全文
  • 面向机器人学习的对话模版抽取方法 摘 要问答系统的主要任务是在信息抽取文档的支持下提供给自然语言表述的问题一个简单有效的答案实现友好可靠的人机交互方式现有的技术已经能够基本实现部分问答需求在本文中我们将...
  • NLP学习笔记31-信息抽取

    千次阅读 2021-03-05 13:56:42
    第三模块:信息抽取信息抽取概要 概要介绍 Unstructured Text包括: 图片、文本、VIDEO、音频 这些需要提取特征的处理后才能用模型进行计算。 Information Extraction(IE) 抽取实体(entities):实体...
  • 信息抽取

    2021-01-06 16:48:51
    信息抽取:信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,最终以结构化的形式进行描述,使信息可以存入数据库以供进一步...
  • 【NLP】信息抽取

    千次阅读 2020-12-03 21:22:40
    信息抽取的定义 从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术,即Making information more machine-readable,换成更方便及其识别的形式,以进行后续的研究。...
  • 信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与...
  • 文本关键信息抽取整体综述

    千次阅读 2020-09-10 16:10:45
    因为最近项目需要,这里基于资料,个人理解与实际应用进行一个整体性的文本关键信息抽取方法总结。大的方向上,我将关键信息抽取分为以下几个点: 关键词提取、主题提取、实体抽取、关系抽取。下面进行详细的实现...
  • Python 如何提取有效信息,已经尝试了 Python ner ,效果不好 请各位慷慨解囊,帮助一下
  • 一两年前由于工作需要重点研究过自然语言处理与人机对话系统,本文将会列出的它们的知识点以及自己的思考。 nlp与人机对话 对于普通企业,人机对话目前主要的应用是任务型人机对话系统。不管是nlp亦或是chatbot,...
  • 我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习。其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越...
  • 1、什么是关系抽取 关系抽取的主要任务就是,给定一段句子文本,抽取句子中的两个实体以及实体之间的关系,以次来构成一个三元组(s,p,o),s是subject表示主实体,o为object表示客实体,p为predicate表示两实体间...
  • 开放域信息抽取信息抽取任务的另一个分支任务,其中抽取的谓语和实体并不是特定的领域,也并没有提前定义好实体类别。更一般的,开放域信息抽取的目的是抽取出所有输入的文本中的形如 的三元组。开放域信息抽取...
  • 目录 前述 1) 模型结构 2) 模型运算 2 End-to-End BERT RE 1) 模型结构 ...这一点在知识图谱、信息抽取、文本摘要这些任务中格外明显。不同的任务的差异在于目标的转化形式不一样,因而不同的任务难...
  • 中文自然语言的实体抽取和意图识别(Natural Language Understanding),可选Bi-LSTM CRF 或者 IDCNN CRF
  • 文本信息抽取信息检索、智能问答、智能对话等人工智能应用的重要基础,它可以克服自然语言非形式化、不确定性等问题,发掘并捕获其中蕴含的有价值信息,进而用于文档智能审核、知识库及知识图谱构建、流程自动化等...
  • 事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。然...
  • 信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。(来自百度...
  • 信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。...
  • 事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。然...
  • 有一项重要但繁琐的工作,就是从大量的文本当中抽取结构化的信息。 然而,结构化的信息不一定就在那里,静候你来使用。很多时候,它蕴藏在以往生成的非结构化文本中。 你可能早已习惯,人工阅读文本信息,把关键点...
  • 这一章节将会学到的Taskflow技能:PaddleNLP 5.16新发开放域信息抽取能力,只有你想不到的schema,没有UIE抽取不到的结果哦!详情可参考:信息抽取一键预测能力如需定制化训练,全套代码在此:传送门 关系抽取 ...
  • 事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。然...
  • 信息抽取--关键句提取

    千次阅读 2021-01-03 13:06:19
    (纯属为了记录自己学习的点滴过程,引用资料都附在参考列表) 1 基本概念 关键句提取 在一些场合,关键词或关键短语依然显得碎片化,不足以表达完整的主题。这时通常提取中心句子作为文章的简短摘要。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,117
精华内容 5,246
关键字:

对话信息抽取