精华内容
下载资源
问答
  • 信息抽取

    2021-02-06 17:02:35
    信息抽取 information extraction(IE) 信息抽取概要 从非结构化数据,也就是需要进一步处理的数据,如图片,文本,video,音频。进一步处理转化为可以用于建模的feature。结构化数据可以存入到数据库中进行管理 ...

    信息抽取 information extraction(IE)

    信息抽取概要

    从非结构化数据,也就是需要进一步处理的数据,如图片,文本,video,音频。进一步处理转化为可以用于建模的feature。结构化数据可以存入到数据库中进行管理

    主要从文本中进行信息的抽取

    抽取实体(entities)

    现实中存在的事物,各个领域有专属的实体。

    医疗领域:蛋白质,疾病,药物。。。

    金融领域:申请人,表单,公司,地址。。。

    各个领域关注的实体内容不同,开源的NER的方法很难应用到垂直领域中

    抽取关系(relations)

    位于,工作在,部分

    处理步骤

    对文档的内容进行实体抽取,在探究两两之间是否存在关系

    国外团队

    USC的ISI实验室

    信息抽取例子

    • 寻找所有的实体
    • 确定实体的类型,实体类型可以快速筛选关系,有些关系是特定实体之间的
    • 寻找所有的关系
    • 在关系的寻找中并不都是A ralate B,往往会遇到许多指代性的词,所以要通过指代消解得到指代的实体,从而再建立关系在这里插入图片描述

    Trick

    • 随着实体的增加,实体消解的分类的备选项增加,可以使用moving window
    • 实体之间的关系会不会越来越复杂,这里的关系是事先定义好的,是通过遍历整天文章的方式来找到这个关系。
    • 实体的统一是对同一实体的不同叫法的统一,百度,百度有限公司
    • 实体的消岐是对同一个词的不同含义,苹果表示水果和苹果公司
    • 定义的关系不能是类似的,少定义

    信息抽取国内外公司

    1. alphasense:大量的金融领域的年报,提取出关键信息通过数据库存下来
    2. diffbot:给定一个网页的链接URL,可以提取网页中的关键信息
    3. palantir
    4. 国内的明略数据

    更多应用

    1. 知识库搭建
    2. Google scholar,CiteSeerX
    3. 用户库:Repleaf,Spoke
    4. 购物引擎,产品搜索
    5. 专利分析
    6. 证券分析
    7. 问答案系统

    搜索引擎和问答系统

    • 搜索引擎:根据用户的问题,输出一系列的网页,用户要自己筛选
    • 问答系统:根据用户的问题,直接给出回答

    问答系统的分类

    根据返回的精确度,颗粒度,从粗到细

    • Level 1:返回一个文档
    • Level 2:返回关键的句子(sentence extraction)
    • Level 3:返回key-phrase
    • Level 4:返回答案,几个词

    上面的容错率比较大,从上到下,准确率下降。上层可能只需要进行一些相似度的计算,但是更下层需要构建知识图谱,基本上要人进行构造,人的工作也越多

    命名实体识别(Named Entity Recognition,NER)

    识别文本中具有特别意义的实体

    case 1 :Chatbot

    从AIML的Alicebot,2004年。解决多轮学习的问题需要使用增强学习的方法,当前工业界大部分是使用的是基于规则的

    识别完intention,每个intention都有一个状态机

    通过用户的回答识别意图,针对每个意图都有一个dialogue management基于规则的对话管理系统。通过NER抽取出实体进行槽填充,通过API获取相对应的数据库信息,来基于规则生成答案

    意图识别通过规则和模型进行判断,也就是相当于一个分类

    case 2:Extract from News

    • 产品:玻森数据的demo的演示,看看这些工具的效果怎么样
    • English Toolkits:NLTK NE,Spacy,Stanford Parser
    • Chinese Toolkit:HanNLP,HIT NLP,Fudan NLP
    • 都包含了NER的识别器
    • 缺点在于只提供一些通用性的,如果是垂直领域用不了,只能提取人名地名时间等等,如果想提自己的要自己设计

    case 3:Resume Analysis简历分析

    • 定义出关心的实体类别,有些可能识别不出来,要有一个大的库,如地点要有一个所有地点的库

    构造一个实体识别器(create NET recognizer)

    • 定义关心的实体
    • 数据库中每一个句子的每一个单词的词性,实体类型标签,实体类别标注的方法B-per,其中per是类别,一个实体可能由多个单词组成所以加上B和I,Begin,Inner
    • 训练一个NER Recognizer
    • 评估实体识别器,精确率,召回率,F1-score

    NER的方法

    • 利用规则(正则)
    • 投票模型(majority voting)是baseline
    • 利用分类模型:非时序模型:逻辑回归,SVM;时序模型:HMM,CRF,LSTM-CRF

    利用规则的方法(正则)人工设计

    如美国的电话号码的实体,可以用一个正则表达式

    利用已经定义的词典,词库。如果出现词库中的词,那么就提取出来

    Majority voting(baseline)

    统计每个单词的实体类型,记录针对每个单词,概率最大的实体类型。也就是每个词在训练集中出现时的标签,取出现最多的那个标签。不需要学习,只需要统计。

    基于监督学习的方法

    非时序和时序,核心是做一个特征工程。

    对于每个单词来说都是一个多分类的问题

    对每个单词做特征工程得到一个特征向量,放到模型里面得到分类的结果。但是这里没有考虑上下文的信息

    对于一个词能够提取出什么样的特征?

    • bag of word:跟单词相关的特征,当前的词,前后词,前前后后的词,bi-gram(是两个词,并非前一个词),trigram
    • 词性:当前词词性,前后词词性,也可以n-gram。。。
    • 前缀和后缀:当前词的前后缀,前后词的前后缀。。。。
    • 当前词的特性:词长,含有多少个大写字母,是否大写开头,是否包含横杠的符号,前面词是否包含大写,是否包含数字
    • 英文的stemming后重复bag of word等等
    feature encoding

    当前特征要转化为一个one-hot encoding

    常见的特征种类
    • categorical feature类别特征:男女,要转化为one-hot encoding
    • 连续型(数值型):身高,温度,方法:直接用(归一化,0-1或者高斯分布),或特征做一个离散化,分组是哪一组(相当于具备了一些非线性的能力)
    • ordinal feature(ranking):成绩ABCD和数值型乘积相比,无法知道之间的差距,相减没有含义。使用方法:直接使用,或当作类别特征处理
    feature merging

    城市的one-hot encoding中对于很多没有出现的城市,可以合并多个区域,区域会少一些

    信息抽取的重要性

    命名实体识别NER是基础,上层是关系抽取

    • 问答系统
    • 扩充原有的知识库(knowledge Base)
    • 法律,金融领域
    • 大量文本通过表单的形式表示关键的信息

    实体关系

    • IS-A(Hypernym Relation),子集和超集
    • instance-of:广泛和具体

    开源的知识库

    • FreeBase
    • WorldNet
    • Yago
    • Dpedia
    • KnowledgeVault

    关系抽取的方法

    • 基于规则的
    • 监督学习
    • 半监督&无监督学习:Bootstrap,Distant Suppervision,无监督学习。尽量使用半监督,基于一些已有的知识库

    基于规则的方法:抽取is-a关系

    定义一个规则集,如if X is a Y, Y such as X, Y including X, Y especially X

    文章中出现了:… apple is a fruit… 通过实体抽取,抽取出apple和fruit,然后is a出现在规则集中,那么就存到表中

    如果只是需要特定的实体所具备的关系,那么就要过滤掉有相同关系但是实体不满足的情况,那么要在规则集上加入一些对实体的限制。从而提升挖掘的结果准确率,只返回想要的结果

    优点:

    • 比较准确
    • 不需要训练数据

    缺点:

    • low recall ratio,同样的is-a关系的表述方式不可能完全覆盖
    • 人力成本
    • 规则本身难设计,规则之间的冲突和冗余

    基于监督关系抽取方法

    • 定义关系类型
    • 定义所有的实体类型
    • 训练数据搜集准备,很多文本,文本中的实体标记,实体类型标记,实体之间的关系的标记。人工成本非常高
    • 特征工程
    • 分类算法的输入是一个关于两个实体特征,输出所属的关系的概率。
    特征工程
    • bag-of-word:当前单词的前后,中间的词
    • pos feature:词性相关的特征
    • 实体类别的特征
    • 位置相关的信息:两个实体间包含了多少个单词,这句话在本文中的位置
    • 句法分析相关特征:将句子通过树状的方式连接起来,两个节点之间最短的路径
    • 依存文法相关特征:每个单词之间存在的关系的方向,仍有最短路径,有无直接依赖关系0-1
    分类模型

    注意有一类是无关系

    • 模型根据特征确定是哪个类
    • 特征通过一个二分类模型(简单,且大部分是没关系的)确定有无关系,若有关系通过一个多分类模型分出是哪个类

    特征提取器

    传统的特征是基于词的维度人为定义的特征,会缺乏一些语义上的信息

    RNN

    一个单元的不断循环,不同的时间步。对输入的权重,对隐状态的权重是相同的

    有一个前后词的语序关系,会对不同的句子有一个同样维度的结果

    如果要考虑上下文,那么是双向的RNN

    CNN

    以往是对图像的处理,

    对于句子来做的时候,其中句子的每一个词作为每一行,每个词的编码作为列,从而构成了一个矩阵。那么整个文章就成了“sentence词数编码”

    与图像中的卷积核不同的是,每个词的词向量应该保持完整,所以他只能在词的维度上进行移动。(但也不是绝对的)

    每一个卷积核做出来的结果经过max-pooling转化为一个数,然后不同卷积核的结果组成了一个向量,

    对于句子的长度不同的情况,虽然前面卷积核的结果会不同,但是max-pooling后都会成为1维。

    视野是在gram的量级,可以通过多层卷积的方式,扩大视野

    Transformer

    github上面的源码,attention的结构,位置信息通过positional encoding来提升

    https://blog.csdn.net/zongza/article/details/88851032
    https://www.leiphone.com/news/201902/fRHKKOZuS3wldH0o.html

    关系抽取

    • 基于规则
    • 监督学习的方法
    • 半监督的,Bootstrap(原始),Bootstrap(snowball),distant-supervisor
    • 无监督的方法

    Bootstrap算法(原始)

    数据库中先存在由一些同一关系的实体对,作为seed tuple种子实体对

    • 第一步:在文本中找到种子实体对,看他们之间的连接方式,将连接方式存到规则库中。就得到了同一关系的不同规则表述形式
    • 第二步:生成其他的实体对,扫描整篇文章按照规则找新的相同关系的实体对
    • 将新的实体对加入到实体对库中,然后找到新的规则表述形式,然后再去找新的实体对,不断循环

    缺点:

    • 同一实体对之间并不一定都是想要的那个关系
    • 有修饰语的话,可以只做近似匹配
    • 太多语料库的重复计算,设置一些标签,用过的就不要了
    • 生成规则,生成实体对,生成规则。。。的流程是循环式穿行结构,会造成Error Accumulation造成误差的累计

    Bootstrap(snowball)

    • 生成规则
    • 生成tuple
    • 评估规则准确率并过滤
    • 评估tuple准确率并过滤
    • 通过这样的方式来循环

    匹配的模式上原始算法式精准的匹配,多了修饰词之后可能匹配不了。snowball采用近似匹配的方式,把规则表示成五元组的方式,计算出规则与规则之间的相似度,规则与tuple之间的相似度

    • 将规则表示成一个五元组,两个实体的left,mid,right
    • 把左中右的词转化为向量形式
    • 当两个规则,实体类型不匹配,相似度为0;否则按照前中后词的相似度然后加权平均。
    • 模板之间的相似度通过聚类的方式,将模板进行聚类k-means,spatial clustering,Hierachical clustering,然后使用聚类中心代表此类模板
    • 生成新的tuple:如果实体类型匹配了,而且模板核模板库中的各条规则满足相似度大于阈值那么加入该规则下的实体对中
    • 模板的评估,根据已有seed tuple的内容作为ground truth,对模板检测出来的实体对的准确性进行评估,小于阈值舍去该模板
    • tuple评估,规则模板和tuple的关系可以是多对多的,①看用来生成tuple的规则模板的置信度,②是由多个靠谱的规则生成的 。数学形式1-(1-confidence(Pi))()()…

    开源的GitHub代码snowball,以及论文

    实体消岐(Entity Disambiguiation)

    一个词很可能有多个意思,在不同的上下文中所表达的含义不同

    当前句子中的实体和实体库中内容比较,相似度的计算方式

    将实体表示成向量的形式,实体库中同样需要转化为一个向量的形式。通过余弦相似度计算的方法来计算相似度。可以是将整个实体库中的实体的出现方式那一句话转换为向量,现在的这个句子也转化为向量。也就是将语境之间进行比较相似度。

    相当于是一个分类问题,可以建立上下文的文本向量,相似的相近。

    实体统一(Entity Resolution)

    背后是同一个实体的不同的指代,金融反欺诈,判断那些设备来自同一个人。

    推荐任务,不同的登录设备

    问题定义:给定两个实体,判断是否只想同一实体

    例子:给定两个实体,字符串,str1,str2是否为同一实体

    • 计算编辑距离:小于某一阈值,认为是同一实体
    • 基于规则:地址名,公司名消岐,百度有限公司,百度科技有限公司。维护实体的描述库。也就是实体描述和原型的对应。这样就只要看原型是否相同。
    • 基于有监督的学习方法:将两个可能是同一个实体的上下文做一个tfidf转换为特征向量,通过concat然后进行二分类或者计算两者的余弦相似度
    • 基于图的实体统一:知识图谱,物联网的关系网络。提取个体的特征(年龄收入),关系相关特征(出度入度,1阶相邻再延伸),再计算相似度

    指代消解Co-reference Resolution

    他指的是哪个人(实体),分类问题

    • 最简单的方法:分类成最近的实体,但往往不太对
    • 基于有监督的方法:训练的样本是有标记的(实体,指代)是否属于0/1,特征上面上下文的信息构造特征向量,训练出分类器

    句法分析

    理解一个句子的两种方法:

    • 句子的结构,主谓宾,句法分析,转化为一棵语法树的形式,syntax tree
    • 凭感觉:基于语言模型的方法
      在这里插入图片描述
      从句法树中提取特征。
    • 原先是上下文的特征
    • 现在使用基于图的特征,两个单词之间的最短路径,路径下的

    句子转化为一个句法树: 根据语法,各个父节点的子节点是一定的

    旧机器翻译使用句法分析的过程:中文句子通过句法分析转化为一个句法树,然后对应到英文的句法树,然后通过句法分析转换成英文句子。为了翻译,需要语言学家,懂中英文语法,中英文转化,需要大量domain-knowledge。现在想实现端到端的方法。

    给定语法的时候,怎么把句子转化为语法树

    • Context from grammars(CFG),一些列写的规则
    • Probabilistic context from grammars(PCFG),将规则转化为同一父节点转化为不同类型子节点的不同概率。
    • 给定一个PCFG,将sentence转化为syntax tree,找最优的句法树,评价的指标的设计,分数,使用PCFG的概率将树的分数算出来。那么只要维护到PCFG,通过training data求出来,人工标记的一系列树。
    • 寻找最优树:枚举出所有可能的句法树,指数增长;引入CKY算法,动态规划的方法

    CKY算法

    • 比如4个词的句子的句法树,将整个问题分成几个子问题独立考虑。不同的拆分的方式来计算,然后从下到上。
    • 二值化,小于等于2,多了之后选项会有指数型增长
    • CNF形式,chomsky normal form,只能两个后续,不能0,1,大于2。0的去掉这条规则,但是基于这条规则,对符合条件的规则进行改造之后作为新的规则加入;1的,去掉改规则,然后用父代替子过一遍以子为父的规则。3的,去掉这条,然后把他转化为几条子规则,
    • CKY只要binaralization就可以
    • 各条规则,不能简单的理解为可以由父节点生成下面的子节点的概率,而是这样形式的一棵句法树子结构出现的概率。

    实施的过程:

    • 最开始考虑只有1个单词各自的情况,那么对应的就是通过他的类型找他的顶头的父节点,而且他们的匹配的方式也应该是一直一串下来的,不然如果有分支的话一定就有别的单词了。
    • 因为单词都是叶节点的形式,所以对于子任务来说,先生成的树应该是一棵包含这两个单词的简单二叉树,然后向上扩展。
    • 如果出现了同一个父节点的情况,那么选取概率大的那种情况。
    • 两个子节点的前后顺序是固定的。
    • 考虑到3个单词时候,选取哪两个作为组合然后和剩下的一个做同样的操作
    • 4个的话,考虑1-3组合和2-2组合
    展开全文
  • 辅助信息抽取

    2020-11-19 09:24:14
    辅助信息抽取辅助信息抽取辅助信息抽取

    辅助信息抽取

    知识图谱的概念与应用

    知识图谱里通常用“实体(Entity)”来表达图里的节点,用“关系(Relationship)”来表达图里的边。


    储存方式:三元组(entity1,entity2,relationship)


    什么是信息抽取:

    对于结构化与半结构化数据需要复杂表数据的处理和定义抽取的包装器等方式实现。

    对非结构化的纯文本数据需要借助自然语言处理等技术来自动地提取出结构化信息。这个过程一般称为信息抽取。

    在这里插入图片描述


    自然语言理解本质是结构预测

    自然语言理解的众多任务,包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析.语义角色标注等,都是在对文本序列背后特定语义结构进行预测。


    信息抽取的主要任务:

    • 命名实体识别
    • 关系抽取
    • 实体统一
    • 指代消解

    在这里插入图片描述


    搭建一个知识图谱系统的重点并不在于算法和开发,其实最重要的核心在于对业务的理解以及对知识图谱本身的设计

    步骤:

    1.定义具体的业务问题
    2.数据的收集&预处理
    3.知识图谱的设计
    4.把数据存入知识图谱
    5 . 上层应用的开发,以及系统的评估。


    标注工具:brat

    http://brat.nlplab.org


    正则表达式与AC自动机

    AC自动机:
    字符串搜索算法,用于在输入的一串字符串中匹配有限组“字典”中的子串。它与普通字符串匹配的不同点在于同时与所有字典串进行匹配。算法均摊情况下具有近似于线性的时间复杂度,约为字符串的长度加所有匹配的数量。
    在这里插入图片描述
    KMP算法:

    KMP算法核心为部分匹配表,记录字符串中的前缀集合与后缀集合的交集中最长元素的长度。根据部分匹配表,可避免重复检查先前匹配的元素。
    在这里插入图片描述

    Trie树:

    trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串。一般情况下,不是所有的节点都有对应的值,只有叶子节点和部分内部节点所对应的键才有相关的值。

    在这里插入图片描述


    AC自动机:
    AC自动机= KMP + Trie树
    依靠构造一个有限状态机(类似于在一个trie树中添加失配指针)来实现。这些额外的失配指针允许在查找字符串失败时进行回退(例如设Trie树的单词cat匹配失败,但是在Trie树中存在另一个单词cart,失配指针就会指向前缀ca),转向某前缀的其他分支,免于重复匹配前缀,提高算法效率。
    在这里插入图片描述


    正则表达式:
    原理:NFA自动机(Non deterministicFinite Automaton不确定型有穷自动机)NFA 是以正则表达式为基准去匹配的.发现不匹配了。此时就会发生回溯。
    在这里插入图片描述


    基于规则的信息抽取:

    在这里插入图片描述


    NER发展

    在这里插入图片描述


    机器学习的基本流程

    在这里插入图片描述


    自然语言处理,人工智能皇冠上的明珠!

    中文NLP语言处理的一般流程:

    • 1.获取语料
    • 2.语料预处理
    • 3.特征工程
    • 4.特征选择
    • 5.模型训练
    • 6.评价指标
    • 7.模型上线应用

    中文分词

    中文切词常见方法里既有经典的机械切分法(如正向/逆向最大匹配,双向最大匹配等),也有效果更好一些的统计切分方法(如隐马尔可夫HMM,条件随机场CRF)以及近年来兴起的采用深度神经网络的RNNLSTM等方法。


    词性标注

    常见的词性标注方法可以分为基于规则和基于统计的方法。其中基于统计的方法,如基于最大嫡的词性标注、基于统计最大概率输出词性和基于HMM的词性标注。近年来兴起的采用深度神经网络的RNN,LSTM等方法。


    去停用词

    停用词词典是根据具体场景来决定的,比如在情感分析中,语气词、感叹号是应该保留的,因为他们对表示语气程度、感情色彩有一定的贡献和意义。
    在这里插入图片描述


    命名实体识别

    NER通常包括两部分:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。

    英文中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英文相比,中文命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

    大部分情况下,标签体系越复杂准确度也越高,但相应的训练时间也会增加。因此需要根据实际情况选择合适的标签体系。


    序列标注

    在这里插入图片描述


    NER评价标准

    在这里插入图片描述

    一般采用2,使用考虑实体边界+实体类型评测


    多分类的评价标准

    在这里插入图片描述


    基于规则的信息抽取:精确率高,但召回率比较低。
    基于规则的方式比较适合半结构化或比较规范的文本中的进行抽取任务,结合业务需求能够达到一定的效果。
    优点:简单,快速;
    缺点:召回低,泛化能力差


    HMM与维特比解码

    马尔可夫过程为状态空间中经过从一个状态到另一个状态的转换的随机过程。

    该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

    隐马尔可夫模型,是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。

    在这里插入图片描述


    HMM的两个假设

    在这里插入图片描述
    HMM模型描述的就是由这些隐状态序列(实体标记)生成可观测状态(可读文本)的过程.
    在这里插入图片描述


    HMM的三个基本问题

    在这里插入图片描述

    维特比算法

    维特比算法解码使用了动态规划算法来解决HMM的预测问题,找到概率最大路径,也就是最优路径。

    在每一时刻,计算当前时刻落在每种隐状态的最大概率,并记录这个最大概率是从前一时刻哪一个隐状态转移过来的,最后再从结尾回溯最大概率,也就是最有可能的最优路径.
    在这里插入图片描述


    条件随机场

    概率图模型

    概率图模型是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型。

    图中的每个节点都对应一个随机变量,可以是观察变量,隐变量或是未知参数等;每个连接表示两个随机变量之间具有依赖关系。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述


    在这里插入图片描述
    无向图G中任何两个结点均有边连接的节点子集称为团。若C是无向图G的一个团,并且不能再加进任何一个G的结点使其成为一个更大的团,则称此C为最大团。

    无向图的联合概率可以分解为一系列定义在最大团上的非负函数的乘积形式。
    在这里插入图片描述
    如果随机变量Y构成一个由无向图G=(V,E)表示的马尔可夫随机场,对任意节点vEV都成立,即
    在这里插入图片描述
    则称P(Y|X)是条件随机场。式中w≠v表示w是除v以外的所有节点,w~v表示w是与v相连接的所有节点。


    生成:对联合概率P(X,Y)建模

    判别:对条件概率P(Y|X)建模
    在这里插入图片描述


    CRF更加强大-CRF可以为任何HMM能够建模的事物建模,甚至更多。

    CRF可以定义更加广泛的特征集。而HMM在本质上必然是局部的,而CRF就可以使用更加全局的特征。CRF可以有任意权重值,HMM的概率值必须满足特定的约束。


    1.基于规则的专家系统
    召回低,规则维护复杂,泛化能力差

    2.基于特征的监督学习
    需要大量特征工程,泛化能力一般

    基于DL的NER模型成为主流,并取得了sOTA


    深度学习的关键优势在于其强大的表示学习能力,通过向量表示和神经网络学习复杂的组合语义。

    深度学习可以通过对原始数据进行训练自动发现分类或检测所需的语义表示。


    NLP中监督任务的基本套路:

    • 文本数据搜集和预处理
    • 将文本进行编码和表征
    • 设计模型解决具体任务

    在这里插入图片描述


    文本表示

    文本表示是深度学习进行NLP任务的第一步,将自然语言转化为深度学习能处理的数据。
    在这里插入图片描述


    词向量,将自然语言进行数学化。

    1. One-hot :
      维度灾难,不能刻画词与词之间的相似性
    2. Distributed:
      将词映射成固定长度的短向量,构造词向量空间,通过距离刻画词之间的相似性。
    展开全文
  • 信息抽取技术

    2011-11-01 20:40:57
    信息抽取技术 信息抽取 信息抽取 信息抽取
  • 开放式文本信息抽取

    2021-02-23 15:44:08
    开放式文本信息抽取
  • 网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具
  • 信息抽取——关系抽取

    千次阅读 2020-03-14 20:53:56
    向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayx简介信息抽取(information extrac...


    向AI转型的程序员都关注了这个号????????????

    机器学习AI算法工程   公众号:datayx

    简介信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。

    显然,信息抽取任务与命名实体识别任务类似,但相对来说更为复杂。有时,信息抽取也被称为事件抽取(event extraction)。

    与自动摘要相比,信息抽取更有目的性,并能将找到的信息以一定的框架展示。自动摘要输出的则是完整的自然语言句子,需要考虑语言的连贯和语法,甚至是逻辑。有时信息抽取也被用来完成自动摘要。

    由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。

    信息抽取主要包括三个子任务:

    实体抽取与链指:也就是命名实体识别

    关系抽取:通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系

    事件抽取:相当于一种多元关系的抽取

    由于工作上的原因,先对关系抽取进行总结,实体链指部分之后有时间再补上吧。

    关于关系抽取

    关系抽取通常再实体抽取与实体链指之后。在识别出句子中的关键实体后,还需要抽取两个实体或多个实体之间的语义关系。语义关系通常用于连接两个实体,并与实体一起表达文本的主要含义。常见的关系抽取结果可以用SPO结构的三元组来表示,即 (Subject, Predication, Object),如

    中国的首都是北京 ==> (中国, 首都, 北京)

    关系抽取的分类:

    是否有确定的关系集合:限定关系抽取:事先确定好所有需要抽取的关系集合,则可讲关系抽取看作是一中关系判断问题,或者说是分类问题

    开放式关系抽取:需要抽取的关系集合是不确定的,另一方面抽取预料的所属领域也可能是不确定的

    关系抽取可以用有监督、半监督甚至是无监督的方法来做。有监督学习:监督学习的关系集合通常是确定的,我们仅需要将其当作一个简单的分类问题来处理即可。高质量监督数据下的监督学习模型的准确率会很高,但缺点就是需要大量的人力成本和时间成本来对文本数据进行标注,且其难以扩展新的关系类别,模型较为脆弱,泛化能力有限

    半监督学习利用少量的标注信息作为种子模版,从非结构化数据中抽取大量的新的实例来构成新的训练数据。主要方法包括 Bootstraping 以及远程监督学习的方法

    无监督学习一般利用语料中存在的大量冗余信息做聚类,在聚类结果的基础上给定关系,但由于聚类方法本身就存在难以描述关系和低频实例召回率低的问题,因此无监督学习一般难以得很好的抽取效果。

    对于有监督的关系抽取任务,通常也将其分为两大类Pipline:将实体抽取与关系抽取分为两个独立的过程,关系抽取依赖实体抽取的结果,容易造成误差累积

    Joint Model:实体抽取与关系抽取同时进行,通常用模型参数共享的方法来实现

    随着深度学习以及词向量的发展,近年来大多的关系抽取模型都采用词向量作为关系抽取的主要特征,且均取得了非常好的效果。限于篇幅,本文仅对有监督学习下的 Pipline 经典模型进行介绍

    Pipline Model#

    Model 1: Relation Classification via Convolutional Deep Neural Network#

    原文链接:https://www.aclweb.org/anthology/C14-1220/

    在深度学习兴起之前,关系抽取的传统方法依赖于特征工程,而这些特征通常由预先准备的NLP系统得到,这容易在构造特征的过程中造成误差累积,阻碍系统性能。

    该论文属于早期使用深度卷积网络模型解决关系抽取任务的经典论文。该论文将关系抽取问题定义为:给定一个句子 SS 和名词对 e1e1和 e2e2,判断 e1e1 和 e2e2 在句子中的关系,即将关系抽取问题等效为一个关系分类问题。与传统的方法相比,该模型只需要将整个输入句子以及简单的词信息作为输入,而不需要认为构造特征,就能得到非常好的效果。模型的主要架构如下所示:  

    模型的输入主要包括两个部分,即词汇级别特征以及句子级别特征:

    lexical level features:词汇级别特征包括实体对e1e1 和 e2e2 的词嵌入向量,e1e1 和 e2e2 的左右两边词的词嵌入向量,以及一个 WordNet 上位词向量。WordNet 上位词特征指的是 e1e1 和 e2e2 同属于哪一个上位名次,如“狗”和“猫”的上位词可以是“动物”或者“宠物”,具体需要参考的 WordNet 词典是怎样构建的。直接将上述的5个向量直接拼接构成词汇级别的特征向量 ll

    sentence level feature:句子级别特征采用最大池化的卷积神经网络作为主要特征抽取模型,输入特征包括词向量信息以及位置向量信息。Word Features:为了能够抽取到每个词完整的上下文信息,在句子首位额外添加了Padding字符,Word Embedding 层是预训练得到的,并且参与后续的训练任务

    Position Features:额外增加了时序特征来弥补卷积网络对时序特征抽取能力不足的缺陷。论文中的做法是为每个词拼接两个固定维度的位置向量,分别表示词距离两个关键实体的相对位置信息。如“中国 的 首都 是 北京”,“的”与“中国”的距离大小为 1,与“北京”的距离大小为 -3,再将 1 和 -3 在 Position Embedding 层中查表得到,Position Embedding 层是随机初始化的,并且参与到模型训练当中

    将上述的 Word Features 与 Position Features 拼接,输入到卷积网络中,再用Max Pooling 层把每个卷积核的输出进行池化操作。再将池化结果通过一个全连接层,激活函数为 tanhtanh,将其看作一个更高层次的特征映射,得到最终的句子级别的特征向量 gg

    将词汇级别特征与句子级别特征直接拼接,即f=[l;g]f=[l;g],最终将其送入分类器进行分类。

    小结:该模型将关系抽取任务利用神经网络进行建模,利用无监督的词向量以及位置向量作为模型的主要输入特征,一定程度上避免了传统方法中的误差累积。但仍然有 lexical level feature 这个人工构造的特征,且 CNN 中的卷积核大小是固定的,抽取到的特征十分单一

    Model 2: Relation Extraction: Perspective from Convolutional Neural Networks

    原文链接:https://www.aclweb.org/anthology/W15-1506/

    该论文首先提出关系分类和关系抽取两个主要任务:

    关系分类:两个实体之间存在多个关系类型,并且这多个可能关系中有一个 non-relation 类别,这多个类别的样本数量基本是平衡的

    关系抽取:关系抽取与关系分类的区别在于,关系抽取中的 non-relation 类别的样本数目可能远远超过其他类别的样本数目,这样的任务更有挑战性,但在实际中有更为广泛的应用

    论文主要关注的是关系抽取任务。与 Model 1 类似,同样是利用卷积神经网络作为主要的特征抽取模型,模型细节如下所示:

    Look-up tables:包括 word embedding 层和 position embedding 层两个部分。word embedding 为预训练得到,而 position embedding 则随机初始化,两者均参与训练。对于输入句子长度,将其限定在两个实体可能的最大长度的范围内,假设句子长度为 nn,用 i−i1i−i1 和 i−i2i−i2 表示地i个词距离第一个实体和第二个实体的距离,则 position embedding 层的维度为(2n−1)×md(2n−1)×md,其中mdmd 为位置向量的维度。假设句子中第 ii 个词的词向量为 eiei ,位置向量为 di1di1 和 di2di2,则该词的词表征为 xi=[ei;di1;di2]xi=[ei;di1;di2]

    Convolutional layer:该模型的卷积层借鉴了 TextCNN 的模型结构,通过设计多个不同宽度的卷积核来抽取不同粒度大小的特征来提升模型性能。

    Pooling layer:最大池化操作,用于抽取最重要的特征

    Classifier:全连接层,激活函数为softmax,还使用了 dropout 和 l2 正则化策略

    小结:该论文的模型输入完全没有人工特征,且使用多宽度大小的卷积核进行特征抽取,相对于 Zeng 的效果来说仅提升了 0.1%0.1%,个人认为提升的主要关键点在于多粒度大小的卷积核上,而 lexical feature 在这种简单的深度学习模型上还是能够起到一定的效果的,这在之后的工作中也得到了证实

    Model 3: Classifying Relations by Ranking with Convolutional Neural Networks

    原文链接:https://www.aclweb.org/anthology/P15-1061/

    这篇论文同样是在 Model 1 基础上的改进,模型的基本架构与之前基本一致,最大的改变损失函数。模型结构如上图所示,主要有以下几个部分:

    模型仅将整个句子作为输入,不考虑 lexical level feature。输入词表征包括 Word Embedding 和 Position Embedding 两个部分,获取方式与之前一样

    卷积层为窗口为 3 的固定大小的卷积核,且也对输出进行了最大池化操作

    对于得到的编码表征,输入一个全连接层,得到每个类别的非归一化分数,但不再对输出做 softmax 操作,而是直接对正类别和负类别进行采样,从而计算损失函数,损失函数(pairwise ranking loss function)如下所示:

    这个损失函数主要有以下几个特点:m+m+ 和 m−m− 为 margin 参数,γγ 为缩放因子

    sθ(x)sθ(x) 为模型输出的非归一化分数,y+y+ 为正确标签,c−c− 为错误标签中分数大于 m−m− 的那些标签,作者认为这些标签具有更大的信息量。

    显然,损失函数 L 将随着 sθ(x)sθ(x)y+ 的增大而减小,随着 sθ(x)sθ(x)c− 的减小而减小

    此外,模型还考虑了两个实体不属于任何类别,将其看作类别 "Other",在训练的过程中,不考虑这个类别的分类,或者说在全连接层为该类别分配了一个不可训练的零初始化的神经元,对于该类别为正确标签的训练样本,损失函数的第一项为0,只保留第二项。在预测的时候,只当某个样本所有类别分数为负数时,才将其分类为 "Other"

    模型在训练过程中还额外添加了 L2 正则化项

    小结:该模型的主要创新点在于其 Ranking loss 上,相比于 Softmax 函数,其能够使得模型不仅仅考虑到正类别分数要尽量高,还要关注易分类错误的类别分数尽量低。其缺点仍然是模型结构上的缺陷。   

    Model 4: Bidirectional Long Short-Term Memory Networks for Relation Classification

    原文链接:https://www.aclweb.org/anthology/Y15-1009/

    在这篇论文之前有过利用简单的 RNN 和 BiRNN 作为模型编码模块的处理关系抽取任务的,但是效果较 CNN 来说差的就不是一点两点了,这里就不提了。该论文用经典的 BiLSTM 作为模型主要模块,此外,重新考虑了 lexical feature,实验证明 lexical feature 对模型性能确实有十分明显的提升效果。

    模型的主要架构是 BiLSTM,这个结构大家再熟悉不过了,论文也没有贴模型整体图,这里我也偷下懒...接下来分段阐述一下模型的主要工作。

    特征初始化:模型使用到的特征除了词和位置特征以外,还利用NLP工具获得了词性(POS)、实体(NER)、依存句法(dependency parse)以及上位(hypernyms)特征词、词性(POS)、实体(NER)以及上位(hypernyms)特征均为 lexical feature

    位置向量和依存句法特征的构造方式如下所示位置向量:位置向量(图中为PF)的构造方法与 Zeng CNN 中一致

    相对依存特征(Relative dependency features)依赖 Stanford dependency parser 依存句法树生成,做如下定义Relative root feature:根节点定义为 rrrr,根节点的子节点定义为 rcrc,其他节点定义为 roro

    Relative e1e1 feature:实体 e1e1 定义为 ee1e,实体 e1e1 的父节点定义为 ee1p,实体 e1e1 的子节点定义为 ee1c,其他节点定义为 ee1o

    Relative e2e2 feature:相对实体 e2e2 做如 e1e1 类似的定义

    Dep feature:为每个词与其父节点的依存关系

    将两个向量拼接,然后通过多层的全连接网络将其进行整合

    最后利用前连接层 + softmax 进行分类

    小结:论文最后测试了不加人工特征,只用 word embedding,结果下降了1.51.5个点,说明人工特征还是有一定效果的。此外,论文还测试了移除某个特征对模型的影响,发现位置特征和 NER 特征的移除对模型的影响非常小,这也是十分好理解的,这里就不多说了。

    Model 5: Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

    原文链接:https://www.aclweb.org/anthology/P16-2034/

    该模型利用了典型的注意力机制对 BiLSTM 的输出进行了注意力加权求和,在仅利用了词向量的情况下效果接近加入人工特征的模型,可见注意力机制的作用也是十分强大的。

    模型的主要架构如上图所示。其实模型的主要架构还是比较常规的,下面简单介绍一下:

    Input Layer: 即输入的句子,每个词用 one-hot 向量表示

    Embedding Layer: 预训练的词向量层,为 one-hot 向量提供查询词表

    LSTM Layer: 利用 BiLSTM 对输入句子进行编码,得到每个时刻的输出,即对应每个词的编码结果

    Attention Layer: 典型的 Soft-Attention 层。直接随机初始化一个参数向量作为 Query,用于与句子的编码结果进行一维匹配计算注意力分数,再对句子的各个词的编码结果进行加权求和,具体表达式如下所示:

    其中,H为 BiLSTM 的所有时刻的输出,ww 为随机初始化的参数向量,同时也参与到模型训练,αα 为注意力分数的计算结果,rr 为对 HH 注意力分数加权的结果,最后还对注意力加权结果通过一个 tanhtanh 激活函数,即 h∗=tanh(r)h∗=tanh(r) 得到注意力层的输出

    Output Layer: 即一层全连接层分类器,损失函数为交叉熵,同时加入了 L2 正则化项

    小结:从论文的结果来看,不进行特征工程,仅仅将整个句子作为模型输入,并加入注意力机制,模型效果得到了非常大的提高,一方面说明必要的特征工程还是有效的,另一方面表明注意力机制也起到了十分明显的作用

    Model 6: Relation Classification via Multi-Level Attention CNNs

    原文链接:https://www.aclweb.org/anthology/P16-1123/

    这篇文章公布其在 SemEval-2010 Task 8 上的分数达到了 88.0,但是没有开源,且复现结果也不太好,这个模型的效果存在争议,或许是论文中个别细节描述有误,但是其思路还是非常不错的,先给概括一下整个论文的工作:

    模型主要依赖一种多层注意力机制第一层的注意力机制在输入层,用于计算所有词对目标实体的注意力大小

    第二层的注意力机制在CNN的输出部分,用于计算对于目标关系的注意力大小

    提出了一种新的损失函数,证明其效果要优于传统的损失函数

    其优秀的模型表现依赖于非常丰富的先验知识

    模型的主要结构如上图所示,下面分别阐述下模型的各个模块:

    小结:可以看到这篇论文的两次 Attention 以及 损失函数的设计都是十分巧妙的,且论文中提到效果非常好,许多技巧还是可以借鉴的。

    Model 7: Bidirectional Recurrent Convolutional Neural Network for Relation Classification

    原文链接:https://www.aclweb.org/anthology/P16-1072/

    论文的主要思想是对两个实体间的词法句法的最短依赖路径 SDP (shortest dependency path)进行建模,这也是常见的一种关系抽取任务的建模方法,并与之前的建模方式存在一些区别,下面相对详细地阐述一下。

    由于受到卷积神经网络和循环神经网络特性的限制,之前的工作将句法依赖关系看作是词或者某些句法特征,如词性标签 (POS)。该论文的第一个贡献就是提出了一种 RCNN 的网络结构:

    利用两通道的 LSTM 对 SDP 进行全局信息编码

    利用 CNN 捕获每个依赖关系连接的两个单词的局部特征

    此外,作者还指出,两个实体之间的依赖关系是有向的,如上图展示的因果关系示例图,若存在 KK 个关系,则需要将其看作 (2K+1)(2K+1) 种分类问题,其中 11 为 OtherOther 类。因此,作者提出其第二个贡献就在于使用双向的循环卷积神经网络 (BRCNN) 来同时学习双向的表征,可以将双向依赖问题建模为对称的依赖问题,从而将其简化为 (K+1)(K+1) 的分类问题

    模型细节如上图所示,下面简单讲解一下整个模型结构:

    Input:模型的输入为两个实体间的 SDP。论文中提到,对于句子中的两个实体,存在某种关系R,则其词法句法的最短依赖路径 SDP 将阐明这个关系 R 的大多数信息,其主要有如下两个原因:如果实体 e1e1 和 e2e2 是同一谓词的论元(与谓词搭配的名词),则它们之间的最短路径将通过该谓词;

    如果实体 e1e1 和 e2e2 属于不同的谓词-论元结构,但共享了同一个论元,则最短路径通过这个共享论元

    Lookup Table:包括词向量和依存关系向量,词向量是预先训练得到的,依存关系向量直接随机初始化即可,此外,还可以在词向量中加入 NER、POS 以及 WordNet 等特征

    BRCNN:BRCNN 为模型的主要架构,包括三个部分 Two-channel BiLSTM、CNN、Classifier

    小结:将词法句法的 SDP 作为输入特征来实现关系抽取也是常见的一种建模方法,且效果也非常不错。这篇论文通过对文本以及依赖关系分别建模,利用 LSTM 和 CNN 进行不同层次的特征编码,并分两个方向进行信息融合,确实是一大亮点。如果词向量只用 Word Embeddings,分数可以达到 85.4,如果加上 NER、POS 以及 WordNet 等特征可以达到 86.3。  

      Pipline Model 性能对比

    将关系抽取看作单独任务的模型总结就做到这里了,或许之后看见更优秀的论文还会进行一些更新,这里将每个模型在 SemEval-2010 Task-8 上的分数都记载一下:

    总的来说,人工特征、句法特征、注意力机制、特殊的损失函数都是关系抽取模型性能提升的关键点,其余的就需要在模型架构上进行合理的设计了,下一篇准备介绍实体与关系联合抽取模型,争取早点写出来...

    参考链接

    http://www.shuang0420.com/2018/09/15/知识抽取-实体及关系抽取/

    https://zhuanlan.zhihu.com/p/91762831

    http://shomy.top/2018/02/28/relation-extraction/

    阅读过本文的人还看了以下文章:

    【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

    《美团机器学习实践》_美团算法团队.pdf

    《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

    python就业班学习视频,从入门到实战项目

    2019最新《PyTorch自然语言处理》英、中文版PDF+源码

    《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

    《深度学习之pytorch》pdf+附书源码

    PyTorch深度学习快速实战入门《pytorch-handbook》

    【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

    《Python数据分析与挖掘实战》PDF+完整源码

    汽车行业完整知识图谱项目实战视频(全23课)

    李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

    笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

    《神经网络与深度学习》最新2018版中英PDF+源码

    将机器学习模型部署为REST API

    FashionAI服装属性标签图像识别Top1-5方案分享

    重要开源!CNN-RNN-CTC 实现手写汉字识别

    yolo3 检测出图像中的不规则汉字

    同样是机器学习算法工程师,你的面试为什么过不了?

    海征信大数据算法:风险概率预测

    【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

    VGG16迁移学习,实现医学图像识别分类工程项目

    特征工程(一)

    特征工程(二) :文本数据的展开、过滤和分块

    特征工程(三):特征缩放,从词袋到 TF-IDF

    特征工程(四): 类别特征

    特征工程(五): PCA 降维

    特征工程(六): 非线性特征提取和模型堆叠

    特征工程(七):图像特征提取和深度学习

    如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

    Machine Learning Yearning 中文翻译稿

    蚂蚁金服2018秋招-算法工程师(共四面)通过

    全球AI挑战-场景分类的比赛源码(多模型融合)

    斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

    python+flask搭建CNN在线识别手写中文网站

    中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

    不断更新资源

    深度学习、机器学习、数据分析、python

     搜索公众号添加: datayx  

    长按图片,识别二维码,点关注

    展开全文
  • 信息抽取简介

    2020-08-27 22:16:17
    1.信息抽取内容 信息抽取包括:抽取实体和抽取关系 1.1 用例子说明实体和关系的概念 有一篇文章,内容如下: 我们要抽取它的实体和关系 (1) 标记实体和实体类型 其中:ORG表示组织;LOC表示位置;EVENT表示事件;...

    1.信息抽取内容

    在这里插入图片描述
    信息抽取包括:抽取实体和抽取关系

    1.1 用例子说明实体和关系的概念

    有一篇文章,内容如下: 我们要抽取它的实体和关系
    在这里插入图片描述
    (1) 标记实体和实体类型
    在这里插入图片描述
    其中:ORG表示组织;LOC表示位置;EVENT表示事件;RES表示饭店
    (2) 抽取关系,如下图
    在这里插入图片描述
    注意:这里在判断hotel实体 与Times Square 实体关系时,会经历 “it"的分类问题。句子中的 第一个"it” 可以指代 “hotel”, "Hinton Property ", “NYC”,要判断 “it"到底指代谁,其实就是“指代消解”的问题。凭我们这么多年的英语学习,可以知道 “it” 指的是 “hotel”,所以是"hotel” located on Times Square ; 第二个"it"也是指 “hotel”。
    (3) : 信息抽取流程

    • 找出实体,并标记实体类型
    • 关系定义 (通常由人工定义) 和关系分析
    • 指代消解
    • 实体统一
    • 实体消歧(解决一词多义问题)

    (4) : 一个应用场景: 文本自动摘要

    在这里插入图片描述

    展开全文
  • Gate信息抽取文档

    2018-09-28 08:56:14
    该指导手册包含对信息抽取对介绍,ANNIE的使用,以及GATE的多种组件。
  • 开放信息抽取技术的现状研究
  • 文章目录基本介绍一、传统信息抽取关键词抽取关键句子抽取二、深度学习信息抽取总结 基本介绍 信息抽取 (Information Extraction) 是把文本中包含的信息进行结构化处理,变成表格一样的组织形式。 信息抽取的...
  • 随着大数据时代的到来,海量数据不断涌现,从中寻找有用信息,抽取对应知识的需求变得越来越强烈。...信息抽取作为构建知识图谱的基础技术,实现了从大规模数据中获取结构化的命名实体及其属性或关联信息。
  • web 信息抽取

    2012-08-30 16:26:50
    中科院计算所的一篇关于web信息抽取的文章,发表在IEEE上,有一定的借鉴意义,希望对你研究有所帮助。
  • Web开放信息抽取的句法表征学习
  • 信息抽取有关资料

    2012-04-07 17:37:10
    该资源对中文信息抽取关键技术进行了研究。信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息...
  • 动态网页的信息抽取W曲信息抽取将W|eb中的数据抽取出来并表示为结构化的形式。动态网页是通过程序动态生成 的页面。据统计,目前Web上的页面主要是以动态网页的形式存在。因此,研究动态网页的信息抽 取方法,具有较...
  • 信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。文本信息抽取是信息检索、智能问答、智能对话等人工智能应用的重要基础,它可以...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,155
精华内容 3,262
关键字:

信息抽取