精华内容
下载资源
问答
  • NLP之中文命名实体识别

    万次阅读 2018-09-25 18:45:47
    MUC-6首次使用了命名实体(named entity)这术语,由于当时关注的焦点是信息抽取(information extraction)问题,即从报章等非结构化文本抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织...

    在MUC-6中首次使用了命名实体(named entity)这一术语,由于当时关注的焦点是信息抽取(information extraction)问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织机构名、时间和数字表达(包括时间、日期、货币量和百分数等)是结构化信息的关键内容。

    命名实体识别(Named EntitiesRecognition,NER),就是识别这些实体指称的边界和类别。主要关注人名、地名和组织机构名这三类专有名词的识别方法。

    一、方法概述

    和自然语言处理研究的其他任务一样,早期的命名实体识别方法大都是基于规则的。系统的实现代价较高,而且其可移植性受到一定的限制。

    自20世纪90年代后期以来,尤其是进入21世纪以后,基于大规模语料库的统计方法逐渐成为自然语言处理的主流,一大批机器学习方法被成功地应用于自然语言处理的各个方面。根据使用的机器学习方法的不同,我们可以粗略地将基于机器学习的命名实体识别方法划分为如下四种:有监督的学习方法、半监督的学习方法、无监督的学习方法、混合方法。下表对这些方法进行了简要归纳。

     二、命名实体识别方法

    1.基于CRF的命名实体识别方法 

    McCallum等2003年最先将条件随机场(CRF)模型用于命名实体识别。由于该方法简便易行,而且可以获得较好的性能,因此受到业界青睐,已被广泛地应用于人名、地名和组织机构等各种类型命名实体的识别,并在具体应用中不断得到改进,可以说是命名实体识别中最成功的方法。 

    基于CRF的命名实体识别与前面介绍的基于字的汉语分词方法的原理一样,就是把命名实体识别过程看作一个序列标注问题。其基本思路是(以汉语为例):将给定的文本首先进行分词处理,然后对人名、简单地名和简单的组织机构名进行识别,最后识别复合地名和复合组织机构名。

    所谓的简单地名是指地名中不嵌套包含其他地名,如地名:北京市、大不列颠、北爱尔兰、中关村等,而“北京市海淀区中关村东路95号”、“大不列颠及北爱尔兰联合王国”、“也门民主人民共和国”则为复合地名。同样,简单的组织机构名中也不嵌套包括其他组织机构名,如北京大学、卫生部、联合国等,而“欧洲中央银行”、“中华人民共和国卫生部”、“联合国世界粮食计划署”均为复合组织机构名。

    基于CRF的命名实体识别方法属于有监督的学习方法,因此,需要利用已标注的大规模语料对CRF模型的参数进行训练。北京大学计算语言学研究所标注的现代汉语多级加工语料库被众多研究者用于汉语命名实体识别的模型训练。

    在训练阶段,首先需要将分词语料的标记符号转化成用于命名实体序列标注的标记,如用PNB表示人名的起始用字,PNI表示名字的内部用字。类似地,用LOCB表示地名的起始用字,LOCI表示地名的内部用字;ORGB表示组织机构的起始用字,ORGI表示组织机构的内部用字。用OUT统一表示该字或词不属于某个实体。

    接下来要做的事情是确定特征模板。特征模板一般采用当前位置的前后n(n≥1)个位置上的字(或词、字母、数字、标点等,不妨统称为“字串”)及其标记表示,即以当前位置的前后n个位置范围内的字串及其标记作为观察窗口:(…w-n/tag-n,…,w-1/tag-1w0/tag0,w1/tag1,…,wn/tagn,…)。考虑到,如果窗口开得较大时,算法的执行效率会太低,而且模板的通用性较差,但窗口太小时,所涵盖的信息量又太少,不足以确定当前位置上字串的标记,因此,一般情况下将n值取为2~3,即以当前位置上前后2~3个位置上的字串及其标记作为构成特征模型的符号。

    由于不同的命名实体一般出现在不同的上下文语境中,因此,对于不同的命名实体识别一般采用不同的特征模板。例如,在识别汉语文本中的人名时,考虑到不同国家的人名构成特点有明显的不同,一般将人名划分为不同的类型:中国人名、日本人名、俄罗斯人名、欧美人名等。同时,考虑到出现在人名左右两边的字串对于确定人名的边界有一定的帮助作用,如某些称谓、某些动词和标点等,因此,某些总结出来的“指界词”(左指界词或右指界词)也可以作为特征。

    特征函数确定以后,剩下的工作就是训练CRF模型参数λ。

    大量的实验表明,在人名、地名、组织机构名三类实体中,组织机构名识别的性能最低。一般情况下,英语和汉语人名识别的F1值都可以达到90%左右,而组织机构名识别的F1值一般都在85%左右,这也反映出组织机构名是最难识别的一种命名实体。当然,对于不同领域和不同类型的文本,测试性能会有较大的差异。

    2.基于多特征的命名实体识别方法

    在命名实体识别中,无论采用哪一种方法,都是试图充分发现和利用实体所在的上下文特征和实体的内部特征,只不过特征的颗粒度有大(词性和角色级特征)有小(词形特征)的问题。考虑到大颗粒度特征和小颗粒度特征有互相补充的作用,应该兼顾使用的问题,提出了基于多特征相融合的汉语命名实体识别方法,该方法是在分词和词性标注的基础上进一步进行命名实体的识别,由词形上下文模型、词性上下文模型、词形实体模型和词性实体模型4个子模型组成的。其中,词形上下文模型估计在给定词形上下文语境中产生实体的概率;词性上下文模型估计在给定词性上下文语境中产生实体的概率;词形实体模型估计在给定实体类型的情况下词形串作为实体的概率;词性实体模型估计在给定实体类型的情况下词性串作为实体的概率。

    1.模型描述

    在基于多特征模型的命名实体识别系统中,词形包括以下几种情况:字典中任何一个字或词单独构成一类;人名(Per)、人名简称(Aper)、地名(Loc)、地名简称(Aloc)、机构名(Org)、时间词(Tim)和数量词(Num)各定义为一类。也就是说,词形语言模型中共定义了|V|+7个词形,其中,|V|表示词典的规模。由词形构成的序列称为词形序列WC。

    词性采用北京大学计算语言学研究所开发的汉语文本词性标注标记集,另加上人名简称词性和地名简称词性,共47个词性标记。由词性标记构成的序列称为词性序列TC。

    命名实体识别可以看作一个序列化数据的标注问题。输入是带有词性标记的词序列。

    在分词和词性标注的基础上进行命名实体识别的过程就是对部分词语进行拆分、组合(确定实体边界)和重新分类(确定实体类别)的过程,最后输出一个最优的“词形/词性”序列WC*/TC*。

    计算最优“词形/词性”序列WC*/TC*的方法有三种:词形特征模型、词性特征模型和混合模型。

    (1)词形模型
    词形特征模型根据词形序列W产生候选命名实体,用Viterbi确定最优词形序列WC*。目前的大部分系统都是从这个层面来设计命名实体识别算法的。

    (2)词性模型
    词性特征模型根据词性序列T产生候选命名实体,用Viterbi确定最优词性序列TC*。目前只有较少的系统使用。

    (3)混合模型
    词形和词性混合模型是根据词形序列W和词性序列T产生候选命名实体,一体化确定最优序列WC*/TC*,即本节将要介绍的基于多特征的识别算法。

    词形和词性混合的汉语命名实体识别模型结合了词形特征模型和词性特征模型的优点,可以描述成下面式子的形式:

    式子中的β是平衡因子,平衡词形特征和词性特征的权重,β>0。

    模型(7-25)由四部分组成,分别称之为:词形上下文模型P(WC)、词性上下文模型P(TC)、实体词形模型P(W|WC)和实体词性模型P(T|TC)。实体词形模型和实体词性模型统称为实体模型。以下分别介绍这些模型。

    2.词形和词性上下文模型

    上下文模型估计在给定的上下文语境中产生实体的词形和词性概率。词形上下文模型和词性上下文模型均可采用三元语法模型近似描述:

    3.实体模型

    考虑到每一类命名实体都具有不同的内部特征,因此,不能用一个统一的模型刻画人名、地名和机构名等实体模型。例如,人名识别可采用基于字的三元模型,地名和机构名识别可能更适合于采用基于词的三元模型等。此外,为提高外国人名的识别性能,吴友政又把外国人名进一步划分为日本人名、欧美人名和俄罗斯人名三个子类。因为这三类人名的内部特征(主要是人名用字集)存在较大的差别,日本人名用字相对较广,具有相对明显的姓氏特征,但姓氏集合却很大,而且日本人名姓氏很多和地名重叠。俄罗斯人名常用斯、基、娃等汉字,而欧美人名常用朗、鲁、伦、曼等汉字。为计算需要,按照字或词在命名实体内部的位置,吴友政把这些字或词划分成19个子类。 

    有了上述分类之后,人名、普通地名和机构名、单字地名和简称机构名分别建立相应的实体模型。

    (1)人名实体模型
    基于字的中国人名和外国人名的实体词形模型用下式描述:

    其中,wwcil(1≤l≤k)表示组成人名实体wci的单字。BNe,MNei(1≤i≤k-2)和ENe分别表示实体的首字、中间字和尾字,在具体计算人名时,分别将其替换成Sur、Dgb、Dge、EBfn、EMfn和EEfn等。

    由于人名的词性实体模型的训练语料很难得到,因此,为了简化起见,使用词形实体模型替代词性实体模型,但乘以一个加权因子,如下式所示:


    其中,γ为小于1的加权因子,在吴友政的实验系统中取经验值0.5。

    (2)地名和机构名实体模型
    对于地名和机构名,其实体模型要复杂得多,这是因为地名中除了普通词汇以外,还常嵌套人名和其他地名,如“茅盾故居纪念馆”,“北京市经济技术开发区”等;组织机构名中常嵌套人名、地名和其他机构名,如“富士通(中国)有限公司”,“宋庆龄基金会”等。

    基于词的嵌套地名和机构名词形实体模型可以用下面的式子描述:

    其中,wwci-start和wwci-end分别是实体wci被分词程序切分出的首词和尾词;wwcil- 和wwc 分别是wcwcil的首词和尾词,它们都是按照分词模start il-end块的词形定义切分出来的最基本的词形。wcwcil(1≤l≤k)是由原分词序列组合的可能的词,假设组合后含有k个词或子实体名,即长度为k,子实体可能是人名或地名。如果子实体是人名时,将被符号PER替换,如果子实体是地名时,将用标记Loc替换。BNe为实体wci被正确切分时的首词,根据表7-8记作Boo;MNe1…MNek-2为实体wci被正确切分时中间
    部分的k-2个词,根据表7-8记作Moo;ENe为实体wci被正确切分时的末尾词,根据表7-8记作Eoo。

    (3)单字地名实体模型
    单字地名词形实体模型和词性实体模型均可采用最大似然估计方法计算,分别运用如下算式估计:

    其中,C(wi,Aloc)和C(ti,Aloc)分别是语料中wi作为单字地名和其词性ti出现的次数。C(Aloc)为训练语料中单字地名出现的次数。

    (4)简称机构名实体模型
    简称机构名是对机构名全称的缩略叫法。机构名简称的出现形式大致可分为连续简写、不连续简写和混合简写三种方式。

    包括机构名关键词的机构名简称(如福特公司,绿得公司,新唐公司)的识别同机构名全称的识别过程是一样的,但对于那些省略了机构名关键词的简称机构名的识别则是非常困难的问题。

    经过分析我们发现,简称机构名在文本中的出现基本上有以下三种形式:
    ①    某些简称可以作为常用词收录进词典中,如中共、北约、欧盟等
    ②    有些简称机构名无法被收录进词典,但该简称的全称形式在文本中出现过,如华虹NEC(全称为“上海华虹NEC电子有限公司”,且在文中已经出现过)
    ③    文本中直接出现省略了机构名关键词的简称机构名,如“百度”(省略了关键词“公司”)等。
    对于上述形式③没有标志性关键词的情况,识别非常困难,我们暂不探讨。以下主要介绍形式①和②的处理方法。

    形式①简称机构名的实体模型:简称机构名的词形和词性实体模型用最大似然估计方法计算
    形式②简称机构名的词形实体模型:在真实文本中,简称可能出现在文本的前面,也可能出现在后面,为了完成这类简称机构名的识别,一般需要把命名实体识别分成两个阶段。第一阶段识别1类简称机构名和全称形式的机构名,并将其放入缓存器(cache)中,第二阶段利用第一阶段的识别结果进行简称识别。这样做一方面可以避免简称机构名的遗漏,并限制不必要的简称机构名的产生,另一方面可以方便、合理地计算简称机构名的产生概率,即简称的实体模型。

    4.专家知识

    在基于统计模型的命名实体识别中,最大的问题是数据稀疏严重,搜索空间太大,从而影响系统的性能和效率。因此,吴友政通过引入专家知识来限制候选实体的产生,从而达到了提高系统性能和效率的目的。这些专家知识主要包括如下几类:

    1)人名识别的专家知识
    这类专家知识包括:476个中国人名姓氏列表和9189个日本人名姓氏列表,用于限制中国人名和日本人名的候选词数;俄罗斯人名和欧美人名用字列表,用来限制俄罗斯人名和欧美人名的候选词数;另外,中国人名的长度最大为8个字符,外国人名则不受长度限制。

    2)地名识别的专家知识
    这里专家知识包括一个含607个地名关键词的列表、一个含407个单字地名的列表和一个介词、动词列表。如果当前词属于地名关键词,如“省、开发区、沙滩、瀑布”等,则触发地名识别。单字地名的候选由单字地名列表触发产生。如果前一个词包含在介词、动词列表中,如“去、到、在”等则触发地名识别。另外,地名最多包含12个汉语字符。

    (3)机构名识别的专家知识
    机构名识别专家知识包括一个含有3129个机构名关键词的列表,用于触发产生机构名候选,即如果当前词属于该列表,则机构名识别触发。另外,还包括一组机构名模板,用于识别统计模型遗漏的嵌套命名实体。

    5.模型训练

    根据前面的介绍,基于多特征的汉语命名实体识别模型式(7-25)由4个参数组成,在吴友政(2006)实现的系统中,这些参数使用最大似然估计从不同的训练语料中学习,其中,词性上下文模型P(TC)和词形上下文模型P(WC)是从1998年2月至1998年6月的《人民日报》标注语料中学习的;中国人名、外国人名、地名、机构名的实体词性模型和实体词形模型分别从156万、1.4万、4.4万和32万条的实体列表中训练得到的。 

    尽管使用了这样大规模的训练语料,数据稀疏问题还是非常严重。为此,吴友政采用了Back-off数据平滑方法,并引入逃逸概率计算权值,如下式所示:

    6.测试结果

    系统性能表现主要通过准确率(precision,简记为P)、召回率(recall,简记为R)和F-测度值(F-measure,简记为F)3个指标来衡量,计算公式分别如式(7-40)、式(7-41)和式(7-42)所示:

    根据模型计算式(7-25),平衡因子β是用于平衡词形特征和词性特征所发挥作用的权值,β值越大,词性特征的作用越强;否则,词形特征的作用就越强。根据吴友政(2006)的实验,β值从0到9.6变化时,系统对人名、地名和机构名称识别的准确率、召回率和F-测度值均有不同程度的上升和下降,当β值大于9.6时,人名、地名和机构名称识别的正确率、召回率和F-测度值均呈急剧下降趋势。经综合考察后,β=2.8时系统对人名、地名和机构名称识别的总体性能可达到最佳状态。

    混合模型的人名、地名、机构名识别性能(F-测度值)比单独使用词形特征模型时的性能分别提高了约5.4%,1.4%,2.2%,比单独使用词性特征模型时分别提高了约0.4%,2.7%,11.1%。也就是说,结合词形和词性特征的命名实体识别模型优于使用单一特征的命名实体识别模型。

    另外,实验还表明,结合了专家知识的统计模型对人名、地名和机构名的识别能力(F-测度值)与纯统计模型相比,分别提高了约14.8%,9.8%,13.8%,而且,系统的识别速度也有所提高。

    上述结果表明,基于多特征模型的命名实体识别方法综合运用了词形特征和词性特征的作用,针对不同实体的结构特点,分别建立实体识别模型,并利用专家知识限制明显不合理的实体候选的产生,从而提高了识别性能和系统效率。

    展开全文
  • 根据在线维基百科: 实体关系模型(ERM)是数据的抽象概念表示实体关系建模是种数据库建模方法,用于以自上而下的方式生成系统...使用EA设计软件的ER图,选择ERD和ERD-Relationship两工具 ...

    根据在线维基百科

    实体关系模型(ERM)是数据的抽象概念表示。实体关系建模是一种数据库建模方法,用于以自上而下的方式生成系统(通常是关系数据库)及其概念的一种类型的概念模式或语义数据模型。通过此过程创建的图称为实体关系图,ER图或ERD。

     

     

    一:图形表示的含义

    实体以矩形表示,

     

    属性以椭圆表示,

     

    关系以菱形连接器表示。

     

     

    二:图标介绍

    在使用EA设计软件的ER图中,选择ERD和ERD-Relationship 两个工具

     

     

     

     

    2.1:

     

    表示的重叠关系,动物是所有生命的父类,狗和猫都是继承动物实体,在数据模型中,动物,狗,猫作为三个实体,既有相同的属性,也有特有的属性

     

    2.2:

    实体是唯一可识别的对象或概念;关系连接器的SourceRole和TargetRole定义中的Multiplicity属性(如下所示)可用于定义参与此关系的实体的基数

     

    2.3:

    属性是实体或关系类型的属性

     

    2.4:

     

    表示的实体之间的关系,N元关联表示一元关系(多对多递归)或三元关系,也可用于表示实体之间具有属性的关系;N元关联元素应始终位于连接器的目标端

    关系类型:

            1 对  n

            1 对 1

            n 对 n

     

    2.5:

    对于一对多和一对一的递归关系,我们建议使用常规的Relationship连接器。

    有时您可能想限制菱形“关系”连接器的伸展;只需选择一个“关系”连接器,右键单击以显示上下文菜单,然后选择“ 光标处的折线” 选项。表示多对多递归关系。

     

     

     

    三:画图

    3.1:在工具栏选择实体(ENtity) 表示实体

    3.2:鼠标点击工具栏,再点击右侧空白区域。填写实体名称

    3.3:表示实体之间的关系,点击实体图标,鼠标点击箭头,拖向需要指定的实体图标

     

     

     

     

    这样一个完成的er图就可以完成!

     

     

    四:图片导出

     

    展开全文
  • 数据库实体

    千次阅读 2015-10-25 23:58:54
    实体是对自然事物的抽象表示数据库中实体分为弱实体和强实体,如果实体中没有该实体的primary key,则该实体称为实体,反之,则成为强实体。弱实体必须依赖强实体存在。如果强实体中的primary key 为弱...

    实体是对自然事物的抽象表示,在数据库中实体分为弱实体和强实体,如果在该实体中没有该实体的primary key,则该实体称为弱实体,反之,则成为强实体。弱实体必须依赖强实体存在。如果强实体中的primary key 为弱实体中foriegn key,则他们之间的关系称为一对多的关系。

    展开全文
  • NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究,深度学习也获得了不错的效果。最近,笔者阅读了系列基于深度学习的NER研究的相关论文,并将其应用到达观的NER基础模块此...

    近几年来,基于神经网络深度学习方法在计算机视觉语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。最近,笔者阅读了一系列基于深度学习的NER研究的相关论文,并将其应用到达观的NER基础模块中,在此进行一下总结,与大家一起分享学习。

    一、NER 简介

    NER又称作专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。

    学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。

    实际应用中,NER模型通常只要识别出人名、地名、组织机构名、日期时间即可,一些系统还会给出专有名词结果(比如缩写、会议名、产品名等)。货币、百分比等数字类实体可通过正则搞定。另外,在一些应用场景下会给出特定领域内的实体,如书名、歌曲名、期刊名等。

    NER是NLP中一项基础性关键任务。自然语言处理的流程来看,NER可以看作词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、事件抽取、知识图谱机器翻译问答系统等诸多NLP任务的基础。

    NER当前并不算是一个大热的研究课题,因为学术界部分学者认为这是一个已经解决的问题。当然也有学者认为这个问题还没有得到很好地解决,原因主要有:命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;与其他信息检索领域相比,实体命名评测预料较小,容易产生过拟合命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能很差。

    2. 深度学习方法在NER中的应用

    NER一直是NLP领域中的研究热点,从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法,NER研究进展的大概趋势大致如下图所示。

    图1:NER发展趋势

    在基于机器学习的方法中,NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。NER 任务中的常用模型包括生成式模型HMM、判别式模型CRF等。条件随机场(ConditionalRandom Field,CRF)是NER目前的主流模型。它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在训练时可以使用SGD学习模型参数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,可以使用Viterbi算法解码来得到最优标签序列。CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。图2:一种线性链条件随机场

    近年来,随着硬件计算能力的发展以及词的分布式表示(word embedding)的提出,神经网络可以有效处理许多NLP任务。这类方法对于序列标注任务(如CWS、POS、NER)的处理方式是类似的:将token从离散one-hot表示映射到低维空间中成为稠密的embedding,随后将句子的embedding序列输入到RNN中,用神经网络自动提取特征,Softmax来预测每个token的标签。

    这种方法使得模型的训练成为一个端到端的过程,而非传统的pipeline,不依赖于特征工程,是一种数据驱动的方法,但网络种类繁多、对参数设置依赖大,模型可解释性差。此外,这种方法的一个缺点是对每个token打标签的过程是独立的进行,不能直接利用上文已经预测的标签(只能靠隐含状态传递上文信息),进而导致预测出的标签序列可能是无效的,例如标签I-PER后面是不可能紧跟着B-PER的,但Softmax不会利用到这个信息。

    学界提出了DL-CRF模型做序列标注。在神经网络的输出层接入CRF层(重点是利用标签转移概率)来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。

    2.1 BiLSTM-CRF

    LongShort Term Memory网络一般叫做LSTM,是RNN的一种特殊类型,可以学习长距离依赖信息。LSTM 由Hochreiter &Schmidhuber (1997)提出,并在近期被Alex Graves进行了改良和推广。在很多问题上,LSTM 都取得了相当巨大的成功,并得到了广泛的使用。LSTM 通过巧妙的设计来解决长距离依赖问题。
    所有 RNN 都具有一种重复神经网络单元的链式形式。在标准的RNN中,这个重复的单元只有一个非常简单的结构,例如一个tanh层。

    图3:传统RNN结构

    LSTM 同样是这样的结构,但是重复的单元拥有一个不同的结构。不同于普通RNN单元,这里是有四个,以一种非常特殊的方式进行交互。

    图4:LSTM结构

    LSTM通过三个门结构(输入门,遗忘门,输出门),选择性地遗忘部分历史信息,加入部分当前输入信息,最终整合到当前状态并产生输出状态。

    图5:LSTM各个门控结构

    应用于NER中的biLSTM-CRF模型主要由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成。实验结果表明biLSTM-CRF已经达到或者超过了基于丰富特征的CRF模型,成为目前基于深度学习的NER方法中的最主流模型。在特征方面,该模型继承了深度学习方法的优势,无需特征工程,使用词向量以及字符向量就可以达到很好的效果,如果有高质量的词典特征,能够进一步获得提高。

    图6:biLSTM-CRF结构示意图

    2.2 IDCNN-CRF

    对于序列标注来讲,普通CNN有一个不足,就是卷积之后,末层神经元可能只是得到了原始输入数据中一小块的信息。而对NER来讲,整个输入句子中每个字都有可能对当前位置的标注产生影响,即所谓的长距离依赖问题。为了覆盖到全部的输入信息就需要加入更多的卷积层,导致层数越来越深,参数越来越多。而为了防止过拟合又要加入更多的Dropout之类的正则化,带来更多的超参数,整个模型变得庞大且难以训练。因为CNN这样的劣势,对于大部分序列标注问题人们还是选择biLSTM之类的网络结构,尽可能利用网络的记忆力记住全句的信息来对当前字做标注。

    但这又带来另外一个问题,biLSTM本质是一个序列模型,在对GPU并行计算的利用上不如CNN那么强大。如何能够像CNN那样给GPU提供一个火力全开的战场,而又像LSTM这样用简单的结构记住尽可能多的输入信息呢?

    Fisher Yu and Vladlen Koltun 2015 提出了dilated CNN模型,意思是“膨胀的”CNN。其想法并不复杂:正常CNN的filter,都是作用在输入矩阵一片连续的区域上,不断sliding做卷积。dilated CNN为这个filter增加了一个dilation width,作用在输入矩阵的时候,会skip所有dilation width中间的输入数据;而filter本身的大小保持不变,这样filter获取到了更广阔的输入矩阵上的数据,看上去就像是“膨胀”了一般。

    具体使用时,dilated width会随着层数的增加而指数增加。这样随着层数的增加,参数数量是线性增加的,而receptive field却是指数增加的,可以很快覆盖到全部的输入数据。图7:idcnn示意图

    图7中可见感受域是以指数速率扩大的。原始感受域是位于中心点的1x1区域:

    (a)图中经由原始感受域按步长为1向外扩散,得到8个1x1的区域构成新的感受域,大小为3x3;

    (b)图中经过步长为2的扩散,上一步3x3的感受域扩展为为7x7;

    (c)图中经步长为4的扩散,原7x7的感受域扩大为15x15的感受域。每一层的参数数量是相互独立的。感受域呈指数扩大,但参数数量呈线性增加。

    对应在文本上,输入是一个一维的向量,每个元素是一个character embedding:

    图8:一个最大膨胀步长为4的idcnn块

    IDCNN对输入句子的每一个字生成一个logits,这里就和biLSTM模型输出logits完全一样,加入CRF层,用Viterbi算法解码出标注结果。

    在biLSTM或者IDCNN这样的网络模型末端接上CRF层是序列标注的一个很常见的方法。biLSTM或者IDCNN计算出的是每个词的各标签概率,而CRF层引入序列的转移概率,最终计算出loss反馈回网络。

    3. 实战应用

    3.1 语料准备

    Embedding:我们选择中文维基百科语料来训练字向量和词向量。

    基础语料:选择人民日报1998年标注语料作为基础训练语料。

    附加语料:98语料作为官方语料,其权威性与标注正确率是有保障的。但由于其完全取自人民日报,而且时间久远,所以对实体类型覆盖度比较低。比如新的公司名,外国人名,外国地名。为了提升对新类型实体的识别能力,我们收集了一批标注的新闻语料。主要包括财经、娱乐、体育,而这些正是98语料中比较缺少的。由于标注质量问题,额外语料不能加太多,约98语料的1/4。

    3.2 数据增强

    对于深度学习方法,一般需要大量标注语料,否则极易出现过拟合,无法达到预期的泛化能力。我们在实验中发现,通过数据增强可以明显提升模型性能。具体地,我们对原语料进行分句,然后随机地对各个句子进行bigram、trigram拼接,最后与原始句子一起作为训练语料。

    另外,我们利用收集到的命名实体词典,采用随机替换的方式,用其替换语料中同类型的实体,得到增强语料。

    下图给出了BiLSTM-CRF模型的训练曲线,可以看出收敛是很缓慢的。相对而言,IDCNN-CRF模型的收敛则快很多。
    图9:BiLSTM-CRF的训练曲线

    图10:IDCNN-CRF的训练曲线

    3.3 实例

    以下是用BiLSTM-CRF模型的一个实例预测结果。

    图11:BiLSTM-CRF预测实例

    4. 总结

    最后进行一下总结,将神经网络与CRF模型相结合的CNN/RNN-CRF成为了目前NER的主流模型。对于CNN与RNN,并没有谁占据绝对优势,各有各的优点。由于RNN有天然的序列结构,所以RNN-CRF使用更为广泛。基于神经网络结构的NER方法,继承了深度学习方法的优点,无需大量人工特征。只需词向量和字向量就能达到主流水平,加入高质量的词典特征能够进一步提升效果。对于少量标注训练集问题,迁移学习半监督学习应该是未来研究的重点。
    展开全文
  • XML中实体的概念

    千次阅读 2015-07-12 11:50:10
    许多开发人员 XHTML 使用实体代替特殊字符,但是也可以 XML 定义实体来简化创作或者引用外部文档的内容。我们创建文档类型定义(Document Type Definition,DTD)并试图减小它的表面复杂性以便适
  • (1)实体 客观存在并可以相互区分的事物叫实体。 (2)实体型 具有相同属性的实体具有由相同的特征和性质,用实体... 通常是指不同实体型的实体集之间的联系,实体之间的联系有对多,多对多等多种类型 ...
  • 就数据库而言,实体往往指某类事物的集合。...一对一(如一个学生对应一个档案,一个档案对应一个学生); 一对多,多对一; 多对多; 数据库一对一的实现方式: (1)唯一外键方式:A和B任...
  • 实体关系E-R:实体关系图

    千次阅读 2019-10-23 20:08:58
    实体关系E-R:实体关系图 设计数据库的时候,需要使用E-R图来描述。...针对一个实体中的属性,我们称为这个实体的数据,E-R图使用椭圆表示实体实体之间的关系E-R图使用菱形表示。 ...
  • 关于Unity 2018的实体组件系统(ECS)

    万次阅读 多人点赞 2018-05-19 22:29:13
    孙广东 2018.5.19     首先来自ECS的概念。... 其模式遵循组合优于继承原则,游戏内的每一个基本单元都是一个实体,每个实体又由一个或多个组件构成,每个组件仅仅包含代表其特性的数据(即组件没有...
  • 命名实体识别(NER)是自然语言处理(NLP)的基本任务之。NLP的一般流程如下: 句法分析是NLP任务的核心,NER是句法分析的基础。NER任务用于识别文本的人名(PER)、地名(LOC)等具有特定意义的实体。非实体用O...
  • 【软考】之强实体、弱实体

    万次阅读 热门讨论 2015-10-11 11:04:06
     了解这之前我们想想什么事实体,什么是实体集,实体有哪些关系? 、基础概念:   实体:现实可区别与其他对象的事物。实体可以是任何实际或抽象的。    实体集是相同类型的实体的集合。  联系:实体...
  • 数据库设计--实体关系图(ERD)

    万次阅读 多人点赞 2015-08-01 15:15:17
    1、E-R图的定义 实体关系图:简记E-R图是指以实体、关系、属性三基本概念概括数据的基本结构,从而描述静态数据结构的...实体关系图表示在信息系统概念模型的数据存储。 –百度百科 2.1E-R图表示法(Chen’s模型)
  • 实体

    万次阅读 2018-05-07 17:51:27
    实体(weak entity) 1、定义:有些实体集的所有属性都不足以形成主码,这样的实体称为实体集。与此相对,其属性可以形成主码的实体称为实体集。 通俗的说:有些实体集的所有属性都不足以形成主码,这样的...
  • C#之三十七 实体

    千次阅读 2016-05-31 20:48:36
    3.1 使用实体类构建三层结构概述 在上一章的三层架构,我们使用DataSet来进行数据的...例如:我们要查询DataSet中学员信息DataTable的某个值时,必须指定行索引与列名,这只是一个简单的查询,如果稍微复...
  • 实体框架如何管理实体间的关系

    千次阅读 2013-11-05 15:33:07
    关系与导航属性 本主题概述实体框架如何管理实体间的关系。还对如何映射和操作关系提供了一些指南。...在一对多关系,外键是在表示关系多端的表上定义的。多对多关系涉及定义第三表(也称为
  • 数据仓库的ER实体模型和维度模型

    千次阅读 2020-02-16 16:34:30
    一个公司会有多个业务业务系统,比如:OA系统、订单系统、财务系统、人事系统、仓储系统等,因此需要按照一定的组织结构将所有数据都整合起来,形成一个仓储平台。如果只是通过工具把所有的数据同步到同一个平台,...
  • Hibernate 的表与实体域模型的关系

    千次阅读 2006-10-22 14:07:00
    HIBERNATE ORM,我们通常把一个关系我们的系统中用一个实体对象来表示,关系表的每一条记录对应实体类的一个对象,这样,我们的系统并不需要去关系表,只关注对象,达到了真正意义的面向对象程序设计....
  • JPA实体中字段映射补充和嵌入对象

    千次阅读 2018-06-27 16:07:21
    但是实际延迟加载简单类型的字段,不会带来多少资源的节省* 大型对象一个存储数据量很大的字符或者基于字节的对象,进行映射时候,需要特殊处理@Lob注解标识某个字段是大对象,并且当LOB列的名称需要重写假定...
  • 知识融合(实体对齐)笔记

    千次阅读 2020-04-07 15:30:18
    本文共1132字,预计阅读时间需要4分钟。 知识融合 本体匹配(ontology matching) ...侧重发现指称真实世界相同对象的不同实例,也称为实体消解(resolution)、实例匹配(instance matching) 知识融合(kn...
  • 关于PowerDesigner实体关系模型(CDM)关于实体见关系的使用一直有些疑惑,最近正好设计一套系统,所以用PD做了一些测试,记录如下 我们使用PDCDM的时候可定会遇到处理Entities见关系的情况,但是CDM...
  • 命名实体识别

    千次阅读 2018-10-23 14:46:04
    NER是NLP中一项基本任务,就是从文本识别出命名性指称项,为关系抽取等任务做铺垫,在信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。 命名实体识别研究的命名实体一般分为3...
  • 实体—联系模型

    千次阅读 2018-06-25 01:36:53
    实体—联系(E-R)数据模型概述 该数据模型基于对现实世界的这样种认识:世界由称为实体的基本对象及这些对象间的联系组成,该模型是种语义模型,模型的语义方面主要体现模型力图去表达数据的意义。...
  • 实体联系图简介

    千次阅读 2017-03-04 17:28:11
    ER图包含了实体(即数据对象)、关系和属性3种基本成分,通常用矩形框代表实体,用连接相关实体的菱形框表示关系,用椭圆形或圆角矩形表示实体(或关系)的属性,并用直线把实体(或关系)与其属性连接起来。 ER模型...
  • PD的CDM模型的三种实体关系

    千次阅读 2015-05-22 18:07:50
    ...PD的CDM模型的三种实体关系 ...CDM是大多数开发者使用PD时最先创建的...CDM是建立传统的ER图模型理论之上的,ER图有三大主要元素:实体型,属性和联系。其中实体型对应到CDM的Entity,属性对应到CDM
  • 数据完整性是指数据库存储的数据是有意义的或正确的,和现实世界相符。关系模型三类完整性约束: – 实体完整性(Entity Integrity) – 参照完整性(Referential Integrity) – 用户定义的完整性(User-...
  • 为了重新回顾我写的消息系统架构,我需要重新读一下数据库系统概念的前三章,这里简单的做一个笔记,方便自己回顾 基本概念 实体-联系(E-R)数据模型基于对现实世界的这样一种认识:世界由一组称为实体的基本...
  • 实体、协议、服务和服务访问点

    千次阅读 2016-02-05 14:34:58
    实体表示任何可发送或接收信息的硬件或软件进程。许多情况下,实体就是一个特定的软件模块。 2. 协议 协议是控制两个对等实体(或多个实体)进行通信的规则的集合。 协议的语法方面规则定义了所交换的信息的格式。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 145,651
精华内容 58,260
关键字:

在一个实体表示的信息中称为