精华内容
下载资源
问答
  • 实体
    千次阅读
    2020-12-20 22:08:32

    实体-联系(Entity-Relationship, E-R)模型(以下简称E-R模型)的提出旨在方便数据库的设计,它是通过允许定义代表数据全局逻辑结构的企业模式实现的。
    E-R模型采用三个基本概念:实体集、联系集和属性。

    实体集

    实体(entity)是现实世界中可区别于所有其他对象的一个“事物”或“对象”。(与面向对象的类含义类似)实体集是相同类型即具有相同性质(或属性)的一个实体集合。在建模汇中,我们通常抽象地使用术语“实体集”,而不是指某个个别实体的特别集合。
    实体集不必互不相交。如可以定义大学里所有人的实体集(person)。一个person实体可以是teacher实体,也可以是student实体,可以既是teacher实体又是student实体,也可以都不是。
    实体通过一组属性(attribute)来表示。属性是实体集中每个成员所拥有的描述性性质。且每个属性都有一个值。

    弱实体集

    没有足够的属性以形成主码的实体集称为弱实体集(weak entity set)。有主码的实体集称作强实体集(strong entity set)。弱实体集必须与另一个称作标识(identitying)或属主实体集的实体集关联才能有意义。也就是说,弱实体集的存在依赖于标识实体集。将弱实体集与其标识实体集相连的联系称为标识性联系
    标识性联系是从弱实体集到标识实体集多对一的,并且弱实体集在联系中的参与是全部的。
    虽然弱实体集没有主码,但仍需要区分依赖于特定强实体集的弱实体集中实体的方法。弱实体集的分辨符是使得我们进行这种区分的属性集合。弱实体集的分辨符也称为该实体集的部分码
    弱实体的主码由标志实体集的主码加上该弱实体集的分辨符构成。

    联系集

    联系(relationship)是指多个实体间的相互关联。联系集是相同类型联系的集合。
    联系集也可以具有描述性属性(descriptive attribute)。如果teacher实体集与student实体集的联系集advisor。可以将属性date与该联系集联系起来,以表示教师成为学生的老师的日期。
    数据库中的大部分联系集都是二元的。然而,有时联系集会涉及多于两个实体集。参与联系集的实体集的数目称为联系集的度(degree)。二元联系集的度为2,三元联系集的度为3,以此类推。

    非二元的联系集

    对于非二元联系集,为了避免混淆,只允许在一个联系集外有一个箭头。(如果有多个箭头,则无法表明对应的哪个实体)。而函数依赖可以以一种不会混淆的方式描述实体间的联系。

    属性

    每个属性都有一个可取值的集合,称为该属性的域(domain),或者值集(value set)。 严格来说,实体集的属性是将实体集映射到域的函数。由于一个实体集可能有多个属性,因此每个实体可以用一组(属性,数据值)对来表示,实体集的每个属性对应一个这样的对。
    E-R模型中的属性可以按照如下的属性类型来划分:

    • 简单(simple)和复合(composite)属性。简单属性不能划分为更小的部分。复合属性可以再划分为更小的部分。 复合属性帮助我们把相关属性聚集起来,使模型更清晰。注意,复合属性可以是有层次的。如address可以包含street、city、state等,而street可以进一步分解为street_number、street_name、apartment_number。
    • 单值(single-valued)和多值(multi-valued)属性。一般情况下,一个属性对应一个值,这样的属性称为单值属性。如stuent_ID属性只对应于一个学生ID。而在某些情况下对某个特定实体而言,一个属性可能对应于一组值。以phone_number为例,每个教师可以有零个、一个或多个电话号码。这样的属性称为多值属性。为了表示一个多值属性,用花括号将属性名包住;如{phone_number}。
    • 派生(derived属性)。派生属性的值可以从别的相关属性或实体派生(计算)出来。如age属性表示年龄,如果还具有属性date_of_birth,就可以从当前的日期和date_of_birth计算出age。派生属性的值不存储,而是在需要时计算出来。
      当实体在某个属性上没有值时,使用空(null)值。空值可以表示“不适用”,即该实体的这个属性不存在值。空还可以用来表示属性值未知。未知的值可能是缺失的(值不存在),或不知道的(不知道该值是否确实存在)。

    删除冗余属性

    一个好的实体-联系设计不包含冗余的属性。但是在实际开发中,实现这一点需要极大的代价。

    约束

    可以定义一些数据库中的数据必须要满足的约束。

    映射基数(Mapping Cardinality)

    映射基数表示一个实体通过一个联系集能关联的实体的个数。对于实体集A和B之间的二元联系集R来说,映射基数必然是以下情况之一:
    一对一(one-to-one):A中的一个实体至多与B中的一个实体相关联,并且B中的一个实体也至多与A中的一个实体相关联。
    一对多(one-to-many):A中的一个实体可以与B中的任意数目(零个或多个)实体相关联,而B中的一个实体至多与A中的一个实体相关联。
    多对一(many-to-one):A中的一个实体至多与B中的一个实体相关联,而B中的一个实体可以与A中的任意数目(零个或多个)的实体相关联。
    多对多(many-to-many):A中的一个实体可以与B中的任意数目(零个或多个)实体相关联,,并且B中的一个实体也可以与A中的任意数目(零个或多个)的实体相关联。
    注意,考虑映射关系时,一定要同时考虑A->B和B->A两个方面,而不能只考虑其中一方面而忽略另一方面,从而导致错误的设计。

    参与约束

    如果实体集E中的每个实体都参与到联系集R的至少一个联系中,那么实体集E在联系集R中的参与称为全部的。如果实体集E中只有部分参与到联系集R中,那么实体集E在联系集R中的参与称为部分的。如我们期望每个student实体通过advisor联系同至少一名教师相联系,因此student在联系集advisor中的参与是全部的。相反地,一个teacher不是必须要指导一个学生。因此,很可能只有一部分teacher实体通过advisor联系同student相关联,于是teacher在advisor中的参与是部分的。

    我们必须有一个区分给定实体集中实体的方法。从概念上来说,各个实体是互异的;但从数据库的观点来看,它们的区别必须通过其属性表明。实体的码是一个足以区分每个实体属性集。关系模式中的超码、候选码、主码的概念同样适用于实体集。
    码同样可以唯一标识联系,并从而将联系相互区分开来。联系集的主码结构依赖于联系集的映射基数。如果联系集是多对多的,那么联系集的主码由两个实体集的主码的并集构成。如果联系是多对一的,那么多的实体的主码就是联系集的主码。如果联系集是一对一的,那么两个实体的任一主码就是联系集的主码。

    E-R数据模式转换为关系模式

    E-R模型和关系数据库模型都是现实世界企业抽象的逻辑表示。由于两种模型采用类似的设计原则,因此可将E-R设计转换为关系设计。

    具有简单属性的强实体集的表示

    设E是只具有简单描述性属性a1,a2,…,an的强实体集。我们用具有n个不同属性的模式E来表示这个实体集。对于从强实体集转换而来的模式,强实体集的主码就是生成的模式的主码。

    具有复杂属性的强实体集的表示

    当一个强实体集具有非简单属性时,可以通过为每个子属性创建一个单独的属性来处理复合属性,而不为复合属性自身创建一个单独的属性。
    多值属性的处理不同于其他属性。对于一个多值属性M,构建关系模式R,该模式包含一个对应于M的属性A,以及对应于M所在的实体集或联系集的主码的属性。另外,在多值属性构建的关系模式上建立外码约束,由实体集的主码所生成的属性去参照实体集所生成的关系。
    派生属性并不在关系数据模型中显式地表达出来。

    弱实体集的表示

    设A是具有属性a1,a2,…,an的弱实体集,设B是A所依赖的强实体集,设B的主码包括b1,b2,…,bn。
    对于从弱实体集转换而来的模式,该模式的主码由其所依赖的强实体集的主码与弱实体集的分辨符组合而成。除了创建主码之外,还要在关系A上建立外码约束,该约束指明属性b1,b2,…,bn参照关系B的主码。外码约束保证表示弱实体的每个元组都有一个表示相应强实体的元组与之对应。

    联系集的表示

    设R是联系集,设a1,a2,…,an表示所有参与R的实体集的主码的并集构成的属性集合,设R的描述性属性(如果有)为b1,b2,…,bn。映射基数不同,主码的选择方式不同:

    • 对于多对多的二元联系集,参与实体集的主码属性的并集成为主码。
    • 对于一对多的二元联系集,任何一个实体集的主码都可以选作主码。这个选择是任意的。
    • 对于多对一或一对多的二元联系集,联系集中多的那一方的实体集的主码构成主码。
    • 对于边上没有箭头的n元联系集,所有参与实体集的主码属性的并集构成主码。
    • 对于边上有一个箭头的n元联系集,不在"箭头"侧的实体集的主码属性为模式的主码。
      此外,还需在关系模式R上建立外键约束。

    模式的冗余

    连接弱实体集和相应强实体集的联系集比较特殊。弱实体集的主码包含强实体集的主码。连接弱实体集与其所依赖强实体集的联系集的模式是冗余的,而且在基于E-R图的关系数据库设计不必给出。

    模式的合并

    在一对一的联系的情况下,联系集的关系模式可以跟参与联系的任何一个实体集的模式进行合并。即使参与是部分的,也可以通过空值来进行模式的合并。
    最后,还需考虑表示联系集的模式上本应有的外码约束。参照每一个参与联系集的实体集的外码约束本应存在。我们舍弃了参照联系集模式所合并入的实体集模式的约束,然后将另一个外码约束加到合并的模式中。

    实体-联系设计问题

    在实体-联系数据库模式中涉及到一些基本问题。

    用实体集还是用属性

    什么构成属性?什么构成实体集?对这两个问题并不能简单地回答。区分它们主要依赖于被建模的现实世界的企业结构,以及被讨论的属性的相关语义。
    一个常见的错误是用一个实体集的主码作为另一个实体集的属性,而不是用联系。例如,即使每名教师指指导一名学生,将student的ID作为teacher的属性也是不正确的。用advisor联系代表学生和教师之间的关联才是正确的方法,因为这样可以明确表示出两者之间的关系而不是将这种关系隐含在属性中。
    另一个常见的错误是将相关实体集主码属性为联系集的属性。这种做法是不对的,因为在联系集中已隐含这些主码属性。(这些属性默认已经在联系集中,不应再明确表示出来)

    用实体集还是联系集

    一个对象最好被表述为实体集还是联系集并不总是显而易见。在决定用实体集还是联系集可采用一个原则是,当描述发生在实体间的行为时采用联系集。这一方法在决定是否将某些属性表示为联系可能更适合时也很有用。

    二元还是n元联系集

    数据库中的联系通常都是二元的。一些看来非二元的联系实际上可以用多个二元联系更好地表示。事实上,一个非二元的(n元,n>2)联系集总可以用一组不同的二元联系集来替代。可以将这一过程直接推广到n元联系集的情况。因此在概念上可以限制E-R模型只包含二元联系集。然而,这种限制并不总是令人满意的。

    • 对于为表示联系集而创建的实体集,可能不得不为其创建一个标识属性。该标识属性和额外所需的那些联系集增加了设计的复杂度以及对总的存储空间的需求。
    • n元联系集可以更清晰地表示几个实体集参与单个联系集。
    • 有可能无法将三元联系上的约束转变为二元联系上的约束。例如,考虑一个约束,表明R是从A、B到C多对一的;也就是,来自A和B的每一对实体最多与一个C实体关联。这种约束就不能用联系集Ra、Rb和Rc上的基数约束表示。

    联系集中属性的布局

    一个联系的映射基数比率会影响联系集中属性的布局。因此,一对一或一对多联系集的属性可以放到一个参与该联系的实体集中,而不是放到联系集中。一对多联系集的属性仅可以重置到参与联系的“多”方的实体集中。而对于一对一的联系集,联系的属性可以放到任意一个参与联系的实体中。
    设计时将描述性属性作为联系集的属性还是实体集的属性这一决定反映出被建模企业的特点。
    属性位置的选择在多对多的联系集中体现得更清楚。同名的属性,放在实体集中还是联系集中其作用不同。

    扩展的E-R特性

    虽然基本的E-R概念足以对大多数数据库特征建模,但数据库的某些方面可以通过基本E-R模型作某些扩展来更恰当地表达。

    特化(Specialization)

    在实体集内部进行分组的过程称为特化。一个实体集可以根据多个可区分的特征进行特化。在E-R图中,特化用从特化实体指向另一个实体的空心箭头来表示。所以,这种关系也称为ISA关系。特化关系还可能形成超类-子类(superclass-subclass)联系。

    概化(Generalization)

    实体的共性可以通过概化来表达,概化是高层实体集与一个或多个低层实体集间的包含关系。对于所有实际应用来说,概化只不过是特化的逆过程。为企业设计E-R模型时,将配合使用这两个过程。

    聚集(Aggregation)

    聚集是一种抽象,通过这种抽象,联系被视为高层实体。
    当把聚集像其他实体集一样看待时,之前用于在联系集上创建主码和外码约束的规则,也同样可以应用于与聚集相关联的联系集。聚集的主码是定义该聚集的联系集的主码。不需要单独的关系来表示聚集;而使用从定义该聚集的联系创建出来的关系即可。

    数据库设计的其他方面

    数据约束和关系数据库设计

    使用SQL可以表达多种数据约束,包括主码约束、外码约束、check约束、断言和触发器。约束有多种目的。最明显的一个目的是自动的一致性保持。通过在SQL数据定义语言中表达约束,设计者能够确保数据库系统自己执行这些约束(显式声明约束)。
    显式声明约束的另一个优点是一些约束在数据库模式的设计中特别有用。
    数据约束在确定数据的物理结构时同样有用,可以将彼此紧密相关的数据存储在磁盘上邻近的区域,以便在磁盘访问时提高效率。如将索引建立在主码上,索引结构工作得更好。
    每次数据库更新时,执行约束会在性能上带来潜在的高代价。对于每次更新,系统都必须检查所有的约束,然后要么拒绝与约束冲突的更新,要么运行相应的触发器。性能损失的严重性,不仅仅取决于更新的频率,而且依赖于数据库的设计方式。

    使用需求:查询、性能

    数据库系统的性能时绝大多数企业信息系统的一个关键因素。性能不仅与计算能力的有效利用以及所使用的存储硬件有关,而且受到与系统交互的人的效率以及依赖数据库数据的处理的效率的影响。以下是效率的两个主要度量方法:

    • 吞吐量(throughput)————每单位时间里能够处理的查询或更新(通常指事务)的平均数量。
    • 响应时间(response time)————单个事务从开始到结束所需的平均时间或最长时间。

    授权需求

    授权约束同样会影响数据库的设计,因为SQL允许在数据库逻辑设计组件的基础上将访问权限授予用户。(现有主流数据库系统均已合理实现授权(基于角色分配))

    数据流、工作流

    术语工作流表示一个流程中的数据和任务的组合。当工作流在用户间移动以及用户执行他们在工作流中的任务时,工作流会与数据库系统交互。

    数据库设计的其他问题

    数据库设计通常不是一个一蹴而就的工作。一个组织的需求不断发展,它所需要存储的数据也会相应地发展。但是,对于一个已明确的需求,还是可以给出稳定的设计的。
    一个好的设计应该不止考虑当前的规定,还应该避免或者最小化由预计或有可能发生的改变而带来的改动。(需要做向上兼容的思考)
    最后,数据库设计在两个意义上是面向人的工作:系统的最终用户是人(使用该程序的用户);数据库设计者需与应用领域的专家进行广泛交互以理解应用的数据需求。所有涉及数据的人都有需要和偏好,为了数据库设计和部署在企业中获得成功,这些都是需要考虑的。

    参考

    数据库系统概念(第六版) A. Silberschatz H. F. Korth S. Sudarshan著 杨冬青 等译 第七章

    更多相关内容
  • 第二十六章 命名实体识别和实体消歧 1 命名实体识别概论 PART1 什么是命名实体识别 PART2 命名识别识别的应用 PART3 简历中抽取关键信息 2 命名实体识别不同方法 PART1 实体识别方法 基于规则的方法 基于...

    前言

    自然语言处理中一个重要的任务就是命名实体识别,自1991年开始,命名实体识别逐渐开始走进人们的视野。

    随着深度学习的发展,命名实体识别技术也得到了极大地进步。从最初的基于规则和字典的方法,到现在热门的注意力机制、图神经网络等方法,命名实体识别已经在各大数据集上已经取得了很高的准确率,但从自然语言处理实际应用的角度来看,命名实体识别技术依旧面临着很大的挑战。

    一、命名实体识别概论

    1.什么是命名实体识别

    命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。

     其中产品名、组织、公司、人物就是我们提取出的命名实体。

    2.命名实体识别的应用

    命名实体识别可以落地到多个应用场景,包括聊天机器人新闻关键信息提取等等。

    2.1 聊天机器人

    以上是基于任务式的对话系统的大致流程。这种对话系统也称之为基于填槽式的对话系统。简单来讲,为了能够为用户解决一个问题,AI机器需要获得相关的信息,所以整个对话过程实际上就是从用户那里获得这些信息。一旦获取完毕,就可以对数据库做进一步查询。

    2.2 简历分析

    一份简历中包含大量的信息,如果通过HR一份份过,无疑会耗费大量的时间和精力。所以我们如何通过命名实体识别来进行简历的关键信息提取呢?

     

    首先这是一个垂直领域内的问题,我们需要构建NER来提取信息,并且需要自己定义所需要的实体种类,并进行大量的数据标记

     

    当我们标记好大量数据后,实际上这就是一个分类问题,输入文本词语,输出对应的种类就可以了,那么我们需要构造一个类别数为实体种类的分类器。

    二、命名实体识别方法

    1.实体识别方法

    命名实体识别从早期基于词典和规则的方法,到传统机器学习的方法,后来采用基于深度学习的方法,一直到当下热门的注意力机制、图神经网络等研究方法,命名实体识别技术路线随着时间在不断发展。技术发展趋势如下图所示:

    1.1 基于规则和字典的方法

    基于规则和字典的方法是最初代的命名实体识别使用的方法,这些方法多采用由语言学家通过人工方式,依据数据集特征构建的特定规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。

    基于规则的实体识别方法虽然简单,实际上也比较实用,特别是对于一些垂直领域的应用,或者数据量比较少或者没有标签数据的时候。如果我们有一个足够丰富的词典库,那么仅仅根据词库也能做到不错的准确率。另外,基于规则的识别方法是一套非常有效的基准(baseline)。

    1.2 基于传统机器学习的方法

    在基于机器学习的方法中,命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括:隐马尔可夫模型、最大熵、最大熵马尔可夫模型、支持向量机、条件随机场 等。

    在这 5 种学习方法中,ME结构紧凑,具有较好的通用性,其主要缺点是训练时间复杂性非常高,甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。HMM对转移概率和表现概率直接建模,统计共现概率。ME和SVM在正确率上要 HMM高一些,但是HMM在训练和识别时的速度要快一些。MEMM对转移概率和表现概率建立联合概率,统计条件概率,但由于只在局部做归一化容易陷入局部最优。CRF模型统计全局概率,在归一化时考虑数据在全局的分布,而不是仅仅在局部进行归一化,因此解决了MEMM中标记偏置的问题。在传统机器学习中,CRF被看作是命名实体识别的主流模型,优点在于在对一个位置进行标注的过程中CRF可以利用内部及上下文特征信息。

    1.3 基于深度学习的方法

    随着深度学习的不断发展,命名实体识别的研究重点已转向深层神经网络,该技术几乎不需要特征工程和领域知识。Collobert等学者首次提出基于神经网络的命名实体识别方法,该方法中每个单词具有固定大小的窗口,但未能考虑长距离单词之间的有效信息。为了克服这一限制,Chiu和Nichols提出了一种双向LSTM-CNNs架构,该架构可自动检测单词和字符级别的特征。Ma和Hovy进一步将其扩展到BiLSTM-CNNs-CRF体系结构,其中添加了CRF模块以优化输出标签序列。Liu等提出了一种称为LM-LSTM-CRF的任务感知型神经语言模型,将字符感知型神经语言模型合并到一个多任务框架下,以提取字符级向量化表示。这些端到端模型具备从数据中自动学习的功能,可以很好地识别新实体。

    部分学者将辅助信息和深度学习方法混合使用进行命名实体识别。Liu 等在混合半马尔可夫条件随机场的体系结构的基础上加入了Gazetteers 地名词典,利用实体在地名词典的匹配结果作为命名实体识别的特征之一。一些研究尝试在标签级别跨数据集共享信息,Greenberg等提出了一个单一的CRF模型,使用异构标签集进行命名实体识别,此方法对平衡标签分布的领域数据集有实用性。Augenstein 等使用标签向量化表示在任务之间进一步播信息。Beryozkin等建议使用给定的标签层次结构共同学习一个在所有标签集中共享其标签层的神经网络,取得了非常优异的性能。

    近年来,在基于神经网络的结构上加入注意力机制、图神经网络、迁移学习、远监督学习等热门研究技术也是目前的主流研究方向。

    总体来讲,前两种方法只是作为基准,一般不会作为生产环境下的方法,最常用的方法莫过于基于CRF的识别。

    三、实体消歧

    1.实体消歧概念

    实体消歧的本质是在于一个词很有可能有多个意思,也就是在不同的上下文中所表示的含义不太一样。

    2.实体消歧解法

    2.1 基于聚类的实体消歧方法

    该方法主要是计算实体指称项之间的相似度,采用某种聚类算法对实体指称项聚类,使得聚类结果中每一个类别都对应于一个目标实体上。主要包括基于表层特征的实体指称项相似度计算、
    基于扩展特征的实体指称项相似度计算、基于社会化网络的实体指称项相似度计算。

    基于表层特征的实体指称项相似度计算:
    传统方法多利用表层特征计算相似度,这些方法通常是词袋模型(Bag of Words,BoW)模型的延伸,性能不好。 

    这类方法都是基于上下文表层特征的关联来计算它们之间的相似度,而没有考虑到上下文特征的内在关联,因此影响聚类效果。

    基于扩展特征的实体指称项相似度计算:
    利用知识资源提升实体消歧的性能。
    最直接的方法:使用知识资源来扩展实体指称项的特征表示。

    基于社会化网络的实体指称项相似度计算:
    基于社会化网络的实体指称项相似度通常使用基于图的算法,能够充分利用社会化关系的传递性,从而考虑隐藏的关系知识,在某些情况下(特别是结构化数据,eg:论文记录、电影记录等)能够更为准确的实体指称项相似度计算结果。

    缺点:只用到上下文中的实体信息,不能完全利用实体指称项的其他上下文信息,因此不能在文本消歧领域取得有竞争力的性能。

    2.2 基于实体链接的实体消歧方法

    基于实体链接的实体消歧方法:将实体指称项链接到知识库中特定的实体,也称实体链接(Entity Linking)。
    实体链接:将一个命名实体的文本指称项(Textual Mention)链接到知识库中对应实体的过程(若不存在对应实体,则将实体指称项链接到空实体NIL)

    实体链接的输入包括两部分:

    • 目标实体知识库:最常用Wikipedia,或特定领域知识库。
      • 知识库通常包括:实体表、实体的文本描述、实体的结构化信息(eg:属性/属性值对)、实体的辅助性信息(eg:实体类别);也经常提供额外的结构化语义信息,eg:实体之间的关联
    • 待消歧实体指称项及其上下文信息

    步骤:

    • 链接候选过滤(Blocking):根据规则或知识过滤大部分指称项不可能指向的实体,仅仅保留少量链接实体候选。
    • 实体链接(Linking):给定指称项及其链接候选,确定该实体指称项最终指向的目标实体。(重点研究)

    链接候选过滤方法:
    大部分是基于实体指称项词典:通过在字典中记录一个指称项所有可能指向的目标实体来进行链接候选过滤。

    传统实体链接方法:使用Wikipedia等知识资源构建指称项词典,包括Wikipedia Entity Name、Wikipedia Redirection Page等。

    为了匹配模糊或拼错的指称项,一些基于构词法的模糊匹配也在TAC评测中使用,eg:Metaphone算法和Soft TFIDF算法

    实体链接方法:
    实体链接方法选择与指称项具有最高一致性打分的实体作为其目标实体。现有方法可分为:向量空间模型、主题一致模型、协同实体链接模型、基于神经网络的模型。

    2.3 面向结构化文本的实体消歧方法

    列表型数据没有上下文描述信息,需要利用实体的类别信息,实体的流行度和列表中的其他信息进行消歧。

    四、实体统一

    1.实体统一概念

    同一个实体有不同的表达方式,有时候需要把不同的表达方式统一为同一种表达方式。

    例子:”中华人民共和国“,”中国“都表示同一个意思。如果把实体统一,可以减少一些NLP任务的难度。常见的应用场景是在构建知识图谱中,需要对地名,公司名,专业术语等进行统一。

    2.实体统一解法

    第一种方法计算相似度方法

    计算两个实体(字符串)之间的相似度,一般使用编辑距离即可,设定阈值,判断是否属于一个实体。

    第二种基于规则方法

    举个例子:

    1. 腾讯有限公司
    2. 腾讯科技有限公司

    我们通过人工的设计一些库,或者说是一些词典,这些库包含相同实体的特点:

    • 词典1:公司、有限公司、分公司…
    • 词典2:北京,天津,上海…
    • 词典3:科技,技术…

    如果实体中的词出现在库中将其删掉

    1. 腾讯有限公司——作为原型,删掉词库中的词后为:腾讯
    2. 腾讯科技有限公司 —删掉词库中的词后为:腾讯

    这时候判定为相同实体,但是以上两种方法精度不高,人力成本比较高。

    第三种基于有监督的学习方法

    还是上面的例子:

    1. 腾讯有限公司
    2. 腾讯科技有限公司

    我们可以将1和2利用特征工程将其转换为特征向量:比如考虑词性,前后单词,词位置等等。

    然后输入到一个训练好的分类模型去判断两个实体是否相似。

    利用余弦相似度技术衡量相似程度,然后再输入到逻辑回归模型做二分类的计算。

    第四种基于图的实体统一方法

    其实每个实体都不是独立的,他们与其他实体是包含一定的联系,如下图所以我们在做实体统一的时候我们考虑到了这种实体关系,也就是根据这种图来做:

    假如我们判断A和B是否是同一个人我们在做特征向量时不仅加入他的个人信息,还可以加入其他的关系。

    然后我们再计算A和B两者的相似度,设置阈值:判断大于阈值相似以及小于阈值不相似。

    总结

    评判一个命名实体是否被正确识别,包括两个方面:

    • 实体的边界是否正确
    • 实体的类型是否标注正确

    命名实体识别存在三个难点

    • 领域命名实体识别局限性
    • 命名实体表述多样性和歧义性
    • 命名实体的复杂性和开放性

    命名实体识别目前的两个热点: 

    • 匮乏资源命名实体识别
    • 细粒度命名实体识别

    本文是从零开始学NLP系列文章第十五篇,希望小伙伴们多多支持,互相交流。


    今天我们就到这里,明天继续努力!

    如果该文章对您有所帮助,麻烦点赞,关注,收藏三连支持下!

    创作不易,白嫖不好,各位的支持和认可,是我创作的最大动力!

    如果本篇博客有任何错误,请批评指教,不胜感激 !!!


    参考:

    贪心科技学院nlp

    一文了解命名实体识别

    知识图谱(五)——实体消歧

    实体消歧、实体统一和指代消歧

    展开全文
  • 实体识别(1) -实体识别任务简介

    千次阅读 2022-03-03 00:01:14
    命名实体识别概念 命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词(实体),主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。 例如有一段...

    命名实体识别概念

    命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词(实体),主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。

    例如有一段文本:李明在天津市空港经济区的税务局工作
    我们要在上面文本中识别一些区域和地点,那么我们需要识别出来内容有:

    李明(人名)、天津市(地点)、 空港经济区(地点)、税务局(组织)
    识别上述例子我们使用了以下几个标签:

    "B-ORG":组织或公司(organization)
    "I-ORG":组织或公司
    "B-PER":人名(person)
    "I-PER":人名.
    "O":其他非实体(other)
    "B-LOC":地名(location)
    "I-LOC":地名
    

    命名实体识别标注

    在序列标注中,我们想对一个序列的每一个元素(token)标注一个标签。一般来说,一个序列指的是一个句子,而一个元素(token)指的是句子中的一个词语或者一个字。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。

    标签类型的定义一般如下:

    定义	全称	备注
    B	Begin	实体片段的开始
    I	Intermediate	实体片段的中间
    E	End	实体片段的结束
    S	Single	单个字的实体
    O	Other/Outside	其他不属于任何实体的字符(包括标点等)
    

    BIO标注模式

    将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。

    命名实体识别中每个token对应的标签集合如下:

    LabelSet = {O, B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG}
    

    BIOES标注模式

    BIOES标注模式就是在BIO的基础上增加了单字符实体和字符实体的结束标识, 即

    LabelSet = {O, B-PER, I-PER, E-PER, S-PER, B-LOC, I-LOC, E-LOC, S-LOC, B-ORG, I-ORG, E-ORG, S-ORG}
    

    实体识别标签

    NER的识别靠的是标签,在长期使用过程中,有一些大家使用比较频繁的标签,下面给出大家一些参考:


    Few-NERD,一个大规模的人工标注的用于few-shot NER任务的数据集。该数据集包含8种粗粒度和66种细粒度实体类型,每个实体标签均为粗粒度+细粒度的层级结构。

    FEW-NERD: A Few-shot Named Entity Recognition Dataset
    https://arxiv.org/abs/2105.07464
    

    命名实体识别数据集

    1、CLUENER2020:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/cluener_public
    2、MSRA:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/MSRA
    3、人民网(04年):https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/people_daily
    4、微博命名实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/weibo
    5、BosonNLP NER数据:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/boson(2000条)
    6、影视-音乐-书籍实体标注数据:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/video_music_book_datasets
    7、中文医学文本命名实体识别 2020CCKS:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/2020_ccks_ner
    8、电子简历实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/ResumeNER
    9 、医渡云实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/yidu-s4k
    10、 简历实体数据集:https://github.com/jiesutd/LatticeLSTM/tree/master/data
    11、CoNLL-2003:https://www.clips.uantwerpen.be/conll2003/ner/
    12、Few-NERD 细粒度数据集:https://github.com/thunlp/Few-NERD/tree/main/data

    命名实体识别模型

    命名实体识别工具

    • Stanford NER:斯坦福大学开发的基于条件随机场的命名实体识别系统,该系统参数是基于CoNLL、MUC-6、MUC-7和ACE命名实体语料训练出来的
    https://nlp.stanford.edu/software/CRF-NER.shtml
    python实现的Github地址:https://github.com/Lynten/stanford-corenlp
    
    • MALLET:麻省大学开发的一个统计自然语言处理的开源包,其序列标注工具的应用中能够实现命名实体识别。
    官方地址:http://mallet.cs.umass.edu/
    
    • Hanlp:HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。支持命名实体识别。
    Github地址:https://github.com/hankcs/pyhanlp
    官网:http://hanlp.linrunsoft.com/
    
    • NLTK:NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。提供实体识别接口。
    Github地址:https://github.com/nltk/nltk
    官网:http://www.nltk.org/
    
    • spaCy:工业级的自然语言处理工具。
    Gihub地址:https://github.com/explosion/spaCy
    官网:https://spcay.io/
    
    • Crfsuite:可以载入自己的数据集去训练实体识别模型。
    文档地址:https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest
    
    • CRF++是基于C++开发、可自定义特征集、基于LBFGS快速训练等等高效特征的CRF开源工具包。用于对序列数据进行分割和标记,主要用于NLP任务,例如命名实体识别、信息提取和序列标注等任务。
    https://taku910.github.io/crfpp/
    

    参考资料

    流水的NLP铁打的NER:命名实体识别实践与探索 - 知乎
    https://zhuanlan.zhihu.com/p/166496466

    中文NER的正确打开方式: 词汇增强方法总结 (从Lattice LSTM到FLAT)
    https://zhuanlan.zhihu.com/p/142615620

    自然语言处理基础技术之命名实体识别简介
    https://www.jianshu.com/p/02b08ff8ad3c

    命名实体识别(Name Entity Recognition)综述
    https://sthsf.github.io/2020/02/18/NLP–%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB/

    欢迎大家微信讨论技术问题,扫码回复NLP可以加入技术交流群

    展开全文
  • 实体消歧综述整理

    千次阅读 2022-01-29 21:46:09
    阅读文献:[1] 段宗涛,李菲,陈柘.实体消歧综述[J].控制与决策,2021,36(05):1025-1039.DOI:10....基于百科知识的聚类方法(5) 基于多源异构语义知识融合的聚类方法基于实体链接的实体消歧其他实体消岐应用测评总结与.

    阅读文献:[1] 段宗涛,李菲,陈柘.实体消歧综述[J].控制与决策,2021,36(05):1025-1039.DOI:10.13195/j.kzyjc.2020.0388.


    实体消歧是指解决同名实体存在的一词多义歧义问题. 实体消歧研究中常用的方法是基于实体链接的实体消歧, 通常链接的目标知识库为Wikipedia,随着知识图谱的发展, 基于知识图谱的实体消歧研究逐渐增多。

    分类

    按实体任务领域划分

    • 基于结构化文本
      • 通常被存储在数据库中,结构化的文本记录,缺少上下文信息,主要依赖字面意思和实体关系信息进行消歧。
    • 基于非结构化文本
      • 一段非结构化的文本,含有大量的上下文信息,主要利用指称项上下文信息进行消岐。

    按有无目标知识库划分

    • 无监督聚类

      将所有实体指称项按指向的目标实体进行聚类

      一个实体的指称项是在具体上下文中出现的待消歧实体名

    • 实体链接

      将实体指称项链接到目标候选实体列表中所对应的实体上

    按链接知识库类型划分

    • 基于知识库的实体链接

      在大型文本知识库中提取上下文特征和获取上下文信息

    • 基于知识图谱的实体链接

      利用知识图谱(KG)结构来表示实体之间的关系以及候选实体的上下文特征

    除此之外,实体消岐还分为词义消岐、命名实体识别(实体抽取)

    词义消岐

    传统词义消岐采用的主要是基于知识库或基于语料库的消岐方法

    • 基于知识库的消岐方法

      消岐知识库包括Wordnet和Hownet等,自适应Lesk算法推广至基于语义消岐方法;基于3种符号编码模型的消岐方法

    • 基于语料库的消岐方法

      • 无监督的聚类词义消岐
      • 有监督的消岐方法

    命名实体识别

    • 任务

      • 识别文本种任命、地名、机构名、时间、日期等指定类型的实体。
    • 命名实体识别系统通常包括两部分:实体边界识别和实体类别标注

      • 实体边界识别确定一个字符串是否构成一个实体
      • 实体归类将识别出的实体事先划分为指定的不同类别
    • 命名实体识别方法分为:基于规则的方法、基于统计的方法和基于深度学习的方法

      • 基于规则的方法:不需要标注训练语料,直接根据词典和规则进行分词,但可扩展性交叉,难以适应各种数据的变化。
      • 基于统计模型的方法:使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型参数,隐马尔可夫模型、最大熵、SVM、条件随机场等较为常用。
      • 基于深度学习的方法:利用神经网络实体的低维表示,利用表示找出实体类别。

    方法

    实体消岐方法主要按照目标列表是否给定划分为:基于聚类的消岐系统和基于实体链接的消岐系统

    基于无监督聚类的消岐系统

    没有给定目标库,通过比较各个实体的相似程度,将相似度高的聚集到一起,核心问题是选取何种特征对指称项进行表示,根据定义实体对象与指称项之间的相似度,以下是五种聚类法:

    (1) 基于词袋模型的聚类方法

    典型的方法是将当前语料库中实体指称项周围的词组成特征向量,然后利用向量的相似度对指称项进行比较,并将指称项划分到最接近的实体引用项集合中。

    例如, Bagga等利用向量空间模型(VSM)计算实体指称项词向量之间的相似度进行聚类; Liu等利用标准空间向量模型以及HAC聚类算法进行消歧。

    基于词袋模型的聚类方法采用的特征向量往往不能很好地代表实体本身,而且实体之间的向量区分不明确,从而影响聚类效果。

    (2) 基于语义特征的聚类方法

    基于语义特征的聚类方法与基于词袋模型的聚类方法类似,但两者的构造方法不同. 语义模型的特征向量不仅包括词袋向量, 还包含语义特征。

    例如, Pederson 等[26] 通过对文本进行分解得到实体的语义向量, 并结合词袋向量得到更精确的聚类结果。

    (3) 基于社会化网络的聚类方法

    基于社会化网络的聚类方法遵循“物以类聚,人以群分”的原则. 该类方法先构造社会化网络,再利用网络中的社会关系计算实体指称项之间的相似度。

    Emami[30] 提出了一个基于聚类的人名消歧系统,将从文本中提取实体之间的个人属性和社会关系映射到一个无向加权图(属性-关系图),使用聚类算法对图进行聚类,其中每个聚类包含指向一个人的所有web页面

    基于社会化网络的聚类方法较为注重实体之间的关系而忽略实体本身的特征以及实体的上下文特征,并且网络构造难度大、复杂度高.

    (4) 基于百科知识的聚类方法

    百科类网站通常会为每个实体(指称项)分配一个单独页面,其中包括指向其他实体页面的超链接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度。

    然而,百科知识覆盖性有限且实体种类较少,因此此类方法使用率较低

    例如, Han等[31] 从维基百科中构建了一个大规模的语义网络,根据语义网络中的百科语义知识进行消歧; Sen[32] 提出了主题模型,利用群体学习主题模型进行集体消歧

    (5) 基于多源异构语义知识融合的聚类方法

    传统的聚类实体消歧方法所使用的目标知识库通常只有一种,覆盖度有限. 采用多源异构知识可以克服这一缺点. 多源异构知识是指知识源中存在大量的多源异构知识,挖掘和集成不同知识源中的结构化语义知识表示模型来统一表示这些语义知识可以提高实体消歧效率.

    其中,多种方法的多源异构知识表示框架为结构化语义关联图. 语义关联图中每个节点代表一个独立的概念,节点之间的边代表概念之间的语义关系,边的权重代表语义关系的权重。

    该方法使用多个知识库进行聚类,多种数据源之间表达方式略有差异且组合难度大,从而导致实体聚类效果差。

    基于实体链接的实体消歧

    任务是将给定实体指称项链接到目标知识库中的相应实体上,步骤为:

    1. 候选实体的生成

      首先需要给定一个实体指称项,然后根据知识、规则等信息找到实体指称项所对应的候选实体列表。

      候选实体集合的质量取决于:(1) 是否包含目标实体 (2) 候选实体的数目

      • 基于词典构建的方法

        常用方法为构建同义词词典及歧义词典. 首先通过同义词词典将实体指称映射为规范形式,然后通过歧义词典获得实体指称的初始候选实体集合。

        例如, Ratinov 等[35] 使用实体流行度对候选实体进行筛选

      • 基于表面形式扩展的候选生成方法

        为解决缩写形式,可以使用扩展技术的候选生成方法,包括基于启发式方法和基于监督学习方法

        • 基于启发式方法

          对于实体指称的缩写形式,通过启发式模式匹配搜索实体指称周围的文本来扩展缩写. 最常见的模式是利用规则。然而,基于启发式方法的表面形式扩展无法识别一些复杂的缩写的扩展形式

          Varma等[36]以及Gotipati等[37]将已经被识别的实体看成一个子串,如果实体指称包含一个
          子串,则该实体为实体指称的扩展形式. Cucerzan[38]采用一个缩写检测器,主要利用网页数据识别缩写的扩展.

        • 基于监督学习方法

          基于监督学习的方法需要标记数据,利用标记数据找到候选实体。

          Zhang等[39] 提出了一种基于监督学习的缩略语展开算法,利用SVM分类器对每个候选缩写扩展输出一个置信得分,将得分最高的扩展实体作为候选实体

      • 基于目标库的候选生成方法

        由于目标知识库(例如维基百科、 DBpedia等)包含多种页面数据,可以利用这些页面数据找到候选实体. 主要利用消歧页面以及重定向页面的信息生成候选实体. 对于有歧义的实体,消歧页面进行了总结,重定向页面中汇总了提及以及其对应的别名。

        杨光等[40] 利用DBpedia知识图谱数据中提供的数据集进行候选实体生成. 从消歧数据集中添加候选实体并利用提供的数据集,结合实体先验概率生成候选实体列表。

    2. 基于知识库的实体链接系统

      基于知识库的实体链接系统的目标知识库通常为维基百科知识库。最常用的两种候选实体链接方法是局部实体链接和协同实体链接。

      • 局部实体链接

        局部实体链接通常得到实体指称以及实体的上下文信息的特征表示,然后计算实体指称以及实体表示的相似度以选出目标实体。局部实体链接方法主要包括传统特征方法和表示学习方法。

        • 传统特征方法

          核心:手工设计有效的特征

          例如, Honnibal 等[41] 利用Bow模型得到实体指称项和候选实体的向量,将余弦相似度得分最高的作为候选实体。

          传统特征方法对目标实体和实体指称项表示都是启发式的,如词袋模型、 TF-IFD等. 这些启发式算
          法很难调整,而且很难捕获更细粒度的语义信息和结构信息,所以传统特征方法不是主流的方法。

        • 表示学习方法

          核心:获得实体和实体指称项上下文的分布式表示。

          通常采用神经网络的方法自动学习实体以及实体指称项的分布式表示. 神经网络常用的有LSTM、 CNN、 RNN等。

          神经网络进行实体链接的两种方法:排序方法、二值分类方法

          • 排序方法:训练一个排序模型,对所有候选实体进行排序,取排序最高的作为目标实体
          • 二值分类方法:训练一个分类器来决定实体指称项与候选实体是否相同

          研究者们提出将注意力机制与深度神经网络相结合训练上下文的语义特征向量以改进实体消歧模型[50]. Sun等[51] 通过注意机制自动从周围的上下文中发现实体指称以及候选实体的重要线索,并利用这些线索促进实体消歧. Zeng 等[52] 将长短时记忆网络 (LSTM) 与双重注意力相结合进行实体消歧. 第1个注意力机制将实体嵌入作为注意向量来突出实体描述中的信息部分;第2个注意力机制将实体上下文作为注意向量来突出实体指称上下文中的信息部分;最后结合相似度以及先验概率得到正确实体。

      • 协同实体链接(全局链接)

        一个文档中的实体具有一定的关联性,因而在局部链接之上增加了一个全局项,综合考虑目标实体之间的一致性。

        • 基于图的方法

          将所有实体指称的候选实体作为图的节点,指称之间的联系作为边的权重构成图模型,在此基础上采用消歧算法为实体指称选出一组最有可能的实体组合。主要分为三步:候选实体生成、实体相关图构造和集成实体链接。

          Han等[56]提出的集成实体链接算法以维基百科作为本地知识库,对给定的文本首先提取出所有实体指称项,并通过查询确定每个实体指称项在知识库中的候选链接对象。

          HpIYAx.png

        • 基于条件随机场的方法

          基于条件随机场(CRF)模型全局方法可以很好地与局部方法联合起来。

          Durrett等[59] 研究的模型在形式上是一个结构化的传统随机场. 一元因子从每个任务的强基线编码本地特性,添加二进制和三元因子来捕获跨任务交互,将实体识别与实体消歧联合实现。

        • 基于Pair-Linking的方法

          现有的协同链接方法假设每一个链接到的候选实体都要与其他所有的实体相关,这一假设在多主题的长文档中并不一定成立;而且要考虑所有链接的实体之间的一致性,现有方法计算复杂度高. 通过对实体做Pair-Linking[60]可以克服这一弊端。

          Phan等[61] 利用Pair-Linking算法通过模拟Kruskal算法来近似MINTREE(基于树的实体消歧目标)的解,从而得到正确实体集合

        • 基于深度学习的方法

          Xue等[63] 提出了RRWEL模型,模型使用CNN学习局部上下文、提及、实体、类型信息的语义表征,使用随机漫步网络对文档信息进行学习,结合局部信息和全局信息得到文档中每个提及所对应的正确实体。

          深度学习方法的消岐效率较高,但训练起来工程很大。

          可以考虑深度学习+基于图的方法进行集体消岐[64],[65,66]将构建的实体图输入到图神经网络中进行学习。Deng 等[67] 构造了作者-文档的图网络,并提出了一种新的模型HRFAENE(异构关系融合和属性增强网络嵌入模型)进行集体消歧

    3. 基于知识图谱的实体链接系统

      知识图谱是一个结构化的语义知识库,数据内容通常采用三元组表示,候选实体多侧重于从图结构中获取上下文信息,涉及图拓扑结构。

      • 局部实体链接

        主要利用实体指称以及候选实体的上下文信息选出目标实体候选实体

        Shao等[71]在论文知识图XLore上提出了一个论文实体消歧框架,并设计了一个实体链接的概率公式以计算每个候选实体的概率,最后选出概率最高的实体作为正确实体。

        深层语义匹配模型:模型使用字-LSTM 和词-LSTM 学习得到字以及上下文的匹配分数,并进行加权求和后对所有候选实体排序

        知识图谱+图神经网络:一些研究者利用图神经网络(GCN[74]、 GAT[75])学习知识图的连续性表示,使得链接准确率得到提高

      • 协同实体链接

        基于知识图谱的协同实体链接假设文档中所有实体指称在知识图谱中所对应的目标实体是相关的。所以对一个文档中的多个指称项一起连接到目标知识图谱中。

        基于知识图谱的实体链接系统的目标知识图谱是结构化的数据方式,实体的邻居节点可作为上下文信息,实体与实体之间的关系也可对链接提供帮助. 基于知识图谱的链接系统会成为未来实体消歧研究热点。

    其他实体消岐

    • 跨语言实体消岐
    • 社交数据中的实体消岐
    • 受限知识库的实体消岐

    应用

    实体消歧旨在解决文本中广泛存在的名称歧义问题,在知识图谱构建、语义化搜索、问答系统、推荐系统等领域有着广泛的应用。

    知识图谱构建:知识图谱构建技术离不开实体消歧的支撑. 对于一段自然语言文本,例如“迈克尔·乔丹教授昨天访问了CMU” ,需要从自然语言文本中抽取信息以构成知识图谱. 处理流程如下:首先进行命名实体识别(“[迈克尔·乔丹]/PER教授昨天访问了[CMU]/ORG” );然后进行关系抽取(迈克尔·乔丹, visit, CMU). 抽取出三元组并不能直接构造知识图谱,因为不知道迈克尔·乔丹到底是哪个迈克尔·乔丹, CMU到底指的是哪个机构. 实体消歧技术将实体的歧义进行消除,经过实体抽取的实体都能够得到正确的链接. 实体消歧是知识图谱构建中必不可少的一步,对知识图谱的构建有着重要的作用。

    测评

    随着实体消歧技术的发展,实体消歧方法的评价技术也得到了重视. 主要包括实体消歧评测会议、实体消歧评测框架、实体消歧宏观评测指标。

    总结与展望

    实体消岐按有无目标知识库可划分为:基于无监督聚类的实体消岐和基于实体链接的实体消岐

    • 根据有无目标知识库划分
      • 基于无监督聚类的实体消岐
        • 基于词袋模型的聚类
        • 基于语义特征的聚类
        • 基于社会网络的聚类
        • 基于百科知识的聚类
        • 基于多源异构语义知识融合的聚类
      • 基于实体链接的实体消岐
        • 基于知识库的实体链接系统
        • 基于知识图谱的实体链接系统

    优缺点

    实体消歧优缺点

    方法优点缺点
    基于无监督聚类的实体消歧不需要候选实体集合以及标记训练数据实体之间特征区分不明确
    基于实体链接的实体消歧有目标库,消歧更加准确需要大量有标签数据,耗费人力

    基于无监督聚类的实体消歧优缺点

    方法优点缺点
    基于词袋模型的聚类方法思路简单,易于实现实体向量之间难以区分
    基于语义特征的聚类方法向量特征表示准确,聚类效果好算法匹配程度很难最优
    基于社会化网络的聚类方法能够利用社会关系进行聚类忽略实体本身特征,网络构造难度大
    基于百科知识的聚类方法百科网站知识特征表示全面百科知识覆盖性有限且实体种类较少
    基于多源异构语义知识融合的聚类方法利用多种数据源可提供多种特征知识库表达方式有差异组合难度大

    基于实体链接的实体消歧优缺点

    方法优点缺点
    基于知识库的局部实体链接词条内容丰富上下文信息对实体表示不够充分
    基于知识库的协同实体链接增加实体之间相关性,消歧准确率高文档信息量大,链接复杂性高
    基于知识图谱的局部实体链接图数据实体的上下文信息丰富图谱数据标记样本较为复杂
    基于知识图谱的协同实体链接图数据协同实体链接准确率高图谱数据关系较多,检索较为麻烦
    展开全文
  • 将json数据转换成实体对象 JSON格式转换 JSON实体 json 实体相互转换 使用fastjson转化为json类型的数据
  • 目录写在最前一、 强实体与弱实体的定义1. 强实体2. 弱实体百度百科中的解释《数据库系统课程》中的解释总结起来 写在最前 数据库设计是困难的,其原因之一就在于我们很难去完全把握实体的定义。是不是实体、该不该...
  • 命名实体识别(NER)综述

    万次阅读 多人点赞 2021-07-12 21:42:32
    命名实体识别是自然语言处理中的热点研究方向之一, 目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义; 然后介绍了命名实体识别研究的发展进程,从最初的...
  • 最近在看数据库正好遇到了这个问题,看了好多的博主回答感觉有点似懂非懂,后来综合了一下终于搞明白了,以下内容是自己的心得体会,希望能对大家有所帮助,如有不对的地方还望指出!...一、实体 实体就是 ...
  • 无监督学习-机器学习-深度学习)5.1 基于规则的NER5.2 基于无监督学习方法5.2 基于机器学习(含特征的有监督学习)基于深度学习方法**1、输入层****2、编码层**3、解码层6 其他实体识别任务中的常见问题及对策各类...
  • 一文了解命名实体识别

    千次阅读 2020-09-04 20:25:53
    导读:从1991年开始,命名实体识别逐渐开始走进人们的视野,在各评测会议的推动下,命名实体识别技术得到了极大地发展,从最初的基于规则和字典的方法,到现在热门的注意力机制、图神经网络等方法,命名实体识别已经...
  • 定义并解释概念模型中以下术语:实体实体型,实体集,实体之间的联系。 (1)实体:客观存在并可以相互区分的事物叫实体。 (2)实体型:用实体名及其属性名集合来抽象和刻画同类实体称为实体型。 (3)实体集...
  • 生成的文件可用UE打开或在exlipse打开,如果使用词本打开显示格式不友好
  • 实体组件系统_实体组件系统介绍

    千次阅读 2020-10-14 09:19:41
    实体组件系统什么是实体组件系统?(What is Entity Component System?) Entity Component System is a software pattern commonly employed in game development. 实体组件系统是游戏开发中常用的一种软件模式。 It ...
  • 数据库实体联系模型与关系模型

    千次阅读 2020-03-02 19:11:33
    所有的课程实体组成课程实体集,所有的老师实体组成老师实体集。   绘制ER图 ER图是ER模型的图形化描述。俗话说:一张图胜过千言万语,用ER图可以清晰地描述出ER模型的结构。 规范的ER图可以帮助人们对...
  • 基于CRF的命名实体识别模型 条件随机场 CRF ​ 条件随机场 CRF 是在已知一组输入随机变量条件的情况下,输出另一组随机变量的条件概率分布模型;其前提是假设输出随机变量构成马尔可夫随机场;条件随机场可以应用于...
  • 实体对齐(Entity Alignment)相关论文与数据集整理

    千次阅读 多人点赞 2021-03-21 21:46:13
    实体对齐(Entity Alignment)、知识图谱融合方法总结整理 年份 模型 主要思想 博文推荐 论文 代码 2019 Entity Alignment between Knowledge Graphs Using Attribute Embeddings 实体对齐数据集整理 ...
  • 【知识图谱】命名实体识别(NLP)

    千次阅读 多人点赞 2021-06-15 21:44:38
    命名实体识别实验内容实验原理命名实体识别任务序列标注条件随机场BiLSTM-CRF实验步骤1. 数据处理1.1将标注转换为 BMEO 格式1.2 数据集预处理2. 构建网络模型3. 模型训练4. 模型预测总结 实验内容 从本实验开始,...
  • nlp中的实体关系抽取方法总结

    万次阅读 多人点赞 2020-07-04 21:23:00
    NER还存在嵌套实体问题(实体重叠问题),如「《叶圣陶散文选集》」中会出现两个实体「叶圣陶」和「叶圣陶散文选集」分别代表「作者」和「作品」两个实体。而传统做法由于每一个token只能属于一种Tag,无法解决这类...
  • java 实体转map

    千次阅读 2022-03-21 00:04:46
    实体,map
  • 全新的caxa实体设计2020在上一版本的基础上进行了全方面的优化和改善,例如新增加了文件批量转换功能,可以将指定文件夹中的其他格式的文件批量转换为实体设计的格式,同时其中还支持Solidworks、ACIS、IGES、STEP等...
  • 实体关系图 (ERD) 指南

    千次阅读 2021-12-23 16:08:00
    在本指南中了解有关实体关系图 (ERD)、它们的用途、如何理解它们、如何创建它们等的所有信息。 实体关系图 (ERD) 是一种图表,可让您查看不同实体(例如人员、客户或其他对象)在应用程序或数据库中如何相互关联。 ...
  • 【NLP】一文了解命名实体识别

    千次阅读 2020-09-06 11:00:00
    导读:从1991年开始,命名实体识别逐渐开始走进人们的视野,在各评测会议的推动下,命名实体识别技术得到了极大地发展,从最初的基于规则和字典的方法,到现在热门的注意力机制、图神经网络等方法...
  • 实体链接(entity link)初识

    千次阅读 2022-04-08 11:04:00
    实体链接的初级理解
  • 实体关系抽取任务方法及SOTA模型总结

    万次阅读 多人点赞 2020-05-31 21:02:08
    1 实体关系抽取方法思路 实体关系抽取是从文本中的句子里抽取出一对实体并给出实体间关系的任务。该任务的输入是一句话,输出是一个spo三元组(subject-predicate-object)。 对于实体关系抽取任务,最容易想到的...
  • TPLinker 实体关系抽取代码解读

    千次阅读 多人点赞 2020-11-15 19:07:12
    前言: ... ... 这篇论文是最新的基于joint方式进行的联合抽取实体关系的模型。主要创新点是提出了新的标注数据方法,具体可以看论文,本篇的主要目的是...4-8 先进行实体抽取得到字典D(key是实体头部,value是实体尾部)
  • 实体消歧

    千次阅读 2019-04-19 20:38:20
    一般来说,由于自然语言存在较多的一词多义(相同的实体指称在不同的上下文中可以指向知识库中的不同实体)或多词一义(知识库中的同一个实体在文本中有不同的指称)的现象,实体识别的结果很难直接加入到知识图谱...
  • 第四步: 关系与支撑证据的成对收集 关系和支撑证据的标注都是基于命名实体以及第二步中的共指信息, 这就面临两个主要挑战: ① 文档中大量潜在的实体对 一方面实体对总数是实体总数的平方(平均来说一个文档有19.5个...
  • 【导读】人工智能相关比赛的获奖方案,无一不是在某一具体问题上拥有独到的理解和踏实的...一般的Pipline为:对于一个给定的文本,先用ER识别出其中的实体,然后再用EL将该实体与给定知识库中的对应实体进行关联。 以
  • 实体类之间的转换

    万次阅读 2021-03-01 06:22:02
    /***@authorD-L * @Classname BeanUtils * @Version 1.0 * @Description 通过无参数实例化对象和复制属性值的方式 * 完成实体类之间的转换 * 完成map->实体类 * 实体类->map * 基于Dozer转换对象的类型 * 对bean的...
  • 知识抽取-实体及关系抽取

    千次阅读 2020-06-30 22:15:52
    知识抽取涉及的“知识”通常是清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用 D2R,其难点在于... 也就是命名实体识别,包括实体的检测.

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,415,030
精华内容 566,012
关键字:

实体

友情链接: PSO_BP.rar