精华内容
下载资源
问答
  • 命名实体分析算法
    2022-04-16 08:32:58

            命名实体识别(Named Entity Recognition,NER),是NLP领域的一项基础任务,与分词、词性标注都属于词法分析的范畴,作为NLP的上游任务,其结果直接影响下游任务的效果。NER具有广泛的应用,是机器翻译、知识图谱、智能对话系统、句法分析任务、信息抽取等任务的基础。

            什么是“命名实体”?简单可以理解为具有特殊意义的名词,常见的如人名、地名、组织机构名、日期、时间、货币等一些指代性比较强的,区别于生活中的普通名词比如计算机、互联网、宇宙、天气等具有普适意义的词,当然,这仅仅是一个通俗的理解。在业界,往往会根据自身的业务去做更细粒度的划分,比如公司的产品、厂商、产品价格,这些都不会脱离前面的概念,比如厂商的上位词就是组织机构,价格的上位词就是货币,具体怎么定,根据实际业务去抽象即可。

            了解了“命名实体”的基本概念后,接下来,什么是“命名实体识别”呢?“识别”顾名思义,形象化一点,就是让我们的机器学习模型从实际的文本数据集(语料库)中分析,判断,标记出具体的命名实体,通常会涉及到两个关键点:(1)命名实体的边界识别;(2)命名实体所属的类别(比如人名、地名、组织机构名等等)。在学术研究领域中,命名实体一般包括3大类(实体类、时间类、数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。在业界,NER模型通常只要识别出常见的,如人名、地名、组织机构名、日期时间即可。

            NER是很多下游任务的基础任务。对于机器翻译任务而言,命名实体的翻译(如人名、专有名词、组织机构等),常常会有某些特殊的翻译算法(比如中译英任务中,中文人名翻译成英文时,要使用名字的拼音来表示,有名在前姓在后的规则),而普通的词语要翻译成对应的英文单词。准确识别出文本中的命名实体,对于提高机器翻译的效果有重要意义;对于智能问答任务而言,准确识别出问题的各个组成部分、问题的相关领域、相关概念是智能问答任务的重点和难点。目前,大多数智能问答系统是以搜索为基础的,就是搜索答案,而非计算答案,搜索实质上进行的是关键词匹配,用户根据搜索结果人工提取答案,而更加友好的方式是把答案计算好呈现给用户,其中很多时候,需要考虑到实体之间的关系,比如“1950年,中国的外交部长是谁”,那么答案就需要考虑到实体之间的关系,这些实体包括“1950年”、“中国”、“外交部长”,根据这些实体关系判断,结果返回“周恩来”,而非现任部长“王毅”,这就是命名实体识别效果对智能问答系统的影响。对于知识图谱而言,NER甚至是一个核心任务,因为图谱的元素就是实体和关系,整个知识图谱的构建都是围绕实体以及实体之间的关系展开研究的,可见其重要程度,不言而喻。对于事件抽取而言,一个事件由3个主要元素组成,即时间、地点、人物,这3个词都是命名实体,不用多说了吧,可见事件抽取,精力主要集中在NER任务,再结合事件的关系,模型输出最终的事件摘要信息,等等,可见NER贯穿整个NLP领域。

            关于NER的研究当前已经不是什么新话题了,即使已经研究了很长时间了,但是仍然有很多难点和挑战,主要原因有:(1)命名实体识别只是在有限的语料类型(主要是新闻语料)和实体类别(主要是人名、地名)中取得了效果;(2)与其他信息检索领域相比,命名实体评测语料较小,容易产生过拟合;(3)命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要,这也意味着,指标评测的权衡需要更多考虑;(4)通用的识别多类型的命名实体识别模型表现欠佳。同时,自然语言语种的复杂多样,也带来了一定的挑战,比如,中文的命名实体识别与英文的命名实体识别相比,难度更大。比如,英文的命名实体具有很明显的形式标志,即实体中的每个词的第一个字母要大写,所以对实体边界的识别相对容易,任务的重点是确定实体的分类。而中文NER任务更加复杂,并且命名实体边界的识别的难度要大于实体分类,其主要难点在于:(1)中文语料没有像英文语料那种明显的词边界,如空格之类的符号,所以,中文命名实体识别的第一步就是确定词的边界,即中文分词,虽然中文分词已经很成熟了,但是,想要获得比较好的效果,仍然需要花费我们科研人员的精力,而且中文分词时,也会涉及到命名实体,并非独立,比如我们在中文分词常说的词典方式加载自定义词,实质上就是命名实体,这样看来,就比较复杂了,中文分词与实体识别相互影响;(2)中文命名实体识别任务,有时包含有英文的实体识别,比如外国人名译名和地名译名,通常网络文本中,常常出现中英文交替使用,这导致在中文实体识别中还夹杂有英文的实体识别,也增加了一定的难度;(3)不同的命名实体具有不同的特征,想要利用训练一个通用模型来解决是不现实的;(4)新词的不断涌现给实体识别也带来了比较大的困难,主要表现在:a.标注语料老旧,覆盖不全,现如今的流行语、虚拟人物、网红、各种昵称等等,旧词新意,典型的“苹果”一词,在苹果公司未成立前,表示一种水果,而如今要想正确识别,还要考虑上下文关系,这也是难点所在。(5)语言的歧义消解,也是难点所在。

            了解了命名实体识别的基本概念、应用、以及难点后,下期介绍NER的研究进展和流行的解决方法。

    更多相关内容
  • 基于深度学习的命名实体识别算法.pdf
  • 基于命名实体的网页推荐算法研究.pdf
  • 命名实体识别是自然语言处理领域的一项基础性技术。近年来微博等网络社交平台发展迅速,其独特的形式对传统的命名实体识别技术提出了新的挑战。故提出一种基于条件随机场模型的改进方法,针对微博文本短小、语义含糊...
  • 融合深度学习与规则的民族工艺品领域命名实体识别.pdf
  • 命名实体识别(Named Entity Recognition, 简称NER)(也称为实体识别、实体...命名实体识别是NLP中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。 从自然语言处理的
    • 本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!
    • 个人主页:有梦想的程序星空
    • 个人介绍:小编是人工智能领域硕士,全栈工程师,深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域,有较丰富的软件系统、人工智能算法服务的研究和开发经验。
    • 如果文章对你有帮助,欢迎关注点赞收藏订阅。

    命名实体识别的背景

    命名实体识别(Named Entity Recognition, 简称NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。命名实体识别是自然语言处理中的热点研究方向之一, 目的是识别文本中的命名实体并将其归纳到相应的实体类型中。

    命名实体识别是NLP中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。

    从自然语言处理的流程来看,NER可以看作词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。

     命名实体识别的方法

    从模型的层面,可以分为基于规则的方法、无监督学习方法、有监督学习方法从输入的层面,可以分为基于字(character-level)的方法、基于词(work-level)的方法、两者结合的方法。

    基于规则的方法:依赖人工制定的规则,规则的设计一般基于句法、语法、词汇的模式,以及特定领域的知识。当词典的大小有限时,基于规则的方法可以达到很好的效果。这种方法通常具有高精确率和低召回率的特点。但是这种方法无法难以迁移到别的领域,对于新的领域需要重新制定规则。

    无监督学习方法:利用语义相似性进行聚类,从聚类得到的组当中抽取命名实体,通过统计数据推断实体类别。

    基于特征的监督学习方法:可以表示为多分类任务或者序列标注任务,从数据中学习。

    图1 NER识别算法发展历程

    下面介绍几种常见的命名实体识别算法:

    BiLSTM-CRF算法

     图2 BiLSTM-CRF结构图

    论文名称Neural Architectures for Named Entity Recognition

    论文链接:https://arxiv.org/pdf/1603.01360.pdf

    应用于NER中的BiLSTM-CRF模型主要由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成。实验结果表明BiLSTM-CRF已经达到或者超过了基于丰富特征的CRF模型,成为目前基于深度学习的NER方法中的最主流模型。在特征方面,该模型继承了深度学习方法的优势,无需特征工程,使用词向量以及字符向量就可以达到很好的效果,如果有高质量的词典特征,能够进一步获得提高。

    如果读者想要更进一步了解BiLSTM-CRF算法,可以转到之前笔者写的《深入浅出讲解BiLSTM-CRF》文章进一步阅读。

    IDCNN-CRF算法

    论文名称Fast and Accurate Entity Recognition with Iterated Dilated Convolutions

    论文链接:https://arxiv.org/abs/1702.02098

    论文提出在NER任务中,引入膨胀卷积,一方面可以引入CNN并行计算的优势,提高训练和预测时的速度;另一方面,可以减轻CNN在长序列输入上特征提取能力弱的劣势。具体使用时,dilated width会随着层数的增加而指数增加。这样随着层数的增加,参数数量是线性增加的,而感受野却是指数增加的,这样就可以很快覆盖到全部的输入数据。IDCNN对输入句子的每一个字生成一个logits,这里就和BiLSTM模型输出logits之后完全一样,再放入CRF Layer解码出标注结果。

    Bert算法

    图3 Bert算法的结构图 

    Bert(Bidirectional Encoder Representations from Transformers)算法,顾名思义,是基于Transformer算法的双向编码表征算法,Transformer算法基于多头注意力(Multi-Head attention)机制,而Bert又堆叠了多个Transfromer模型,并通过调节所有层中的双向Transformer来预先训练双向深度表示,而且,预训练的Bert模型可以通过一个额外的输出层来进行微调,适用性更广,而不需要做更多重复性的模型训练工作。

    Bert算法的论文:https://arxiv.org/abs/1810.04805

    Bert算法的开源代码:https://github.com/google-research/bert

    读者如果想进一步了解Bert算法,可以前往笔者之前写的《深入浅出讲解Bert算法》进一步阅读。

    关注微信公众号【有梦想的程序星空】,了解软件系统和人工智能算法领域的前沿知识,让我们一起学习、一起进步吧!

    展开全文
  • 第二十六章 命名实体识别和实体消歧 1 命名实体识别概论 PART1 什么是命名实体识别 PART2 命名识别识别的应用 PART3 简历中抽取关键信息 2 命名实体识别不同方法 PART1 实体识别方法 基于规则的方法 基于...

    前言

    自然语言处理中一个重要的任务就是命名实体识别,自1991年开始,命名实体识别逐渐开始走进人们的视野。

    随着深度学习的发展,命名实体识别技术也得到了极大地进步。从最初的基于规则和字典的方法,到现在热门的注意力机制、图神经网络等方法,命名实体识别已经在各大数据集上已经取得了很高的准确率,但从自然语言处理实际应用的角度来看,命名实体识别技术依旧面临着很大的挑战。

    一、命名实体识别概论

    1.什么是命名实体识别

    命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。

     其中产品名、组织、公司、人物就是我们提取出的命名实体。

    2.命名实体识别的应用

    命名实体识别可以落地到多个应用场景,包括聊天机器人新闻关键信息提取等等。

    2.1 聊天机器人

    以上是基于任务式的对话系统的大致流程。这种对话系统也称之为基于填槽式的对话系统。简单来讲,为了能够为用户解决一个问题,AI机器需要获得相关的信息,所以整个对话过程实际上就是从用户那里获得这些信息。一旦获取完毕,就可以对数据库做进一步查询。

    2.2 简历分析

    一份简历中包含大量的信息,如果通过HR一份份过,无疑会耗费大量的时间和精力。所以我们如何通过命名实体识别来进行简历的关键信息提取呢?

     

    首先这是一个垂直领域内的问题,我们需要构建NER来提取信息,并且需要自己定义所需要的实体种类,并进行大量的数据标记

     

    当我们标记好大量数据后,实际上这就是一个分类问题,输入文本词语,输出对应的种类就可以了,那么我们需要构造一个类别数为实体种类的分类器。

    二、命名实体识别方法

    1.实体识别方法

    命名实体识别从早期基于词典和规则的方法,到传统机器学习的方法,后来采用基于深度学习的方法,一直到当下热门的注意力机制、图神经网络等研究方法,命名实体识别技术路线随着时间在不断发展。技术发展趋势如下图所示:

    1.1 基于规则和字典的方法

    基于规则和字典的方法是最初代的命名实体识别使用的方法,这些方法多采用由语言学家通过人工方式,依据数据集特征构建的特定规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。

    基于规则的实体识别方法虽然简单,实际上也比较实用,特别是对于一些垂直领域的应用,或者数据量比较少或者没有标签数据的时候。如果我们有一个足够丰富的词典库,那么仅仅根据词库也能做到不错的准确率。另外,基于规则的识别方法是一套非常有效的基准(baseline)。

    1.2 基于传统机器学习的方法

    在基于机器学习的方法中,命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括:隐马尔可夫模型、最大熵、最大熵马尔可夫模型、支持向量机、条件随机场 等。

    在这 5 种学习方法中,ME结构紧凑,具有较好的通用性,其主要缺点是训练时间复杂性非常高,甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。HMM对转移概率和表现概率直接建模,统计共现概率。ME和SVM在正确率上要 HMM高一些,但是HMM在训练和识别时的速度要快一些。MEMM对转移概率和表现概率建立联合概率,统计条件概率,但由于只在局部做归一化容易陷入局部最优。CRF模型统计全局概率,在归一化时考虑数据在全局的分布,而不是仅仅在局部进行归一化,因此解决了MEMM中标记偏置的问题。在传统机器学习中,CRF被看作是命名实体识别的主流模型,优点在于在对一个位置进行标注的过程中CRF可以利用内部及上下文特征信息。

    1.3 基于深度学习的方法

    随着深度学习的不断发展,命名实体识别的研究重点已转向深层神经网络,该技术几乎不需要特征工程和领域知识。Collobert等学者首次提出基于神经网络的命名实体识别方法,该方法中每个单词具有固定大小的窗口,但未能考虑长距离单词之间的有效信息。为了克服这一限制,Chiu和Nichols提出了一种双向LSTM-CNNs架构,该架构可自动检测单词和字符级别的特征。Ma和Hovy进一步将其扩展到BiLSTM-CNNs-CRF体系结构,其中添加了CRF模块以优化输出标签序列。Liu等提出了一种称为LM-LSTM-CRF的任务感知型神经语言模型,将字符感知型神经语言模型合并到一个多任务框架下,以提取字符级向量化表示。这些端到端模型具备从数据中自动学习的功能,可以很好地识别新实体。

    部分学者将辅助信息和深度学习方法混合使用进行命名实体识别。Liu 等在混合半马尔可夫条件随机场的体系结构的基础上加入了Gazetteers 地名词典,利用实体在地名词典的匹配结果作为命名实体识别的特征之一。一些研究尝试在标签级别跨数据集共享信息,Greenberg等提出了一个单一的CRF模型,使用异构标签集进行命名实体识别,此方法对平衡标签分布的领域数据集有实用性。Augenstein 等使用标签向量化表示在任务之间进一步播信息。Beryozkin等建议使用给定的标签层次结构共同学习一个在所有标签集中共享其标签层的神经网络,取得了非常优异的性能。

    近年来,在基于神经网络的结构上加入注意力机制、图神经网络、迁移学习、远监督学习等热门研究技术也是目前的主流研究方向。

    总体来讲,前两种方法只是作为基准,一般不会作为生产环境下的方法,最常用的方法莫过于基于CRF的识别。

    三、实体消歧

    1.实体消歧概念

    实体消歧的本质是在于一个词很有可能有多个意思,也就是在不同的上下文中所表示的含义不太一样。

    2.实体消歧解法

    2.1 基于聚类的实体消歧方法

    该方法主要是计算实体指称项之间的相似度,采用某种聚类算法对实体指称项聚类,使得聚类结果中每一个类别都对应于一个目标实体上。主要包括基于表层特征的实体指称项相似度计算、
    基于扩展特征的实体指称项相似度计算、基于社会化网络的实体指称项相似度计算。

    基于表层特征的实体指称项相似度计算:
    传统方法多利用表层特征计算相似度,这些方法通常是词袋模型(Bag of Words,BoW)模型的延伸,性能不好。 

    这类方法都是基于上下文表层特征的关联来计算它们之间的相似度,而没有考虑到上下文特征的内在关联,因此影响聚类效果。

    基于扩展特征的实体指称项相似度计算:
    利用知识资源提升实体消歧的性能。
    最直接的方法:使用知识资源来扩展实体指称项的特征表示。

    基于社会化网络的实体指称项相似度计算:
    基于社会化网络的实体指称项相似度通常使用基于图的算法,能够充分利用社会化关系的传递性,从而考虑隐藏的关系知识,在某些情况下(特别是结构化数据,eg:论文记录、电影记录等)能够更为准确的实体指称项相似度计算结果。

    缺点:只用到上下文中的实体信息,不能完全利用实体指称项的其他上下文信息,因此不能在文本消歧领域取得有竞争力的性能。

    2.2 基于实体链接的实体消歧方法

    基于实体链接的实体消歧方法:将实体指称项链接到知识库中特定的实体,也称实体链接(Entity Linking)。
    实体链接:将一个命名实体的文本指称项(Textual Mention)链接到知识库中对应实体的过程(若不存在对应实体,则将实体指称项链接到空实体NIL)

    实体链接的输入包括两部分:

    • 目标实体知识库:最常用Wikipedia,或特定领域知识库。
      • 知识库通常包括:实体表、实体的文本描述、实体的结构化信息(eg:属性/属性值对)、实体的辅助性信息(eg:实体类别);也经常提供额外的结构化语义信息,eg:实体之间的关联
    • 待消歧实体指称项及其上下文信息

    步骤:

    • 链接候选过滤(Blocking):根据规则或知识过滤大部分指称项不可能指向的实体,仅仅保留少量链接实体候选。
    • 实体链接(Linking):给定指称项及其链接候选,确定该实体指称项最终指向的目标实体。(重点研究)

    链接候选过滤方法:
    大部分是基于实体指称项词典:通过在字典中记录一个指称项所有可能指向的目标实体来进行链接候选过滤。

    传统实体链接方法:使用Wikipedia等知识资源构建指称项词典,包括Wikipedia Entity Name、Wikipedia Redirection Page等。

    为了匹配模糊或拼错的指称项,一些基于构词法的模糊匹配也在TAC评测中使用,eg:Metaphone算法和Soft TFIDF算法

    实体链接方法:
    实体链接方法选择与指称项具有最高一致性打分的实体作为其目标实体。现有方法可分为:向量空间模型、主题一致模型、协同实体链接模型、基于神经网络的模型。

    2.3 面向结构化文本的实体消歧方法

    列表型数据没有上下文描述信息,需要利用实体的类别信息,实体的流行度和列表中的其他信息进行消歧。

    四、实体统一

    1.实体统一概念

    同一个实体有不同的表达方式,有时候需要把不同的表达方式统一为同一种表达方式。

    例子:”中华人民共和国“,”中国“都表示同一个意思。如果把实体统一,可以减少一些NLP任务的难度。常见的应用场景是在构建知识图谱中,需要对地名,公司名,专业术语等进行统一。

    2.实体统一解法

    第一种方法计算相似度方法

    计算两个实体(字符串)之间的相似度,一般使用编辑距离即可,设定阈值,判断是否属于一个实体。

    第二种基于规则方法

    举个例子:

    1. 腾讯有限公司
    2. 腾讯科技有限公司

    我们通过人工的设计一些库,或者说是一些词典,这些库包含相同实体的特点:

    • 词典1:公司、有限公司、分公司…
    • 词典2:北京,天津,上海…
    • 词典3:科技,技术…

    如果实体中的词出现在库中将其删掉

    1. 腾讯有限公司——作为原型,删掉词库中的词后为:腾讯
    2. 腾讯科技有限公司 —删掉词库中的词后为:腾讯

    这时候判定为相同实体,但是以上两种方法精度不高,人力成本比较高。

    第三种基于有监督的学习方法

    还是上面的例子:

    1. 腾讯有限公司
    2. 腾讯科技有限公司

    我们可以将1和2利用特征工程将其转换为特征向量:比如考虑词性,前后单词,词位置等等。

    然后输入到一个训练好的分类模型去判断两个实体是否相似。

    利用余弦相似度技术衡量相似程度,然后再输入到逻辑回归模型做二分类的计算。

    第四种基于图的实体统一方法

    其实每个实体都不是独立的,他们与其他实体是包含一定的联系,如下图所以我们在做实体统一的时候我们考虑到了这种实体关系,也就是根据这种图来做:

    假如我们判断A和B是否是同一个人我们在做特征向量时不仅加入他的个人信息,还可以加入其他的关系。

    然后我们再计算A和B两者的相似度,设置阈值:判断大于阈值相似以及小于阈值不相似。

    总结

    评判一个命名实体是否被正确识别,包括两个方面:

    • 实体的边界是否正确
    • 实体的类型是否标注正确

    命名实体识别存在三个难点

    • 领域命名实体识别局限性
    • 命名实体表述多样性和歧义性
    • 命名实体的复杂性和开放性

    命名实体识别目前的两个热点: 

    • 匮乏资源命名实体识别
    • 细粒度命名实体识别

    本文是从零开始学NLP系列文章第十五篇,希望小伙伴们多多支持,互相交流。


    今天我们就到这里,明天继续努力!

    如果该文章对您有所帮助,麻烦点赞,关注,收藏三连支持下!

    创作不易,白嫖不好,各位的支持和认可,是我创作的最大动力!

    如果本篇博客有任何错误,请批评指教,不胜感激 !!!


    参考:

    贪心科技学院nlp

    一文了解命名实体识别

    知识图谱(五)——实体消歧

    实体消歧、实体统一和指代消歧

    展开全文
  • 命名实体识别(NER)综述

    万次阅读 多人点赞 2021-07-12 21:42:32
    命名实体识别是自然语言处理中的热点研究方向之一, 目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义; 然后介绍了命名实体识别研究的发展进程,从最初的...

    本文是中文信息处理课程的期末考核大作业,对于自然语言处理主流任务的调研报告
    ————————————————
    版权声明:本文为CSDN博主「<Running Snail>」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/weixin_45884316/article/details/118684681

    摘要

    命名实体识别是自然语言处理中的热点研究方向之一, 目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义; 然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能; 最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和常用工具,并给出了未来的研究建议 。

    1. 引言

    ​命名实体识别这个术语首次出现在MUC-6(Message Understanding Conferences),这个会议关注的主要问题是信息抽取(Information Extraction),第六届MUC除了信息抽取评测任务还开设了新评测任务即命名实体识别任务。除此之外,其他相关的评测会议包括CoNLL(Conference on Computational Natural Language Learning)、ACE(Automatic Content Extraction)和IEER(Information Extraction-Entity Recognition Evaluation)等。在MUC-6之前,大家主要是关注人名、地名和组织机构名这三类专业名词的识别。自MUC-6起,后面有很多研究对类别进行了更细致的划分,比如地名被进一步细化为城市、州和国家,也有人将人名进一步细分为政治家、艺人等小类。

    ​ 此外,一些评测还扩大了专业名词的范围,比如CoNLL某年组织的评测中包含了产品名的识别。一些研究也涉及电影名、书名、项目名、研究领域名称、电子邮件地址、电话号码以及生物信息学领域的专有名词(如蛋白质、DNA、RNA等)。甚至有一些工作不限定“实体”的类型,而是将其当做开放域的命名实体识别和分类。

    2. 研究背景

    ​ 命名实体识别(Named Entity Recognition, NER)是NLP中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体一般指的是文本中具有特定意义或者指代性强的实体,学术上通常包括实体类,时间类,数字类三大类和人名、地名、组织机构名、时间、日期、货币、百分比七小类。NER就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。
    ​ NER是一个具有挑战性的学习问题,在大多数语言和领域中,只有很少量的训练数据可用,同时对于可以作为名称的单词种类几乎没有限制,因此很难从这种小的数据样本中进行概括。其发展从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法。
    ​ NER是NLP中一项基础性关键任务。从自然语言处理的流程来看,NER可以看作词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。

    3. 主要方法

    命名实体识别从早期基于词典和规则的方法,到传统机器学习的方法, 后来采用基于深度学习的方法,一直到当下热门的注意力机制、图神经网络等研究方法, 命名实体识别技术路线随着时间在不断发展。

    命名实体识别 NER 的发展史

    3.1 基于规则和字典的方法

    ​ 基于规则的NER系统依赖于人工制定的规则。规则的设计一般基于句法、语法、词汇的模式以及特定领域的知识等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。 制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。
    ​ 当字典大小有限时,基于规则的NER系统可以达到很好的效果。由于特定领域的规则以及不完全的字典,这种NER系统的特点是高精确率与低召回率,并且类似的系统难以迁移应用到别的领域中去:基于领域的规则往往不通用,对新的领域而言,需要重新制定规则且不同领域字典不同。所以这种基于规则的方法局限性非常明显,不仅需要消耗巨大的人力劳动,且不容易在其他实体类型或数据集扩展。

    3.2基于传统机器学习的方法

    ​ 在基于机器学习的方法中, 命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。
    ​ 采用的传统机器学习方法主要包括:

    • 隐马尔可夫模型(Hidden Markov Model, HMM)
      HMM对转移概率和表现概率直接建模,统计共现概率。更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。
    • 最大熵(Maximum Entropy, ME) [14]
      ME结构紧凑,具有较好的通用性, 其主要缺点是训练时间复杂性非常高,甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。
    • 最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM) [15]
      MEMM对转移概率和表现概率建立联合概率,统计条件概率,但由于只在局部做归一化容易陷入局部最优。
    • 支持向量机(Support Vector Machine, SVM)
      SVM在正确率上要比HMM高一些,但是HMM在训练和识别时的速度要快一些。 主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。
    • 条件随机场( Conditional Random Fields, CRF) [16]等。
      CRF模型统计全局概率,在归一化时考虑数据在全局的分布,而不是仅仅在局部进行归一化, 因此解决了MEMM中标记偏置的问题。 在传统机器学习中, CRF被看作是命名实体识别的主流模型, 优点在于在对一个位置进行标注的过程中CRF可以利用内部及上下文特征信息。 但同时存在收敛速度慢、训练时间长的问题。

    3.3 基于深度学习的方法

    ​ 近年来, 在基于神经网络的结构上加入注意力机制、图神经网络、迁移学习、远监督学习等热门研究技术也是目前的主流研究方向 。NER使用深度学习的原因主要是:1.NER适用于非线性转化。2.深度学习避免大量的人工特征的构建,节省了设计NER功能的大量精力。3.深度学习能通过梯度传播来训练,这样可以构建更复杂的网络。5. 端到端的训练方式。

    3.3.1 BiLSTM-CRF

    在这里插入图片描述

    ​ BiLSTM-CRF直观显示了模型结构与优势,其中BiLSTM通过前向/后向传递的方式学习序列中某字符依赖的过去和将来的信息,CRF则考虑到标注序列的合理性。模型主要由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成。在特征方面,该模型继承了深度学习方法的优势,无需特征工程,使用词向量以及字符向量就可以达到很好的效果,如果有高质量的词典特征,能够进一步获得提高。
    ​ 引入双向LSTM层作为特征提取工具,LSTM拥有较强的长序列特征提取能力。双向LSTM,在提取某个时刻特征时,能够利用该时刻之后的序列的信息,无疑能够提高模型的特征提取能力。引入CRF作为解码工具。中文输入经过双向LSTM层的编码之后,需要能够利用编码到的丰富的信息,将其转化成NER标注序列。通过观察序列,预测隐藏状态序列,CRF无疑是首选。
    ​ 这些优势使得论文模型在当时取得SOTA结果,已经达到或者超过了基于丰富特征的CRF模型,成为目前基于深度学习的NER方法中的最主流模型。

    3.3.2 IDCNN-CRF

    image-20210614164752444

    ​ 论文Fast and Accurate Entity Recognition with Iterated Dilated Convolutions提出在NER任务中,引入膨胀卷积,一方面可以引入CNN并行计算的优势,提高训练和预测时的速度;另一方面,可以减轻CNN在长序列输入上特征提取能力弱的劣势。具体使用时,dilated width会随着层数的增加而指数增加。这样随着层数的增加,参数数量是线性增加的,而感受野却是指数增加的,这样就可以很快覆盖到全部的输入数据。IDCNN对输入句子的每一个字生成一个logits,这里就和BiLSTM模型输出logits之后完全一样,再放入CRF Layer解码出标注结果。

    3.3.3 CAN-NER

    Convolutional Attention Network for Chinese Named Entity Recognition(NAACL 2019)提出了用基于注意力机制的卷积神经网络架构。
    在这里插入图片描述

    ​ 采用一种卷积注意网络CAN,它由具有局部attention的基于字符的CNN和具有全局attention的GRU组成,用于获取从局部的相邻字符和全局的句子上下文中信息。首先模型输入的是字符,卷积注意力层用来编码输入的字符序列并隐式地对局部语义相关的字符进行分组。对输入进行向量嵌入,包含字向量、分词向量和位置向量,得到输入向量后,采用局部 local attention来捕捉窗口范围内中心词和周围词的依赖,局部 attention 的输出被送到 CNN 中,最后采用加和池化方案。得到局部特征后,进入到BiGRU-CRF 中,而后采用全局的 attention来进一步捕捉句子级别的全局信息。后面接 CRF,得到分类结果。self-attention 可以捕捉广义的上下文信息,减少无用中间词的干扰。

    3.2.4 Lattice LSTM(针对中文的NER)

    ​ 中文的NER与英文不太一样,中文NER问题很大程度上取決于分词的效果,比如实体边界和单词的边界在中文NER可题中经常是一样的。所以在中文NER问题中,有时通常先对文本进行分词然后再预测序列中单词的类别。这样一来会导致一个问题,即在分词中造成的错误会影响到NER的结果。基于字向量的模型能够避免上述问题,但因为单纯采用字向量,导致拆开了很多并不应该拆开的词语,从而丢失了它们本身的内在信息。

    ​ 《Chinese NER Using Lattice LSTM》提出一种用于中文NER的LSTM的格子模型,与基于字符的方法相比,该模型显性地利用词和词序信息;与基于词的方法相比,完整的嵌入词语信息因此 lattice LSTM 不会出现分词错误。门控循环单元使得模型能够从句子中选择最相关的字符和词,以生成更好的 NER 结果。但是,此模型对于一些新的词语效果不理想。

    3.2.5 引入BERT及attention

    在这里插入图片描述

    论文《Multilingual Named Entity Recognition Using Pretrained Embeddings, Attention Mechanism and NCRF》在NCRF和BiLSTM中间加入了一层Multihead Attention,并用BERT来获取上下文词表示,然后设计了一个多任务结构来学习多语言NER。

    4.NER主要数据集

    英文数据集

    ①CoNLL 2003数据集包括1 393篇英语新闻文章和909篇德语新闻文章,英语语料库是免费的,德国语料库需要收费。英语语料取自路透社收集的共享任务数据集。 数据集中标注了4种实体类型:PER,LOC,ORG MISC。
    ② CoNLL 2002数据集是从西班牙EFE新闻机构收集的西班牙共享任务数据集。数据集标注了4种实
    体类型: PER,LOC,ORG,MISC。
    ③ ACE 2004 多语种训练语料库版权属于语言数据联盟(Linguistic Data Consortium, LDC), ACE 2004多语言培训语料库包含用于 2004 年自动内容提取(ACE)技术评估的全套英语、 阿拉伯语和中文培训数据。语言集由为实体和关系标注的各种类型的数据组成。
    ④ ACE 2005 多语种训练语料库版权属于 LDC, 包含完整的英语、阿拉伯语和汉语训练数据, 数据来源包括:微博、广播新闻、新闻组、广播对话等, 可以用来做实体、 关系、 事件抽取等任务。
    ⑤ OntoNotes 5.0 数据集版权属于 LDC, 由 1745K 英语、 900K 中文和 300K 阿拉伯语文本数据组成, OntoNotes 5.0 的数据来源也多种多样, 来自电话对话、新闻通讯社、广播新闻、广播对话和博客等。实体被标注为 PERSON,ORGANIZATION,LOCATION 等 18 个类型。
    ⑥ MUC 7 数据集是发布的可以用于命名实体识别任务, 版权属于 LDC,下载需要支付一定费用。数据取自北美新闻文本语料库的新闻标题, 其中包含 190K 训练集、 64K 测试集。
    ⑦ Twitter数据集是由Zhang等提供,数据收集于Twitter,训练集包含了4 000 推特文章, 3257条推特用户测试。该数据集不仅包含文本信息还包含了图片信息

    其它数据集

    image-20210614172350727

    中文数据集

    • CCKS2017开放的中文的电子病例测评相关的数据。
      评测任务一:https://biendata.com/competition/CCKS2017_1/
      评测任务二:https://biendata.com/competition/CCKS2017_2/
    • CCKS2018开放的音乐领域的实体识别任务。
      评测任务:https://biendata.com/competition/CCKS2018_2/
    • (CoNLL 2002)Annotated Corpus for Named Entity Recognition。
      地址:https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus
    • NLPCC2018开放的任务型对话系统中的口语理解评测。
      地址:http://tcci.ccf.org.cn/conference/2018/taskdata.php
    • 一家公司提供的数据集,包含人名、地名、机构名、专有名词。
      下载地址:https://bosonnlp.com/dev/resource

    5.NER工具

    Stanford NER

    斯坦福大学开发的基于条件随机场的命名实体识别系统,该系统参数是基于CoNLL、MUC-6、MUC-7和ACE命名实体语料训练出来的。

    地址:https://nlp.stanford.edu/software/CRF-NER.shtml

    python实现的Github地址:https://github.com/Lynten/stanford-corenlp

    # 安装:pip install stanfordcorenlp
    # 国内源安装:pip install stanfordcorenlp -i https://pypi.tuna.tsinghua.edu.cn/simple
    # 使用stanfordcorenlp进行命名实体类识别
    # 先下载模型,下载地址:https://nlp.stanford.edu/software/corenlp-backup-download.html
    # 对中文进行实体识别
    from stanfordcorenlp import StanfordCoreNLP
    zh_model = StanfordCoreNLP(r'stanford-corenlp-full-2018-02-27', lang='zh')
    s_zh = '我爱自然语言处理技术!'
    ner_zh = zh_model.ner(s_zh)
    s_zh1 = '我爱北京天安门!'
    ner_zh1 = zh_model.ner(s_zh1)
    print(ner_zh)
    print(ner_zh1)
    
    [('我爱', 'O'), ('自然', 'O'), ('语言', 'O'), ('处理', 'O'), ('技术', 'O'), ('!', 'O')]
    [('我爱', 'O'), ('北京', 'STATE_OR_PROVINCE'), ('天安门', 'FACILITY'), ('!', 'O')]
    
    
    # 对英文进行实体识别
    eng_model = StanfordCoreNLP(r'stanford-corenlp-full-2018-02-27')
    s_eng = 'I love natural language processing technology!'
    ner_eng = eng_model.ner(s_eng)
    s_eng1 = 'I love Beijing Tiananmen!'
    ner_eng1 = eng_model.ner(s_eng1)
    print(ner_eng)
    print(ner_eng1)
    
    [('I', 'O'), ('love', 'O'), ('natural', 'O'), ('language', 'O'), ('processing', 'O'), ('technology', 'O'), ('!', 'O')]
    [('I', 'O'), ('love', 'O'), ('Beijing', 'CITY'), ('Tiananmen', 'LOCATION'), ('!', 'O')]
    

    MALLET

    麻省大学开发的一个统计自然语言处理的开源包,其序列标注工具的应用中能够实现命名实体识别。 官方地址:http://mallet.cs.umass.edu/

    Hanlp

    HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。支持命名实体识别。 Github地址:https://github.com/hankcs/pyhanlp

    官网:http://hanlp.linrunsoft.com/

    # 安装:pip install pyhanlp
    # 国内源安装:pip install pyhanlp  -i https://pypi.tuna.tsinghua.edu.cn/simple
    # 通过crf算法识别实体
    from pyhanlp import *
    # 音译人名示例
    CRFnewSegment = HanLP.newSegment("crf")
    term_list = CRFnewSegment.seg("我爱北京天安门!")
    print(term_list)
    
    [我/r, 爱/v, 北京/ns, 天安门/ns, !/w]
    

    NLTK

    NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。

    Github地址:https://github.com/nltk/nltk 官网:http://www.nltk.org/

    # 安装:pip install nltk
    # 国内源安装:pip install nltk  -i https://pypi.tuna.tsinghua.edu.cn/simple
    import nltk
    s = 'I love natural language processing technology!'
    s_token = nltk.word_tokenize(s)
    s_tagged = nltk.pos_tag(s_token)
    s_ner = nltk.chunk.ne_chunk(s_tagged)
    print(s_ner)
    

    SpaCy

    工业级的自然语言处理工具,遗憾的是不支持中文。 Gihub地址: https://github.com/explosion/spaCy 官网:https://spacy.io/

    # 安装:pip install spaCy
    # 国内源安装:pip install spaCy  -i https://pypi.tuna.tsinghua.edu.cn/simple
    import spacy 
    eng_model = spacy.load('en')
    s = 'I want to Beijing learning natural language processing technology!'
    # 命名实体识别
    s_ent = eng_model(s)
    for ent in s_ent.ents:
       print(ent, ent.label_, ent.label)
    
    Beijing GPE 382
    

    Crfsuite

    可以载入自己的数据集去训练CRF实体识别模型。

    文档地址:

    https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest

    代码已上传:https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/NER.ipynb

    6. 总结

    ​ 命名实体识别是自然语言处理应用中的重要步骤, 它不仅检测出实体边界,还检测出命名实体的类型,是文本意义理解的基础。 本文阐述了命名实体识别的研究进展,从早期基于规则和词典的方法,到传统机器学习的方法,到近年来基于深度学习的方法, 神经网络与 CRF 模型相结合的 NN-CRF 模型依旧是目前命名实体识别的主流模型。 未来的研究中,数据标注和非正式文本(评论、论坛发言等未出现过的实体)仍会是两个挑战。迁移学习、对抗学习、远监督学习方法以及图神经网络、注意力机制、NER模型压缩、多类别实体、嵌套实体、实体识别和实体链接联合任务等都会是NER未来研究的重点。

    参考文献

    [1] Zhang Y , Yang J . Chinese NER Using Lattice LSTM[J]. 2018.

    [2] Strubell E , Verga P , Belanger D , et al. Fast and Accurate Entity Recognition with Iterated Dilated Convolutions[J]. 2017.

    [3] Zhu Y , Wang G , Karlsson B F . CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition[J]. 2019.

    [4] Emelyanov A A , Artemova E . Multilingual Named Entity Recognition Using Pretrained Embeddings, Attention Mechanism and NCRF[J]. 2019.

    [5] Li J , Sun A , Han J , et al. A Survey on Deep Learning for Named Entity Recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, PP(99):1-1.

    [6] Ratnaparkhi A . A Maximum Entropy Model for Part-Of-Speech Tagging. 2002.

    [7] MCCALLUM A, FREITAG D, PEREIRA F C N. Maximum Entropy Markov Models for Information Extraction andSegmentation[C]//Icml, 2000, 17: 591-598

    [8] Lafferty J , Mccallum A , Pereira F . Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]// Proc. 18th International Conf. on Machine Learning. 2001.

    [9] 陈曙东, 欧阳小叶. 命名实体识别技术综述[J]. 无线电通信技术, 2020, 046(003):251-260.

    [10] 刘宇鹏, 栗冬冬. 基于BLSTM-CNN-CRF的中文命名实体识别方法[J]. 哈尔滨理工大学学报, 2020, v.25(01):119-124.

    [11] Huang Z , Wei X , Kai Y . Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer Science, 2015.

    [12] Xiang R , He W , Meng Q , et al. AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016.

    [13] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural Language Processing (almost) from Scratch[J]. Journal of MachineLearning Research, 2011, 12(Aug): 2493-2537

    展开全文
  • 自然语言处理的相关硕士论文,命名实体识别、词性标注、LSA、LDA、问句分类、hownet、潜在语义分析等30多片论文,侵删。论文来自万方
  • 命名实体识别 依存句法分析 语义依存分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理 HanLP: Han Language Processing | | | 面向生产环境的多语种自然语言处理工具包,基于 ...
  • 命名实体识别(NER)】(1):命名实体识别综述

    万次阅读 多人点赞 2019-03-23 09:41:44
    命名实体识别综述 什么是命名实体识别? 命名实体识别(Named Entity Recognition,简称NER),又称作**“专名识别”,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义...
  • NLP(5) | 命名实体识别

    千次阅读 2019-10-25 21:50:08
    NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP(3)| seq to seq ...普通的工具如hanlp,htp,不能识别特定领域的专有名词,所以需要实体识别的算法。下面就...
  • 实验-2 基于BiLSTM-CRF的命名实体识别 4 2.1 实验目的 4 2.2 预备知识 4 2.3 实验任务 6 实验报告提交 7 实验-1 中文分词 1.1 实验目的 通过实验了解中文分词的大致思路。在实验中实现中文分词处理,可考虑使用课堂...
  • 欢迎大家来到我们的项目实战课,本期内容是《基于BiLSTM+CRF的命名实体识别实战》。所谓项目课,就是以简单的原理回顾+详细的项目实战的模式,针对具体的某一个主题,进行代码级的实战讲解。本次主题命名实体识别...
  • 命名实体识别研究综述

    万次阅读 2019-04-15 00:35:18
    命名实体识别研究进展综述 1 引 言 命名实体识别(Named Entity Recognition,NER)的主要任务是识别出文本中的...从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。命名实体是未登录词中数...
  • • 掌握循环神经网络算法    • 掌握自然语言处理关键技术    • 了解自然语言处理的应用 词性标注    定义       • 词性标注:为...
  • 命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。
  • 针对两种基于KNN图孤立点检测方法:入度统计法(ODIN)和K最邻近(K-nearest Neighbor,RSS)算法的不足,提出了一种新的改进方法:两阶段孤立点检测方法,并进行了适当扩充使之适用于数据集中孤立点数目未知情况下...
  • 一文了解命名实体识别

    千次阅读 2020-09-04 20:25:53
    导读:从1991年开始,命名实体识别逐渐开始走进人们的视野,在各评测会议的推动下,命名实体识别技术得到了极大地发展,从最初的基于规则和字典的方法,到现在热门的注意力机制、图神经网络等方法,命名实体识别已经...
  • NLP之中文命名实体识别

    万次阅读 多人点赞 2018-09-25 18:45:47
    在MUC-6中首次使用了命名实体(named entity)这一术语,由于当时关注的焦点是信息抽取(information extraction)问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织...
  • python调用hanlp进行命名实体识别

    千次阅读 2019-07-15 09:11:35
    本文分享自6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。 1、python与jdk版本位数一致 2、pip install jpype1(python3.5) 3、类库hanlp.jar包、模型data包、配置...
  • 在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。最近,笔者阅读了一系列基于深度学习的NER研究的相关论文,并将其应用到达观的NER基础模块中,在此...
  • NER命名实体抽取

    千次阅读 2020-09-22 18:40:02
    NER抽取针对无规则数据,有规则数据也没必要去做了,针对英文数据个人推荐几个工具:NLTP,hanlp,stanfordcorp,下来大概说一下nltp去提取命名实体: # coding=utf-8 import re import pandas a
  • 命名实体识别

    万次阅读 2016-09-14 16:46:02
    引言 命名实体识别(Named Entity Recognition, NER)的主要任务是...从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。命名实体是未登录词中数量最多、识别难度最大、对分词效果影响最大的
  • 命名实体识别, 简称NER,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字,通常被看做是序列标注任务,现有主流的方法是使用神经网络来做,包括...
  • 嵌套命名实体识别任务简介

    千次阅读 2020-11-09 19:29:00
    来自:哈工大讯飞联合实验室本期导读:嵌套命名实体是一种特殊形式的命名实体,由于其复杂的层次化结构,传统的基于序列标注的命名实体模型不能很好地解决嵌套命名实体识别的任务。因此,自然语言处理...
  • 大数据背景的电子商务商品实体识别算法.pdf
  • NLP(五)命名实体识别(NER)

    千次阅读 2020-10-16 15:37:48
      命名实体识别(Named Entity Recognition,简称NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务...
  • ©作者 | 周志洋单位 | 腾讯算法工程师研究方向 | 对话机器人命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名...
  • 课程目标: 学习完本门课程,您将对自然语言处理技术有更深入的了解,彻底掌握中文命名实体识别技术。 适用人群: 自然语言处理从业者、深度学习爱好者 课程简介: 命名实体识别作为自然语言处理的基础技术之一,在...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 35,284
精华内容 14,113
关键字:

命名实体分析算法