精华内容
下载资源
问答
  • NLP是什么

    2018-10-16 15:44:00
    NLP是什么 而在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言。 这包括,既要能让计算机理解自然语言文本的意义,也能以自然语言文本...

     NLP是什么

    而在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言。

    这包括,既要能让计算机理解自然语言文本的意义,也能以自然语言文本来表达给定的深层的意图、思想等。

     

    所以,这项技术往往体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了理解自然语言的能力时,机器才算实现了真正的智能。

    然而,这一切远非人们想象的那么简单。 根本原因就在于自然语言文本和对话的各个层次上广泛存在各种各样的歧义性或多义性。

    并且,由于中文词语是由汉字千变万化组成的,所以中文领域的「自然语言处理」显得尤为复杂。

    专注于「自然语言处理」领域多年, 深耕「语义分析」技术, NLP 的技术和服务一直伴随着 ImageQ 的发展而不断进步。

    从「中文分词」、「词云画像」、「词性分析」到「自动摘要」、「关系挖掘」、「情感分析」、「知识图谱」等,NLP 技术已不再单纯的停留在概念层面, 而是逐步渗透并成功应用在 ImageQ 服务的各个垂直领域中。

    为什么需要NLP

     

    日常生活中,我们总会碰到一些不知道怎么读的生僻字, 这时往往就会去搜索引擎搜索,比如“ 4 个又念什么”。

    我们发现,搜索结果一定是向你展示“ 4 个又组成的字”是怎样的,并一旁附上拼音及注释等,而不是“ 4 个又念什么”这几个孤零零的词或者其表面的匹配结果。

     

    ▲搜索引擎相关结果展示

    这其实就是NLP技术的一个体现了。通过这项技术,人们不必花费大量心力去学习和了解难懂的计算机语言,而是用自己最习惯的语言来使用计算机,并进一步了解这背后的意义。

    NLP 究竟能用来干什么

    那 NLP 究竟能干些什么呢? 我们类比小孩子的学习之路,并结合 ImageQ 平台开放的几项典型 NLP 技术来进行一下说明:

    • 幼儿园时期

    这个时期的我们,接收到的还只是单个的词、或短或长的句子,我们不了解这其中的动词、名词有哪些,搞不懂当中的主体又是谁,也尚不清楚标点符号、分隔符是什么意思,只是单纯的你说一句,我学一句了,小脑袋里充斥着各样的东西,但更多是杂乱的,少有章法可言的。

    好比我们身处的信息的海洋,每天,各类信息和数据不断涌现,尚未处理消化,新一轮的信息轰炸又随即展开,而后不断堆积,再涌现,再堆积......

    到最后采集来的也都是杂乱的,断层的,一些有价值的内容也往往在这个过程中渐渐流失了。

    • 小学时期

    到了小学,我们能学习到的内容慢慢多了起来, 我们知道了“摘”是动词,“花”是名词, “和”是连词等等,清楚标点符号有“,”“。”“?”等,也学会了如何分词、断句等等。

    对应在NLP领域,则是「中文分词」、「词性分析」等层面的展现了。

    ■中文分词

    「中文自动分词」处于中文自然语言处理的底层,是公认的中文信息处理的第一道工序,扮演着重要的角色, 而单词切分又是理解语言的最初的一道工序。

    良好的分词效果能为机器理解提供基础,也为人们做出更好、更正确的决策提供一定依据。

    ■词性分析

    在分词的基础之上,我们为每个分词结果中的单词单独标注一个正确的词性,确定每个词是动词、名词、形容词或其他。

     

    ▲词性分析

    同一个词性在不同场景下所代表的具体属性也会不一样。比如“刀”用于日常生活中会是烹饪工具,而放在公安事件中,则又可能是一种作案工具了。

    通过领先的具有自主知识产权的专利算法——基于BI-LSTM和CRF的文本序列标注系统及方法,运用语言学逻辑解构文字规律,并结合「深度学习」算法优化判断字词之间的语义规则,相较于传统自然语言处理系统,ImageQ 支持更精准的语义识别。

     

    ▲相关技术实现流程

    • 中学时期

    这个时候,我们的学习有了更广泛的涉猎,也开始要学着提炼文章的中心思想, 观点倾向,分析个中人物、事件关系等等。

    这又涉及到自然语言处理中的「依存句法」、「自动摘要」、「情感评分」层级的内容。我们主要讲一下「情感评分」。

    「情感评分」即文本倾向性分析,依托「深度学习」、「机器学习」等语义理解技术,能快速判别大众对某一事件或产品持积极、中性还是消极态度。

    比如我们给定「十九大」报告,其呈现出来情感评分远远大于 1,是积极的正面情绪为主。

     

    ▲「十九大」报告的情绪评分

    具有自主知识产权的 ImageQ 语义分析引擎提供行业领先的 ImageQNLP 和 ImageQMind 语义分析技术, 基于大数据词库辅助和大量的行业语料库,通过「句法分析」和「机器学习」等方法实现智能语义分析。

    在特定场景下的正负面情感分析准确度达到 85% ~ 90% 。经过行业数据标注学习后准确率可达 90% ~ 95%。

    • 大学时期

    通过积累,我们已逐步形成自有的思维方式和知识体系, 在探索新技术的同时,也开始试着将所学应用到实际,解决某些现实问题。

    在「媒体」,「政府」、「公安」等领域多年的积极探索,ImageQ 沉淀了不少技术,积累了大量的行业语料,词库和知识库,同时也汇聚了众多国内外优秀的专家团队协同合作,共同助力为行业客户解决其最重要最实际的问题,大量应用场景和案例也都获得客户的高度认可。

    虽然现阶段针对一定应用, 具有相当「自然语言处理」能力的平台已经出现,并商品化,甚至开始产业化。但对「自然语言处理」的探索, 这还仍未称得上是终点。

    不过可以预见的是,不论是探究自然本质还是付诸实际应用, NLP 技术在将来必定会有令人期待的惊喜和异常快速的发展。

    转载于:https://www.cnblogs.com/chenliangcl/p/9798397.html

    展开全文
  • 在AI时代,我们希望计算机能够拥有...而在计算机领域,自然语言处理(NLP,NaturalLanguageProcessing)就是研究如何让计算机理解并生成人类的语言,从而和人类平等流畅地沟通交流。 自然语言处理技术在百度已经有悠久...

    在AI时代,我们希望计算机能够拥有视觉、听觉、行动以及语言的智能,而相对于听和看以及行动,语言是我们人类区别于其他动物的最重要特征之一。语言是我们思维的载体,也因此我们对于语言的理解和处理,变得尤为重要。而在计算机领域,自然语言处理(NLP,NaturalLanguageProcessing)就是研究如何让计算机理解并生成人类的语言,从而和人类平等流畅地沟通交流。

    自然语言处理技术在百度已经有悠久的历史,早在百度诞生之时就成为搜索技术的重要组成部分,一直伴随着百度的发展而进步。从中文分词、词性分析、改写,到机器翻译、篇章分析、语义理解、对话系统等等,NLP技术已成功应用在们的生活之中。

    NLP是什么?

    NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP由两个主要的技术领域构成:自然语言理解和自然语言生成。

    自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。

    自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。

    NLP技术基于大数据、知识图谱、机器学习、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。

    我们为什么需要NLP?

    人们在用百度搜索一个生僻字时,不知道拼音的情况下会搜索:“4个又念什么?”,我们发现,搜索结果一定是告诉你这个“叕”字念什么,而不是“4个又念什么”的这几个词表面的匹配结果,这其中已经用到自然语言理解的能力了,它帮助搜索引擎理解用户需要搜的是“由4个又组成的字”,而不是“4个又是什么”这几个孤零零的词。由此可见,NLP技术真正能够知道你所说的话的深层语义是什么,这项技术也把人工智能推向了一个新的高度。

    那么NLP究竟能能够干什么?如何帮助业务实现,百度NLP开放的几项典型技术,具体如下:

    情感倾向分析

    针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。情感极性分为积极、消极、中性。情感倾向分析能帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有力的决策支持。

    评论观点抽取

    自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持13类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。

    词义相似度计算

    用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一。

    词法分析

    百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇标注和词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型。

    短文本相似度

    能够提供不同短文本之间相似度的计算,输出的相似度是一个介于-1到1之间的实数值,越接近1则相似度越高。这个相似度值可以直接用于结果排序,也可以作为一维基础特征作用于更复杂的系统。

    DNN语言模型

    语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。

    词向量表示

    词向量表示表示是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。

    依存句法分析

    利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)

    并用树状结构来表示整句的的结构(如主谓宾、定状补等)。
      人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    1.Hanlp自然语言处理工具的使用演练
    2.深度学习、机器学习与NLP,为什么要学习这些新技术
    1.什么是自然语处理,自然语言处理主要有什么用,有什么难点

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台

    展开全文
  • 在AI时代,我们希望计算机能够拥有视觉...而在计算机领域,自然语言处理(NLP, Natural Language Processing)就是研究如何让计算机理解并生成人类的语言,从而和人类平等流畅地沟通交流。 自然语言处理技术 在百度已...

    在AI时代,我们希望计算机能够拥有视觉、听觉、行动以及语言的智能,而相对于听和看以及行动,语言是我们人类区别于其他动物的最重要特征之一。语言是我们思维的载体,也因此我们对于语言的理解和处理,变得尤为重要。而在计算机领域,自然语言处理(NLP, Natural Language Processing)就是研究如何让计算机理解并生成人类的语言,从而和人类平等流畅地沟通交流。

    自然语言处理技术 在百度已经有悠久的历史,早在百度诞生之时就成为搜索技术的重要组成部分,一直伴随着百度的发展而进步。从中文分词、词性分析、改写,到机器翻译、篇章分析、语义理解、对话系统等等,NLP技术已成功应用在们的生活之中。

    NLP是什么?

    NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP由两个主要的技术领域构成:自然语言理解和自然语言生成。

    • 自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。
    • 自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。

    NLP技术基于大数据、知识图谱、机器学习、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。

    我们为什么需要NLP?

    人们在用百度搜索一个生僻字时,不知道拼音的情况下会搜索:“4个又念什么?”,我们发现,搜索结果一定是告诉你这个“叕”字念什么,而不是“4个又念什么”的这几个词表面的匹配结果,这其中已经用到自然语言理解的能力了,它帮助搜索引擎理解用户需要搜的是“由4个又组成的字”,而不是“4个又是什么”这几个孤零零的词。由此可见,NLP技术真正能够知道你所说的话的深层语义是什么,这项技术也把人工智能推向了一个新的高度。

    那么NLP究竟能能够干什么?如何帮助业务实现,百度NLP开放的几项典型技术,具体如下:

    情感倾向分析

    针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。情感极性分为积极、消极、中性。情感倾向分析能帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有力的决策支持。

    6a4e0e19b2d7ac6f862986b5233adcef.png

    评论观点抽取

    自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持13类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。

    1aeb99f045a3b65e6fa047f709f7ab61.png

    词义相似度计算

    用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一。

    1d2f9f4037ee294b44800b43ba7e929c.png

    词法分析

    百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇标注和词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型。

    4e2f2f44772a71139e4291116f2940ad.png

    短文本相似度

    能够提供不同短文本之间相似度的计算,输出的相似度是一个介于-1到1之间的实数值,越接近1则相似度越高。这个相似度值可以直接用于结果排序,也可以作为一维基础特征作用于更复杂的系统。

    3fca754bb72d1fa18963b099bdd27976.png

    DNN语言模型

    语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。

    70554c55740aa727db19ff299eeb1e12.png

    词向量表示

    词向量表示表示是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。

    58a9c810691dbf5331ca22322d1d205f.png

    依存句法分析

    利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)

    并用树状结构来表示整句的的结构(如主谓宾、定状补等)。

    bc3937d1aedbb2e6877586470ab1d3e9.png

    感觉有用的朋友,点个关注,给个收藏,就是对我坚持更新,最好的支持

    展开全文
  • 什么是NLP

    2021-01-21 23:39:02
    定义\color{#6495ED}定义定义介绍\color{#D2691E}介绍介绍 ...NLP这个\color{#2F4F4F}这个这个概念\color{#6495ED}概念概念本身\color{#2F4F4F}本身本身过于\color{#EE82EE}过于过于庞大\color{#32CD32}

    \color{#6495ED}定义\color{#D2691E}介绍

    \color{#6495ED}自然语言处理\color{#6495ED}英文Natural Language Processing,\color{#6495ED}简写NLP。NLP\color{#2F4F4F}这个\color{#6495ED}概念\color{#2F4F4F}本身\color{#EE82EE}过于\color{#32CD32}庞大\color{#D2691E}可以\color{#4682B4}把\color{#2F4F4F}它\color{#D2691E}分成\color{#6495ED}自然\color{#6495ED}语言\color{#EE82EE}和\color{#D2691E}处理\color{#000000}两\color{#6495ED}部分\color{#EE82EE}先\color{#EE82EE}来看\color{#6495ED}自然\color{#6495ED}语言\color{#D2691E}区分\color{#4682B4}于\color{#000000}计算机语言\color{#6495ED}自然\color{#6495ED}语言\color{#D2691E}是\color{#6495ED}人类\color{#D2691E}发展\color{#6495ED}过程\color{#000000}中\color{#D2691E}形成\color{#EE82EE}的\color{#000000}一\color{#000000}种\color{#6495ED}信息\color{#D2691E}交流\color{#EE82EE}的\color{#6495ED}方式\color{#D2691E}包括\color{#6495ED}口语\color{#EE82EE}及\color{#6495ED}书面语\color{#D2691E}反映\color{#EE82EE}了\color{#6495ED}人类\color{#EE82EE}的\color{#6495ED}思维\color{#EE82EE}都\color{#D2691E}是\color{#4682B4}以\color{#6495ED}自然\color{#6495ED}语言\color{#EE82EE}的\color{#6495ED}形式\color{#D2691E}表达

    \color{#9370DB}现在\color{#6495ED}世界\color{#000000}上\color{#EE82EE}所有\color{#EE82EE}的\color{#6495ED}语种\color{#6495ED}语言\color{#EE82EE}都\color{#D2691E}属于\color{#6495ED}自然\color{#6495ED}语言\color{#D2691E}包括\color{#000000}汉语\color{#6495ED}英语\color{#6495ED}法语\color{#EE82EE}等\color{#EE82EE}然后\color{#EE82EE}再\color{#EE82EE}来看\color{#D2691E}处理”。\color{#EE82EE}如果\color{#EE82EE}只是\color{#EE82EE}人工\color{#D2691E}处理\color{#EE82EE}的话\color{#2F4F4F}那\color{#EE82EE}原本\color{#EE82EE}就\color{#D2691E}有\color{#EE82EE}专门\color{#EE82EE}的\color{#6495ED}语言学\color{#D2691E}来\color{#D2691E}研究\color{#EE82EE}也\color{#EE82EE}没\color{#32CD32}必要\color{#EE82EE}特地\color{#D2691E}强调\color{#6495ED}自然”。\color{#EE82EE}因此\color{#2F4F4F}这个\color{#D2691E}处理\color{#EE82EE}必须\color{#D2691E}是\color{#6495ED}计算机\color{#D2691E}处理\color{#EE82EE}的\color{#EE82EE}但\color{#6495ED}计算机\color{#EE82EE}毕竟\color{#EE82EE}不是\color{#6495ED}人\color{#D2691E}无法\color{#D2691E}像\color{#6495ED}人\color{#EE82EE}一样\color{#D2691E}处理\color{#6495ED}文本\color{#D2691E}需要\color{#D2691E}有\color{#2F4F4F}自己\color{#EE82EE}的\color{#D2691E}处理\color{#6495ED}方式\color{#EE82EE}因此\color{#6495ED}自然语言处理\color{#32CD32}简单\color{#EE82EE}来说\color{#D2691E}即\color{#D2691E}是\color{#6495ED}计算机\color{#D2691E}接受\color{#6495ED}用户\color{#6495ED}自然\color{#6495ED}语言\color{#6495ED}形式\color{#EE82EE}的\color{#D2691E}输入\color{#EE82EE}并\color{#4682B4}在\color{#000000}内部\color{#4682B4}通过\color{#6495ED}人类\color{#EE82EE}所\color{#6495ED}定义\color{#EE82EE}的\color{#6495ED}算法\color{#D2691E}进行\color{#D2691E}加工\color{#D2691E}计算\color{#EE82EE}等\color{#6495ED}系列\color{#D2691E}操作\color{#4682B4}以\color{#D2691E}模拟\color{#6495ED}人类\color{#4682B4}对\color{#6495ED}自然\color{#6495ED}语言\color{#EE82EE}的\color{#D2691E}理解\color{#EE82EE}并\color{#D2691E}返回\color{#6495ED}用户\color{#EE82EE}所\color{#D2691E}期望\color{#EE82EE}的\color{#6495ED}结果\color{#D2691E}正如\color{#6495ED}机械\color{#D2691E}解放\color{#6495ED}人类\color{#EE82EE}的\color{#6495ED}双手\color{#EE82EE}一样\color{#6495ED}自然语言处理\color{#EE82EE}的\color{#6495ED}目的\color{#D2691E}在于\color{#4682B4}用\color{#6495ED}计算机\color{#D2691E}代替\color{#EE82EE}人工\color{#D2691E}来\color{#D2691E}处理\color{#EE82EE}大规模\color{#EE82EE}的\color{#6495ED}自然\color{#6495ED}语言\color{#6495ED}信息\color{#2F4F4F}它\color{#D2691E}是\color{#6495ED}人工智能\color{#6495ED}计算机\color{#6495ED}科学\color{#4169E1}信息工程\color{#EE82EE}的\color{#D2691E}交叉\color{#6495ED}领域\color{#D2691E}涉及\color{#6495ED}统计学\color{#6495ED}语言学\color{#EE82EE}等\color{#EE82EE}的\color{#6495ED}知识\color{#4682B4}由于\color{#6495ED}语言\color{#D2691E}是\color{#6495ED}人类\color{#6495ED}思维\color{#EE82EE}的\color{#D2691E}证明\color{#EE82EE}故\color{#6495ED}自然语言处理\color{#D2691E}是\color{#6495ED}人工智能\color{#EE82EE}的\color{#32CD32}最高\color{#6495ED}境界\color{#4682B4}被\color{#D2691E}誉为\color{#6495ED}人工智能\color{#6495ED}皇冠\color{#000000}上\color{#EE82EE}的\color{#6495ED}明珠”。

    \color{#D2691E}发展\color{#6495ED}历程

    1948\color{#000000}1948\color{#000000}年\color{#32CD32}香\color{#6495ED}农\color{#D2691E}提出\color{#6495ED}信息\color{#6495ED}熵\color{#EE82EE}的\color{#6495ED}概念\color{#2F4F4F}此时\color{#EE82EE}尚未\color{#D2691E}有NLP,\color{#EE82EE}但\color{#4682B4}由于\color{#6495ED}熵\color{#EE82EE}也\color{#D2691E}是NLP\color{#EE82EE}的\color{#6495ED}基石\color{#2F4F4F}之一\color{#4682B4}在\color{#2F4F4F}此\color{#EE82EE}也\color{#D2691E}算作\color{#D2691E}是NLP\color{#EE82EE}的\color{#D2691E}发展\color{#6495ED}历程

    \color{#4682B4}按照\color{#4B0082}维基\color{#6495ED}百科\color{#EE82EE}的\color{#6495ED}说法,NLP\color{#D2691E}发源\color{#4682B4}于1950\color{#000000}1950\color{#000000}年\color{#000000}图灵\color{#4682B4}于\color{#2F4F4F}该\color{#000000}年\color{#D2691E}提出\color{#000000}图灵\color{#D2691E}测试”,\color{#EE82EE}用以\color{#D2691E}检验\color{#6495ED}计算机\color{#D2691E}是否\color{#EE82EE}真正\color{#D2691E}拥有\color{#6495ED}智能

    NLP\color{#6495ED}规则\color{#6495ED}时代

    1950\color{#000000}1950-1970\color{#000000}1970\color{#000000}年\color{#D2691E}模拟\color{#6495ED}人类\color{#D2691E}学习\color{#6495ED}语言\color{#EE82EE}的\color{#6495ED}习惯\color{#4682B4}以\color{#6495ED}语法\color{#6495ED}规则\color{#4682B4}为\color{#6495ED}主流\color{#4682B4}除了\color{#D2691E}参照\color{#4B0082}乔姆\color{#4B0082}斯基\color{#6495ED}文法\color{#6495ED}规则\color{#6495ED}定义\color{#EE82EE}的\color{#6495ED}上下文\color{#D2691E}无关\color{#6495ED}文法\color{#6495ED}规则\color{#000000}外,NLP\color{#6495ED}领域\color{#EE82EE}几乎\color{#D2691E}毫无\color{#6495ED}建树

    NLP\color{#D2691E}统计\color{#6495ED}时代

    20\color{#000000}20\color{#000000}世纪70\color{#000000}70\color{#6495ED}年代\color{#D2691E}开始\color{#D2691E}统计\color{#6495ED}学派\color{#D2691E}盛行,NLP\color{#D2691E}转向\color{#D2691E}统计\color{#6495ED}方法\color{#2F4F4F}此时\color{#EE82EE}的\color{#6495ED}核心\color{#D2691E}是\color{#4682B4}以\color{#D2691E}具有\color{#4B0082}马尔\color{#4B0082}科夫\color{#6495ED}性质\color{#EE82EE}的\color{#6495ED}模型\color{#D2691E}包括\color{#6495ED}语言\color{#6495ED}模型\color{#D2691E}隐\color{#4B0082}马尔\color{#6495ED}可夫\color{#6495ED}模型\color{#EE82EE}等)。

    2001\color{#000000}2001\color{#000000}年\color{#6495ED}神经\color{#6495ED}语言\color{#6495ED}模型\color{#EE82EE}将\color{#6495ED}神经\color{#6495ED}网络\color{#EE82EE}和\color{#6495ED}语言\color{#6495ED}模型\color{#6495ED}相结合\color{#D2691E}应该\color{#D2691E}是\color{#6495ED}历史\color{#000000}上\color{#000000}第一\color{#000000}次\color{#4682B4}用\color{#6495ED}神经\color{#6495ED}网络\color{#D2691E}得到\color{#6495ED}词\color{#D2691E}嵌入\color{#6495ED}矩阵\color{#D2691E}是\color{#9370DB}后来\color{#EE82EE}所有\color{#6495ED}神经\color{#6495ED}网络\color{#6495ED}词\color{#D2691E}嵌入\color{#6495ED}技术\color{#EE82EE}的\color{#D2691E}实践\color{#6495ED}基础\color{#EE82EE}也\color{#D2691E}证明了\color{#6495ED}神经\color{#6495ED}网络\color{#000000}建模\color{#6495ED}语言\color{#6495ED}模型\color{#EE82EE}的\color{#6495ED}可能性

    2001\color{#000000}2001\color{#000000}年\color{#6495ED}条件\color{#4682B4}随\color{#6495ED}机场CRF,\color{#4682B4}从\color{#D2691E}提出\color{#D2691E}开始\color{#EE82EE}就\color{#EE82EE}一直\color{#D2691E}是\color{#6495ED}序列\color{#D2691E}标注\color{#6495ED}问题\color{#EE82EE}的\color{#6495ED}利器便\color{#EE82EE}即便\color{#D2691E}是\color{#6495ED}深度\color{#D2691E}学习\color{#EE82EE}的\color{#9370DB}现在\color{#EE82EE}也\color{#4B0082}常加\color{#4682B4}在\color{#6495ED}神经\color{#6495ED}网络\color{#EE82EE}的\color{#000000}上面\color{#EE82EE}用以\color{#D2691E}修正\color{#D2691E}输出\color{#6495ED}序列

    2003\color{#000000}2003\color{#000000}年,LDA\color{#6495ED}模型\color{#D2691E}提出\color{#6495ED}概率\color{#6495ED}图\color{#6495ED}模型\color{#D2691E}大放异彩,NLP\color{#EE82EE}从此\color{#D2691E}进入\color{#6495ED}主题\color{#6495ED}时代。Topic\color{#6495ED}模型\color{#6495ED}变种\color{#EE82EE}极\color{#32CD32}多\color{#6495ED}参数\color{#6495ED}模型LDA,\color{#EE82EE}非\color{#6495ED}参数\color{#6495ED}模型HDP,\color{#D2691E}有\color{#D2691E}监督\color{#EE82EE}的LabelLDA,PLDA\color{#EE82EE}等

    2008\color{#000000}2008\color{#000000}年\color{#EE82EE}分布式\color{#6495ED}假设\color{#6495ED}理论\color{#D2691E}提出\color{#4682B4}为\color{#6495ED}词\color{#D2691E}嵌入\color{#6495ED}技术\color{#EE82EE}的\color{#6495ED}理论\color{#6495ED}基础

    \color{#4682B4}在\color{#D2691E}统计\color{#6495ED}时代,NLP\color{#D2691E}专注\color{#4682B4}于\color{#6495ED}数据\color{#2F4F4F}本身\color{#EE82EE}的\color{#D2691E}分布\color{#2F4F4F}如何\color{#4682B4}从\color{#6495ED}文本\color{#EE82EE}的\color{#D2691E}分布\color{#000000}中\color{#D2691E}设计\color{#32CD32}更多\color{#EE82EE}更好\color{#EE82EE}的\color{#6495ED}特征\color{#6495ED}模式\color{#D2691E}是\color{#2F4F4F}这\color{#6495ED}时期\color{#EE82EE}的\color{#6495ED}主流\color{#4682B4}在\color{#2F4F4F}这\color{#000000}期间\color{#D2691E}还有\color{#2F4F4F}其他\color{#000000}许多\color{#6495ED}经典\color{#EE82EE}的NLP\color{#6495ED}传统\color{#6495ED}算法\color{#D2691E}诞生\color{#D2691E}包括tfidf、BM25\color{#000000}25、PageRank、LSI、\color{#6495ED}向量\color{#6495ED}空间\color{#EE82EE}与\color{#6495ED}余弦\color{#6495ED}距离\color{#EE82EE}等\color{#FA8072}值得一提的是\color{#4682B4}在20\color{#000000}20\color{#000000}世纪80\color{#000000}8090\color{#000000}90\color{#6495ED}年代\color{#000000}卷\color{#D2691E}积\color{#6495ED}神经\color{#6495ED}网络\color{#D2691E}循环\color{#6495ED}神经\color{#6495ED}网络\color{#EE82EE}等\color{#EE82EE}就\color{#EE82EE}已经\color{#4682B4}被\color{#D2691E}提出\color{#EE82EE}但\color{#D2691E}受限\color{#4682B4}于\color{#D2691E}计算\color{#6495ED}能力,NLP\color{#EE82EE}的\color{#6495ED}神经\color{#6495ED}网络\color{#6495ED}方向\color{#EE82EE}不\color{#D2691E}适于\color{#D2691E}部署\color{#D2691E}训练\color{#32CD32}多\color{#D2691E}停留\color{#4682B4}于\color{#6495ED}理论\color{#6495ED}阶段

    NLP\color{#6495ED}深度\color{#6495ED}时代

    2013\color{#000000}2013\color{#000000}年,word2vec\color{#D2691E}提出,NLP\color{#EE82EE}的\color{#EE82EE}里程碑式\color{#6495ED}技术

    2013\color{#000000}2013\color{#000000}年,CNNs/RNNs/Recursive
    NN,\color{#4682B4}随着\color{#D2691E}算\color{#6495ED}力\color{#EE82EE}的\color{#D2691E}发展\color{#6495ED}神经\color{#6495ED}网络\color{#D2691E}可以\color{#EE82EE}越\color{#D2691E}做\color{#6495ED}越深\color{#000000}之前\color{#D2691E}受限\color{#EE82EE}的\color{#6495ED}神经\color{#6495ED}网络\color{#EE82EE}不再\color{#D2691E}停留\color{#4682B4}在\color{#6495ED}理论\color{#6495ED}阶段\color{#4682B4}在\color{#6495ED}图像\color{#6495ED}领域\color{#D2691E}证明\color{#EE82EE}过\color{#6495ED}实力\color{#000000}后,Text
    CNN\color{#D2691E}问世\color{#EE82EE}同时,RNNs\color{#EE82EE}也\color{#D2691E}开始\color{#D2691E}崛起\color{#4682B4}在\color{#9370DB}如今\color{#EE82EE}的NLP\color{#6495ED}技术\color{#000000}上\color{#32CD32}一般\color{#EE82EE}都\color{#D2691E}能\color{#D2691E}看见CNN/LSTM\color{#EE82EE}的\color{#6495ED}影子

    \color{#9370DB}本世纪\color{#D2691E}算\color{#6495ED}力\color{#EE82EE}的\color{#D2691E}提升使\color{#D2691E}使\color{#6495ED}神经\color{#6495ED}网络\color{#EE82EE}的\color{#D2691E}计算\color{#EE82EE}不再\color{#D2691E}受限\color{#D2691E}有\color{#EE82EE}了\color{#6495ED}深度\color{#6495ED}神经\color{#6495ED}网络\color{#D2691E}加上\color{#D2691E}嵌入\color{#6495ED}技术\color{#6495ED}人们\color{#D2691E}发现\color{#EE82EE}虽然\color{#6495ED}神经\color{#6495ED}网络\color{#D2691E}是\color{#000000}个\color{#6495ED}黑盒子\color{#EE82EE}但\color{#D2691E}能\color{#D2691E}省去\color{#000000}好多\color{#D2691E}设计\color{#6495ED}特征\color{#EE82EE}的\color{#6495ED}精力\color{#EE82EE}至此,NLP\color{#6495ED}深度\color{#D2691E}学习\color{#6495ED}时代\color{#D2691E}开启

    2014\color{#000000}2014\color{#000000}年,seq2seq\color{#D2691E}提出\color{#4682B4}在\color{#FA8072}机器翻译\color{#6495ED}领域\color{#6495ED}神经\color{#6495ED}网络\color{#D2691E}碾压\color{#4682B4}基于\color{#D2691E}统计\color{#EE82EE}的SMT\color{#6495ED}模型

    2015\color{#000000}2015\color{#000000}年,attention\color{#D2691E}提出\color{#D2691E}可以\color{#D2691E}说\color{#D2691E}是NLP\color{#2F4F4F}另\color{#000000}一\color{#EE82EE}里程碑式\color{#EE82EE}的\color{#D2691E}存在\color{#D2691E}带attention\color{#EE82EE}的seq2seq,\color{#D2691E}碾压\color{#000000}上\color{#000000}一\color{#000000}年\color{#EE82EE}的\color{#32CD32}原始seq2seq。\color{#D2691E}记得\color{#D2691E}好像17\color{#000000}17\color{#000000}年\color{#9370DB}年初\color{#D2691E}看过\color{#000000}一\color{#000000}张\color{#6495ED}图\color{#D2691E}调侃\color{#9370DB}当时\color{#6495ED}学术界\color{#EE82EE}都\color{#D2691E}是attention\color{#EE82EE}的\color{#6495ED}现象\color{#EE82EE}也\color{#D2691E}证明了attention\color{#6495ED}神\color{#32CD32}一般\color{#EE82EE}的\color{#6495ED}效果

    2017\color{#000000}2017\color{#9370DB}年末,Transformer\color{#D2691E}提出\color{#EE82EE}似乎\color{#D2691E}是\color{#4682B4}为了\color{#D2691E}应对Facebook\color{#32CD32}纯\color{#4682B4}用 CNN \color{#D2691E}来\color{#D2691E}做seq2seq\color{#EE82EE}的\color{#D2691E}挑衅”,google\color{#EE82EE}就\color{#32CD32}纯\color{#4682B4}用attention,\color{#EE82EE}并 \color{#D2691E}发表 \color{#32CD32}著名 \color{#EE82EE}的《Attention is All You Need》。\color{#6495ED}初看\color{#000000}时\color{#D2691E}以为\color{#2F4F4F}其\color{#6495ED}工程\color{#6495ED}意义\color{#D2691E}大于\color{#6495ED}学术\color{#6495ED}意义\color{#D2691E}直到BERT\color{#EE82EE}的\color{#D2691E}提出\color{#EE82EE}才\color{#D2691E}知道 \color{#2F4F4F}自己 \color{#EE82EE}还是too young。

    2018\color{#000000}2018\color{#9370DB}年末,BERT\color{#D2691E}提出\color{#D2691E}横扫 11\color{#000000}11\color{#000000}项NLP\color{#6495ED}任务\color{#D2691E}奠定 \color{#EE82EE}了\color{#EE82EE}预\color{#D2691E}训练\color{#6495ED}模型\color{#6495ED}方法\color{#EE82EE}的\color{#6495ED}地位,NLP\color{#EE82EE}又\color{#000000}一\color{#6495ED}里程碑\color{#D2691E}诞生\color{#6495ED}光\color{#EE82EE}就 SQuAD 2.0\color{#000000}2.0 \color{#D2691E}上前 6 \color{#000000}名\color{#EE82EE}都\color{#4682B4}用\color{#EE82EE}了BERT\color{#6495ED}技术\color{#EE82EE}就\color{#D2691E}知道BERT\color{#EE82EE}的\color{#32CD32}可怕

    \color{#6495ED}深度\color{#D2691E}学习\color{#6495ED}时代\color{#6495ED}神经\color{#6495ED}网络\color{#D2691E}能够\color{#EE82EE}自动\color{#4682B4}从\color{#6495ED}数据\color{#000000}中\color{#D2691E}挖掘\color{#6495ED}特征\color{#6495ED}人们\color{#4682B4}从\color{#32CD32}复杂\color{#EE82EE}的\color{#6495ED}特征\color{#000000}中\color{#D2691E}脱离\color{#D2691E}出来\color{#D2691E}得以\color{#EE82EE}更\color{#D2691E}专注\color{#4682B4}于\color{#6495ED}模型\color{#6495ED}算法\color{#2F4F4F}本身\color{#EE82EE}的\color{#D2691E}创新\color{#EE82EE}以及\color{#6495ED}理论\color{#EE82EE}的\color{#D2691E}突破\color{#EE82EE}并且\color{#6495ED}深度\color{#D2691E}学习\color{#4682B4}从\color{#000000}一\color{#D2691E}开始\color{#EE82EE}的\color{#FA8072}机器翻译\color{#6495ED}领域\color{#EE82EE}逐渐\color{#D2691E}扩散\color{#D2691E}到NLP\color{#2F4F4F}其他\color{#6495ED}领域\color{#6495ED}传统\color{#EE82EE}的\color{#6495ED}经典\color{#6495ED}算法\color{#6495ED}地位\color{#32CD32}大\color{#D2691E}不如\color{#000000}前\color{#EE82EE}但\color{#6495ED}神经\color{#6495ED}网络\color{#EE82EE}似乎\color{#EE82EE}一直\color{#D2691E}是\color{#000000}个\color{#000000}黑箱\color{#D2691E}可\color{#D2691E}解释\color{#6495ED}性\color{#EE82EE}一直\color{#D2691E}是\color{#000000}个\color{#32CD32}痛\color{#000000}点\color{#EE82EE}且\color{#4682B4}由于\color{#2F4F4F}其\color{#6495ED}复杂度\color{#EE82EE}更高\color{#4682B4}在\color{#6495ED}工业界\color{#6495ED}经典\color{#6495ED}算法\color{#EE82EE}似乎\color{#EE82EE}还是\color{#D2691E}占据\color{#6495ED}主流

    \color{#32CD32}基本\color{#D2691E}分类

    NLP\color{#000000}里\color{#D2691E}细分\color{#6495ED}领域\color{#EE82EE}和\color{#6495ED}技术\color{#EE82EE}实在\color{#32CD32}太多\color{#4682B4}根据NLP\color{#EE82EE}的\color{#6495ED}终极\color{#6495ED}目标\color{#EE82EE}大致\color{#D2691E}可以\color{#D2691E}分为\color{#6495ED}自然\color{#6495ED}语言\color{#D2691E}理解(NLU)\color{#EE82EE}和\color{#6495ED}自然\color{#6495ED}语言\color{#D2691E}生成(NLG)\color{#000000}两\color{#000000}种

    NLU\color{#D2691E}侧重\color{#4682B4}于\color{#2F4F4F}如何\color{#D2691E}理解\color{#6495ED}文本\color{#D2691E}包括\color{#6495ED}文本\color{#D2691E}分类\color{#D2691E}命名\color{#6495ED}实体\color{#D2691E}识别\color{#D2691E}指\color{#000000}代\color{#D2691E}消\color{#32CD32}歧\color{#6495ED}句法\color{#D2691E}分析\color{#6495ED}机器\color{#D2691E}阅读\color{#D2691E}理解\color{#EE82EE}等

    NLG\color{#EE82EE}则\color{#D2691E}侧重\color{#4682B4}于\color{#D2691E}理解\color{#6495ED}文本\color{#000000}后\color{#2F4F4F}如何\color{#D2691E}生成\color{#6495ED}自然\color{#6495ED}文本\color{#D2691E}包括\color{#EE82EE}自动\color{#6495ED}摘要\color{#FA8072}机器翻译\color{#D2691E}问答\color{#6495ED}系统\color{#D2691E}对话\color{#6495ED}机器人\color{#EE82EE}等\color{#2F4F4F}两者\color{#000000}间\color{#EE82EE}不\color{#D2691E}存在\color{#D2691E}有\color{#32CD32}明显\color{#EE82EE}的\color{#6495ED}界限\color{#D2691E}如\color{#6495ED}机器\color{#D2691E}阅读\color{#D2691E}理解\color{#6495ED}实际\color{#D2691E}属于\color{#D2691E}问答\color{#6495ED}系统\color{#EE82EE}的\color{#000000}一个\color{#6495ED}子\color{#6495ED}领域

    \color{#EE82EE}大致\color{#EE82EE}来说,NLP\color{#D2691E}可以\color{#D2691E}分为\color{#000000}以下\color{#EE82EE}几\color{#000000}个\color{#6495ED}领域

    \color{#6495ED}文本\color{#D2691E}检索

    \color{#32CD32}多\color{#D2691E}用于\color{#EE82EE}大规模\color{#6495ED}数据\color{#EE82EE}的\color{#D2691E}检索\color{#6495ED}典型\color{#EE82EE}的\color{#D2691E}应用\color{#D2691E}有\color{#6495ED}搜索引擎

    \color{#FA8072}机器翻译

    \color{#D2691E}跨\color{#6495ED}语种\color{#D2691E}翻译\color{#2F4F4F}该\color{#6495ED}领域\color{#9370DB}目前\color{#EE82EE}已\color{#EE82EE}较为\color{#32CD32}成熟\color{#9370DB}目前\color{#4169E1}谷歌\color{#D2691E}翻译\color{#EE82EE}已\color{#4682B4}用\color{#D2691E}上机\color{#D2691E}翻\color{#6495ED}技术

    \color{#6495ED}文本\color{#D2691E}分类/\color{#6495ED}情感\color{#D2691E}分析

    \color{#6495ED}本质\color{#000000}上\color{#D2691E}就是\color{#000000}个\color{#D2691E}分类\color{#6495ED}问题\color{#9370DB}目前\color{#EE82EE}也\color{#EE82EE}较为\color{#32CD32}成熟\color{#6495ED}难点\color{#D2691E}在于\color{#32CD32}多\color{#6495ED}标签\color{#D2691E}分类\color{#D2691E}即\color{#000000}一个\color{#6495ED}文本\color{#D2691E}对应\color{#32CD32}多\color{#000000}个\color{#6495ED}标签\color{#4682B4}把\color{#2F4F4F}这些\color{#6495ED}标签\color{#000000}全部\color{#D2691E}找到\color{#EE82EE}以及\color{#6495ED}细粒\color{#000000}度\color{#D2691E}分类\color{#000000}二\color{#EE82EE}极\color{#6495ED}情感\color{#D2691E}分类\color{#6495ED}精度\color{#EE82EE}很高\color{#D2691E}即\color{#32CD32}好\color{#000000}中\color{#32CD32}差\color{#EE82EE}三类\color{#EE82EE}而\color{#000000}五\color{#000000}级\color{#6495ED}情感\color{#D2691E}分类\color{#6495ED}精度\color{#EE82EE}仍然\color{#EE82EE}较低\color{#D2691E}即\color{#32CD32}好\color{#EE82EE}较好\color{#000000}中\color{#EE82EE}较差\color{#32CD32}差

    \color{#6495ED}信息\color{#D2691E}抽取

    \color{#4682B4}从\color{#32CD32}不规则\color{#6495ED}文本\color{#000000}中\color{#D2691E}抽取\color{#D2691E}想\color{#D2691E}要\color{#EE82EE}的\color{#6495ED}信息\color{#D2691E}包括\color{#D2691E}命名\color{#6495ED}实体\color{#D2691E}识别\color{#6495ED}关系\color{#D2691E}抽取\color{#6495ED}事件\color{#D2691E}抽取\color{#EE82EE}等\color{#D2691E}应用广\color{#6495ED}极广

    \color{#6495ED}序列\color{#D2691E}标注

    \color{#4682B4}给\color{#6495ED}文本\color{#D2691E}中的\color{#2F4F4F}每\color{#000000}一个\color{#6495ED}字/\color{#6495ED}词\color{#D2691E}打\color{#000000}上\color{#D2691E}相应\color{#EE82EE}的\color{#6495ED}标签\color{#D2691E}是\color{#000000}大多数NLP\color{#6495ED}底层\color{#6495ED}技术\color{#EE82EE}的\color{#6495ED}核心\color{#D2691E}如\color{#6495ED}分词\color{#6495ED}词性\color{#D2691E}标注\color{#6495ED}关键词\color{#D2691E}抽取\color{#D2691E}命名\color{#6495ED}实体\color{#D2691E}识别\color{#6495ED}语义\color{#6495ED}角色\color{#D2691E}标注\color{#EE82EE}等等\color{#EE82EE}曾\color{#D2691E}是HMM、CRF\color{#EE82EE}的\color{#6495ED}天下\color{#EE82EE}近年来\color{#EE82EE}逐步\color{#32CD32}稳定\color{#4682B4}为BiLSTM-CRF\color{#6495ED}体系

    \color{#6495ED}文本\color{#6495ED}摘要

    \color{#4682B4}从\color{#4682B4}给\color{#D2691E}定\color{#EE82EE}的\color{#6495ED}文本\color{#000000}中\color{#D2691E}聚焦\color{#D2691E}到\color{#EE82EE}最\color{#6495ED}核心\color{#EE82EE}的\color{#6495ED}部分\color{#EE82EE}自动\color{#D2691E}生成\color{#6495ED}摘要

    \color{#D2691E}问答\color{#6495ED}系统

    \color{#D2691E}接受\color{#6495ED}用户\color{#4682B4}以\color{#6495ED}自然\color{#6495ED}语言\color{#D2691E}表达\color{#EE82EE}的\color{#6495ED}问题\color{#EE82EE}并\color{#D2691E}返回\color{#4682B4}以\color{#6495ED}自然\color{#6495ED}语言\color{#D2691E}表达\color{#EE82EE}的\color{#D2691E}回答\color{#32CD32}常见\color{#6495ED}形式\color{#4682B4}为\color{#D2691E}检索\color{#ADFF2F}式\color{#D2691E}抽取\color{#ADFF2F}式\color{#EE82EE}和\color{#D2691E}生成\color{#ADFF2F}式\color{#000000}三\color{#000000}种\color{#EE82EE}近年来\color{#EE82EE}交互式\color{#EE82EE}也\color{#EE82EE}逐渐\color{#D2691E}受到\color{#D2691E}关注\color{#6495ED}典型\color{#D2691E}应用\color{#D2691E}有\color{#6495ED}智能\color{#6495ED}客服

    \color{#D2691E}对话\color{#6495ED}系统

    \color{#EE82EE}与\color{#D2691E}问答\color{#6495ED}系统\color{#D2691E}有\color{#000000}许多\color{#D2691E}相通\color{#EE82EE}之\color{#6495ED}处\color{#6495ED}区别\color{#D2691E}在于\color{#D2691E}问答\color{#6495ED}系统\color{#D2691E}旨在\color{#32CD32}直接\color{#4682B4}给\color{#D2691E}出\color{#6495ED}精准\color{#D2691E}回答\color{#D2691E}回答\color{#D2691E}是否\color{#6495ED}口语\color{#D2691E}化\color{#EE82EE}不\color{#4682B4}在\color{#EE82EE}主要\color{#D2691E}考虑\color{#6495ED}范围内\color{#EE82EE}而\color{#D2691E}对话\color{#6495ED}系统\color{#D2691E}旨在\color{#4682B4}以\color{#6495ED}口语\color{#D2691E}化\color{#EE82EE}的\color{#6495ED}自然\color{#6495ED}语言\color{#D2691E}对话\color{#EE82EE}的\color{#6495ED}方式\color{#D2691E}解决\color{#6495ED}用户\color{#6495ED}问题\color{#D2691E}对话\color{#6495ED}系统\color{#9370DB}目前\color{#000000}分\color{#D2691E}闲聊\color{#ADFF2F}式\color{#EE82EE}和\color{#6495ED}任务\color{#6495ED}导向\color{#ADFF2F}型\color{#2F4F4F}前者\color{#EE82EE}主要\color{#D2691E}应用\color{#D2691E}有siri、\color{#4B0082}小冰\color{#EE82EE}等\color{#2F4F4F}后者\color{#EE82EE}主要\color{#D2691E}应用\color{#D2691E}有\color{#EE82EE}车载\color{#D2691E}聊天\color{#6495ED}机器人。(\color{#D2691E}对话\color{#6495ED}系统\color{#EE82EE}和\color{#D2691E}问答\color{#6495ED}系统\color{#D2691E}应该\color{#D2691E}是\color{#EE82EE}最\color{#D2691E}接近NLP\color{#6495ED}终极\color{#6495ED}目标\color{#EE82EE}的\color{#6495ED}领域

    \color{#6495ED}知识\color{#6495ED}图谱

    \color{#4682B4}从\color{#6495ED}规则\color{#EE82EE}或\color{#32CD32}不规则\color{#EE82EE}的\color{#6495ED}文本\color{#000000}中\color{#D2691E}提取\color{#6495ED}结构\color{#D2691E}化\color{#EE82EE}的\color{#6495ED}信息\color{#EE82EE}并\color{#4682B4}以\color{#000000}可视化\color{#EE82EE}的\color{#6495ED}形式\color{#EE82EE}将\color{#6495ED}实体\color{#000000}间\color{#4682B4}以\color{#2F4F4F}何种\color{#6495ED}方式\color{#D2691E}联系\color{#D2691E}表现\color{#D2691E}出来\color{#6495ED}图谱\color{#2F4F4F}本身\color{#EE82EE}不\color{#D2691E}具有\color{#D2691E}应用\color{#6495ED}意义\color{#D2691E}建立\color{#4682B4}在\color{#6495ED}图谱\color{#6495ED}基础上\color{#EE82EE}的\color{#6495ED}知识\color{#D2691E}检索\color{#6495ED}知识\color{#D2691E}推理\color{#6495ED}知识\color{#D2691E}发现\color{#EE82EE}才\color{#D2691E}是\color{#6495ED}知识\color{#6495ED}图谱\color{#EE82EE}的\color{#D2691E}研究\color{#6495ED}方向

    \color{#6495ED}文本\color{#D2691E}聚\color{#000000}类

    \color{#000000}一个\color{#32CD32}古老\color{#EE82EE}的\color{#6495ED}领域\color{#EE82EE}但\color{#9370DB}现在\color{#EE82EE}仍\color{#EE82EE}未\color{#D2691E}研究\color{#32CD32}透彻\color{#4682B4}从\color{#EE82EE}大规模\color{#6495ED}文本\color{#6495ED}数据\color{#000000}中\color{#EE82EE}自动\color{#D2691E}发现\color{#6495ED}规律\color{#6495ED}核心\color{#D2691E}在于\color{#2F4F4F}如何\color{#D2691E}表示\color{#6495ED}文本\color{#EE82EE}以及\color{#2F4F4F}如何\color{#D2691E}度量\color{#6495ED}文本\color{#000000}之间\color{#EE82EE}的\color{#6495ED}距离

    \color{#32CD32}基本\color{#6495ED}技术

    \color{#6495ED}分词\color{#32CD32}基本\color{#D2691E}算是\color{#EE82EE}所有NLP\color{#6495ED}任务\color{#000000}中\color{#6495ED}最底层\color{#EE82EE}的\color{#6495ED}技术\color{#EE82EE}不论\color{#D2691E}解决\color{#2F4F4F}什么\color{#6495ED}问题\color{#6495ED}分词\color{#EE82EE}永远\color{#D2691E}是\color{#000000}第一\color{#000000}步

    \color{#6495ED}词性\color{#D2691E}标注\color{#D2691E}判断\color{#6495ED}文本\color{#D2691E}中的\color{#6495ED}词\color{#EE82EE}的\color{#6495ED}词性\color{#6495ED}名词\color{#6495ED}动词\color{#6495ED}形容词\color{#EE82EE}等等),\color{#32CD32}一般\color{#4682B4}作为\color{#EE82EE}额外\color{#6495ED}特征使\color{#D2691E}使用

    \color{#6495ED}句法\color{#D2691E}分析\color{#D2691E}分为\color{#6495ED}句法\color{#6495ED}结构\color{#D2691E}分析\color{#EE82EE}和\color{#D2691E}依存\color{#6495ED}句法\color{#D2691E}分析\color{#000000}两\color{#000000}种

    \color{#6495ED}词干\color{#D2691E}提取\color{#4682B4}从\color{#6495ED}单词\color{#2F4F4F}各种\color{#6495ED}前缀\color{#6495ED}后缀\color{#D2691E}变化\color{#6495ED}时态\color{#D2691E}变化\color{#EE82EE}等\color{#D2691E}变化\color{#000000}中\color{#D2691E}还原\color{#6495ED}词干\color{#D2691E}常见于\color{#6495ED}英文\color{#6495ED}文本\color{#D2691E}处理

    \color{#D2691E}命名\color{#6495ED}实体\color{#D2691E}识别\color{#D2691E}识别\color{#EE82EE}并\color{#D2691E}抽取\color{#6495ED}文本\color{#D2691E}中的\color{#6495ED}实体\color{#32CD32}一般\color{#D2691E}采用BIO\color{#6495ED}形式

    \color{#D2691E}指\color{#000000}代\color{#D2691E}消\color{#32CD32}歧\color{#6495ED}文本\color{#D2691E}中的\color{#6495ED}代词\color{#D2691E}如\color{#2F4F4F}他”“\color{#2F4F4F}这个\color{#EE82EE}等\color{#D2691E}还原\color{#D2691E}成\color{#2F4F4F}其\color{#EE82EE}所\color{#D2691E}指\color{#6495ED}实体

    \color{#6495ED}关键词\color{#D2691E}抽取\color{#D2691E}提取\color{#6495ED}文本\color{#D2691E}中的\color{#6495ED}关键词\color{#EE82EE}用以\color{#6495ED}表征\color{#6495ED}文本\color{#EE82EE}或\color{#000000}下游\color{#D2691E}应用

    \color{#6495ED}词\color{#6495ED}向量\color{#EE82EE}与\color{#6495ED}词\color{#D2691E}嵌入\color{#4682B4}把\color{#6495ED}单词\color{#D2691E}映射\color{#D2691E}到\color{#32CD32}低\color{#EE82EE}维\color{#6495ED}空间\color{#000000}中\color{#EE82EE}并\color{#D2691E}保持\color{#6495ED}单词\color{#000000}间\color{#EE82EE}相互\color{#6495ED}关系\color{#6495ED}不变\color{#D2691E}是NLP\color{#6495ED}深度\color{#D2691E}学习\color{#6495ED}技术\color{#EE82EE}的\color{#6495ED}基础

    \color{#6495ED}文本\color{#D2691E}生成\color{#D2691E}给定\color{#EE82EE}特定\color{#EE82EE}的\color{#6495ED}文本\color{#D2691E}输入\color{#D2691E}生成\color{#EE82EE}所\color{#D2691E}需要\color{#EE82EE}的\color{#6495ED}文本\color{#EE82EE}主要\color{#D2691E}应用于\color{#6495ED}文本\color{#6495ED}摘要\color{#D2691E}对话\color{#6495ED}系统\color{#FA8072}机器翻译\color{#D2691E}问答\color{#6495ED}系统\color{#EE82EE}等\color{#6495ED}领域

    \color{#32CD32}常用\color{#6495ED}算法

    tfidf、BM25\color{#000000}25、TextRank、HMM、CRF、LSI、\color{#6495ED}主题\color{#6495ED}模型、word2vec、GloVe、LSTM/GRU、CNN、seq2seq、Attention……

    \color{#6495ED}终极\color{#6495ED}目标

    \color{#4682B4}从\color{#6495ED}计算机\color{#D2691E}诞生,NLP\color{#2F4F4F}这个\color{#6495ED}概念\color{#4682B4}被\color{#D2691E}提出\color{#D2691E}伊始\color{#6495ED}人们便\color{#EE82EE}便\color{#D2691E}希望\color{#6495ED}计算机\color{#D2691E}能够\color{#D2691E}理解\color{#6495ED}人类\color{#EE82EE}的\color{#6495ED}语言便\color{#4B0082}于是便\color{#D2691E}有\color{#EE82EE}了\color{#000000}图灵\color{#D2691E}测试

    \color{#EE82EE}尽管google I/O\color{#6495ED}大会\color{#000000}上\color{#EE82EE}的Google
    Assistant\color{#D2691E}宣称\color{#EE82EE}已经\color{#4682B4}通过\color{#EE82EE}了\color{#000000}图灵\color{#D2691E}测试\color{#EE82EE}但\color{#D2691E}离\color{#EE82EE}真正\color{#D2691E}理解\color{#6495ED}人类\color{#6495ED}语言\color{#EE82EE}仍\color{#D2691E}有\color{#EE82EE}很长\color{#EE82EE}的\color{#6495ED}距离\color{#D2691E}让\color{#6495ED}计算机\color{#D2691E}能够\color{#32CD32}确切\color{#D2691E}理解\color{#6495ED}人类\color{#EE82EE}的\color{#6495ED}语言\color{#EE82EE}并\color{#6495ED}自然地\color{#EE82EE}与\color{#6495ED}人\color{#D2691E}进行\color{#EE82EE}交互\color{#D2691E}是NLP\color{#EE82EE}的\color{#EE82EE}最终\color{#6495ED}目标\color{#EE82EE}也\color{#D2691E}是\color{#000000}大多数NLPer\color{#EE82EE}的\color{#32CD32}最高\color{#D2691E}信仰\color{#EE82EE}为此\color{#2F4F4F}各路\color{#6495ED}大佬\color{#D2691E}挥舞\color{#2F4F4F}手中\color{#EE82EE}的\color{#6495ED}代码\color{#EE82EE}不断\color{#D2691E}挖坑\color{#6495ED}填坑\color{#D2691E}攻克\color{#000000}一个\color{#EE82EE}又\color{#000000}一个\color{#6495ED}难题\color{#D2691E}推动NLP\color{#EE82EE}一直\color{#4682B4}往\color{#000000}前\color{#D2691E}发展

    \color{#D2691E}研究\color{#6495ED}难点

    \color{#EE82EE}仍\color{#D2691E}有\color{#000000}很多\color{#D2691E}制约NLP\color{#D2691E}发展\color{#EE82EE}的\color{#6495ED}因素\color{#2F4F4F}这些\color{#6495ED}因素\color{#D2691E}构成\color{#EE82EE}了NLP\color{#EE82EE}的\color{#6495ED}难点\color{#EE82EE}而且\color{#D2691E}要命\color{#EE82EE}的\color{#D2691E}是\color{#000000}大多数\color{#D2691E}是\color{#6495ED}基础\color{#6495ED}技术\color{#EE82EE}的\color{#6495ED}难点

    \color{#6495ED}中文\color{#6495ED}分词\color{#2F4F4F}这\color{#000000}条\color{#D2691E}是\color{#EE82EE}专门\color{#4682B4}针对\color{#6495ED}中文\color{#D2691E}说\color{#EE82EE}的\color{#D2691E}众所周知\color{#000000}汉语\color{#D2691E}博大精深\color{#6495ED}老外\color{#6495ED}学汉语\color{#EE82EE}尚且\color{#6495ED}虐心\color{#EE82EE}更\color{#D2691E}别提\color{#6495ED}计算机\color{#EE82EE}了\color{#4682B4}同\color{#000000}一个\color{#6495ED}任务\color{#4682B4}同\color{#000000}一个\color{#6495ED}模型\color{#4682B4}在\color{#6495ED}英文\color{#6495ED}语料\color{#EE82EE}的\color{#D2691E}表现\color{#000000}上\color{#32CD32}一般\color{#D2691E}要\color{#4682B4}比\color{#6495ED}中文\color{#6495ED}语料\color{#32CD32}好\color{#EE82EE}无论是\color{#4682B4}基于\color{#D2691E}统计\color{#EE82EE}的\color{#EE82EE}还是\color{#4682B4}基于\color{#6495ED}深度\color{#D2691E}学习\color{#EE82EE}的NLP\color{#6495ED}方法\color{#6495ED}分词\color{#EE82EE}都\color{#D2691E}是\color{#000000}第一\color{#000000}步\color{#6495ED}分词\color{#D2691E}表现\color{#32CD32}不好\color{#EE82EE}的话\color{#000000}后面\color{#EE82EE}的\color{#6495ED}模型\color{#32CD32}最多\color{#EE82EE}也\color{#D2691E}只能\color{#EE82EE}尽力\color{#D2691E}纠偏

    \color{#6495ED}词义\color{#D2691E}消\color{#32CD32}歧\color{#000000}很多\color{#6495ED}单词\color{#EE82EE}不\color{#EE82EE}只有\color{#000000}一个\color{#6495ED}意思\color{#EE82EE}但\color{#2F4F4F}这个\color{#4682B4}在\color{#9370DB}今年BERT\color{#D2691E}推出\color{#000000}后\color{#D2691E}应该\color{#D2691E}不成\color{#6495ED}问题\color{#D2691E}可以\color{#4682B4}通过\color{#6495ED}上下文\color{#D2691E}学\color{#D2691E}到\color{#32CD32}不同\color{#EE82EE}的