精华内容
下载资源
问答
  • 自然语言理解

    2018-09-29 19:21:14
    中文自然语言的总体概述 包括历史发展 所要处理的问题以及设计的具体技术细节
  • 根据MarketsandMarkets的研究,自然语言处理(NLP)市场规模预计将从2019年的102亿美元增长到2024年的264亿美元。即使在全球Covid-19大流行之后,企业组织也比以往任何时候都更加了解NLP,并且正在向NLP投资。事实上...

    根据MarketsandMarkets的研究,自然语言处理(NLP)市场规模预计将从2019年的102亿美元增长到2024年的264亿美元。即使在全球Covid-19大流行之后,企业组织也比以往任何时候都更加了解NLP,并且正在向NLP投资。事实上,最近的一项研究显示,尽管在整体IT今年消费低迷,NLP预算提高整个组织的行业,公司规模和位置(需要下载)的任何地方从10%至30%。

    显然,2020年是应用NLP的大规模增长之一,但实际上是什么实践在推动使用和预算的增长呢?尽管有许多促成因素,但这是塑造NLP行业和当今开源生态系统的三个主要趋势。

    1.模型需要更好的管理员

    过去几年中,公开可用的NLP模型数量激增-想想TensorFlow,PyTorch,Hugging Face等等。虽然将模型放在渴望的用户的指尖上是很棒的,但饱和度越高,找到下一个项目实际应使用的模型就越困难。以拥抱脸为例。社区中的任何人都可以免费上载模型,现在您有3,000多种模型可供选择,但无法确定哪种模型最符合您的标准。

    归根结底,许多用户希望有人为他们的项目策划最准确的模型(实际上是受支持的)。这是使用开源库(例如Spark NLP)的优势之一,该库同时提供准确性和支持。许可用户可以获得库,模型和支持,可帮助您准确找到所需的内容。也就是说,即使允许任何人上传模型的TensorFlow现在也可以帮助用户对精选模型进行排序。新的模型中心正在增加更好的搜索,发现和管理,这将继续有助于采用和易用性。

    2.多语言模式

    根据前面提到的NLP调查,语言支持被列为技术领导者提到的最大挑战之一。NLP库中支持的语言数量有所不同。例如,斯坦福大学CoreNLP列出了六个,而Spark NLP附带了46种语言的模型。最近,支持多种语言变得更加容易,快捷和经济。得益于诸如语言不可知的句子嵌入,零镜头学习和多语言嵌入的公共可用性等最新进展,支持数十种语言的开放源代码库首次成为常态。

    从历史上看,最优质的NLP软件是英语或中文。令人兴奋和欣慰的是像谷歌和Facebook等公司发布预训练的嵌入了超过150种语言的模型。这是在几年前闻所未闻的。现在,我们可以期望所有这些语言的开源模型都可以使用。这是实现包容性和多样性的重要一步,使NLP遍及全球用户。

    3.最先进的模型是一行代码的

    过去,必须在该领域进行正规教育并使用核心NLP库,才能使用深度学习模型。以情绪为例:推断“美好的一天”是一个积极的陈述,您需要数据科学家进行培训。这些都是过去的事情。现在,运行历史上许多最准确,最复杂的深度学习模型已减少为仅一行Python代码。

    这大大降低了刚入门者的入门门槛,这就是重点。通过将需求减少到一行代码,对NLP一无所知的人可以上手。但是,这不仅对NLP新手有用。即使对于知道如何训练模型的数据科学家而言,这种易用性也实现了一定程度的自动化,使他们有时间进行更复杂的项目。这是每个人的胜利。

    自从NLP诞生以来,已经有几次证明这种技术如此有价值。现在是那些时代之一。公司已利用NLP进行所有工作:分析简历,做出投资决策,提供客户服务,诊断和分诊患者,改善销售参与度,汇总法律文件以及开发新药物。这些都是在最近的NLP峰会上提出的用例,我公司作为赞助者参加了这些用例。在不断增长的应用程序和技术的民主化之间,很高兴看到随着NLP变得更加易于使用,NLP的未来。但可以肯定的是:NLP有望在2021年实现更大的增长。

    展开全文
  • 自然语言处理旨在设计算法使计算机像人一样理解和处理自然语言,是互联网和大数据时代的必然。自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器翻译和社会计算等。随着...
  • 自然语言处理的十个发展趋势

    千次阅读 2017-11-20 00:00:00
    概要:哈尔滨工业大学刘挺教授在第三届中国人工智能大会上对自然语言处理的发展趋势做了一次精彩的归纳。 哈尔滨工业大学刘挺教授在第三届中国人工智能大会上对自然语言处理的发展趋势做了一次精彩的归纳。 ...

    源: 人工智能头条

    概要:哈尔滨工业大学刘挺教授在第三届中国人工智能大会上对自然语言处理的发展趋势做了一次精彩的归纳。


    哈尔滨工业大学刘挺教授在第三届中国人工智能大会上对自然语言处理的发展趋势做了一次精彩的归纳。


    趋势 1:语义表示——从符号表示到分布表示



    自然语言处理一直以来都是比较抽象的,都是直接用词汇和符号来表达概念。但是使用符号存在一个问题,比如两个词,它们的词性相近但词形不匹配,计算机内部就会认为它们是两个词。举个例子,荷兰和苏格兰这两个国家名,如果我们在一个语义的空间里,用词汇与词汇组合的方法,把它表示为连续、低维、稠密的向量的话,就可以计算不同层次的语言单元之间的相似度。这种方法同时也可以被神经网络直接使用,是这个领域的一个重要的变化。


    从词汇间的组合,到短语、句子,一直到篇章,现在有很多人在做这个事,这和以前的思路是完全不一样的。


    有了这种方法之后,再用深度学习,就带来了一个很大的转变。原来我们认为自然语言处理要分成几个层次,但是就句法分析来说,它是人为定义的层次,那它是不是一定必要的?这里应该打一个问号。



    实际工作中,我们面临着一个课题——信息抽取。我之前和一个单位合作,初衷是我做句法分析,然后他们在我的基础上做信息抽取,相互配合,后来他们发表了一篇论文,与初衷是相悖的,它证明了没有句法分析,也可以直接做端到端的直接的实体关系抽取,这很震撼,不是说现在句法分析没用了,而是我们认为句法分析是人为定义的层次,在端到端的数据量非常充分,可以直接进行信息抽取的时候,那么不用句法分析,也能达到类似的效果。当端到端的数据不充分时,才需要人为划分层次。


    趋势 2:学习模式——从浅层学习到深度学习



    浅层到深层的学习模式中,浅层是分步骤走,可能每一步都用了深度学习的方法,实际上各个步骤是串接起来的。直接的深度学习是一步到位的端到端,在这个过程中,我们确实可以看到一些人为贡献的知识,包括该分几层,每层的表示形式,一些规则等,但我们所谓的知识在深度学习里所占的比重确实减小了,主要体现在对深度学习网络结构的调整。


    趋势 3:NLP平台化——从封闭走向开放



    以前我们搞研究的,都不是很愿意分享自己的成果,像程序或是数据,现在这些资料彻底开放了,无论是学校还是大企业,都更多地提供平台。NLP领域提供的开放平台越来越多,它的门槛也越来越降低。


    语音和语言其实有很大的差别,我认识的好几位国内外的进入NLP的学者,他们发现NLP很复杂,因为像语音识别和语音合成等只有有限的问题,而且这些问题定义非常清晰。但到了自然语言,要处理的问题变得纷繁复杂,尤其是NLP和其他的领域还会有所结合,所以问题非常琐碎。


    趋势 4:语言知识——从人工构建到自动构建



    AlphaGo告诉我们,没有围棋高手介入他的开发过程,到AlphaGo最后的版本,它已经不怎么需要看棋谱了。所以AlphaGo在学习和使用过程中都有可能会超出人的想像,因为它并不是简单地跟人学习。



    美国有一家文艺复兴公司,它做金融领域的预测,但是这个公司不招金融领域的人,只是招计算机、物理、数学领域的人。这就给了我们一个启发,计算机不是跟人的顶级高手学,而是用自己已有的算法,去直接解决问题。


    但是在自然语言处理领域,还是要有大量的显性知识的,但是构造知识的方式也在产生变化。比如,现在我们开始用自动的方法,自动地去发现词汇与词汇之间的关系,像毛细血管一样渗透到各个方面。


    趋势 5:对话机器人——从通用到场景化



    最近出现了各种图灵测试的翻版,就是做知识抢答赛来验证人工智能,从产学研应用上来讲就是对话机器人,非常有趣味性和实用价值。


    这块的趋势在哪里?我们知道,从Siri刚出来,国内就开始做语音助手了,后来语音助手很快下了马,因为它可以听得到但是听不懂,导致后面的服务跟不上。后来国内把难度降低成了聊天,你不是调戏Siri吗,我就做小冰就跟你聊。但是难度降低了,实用性却跟不上来,所以在用户的留存率上,还是要打个问号。


    现在更多的做法和场景结合,降低难度,然后做任务执行,即希望做特定场景时的有用的人机对话。在做人机对话的过程中,大家热情一轮比一轮高涨,但是随后大家发现,很多问题是由于自然语言的理解没有到位,才难以产生真正的突破。


    趋势 6:文本理解与推理——从浅层分析向深度理解迈进



    Google等都已经推出了这样的测试机——以阅读理解作为一个深入探索自然语言理解的平台。就是说,给计算机一篇文章,让它去理解,然后人问计算机各种问题,看计算机是否能回答,这样做是很有难度的,因为答案就在这文章里面,人会很刁钻地问计算机。所以说阅读理解是现在竞争的一个很重要的点。


    趋势 7:文本情感分析——从事实性文本到情感文本



    多年以前,很多人都在做新闻领域的事实性文本,而如今,搞情感文本分析的似乎更受群众欢迎,这一块这在商业和政府舆情上也都有很好地应用。


    趋势 8:社会媒体处理——从传统媒体到社交媒体



    相应的,在社会媒体处理上,从传统媒体到社交媒体的过渡,情感的影响是一方面,大家还会用社交媒体做电影票房的预测,做股票的预测等等。


    但是从长远的角度看,社会、人文等的学科与计算机学科的结合是历史性的。比如,在文学、历史学等学科中,有相当一部分新锐学者对本门学科的计算机的大数据非常关心,这两者在碰撞,未来的前景是无限的,而自然语言处理是其中重要的、基础性的技术。


    趋势 9:文本生成——从规范文本到自由文本



    文本生成这两年很火,从生成古诗词到生成新闻报道到再到写作文。这方面的研究价值是很大的,它的趋势是从生成规范性的文本到生成自由文本。比如,我们可以从数据库里面生成一个可以模板化的体育报道,这个模板是很规范的。然后我们可以再向自由文本过渡,比如写作文。


    趋势 10:NLP+行业——与领域深度结合,为行业创造价值



    最后是谈与企业的合作。现在像银行、电器、医药、司法、教育、金融等的各个领域对NLP的需求都非常多。


    我预测NLP首先是会在信息准备的充分的,并且服务方式本身就是知识和信息的领域产生突破。还比如司法领域,它的服务本身也有信息,它就会首先使用NLP。NLP最主要将会用在以下四个领域,医疗、金融、教育和司法。

    展开全文
  • 自然语言处理主要步骤包括: 分词(只针对中文,英文等西方字母语言已经用空格做好分词了):将文章按词组分开 词法分析:对于英文,有词头、词根、词尾的拆分,名词、动词、形容词、副词、介词的定性,多种词意的...

    自然语言处理主要步骤包括:

            1. 分词(只针对中文,英文等西方字母语言已经用空格做好分词了):将文章按词组分开
            2. 词法分析:对于英文,有词头、词根、词尾的拆分,名词、动词、形容词、副词、介词的定性,多种词意的选择。比如DIAMOND,有菱形、棒球场、钻石3个含义,要根据应用选择正确的意思。
            3. 语法分析:通过语法树或其他算法,分析主语、谓语、宾语、定语、状语、补语等句子元素。
            4. 语义分析:通过选择词的正确含义,在正确句法的指导下,将句子的正确含义表达出来。方法主要有语义文法、格文法。
            但是以上的分析,仅适用于小规模的实验室研究,远不能应用到实际语言环境中,比如说语法,我们能总结出的语法是有限的,可是日常应用的句子,绝大部分是不遵守语法的,如果让语法包罗所有可能的应用,会出现爆炸的景象。

    自然语言处理的应用方向主要有:

            1. 文本分类和聚类:主要是将文本按照关键字词做出统计,建造一个索引库,这样当有关键字词查询时,可以根据索引库快速地找到需要的内容。此方向是搜索引擎的基础,在早期的搜索引擎,比如北大开发的“天问系统”,采用这种先搜集资料、在后台做索引、在前台提供搜索查询服务。目前GOOGLE,百度的搜索引擎仍旧类似,但是采用了自动“蜘蛛”去采集网络上的信息,自动分类并做索引,然后再提供给用户。我曾经在我的文章中做过测试,当文章中有“十八禁”这样的字眼时,点击次数是我其他文章点击次数的几十倍,说明搜索引擎将“十八禁”这个词列为热门索引,一旦有一个“蜘蛛”发现这个词,其他“蜘蛛”也会爬过来。
           2. 信息检索和过滤:这是网络瞬时检查的应用范畴,主要为网警服务,在大流量的信息中寻找关键词,找到了就要做一些其他的判断,比如报警。
            3. 信息抽取:(抄书)信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速自然语言处理系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了自然语言处理研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。
            4. 问答系统:目前仍局限于80年代的专家系统,就是按照LISP语言的天然特性,做逻辑递归。LISP语言是括号式的语言,比如A=(B,C,D),A=(B,E,F),提问:已知B,C,能得到什么样的结论?结论是A,D;若提问改为已知B,结论则是C,D,A或E,F,A。比如一个医疗用的专家系统,你若询问“感冒”的治疗方法,系统可能给出多种原因带来的感冒极其治疗方法,你若询问“病毒性感冒”的治疗方法,则系统会给出比较单一的、明确的治疗方法。你有没有用过AUTOCAD系统,这个就是建立在LISP语言上的括号系统,在用的时候会出现上述情况。
            5. 拼音汉字转换系统:这应该是中文输入法应用范畴的东西,再多的东西我就没想过。
            6. 机器翻译:当前最热门的应用方向,这方面的文章最多。国际上已经有比较好的应用系统,美国有个AIC公司推出过著名的实时翻译系统,欧共体的SYSTRAN系统可以将英、法、德、西、意、葡六种语言实时对译,美、日、德联合开发的自动语音翻译系统,成功进行了10多分钟对话。我国军事科学院、中科院也开发过此类系统。但是这里边的问题也很多,最主要的是“满篇洋文难不住,满篇译文看不懂”,就是脱离了人类智慧的机器翻译,总会搞出让人无法理解的翻译,比如多意词选择哪个意思合适、怎么组织出通顺的语句,等等。所以目前微软、GOOGLE的新趋势是:翻译+记忆,类似机器学习,将大量以往正确的翻译存储下来,通过检索,如果碰到类似的翻译要求,将以往正确的翻译结果拿出来用。GOOGLE宣称今后几年就可以推出商业化的网页翻译系统。
            7. 新信息检测:这个我不知道,没思路。

            以上已经回答了自然语言发展方向的问题。我认为机器翻译是最有前途的方向,其难点在于机器翻译还不具备人类智能,虽然翻译已经达到90%以上的正确程度,然而还是不能象人类翻译那样,可以准确表达。为什么存在这样的难点?关键是自然语言处理做不到人类对自然语言的理解,“处理”和“理解”是天差地别的两个概念。“处理”好比控制眼睛、耳朵、舌头的神经,他们将接收的信息转化成大脑可以理解的内部信息,或者反过来,他们的功能就是这么多。而“理解”则是大脑皮层负责语言理解那部分,多少亿的脑细胞共同完成的功能。一个人因为其自身家庭背景、受教育程度、接触现实中长期形成的条件反射刺激、特殊的强列刺激、当时的心理状况,这么多的因素都会影响和改变“理解”的功能,比如我说“一个靓女开着BMW跑车”,有人心里会想这是二奶吧?有人心里会仇视她,联想到她会撞了人白撞;做汽车买卖的人则会去估量这部车的价值;爱攀比的人也许会想,我什么时候才能开上BWM?所以“理解”是更加深奥的东西,涉及更多神经学、心理学、逻辑学领域。

           还有上下文理解问题,比如这句:“我们90平方米以后会占的分量越来越大,那么这样他的价格本身比高档低很多,所以对于整体把这个价格水平给压下来了,这个确实非常好的。” 你能理解么?估计很难或者理解出多种意思,但是我把前文写出来:“去年国家九部委联合发布了《建设部等部门关于调整住房供应结构稳定住房价格意见的通知》,对90平方米以下住房须占总面积的70%以上作出了硬性规定,深圳市经过一年的调控,目前已做到每个项目的75%都是90平方米以内。深圳市国土资源和房产管理局官员说”看了后面的你才能知道是根据国家的通知,深圳做了相应的调整。

    自然语言理解

    1. 语义表示

    自然语言理解的结果,就是要获得一个语义表示(semantic representation):

    这里写图片描述

    语义表示主要有三种方式:

           1. 分布语义,Distributional semantics
           2. 框架语义,Frame semantics
           3. 模型论语义,Model-theoretic semantics

    1.1 分布语义表示(Distributional semantics)

           说distributional semantics大家比较陌生,但如果说word2vec估计大家都很熟悉,word2vec的vector就是一种distributional semantics。distributional semantics就是把语义表示成一个向量,它的理论基础来自于Harris的分布假设:语义相似的词出现在相似的语境中(Semantically similar words occur in similar contexts)。具体的计算方法有多种,比如LSA(Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)及各种神经网络模型(如LSTM)等。

           这种方法的优点在于,它完全是数据驱动的方法,并且能够很好的表示语义,但一个很大的缺点在于,它的表示结果是一个整体,没有进一步的子结构。

    1.2 框架语义表示(Frame semantics)

           顾名思义,这种方法把语义用一个frame表示出来,比如我们一开始举得例子:“订一张明天北京去杭州的机票,国航头等舱”,表示如下:

    这里写图片描述

           在计算方法上,典型的比如语义角色标注(Semantic Role Labeling),具体可以分为两个步骤:frame identification和argument identification,frame identification用于确定frame的类型,argument identification用于计算各个属性的具体值。这种方法和distributional semantics相比,能够表达丰富的结构。

    1.3 模型论语义表示(Model-theoretic semantics)

           模型轮语义表示的典型框架是把自然语言映射成逻辑表达式(logic form)。比如对于下图中的“中国面积最大的省份是哪个?”,将其表示成逻辑表达式就是图中红色字体部分,进一步那这个逻辑表达式去知识库中查询,就得到了答案。在计算方法上,典型的就是构建一个semantic parser。

    这里写图片描述

           模型论语义表示是对世界知识的完整表示,比前两种方法表达的语义更加完整,但是缺点是semantic parser的构建比较困难,这大大限制了该方法的应用。

    1.4 目前采用的语义表示

           目前常用的是frame semantics表示的一种变形:采用领域(domain)、意图(intent)和属性槽(slots)来表示语义结果。
           其中,领域是指同一类型的数据或者资源,以及围绕这些数据或资源提供的服务,比如“餐厅”,“酒店”,“飞机票”、“火车票”、“电话黄页”等;意图是指对于领域数据的操作,一般以动宾短语来命名,比如飞机票领域中,有“购票”、“退票”等意图;属性槽用来存放领域的属性,比如飞机票领域有“时间”“出发地”“目的地”等;
           对于飞机票领域,我们的语义表示结构如下图所示:

    这里写图片描述

           进一步,我们对于世界的语义描述(又称为domain ontology)如下:

    这里写图片描述

    2. 自然语言理解技术难点

           在确定了自然语言理解的语义表示方法后,我们把技术方案抽象为如下两步:
    这里写图片描述

           这和前文提到的语义角色标注把过程分为frame identification和argument identification类似,领域分类和意图分类对应frame identification,属性抽取对应argument identification。无论对于分类还是对于抽取来说,都需要有外部知识的支持。在实现的过程中,我们面临着如下的困难:

    (1)如何构建知识库
           “总参”除了表示总参谋部外,还是南京一家很火的火锅店;“中华冷面”除了是一种面条,还是一首歌名;“王菲的红豆”是指王菲唱的红豆这首歌,但如果说“韩红的红豆”就不对了,因为韩红没有唱过红豆这首歌。要想把这些知识都理解对,就需要一个庞大的知识库,这个知识库中的实体词数以千万计,怎么挖掘,怎么清洗噪音,都是很大的挑战。

    (2)如何理解用户语句的意图
           “东三环堵吗”这句话意图是查询路况,“下水道堵吗”就不是查路况了;“今天的天气”是想问天气状况,“今天的天气不错”则无此意;“附近哪儿可以喝咖啡”是想找咖啡馆,但“牛皮癣能喝咖啡吗”就是一个知识问答了。类似上述的例子举不胜举,更别说语言理解还受时间、位置、设备、语境等等问题的影响。

    (3)如何构建可扩展的算法框架
           现实世界包含众多的领域,而我们不可能一次性的把所有领域都定义清楚并且实现之,那我们就需要一个可扩展的算法框架,每当修改或者新增某个领域的时候,不会对其他领域造成干扰。

    (4)如何构建数据驱动的计算流程
           大数据时代,如果一个算法或者流程不是数据驱动的,不是随着数据的增加而自动提升效果,那这个算法框架就没有持续的生命力。

    (5)如何融入上下文知识
           在对话场景中,每句话都有对话上下文,同样的句子在不同的上下文中理解结果是不一样的,比如如下的例子,同样的一句话“今天天气好吗”在左侧图中属于天气领域,而在右侧图中则属于音乐领域。

    这里写图片描述

    展开全文
  • 自然语言处理主要步骤包括: 1.分词(只针对中文,英文等西方字母语言已经用空格做好分词了):将文章按词组分开 2.词法分析:对于英文,有词头、词根、词尾的拆分,名词、动词、形容词、副词、介词的定性,...
    自然语言处理主要步骤包括:

    1.分词(只针对中文,英文等西方字母语言已经用空格做好分词了):将文章按词组分开

    2.词法分析:对于英文,有词头、词根、词尾的拆分,名词、动词、形容词、副词、介词的定性,多种词意的选择。比如DIAMOND,有菱形、棒球场、钻石3个含义,要根据应用选择正确的意思。

    3.语法分析:通过语法树或其他算法,分析主语、谓语、宾语、定语、状语、补语等句子元素。

    4.语义分析:通过选择词的正确含义,在正确句法的指导下,将句子的正确含义表达出来。方法主要有语义文法、格文法。

    但是以上的分析,仅适用于小规模的实验室研究,远不能应用到实际语言环境中,比如说语法,我们能总结出的语法是有限的,可是日常应用的句子,绝大部分是不遵守语法的,如果让语法包罗所有可能的应用,会出现爆炸的景象。

    自然语言处理的应用方向主要有:

    1.文本分类和聚类:主要是将文本按照关键字词做出统计,建造一个索引库,这样当有关键字词查询时,可以根据索引库快速地找到需要的内容。此方向是搜索引擎的基础,在早期的搜索引擎,比如北大开发的“天问系统”,采用这种先搜集资料、在后台做索引、在前台提供搜索查询服务。目前GOOGLE,百度的搜索引擎仍旧类似,但是采用了自动“蜘蛛”去采集网络上的信息,自动分类并做索引,然后再提供给用户。我曾经在我的文章中做过测试,当文章中有“十八禁”这样的字眼时,点击次数是我其他文章点击次数的几十倍,说明搜索引擎将“十八禁”这个词列为热门索引,一旦有一个“蜘蛛”发现这个词,其他“蜘蛛”也会爬过来。

    2.信息检索和过滤:这是网络瞬时检查的应用范畴,主要为网警服务,在大流量的信息中寻找关键词,找到了就要做一些其他的判断,比如报警。

    3.信息抽取:(抄书)信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速自然语言处理系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了自然语言处理研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。

    4.问答系统:目前仍局限于80年代的专家系统,就是按照LISP语言的天然特性,做逻辑递归。LISP语言是括号式的语言,比如A=(B,C,D),A=(B,E,F),提问:已知B,C,能得到什么样的结论?结论是A,D;若提问改为已知B,结论则是C,D,A或E,F,A。比如一个医疗用的专家系统,你若询问“感冒”的治疗方法,系统可能给出多种原因带来的感冒极其治疗方法,你若询问“病毒性感冒”的治疗方法,则系统会给出比较单一的、明确的治疗方法。你有没有用过AUTOCAD系统,这个就是建立在LISP语言上的括号系统,在用的时候会出现上述情况。

    5.拼音汉字转换系统:这应该是中文输入法应用范畴的东西,再多的东西我就没想过。

    6.机器翻译:当前最热门的应用方向,这方面的文章最多。国际上已经有比较好的应用系统,美国有个AIC公司推出过著名的实时翻译系统,欧共体的SYSTRAN系统可以将英、法、德、西、意、葡六种语言实时对译,美、日、德联合开发的自动语音翻译系统,成功进行了10多分钟对话。我国军事科学院、中科院也开发过此类系统。但是这里边的问题也很多,最主要的是“满篇洋文难不住,满篇译文看不懂”,就是脱离了人类智慧的机器翻译,总会搞出让人无法理解的翻译,比如多意词选择哪个意思合适、怎么组织出通顺的语句,等等。所以目前微软、GOOGLE的新趋势是:翻译+记忆,类似机器学习,将大量以往正确的翻译存储下来,通过检索,如果碰到类似的翻译要求,将以往正确的翻译结果拿出来用。GOOGLE宣称今后几年就可以推出商业化的网页翻译系统。

    7.新信息检测:这个我不知道,没思路。

    以上已经回答了自然语言发展方向的问题。我认为机器翻译是最有前途的方向,其难点在于机器翻译还不具备人类智能,虽然翻译已经达到90%以上的正确程度,然而还是不能象人类翻译那样,可以准确表达。为什么存在这样的难点?关键是自然语言处理做不到人类对自然语言的理解,“处理”和“理解”是天差地别的两个概念。“处理”好比控制眼睛、耳朵、舌头的神经,他们将接收的信息转化成大脑可以理解的内部信息,或者反过来,他们的功能就是这么多。而“理解”则是大脑皮层负责语言理解那部分,多少亿的脑细胞共同完成的功能。一个人因为其自身家庭背景、受教育程度、接触现实中长期形成的条件反射刺激、特殊的强列刺激、当时的心理状况,这么多的因素都会影响和改变“理解”的功能,比如我说“一个靓女开着BMW跑车”,有人心里会想这是二奶吧?有人心里会仇视她,联想到她会撞了人白撞;做汽车买卖的人则会去估量这部车的价值;爱攀比的人也许会想,我什么时候才能开上BWM?所以“理解”是更加深奥的东西,涉及更多神经学、心理学、逻辑学领域。

    还有上下文理解问题,比如这句:“我们90平方米以后会占的分量越来越大,那么这样他的价格本身比高档低很多,所以对于整体把这个价格水平给压下来了,这个确实非常好的。” 你能理解么?估计很难或者理解出多种意思,但是我把前文写出来:“去年国家九部委联合发布了《建设部等部门关于调整住房供应结构稳定住房价格意见的通知》,对90平方米以下住房须占总面积的70%以上作出了硬性规定,深圳市经过一年的调控,目前已做到每个项目的75%都是90平方米以内。深圳市国土资源和房产管理局官员说”看了后面的你才能知道是根据国家的通知,深圳做了相应的调整。

    “解决的大体思路”,很多自然语言处理目前还处于探索阶段,还根本没有好的解决办法,推荐几个网站:
    1.中国科学院计算技术研究所·数字化室&软件室:http://www.nlp.org.cn/
    2.北大计算语言所:http://icl.pku.edu.cn/
    3.麻省理工人工智能实验室:http://www.csail.mit.edu/index.php

    转载于:https://www.cnblogs.com/StevenL/p/6818421.html

    展开全文
  • 人工智能:第十一章 自然语言理解

    千次阅读 2015-12-08 09:14:56
    自然语言理解 教学内容:自然语言理解的一般概念、句法和语法的自动分析原理、句子的自动理解方法和语言的自动生成等。 教学重点:句法模式匹配、语义的分析、句子的自动理解和语言的自动生成。 教学难点:转移...
  •   首先先了解一下什么是自然语言自然语言是人类社会发展过程中自然产生的语言,是最能体现人类智慧和文明的产物,也是大猩猩与人的区别(2019斯坦福cs224n,lesson1)。它是一种人与人交流的载体,像计算机网络...
  • 机器学习之自然语言处理理解

    千次阅读 2017-05-06 00:36:47
    大数据的机会使得更容易去做自然语言处理,人工智能闭环:数据驱动机器学习,有一个系统用户产生大量数据,基于数据建立模型服务客户。自然语言处理核心想法基于机器学习,统计机器学习方法分类为:分类、匹配、翻译...
  • 自然语言处理的发展历程

    千次阅读 2019-09-24 11:40:10
    自然语言处理的发展大致经历了4个阶段:1956年以前的萌芽期;1957-1970年的快速发展期;1971 -1993年的低谷的发展期和1994年至今的复苏融合期。 一、萌芽期(1956年以前) 1956年以前,可以看作自然语言处理的基础...
  • 人工智能(AI)自然语言理解的问题

    千次阅读 2018-02-27 10:34:29
    “你不可能拥有一个人性化的没有自然语言理解能力的人工智能(AI)系统,“麻省理工学院认知科学与计算学教授Josh Tenenbaum说,“这是区分人类智慧的最明显的事情之一。”    也许使阿尔法狗攻克围棋的技术最终将...
  • 自然语言处理发展及应用

    千次阅读 2020-07-03 22:35:27
    自然语言处理流程(部分不太理解)基础研究的四个层面>1. 词法分析>2. 句法分析>3. 语义分析>4. 语用分析应用领域> 信息检索(IR)> 文本分类>情感分析> 机器翻译> 社会计算>1. 信息...
  • 自然语言理解(NLU)难在哪儿?

    千次阅读 2020-02-24 16:26:29
    要搞清楚自然语言理解难在哪儿,先看自然语言理解任务的本质是什么。作为人工智能关注的三大信息类型(语音、视觉、语言)之一,自然语言文本是典型的无结构数据,由语言符号(如汉字)序列构成。要实现对自然语言的...
  • 自然语言理解(NLU)概念浅析

    千次阅读 2019-04-16 19:47:27
    自然语言理解(NLU)概念浅析 近来,人工智能(AI)行业利好消息不断,各大巨头都在积极拼抢这个领域的人才,笔者最近也频繁收到相关方面的咨询和讨论,不得不说,有时候大家真的搞错。人工智能是个非常大的概念,...
  • NLP基础系列让计算机理解自然语言“教”计算机理解人类的自然语言这部分工作,称作自然语言理解(Natural Language Understanding,NLU)。可以算作自然语言处理(Natural Language Processing,NLP)的一部分。具体要...
  • 理解人类语言,在人工智能领域称为自然语言处理,所谓的自然语言处理,就是用计算机处理人类在日常生活串所使用的自然语言的能力。  让机算机理解自然语言是十分艰难的任务,无法理解计算机语言的原因,主要存在...
  • 任务式对话系统基本框架如下图所示,这里我对语音领域不是很熟悉,所以本文不做具体介绍,因此任务式对话系统基本框架主要包括自然语言理解(NLU),对话管理器( DM) 、语言生成(NLG)。下面内容就具体介绍下这几个...
  • 自然语言处理发展历程

    千次阅读 2019-01-02 22:03:26
    因此,梳理自然语言处理的发展历程对于我们更好地 了解自然语言处理这一学科有着重要的意义。     1950 年图灵提出了著名的“图灵测试”,这一般被认为是自然语言处理思想的开端, 20 世纪 50 年代到 70 年代...
  • 自然语言处理--概述篇

    千次阅读 2019-02-27 01:35:59
    自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指人类社会约定俗成的,区别于人工语言,如...
  • 本文目录概念引入机器阅读理解的简要介绍论文研究背景相关数据集的时间脉络问答系统的分类研究成果实验结果 概念引入 有关中文实体命名识别 逻辑回归 线性回归 时间序列分析 神经网络 self-attention与softmax的推导...
  • 自然语言并不规范,虽然可以找一些基本规则,但是自然语言太灵活了,同一个意思可以用多种方式来表达,不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。 2.错别字 在处理文本时...
  • 有时候觉得很好笑,每天说自己做自然语言处理,可真正,自然语言处理到底是做什么的,我也没有搞明白,不透彻,整个背景还是空缺的,现在对这部分的知识点进行弥补。 看的是宗成庆老师的这本书的讲义。 我们说的...
  • [NLP]自然语言理解概述

    千次阅读 2015-07-16 15:59:13
    自然语言是区别于形式语言或人工语言(如逻辑语言和编程语言等)的人际交流的口头语言(语音)和书面语言(文字)。1、语言与语言理解语言是人类进行通信的自然媒介,它包括口语、书面语以及形体语(如哑语和旗语)...
  • 接触自然语言理解是在偶然间一个机会,笔者作为JAVA后端开发人员,一直对人工智能这个新兴热词很感兴趣。机器的认知分视觉、听觉、触觉,现在语音识别和图像识别技术发展的也很快,模拟机器的大脑对这些信息的判断,...
  • 随着人工智能技术的飞速发展,深度神经网络在计算机视觉、信号分析和自然语言处理等领域中都得到了广泛应用.自然语言处理通过语法分析、语义分析、篇章理解等功能帮助机器处理、理解及运用人类语言.
  • 「实在智能」简介 「实在智能」(杭州实在智能科技有限...2018 年,来自纽约大学、华盛顿大学、DeepMind 等机构的研究者创建了一个多任务自然语言理解基准和分析平台——GLUE(General Language Understanding Evalua.
  • 自然语言理解和自然语言生成是自然语言处理的两大内核,机器翻译是自然语言理解方面最早的研究工作。自然语言处理的主要任务是:研究表示语言能力和语言应用的模型,建立和实现计算框架并提出相应的方法不断地完善...
  • 自然语言处理(NLP)简介

    万次阅读 多人点赞 2020-05-30 00:00:29
    简单地说,自然语言处理就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 117,360
精华内容 46,944
关键字:

自然语言理解发展