精华内容
下载资源
问答
  • NLP-投资组合 自然语言处理概念验证代码
  • 统计自然语言处理基本概念 统计自然语言处理基本概念 统计自然语言处理基本概念
  • 自然语言处理基本概念

    千次阅读 2017-03-29 10:24:30
    自然语言处理常用术语 文本主要分为三种文本,自由文本、结构化文本、半结构化文本,自然语言处理一般是对自由文本进行的处理。 分词 通常我们处理的自由文本分为中文、英文等。词为文本最基本的单位,分词是进行...

    本文为 http://blog.sina.com.cn/s/blog_1334cae810102wovb.html 笔记

    自然语言处理常用术语

    文本主要分为三种文本,自由文本、结构化文本、半结构化文本,自然语言处理一般是对自由文本进行的处理。常见的基本操作如下:

    分词

    通常我们处理的自由文本分为中文、英文等。词为文本最基本的单位,分词是进行自然语言处理中最基本的步骤。分词算法分为词典方法和统计方法。其中,基于词典和人工规则的方法是按照一定的策略将待分析词与词典中的词条进行匹配(正向匹配、逆向匹配、最大匹配)。统计方法是基本字符串在语料库中出现的统计频率,典型的算法有HMM\CRF等。其中CRF相比HMM有更弱的上下文无相关性假设,理论上效果更好一点。

    英文以空格为分割符,因此不需要进行分词的操作(这是片面的,对于一些特殊情况,依旧需要分词的操作 ,例如 it's等,另外对于英文中复合词的情况,也需要进行一定的识别,因此在进行关键词识别的时候会运营到分词的一些技术)。中文的分词工具有很多,近年来常用的是jieba 和stanford corenlp等。

    词性标注

    在进行词性标注时,需先定义出词性的类别:名词、动词、形容词、连词、副词、标点符号等。词性标注是语音识别、句法分析、信息抽取技术的基础技术之一,词性标注是标注问题,可以采用最大熵、HMM或CRF等具体算法进行模型的训练。自动问答系统中,为了提高用户问题匹配后端知识库的召回率,对一些关键词进行了过滤,包括连词、副词对于全文检索系统,理论上可以通过对用户输入的查询条件进行词性过滤,但由于全文检索是基于词袋模型的机械匹配,并且采用IDF作为特征值之一,因此词性标注的效果不大。

    句法分析

    句法分析的目的是确定句子的句法结构,主谓宾、动宾、定中、动补等。在问答系统和信息检索领域有重要的作用。


    命名实体识别

    命名实体识别是定位句子中出现的人名、地名、机构名、专有名词等。命名实体属于标注问题,因此可以采用HMM\CRF等进行模型的训练。基于统计的命名实体识别需要基于分词、词性标注等技术。命名实体定义了五大类类型:设施(FAC)\地理政治实体(GPE)\位置(LOC)\人物(PER)。在实际应用中,可以根据自己的业务需求,定义实体类别,并进行模型训练。


    实体关系抽取

    实体关系抽取是自动识别非结构化文档中两个实体之间的关联关系,属于信息抽取领域的基础知识之一。近年来,搜索领域流行的知识图谱技术是构建实体关系。实体关系抽取有多种方式,包括规则匹配、有监督学习、无监督学习。其中有监督学习需要预先定义实体关系类别,并通常将问题建模为分类问题。有监督学习需要预先人工标注语料库。






    展开全文
  • 自然语言处理概念 自然语言是指汉语英语法语等人们日常使用的语言是人类社会发展演变 而来的语言而不是人造的语言它是人类学习生活的重要工具概括说来 自 然语言是指人类社会约定俗成的区别于如程序设计的语言的...
  • 前言:自然语言处理是人工智能皇冠上的明珠。 1 提出问题 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图? 如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,...
  • 该报告从 NLP 的概念介绍、研究与应用情况、专家学者概要以及发展趋势这 5 个方向纵览了...(1)自然语言处理概念。(2)自然语言处理研究情况。(3) 自然语言处理领域专家介绍。(4)自然语言处理的应用及趋势预测。
  • 统计自然语言处理基本概念PPT学习教案.pptx
  • 1.自然语言处理概念。首先对自然语言处理进行定义,接着对自然语言的发展历程进行了 梳理,对我国自然语言处理现状进行了简单介绍,对自然语言处理业界情况进行介绍。 2.自然语言处理研究情况。依据 2016 年中文信息...
  • 统计自然语言处理基本概念张宇PPT学习教案.pptx
  • 哈工大关毅自然语言处理课件 和 宗成庆自然语言处理课件 适合入门,主要是统计自然语言处理,包含想要的数学基础,主要是基本的统计概念和熵的概念。 基本不包含基于神经网络的自然语言处理
  • 自然语言处理的21个基本概念

    千次阅读 多人点赞 2020-08-15 22:09:52
    语言(language)是人类特有的用来...自然语言处理(NLP,Natural Language Processing)又称自然语言理解(NLU,Natural language Understanding),是研究人与人交际中以及人与计算机交际中的语言问题的一门学科。

    1. 语言

    语言(language),即自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,,区别于如程序设计的语言的人工语言。

    自然语言是人类特有的用来表达情感、交流思想的工具,本质是一种信息编码。语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的书写符号系统。

    2. 自然语言处理

    自然语言处理(NLP,Natural Language Processing) 又称自然语言理解(NLU,Natural language Understanding),即使计算机理解自然语言。

    美国计算机科学家马纳瑞斯(Bill Manaris)给自然语言处理的定义为:“自然语言处理是研究人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”

    3. 语料库

    语料库(Corpus,复数为Corpora或Corpuses)定义为:为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。语料库具有以下三个基本特征:样本代表性;规模有限性;机读形式化。

    4. 语言模型

    语言模型(language model) 通过对句子的上下文特征进行数学建模,来回答一个问题:出现的句子是否合理。语言模型是自然语言的基础,广泛应用于机器翻译、语音识别、拼写纠错、输入法、手写体识别等。

    5. 词

    **词(word)**被定义为能够形成完整言语的最小语言单位,词的最小语义部分称为词素(morpheme),词素可用形素(grapheme,字母和字符等书写符号)拼写出或用音素(phoneme, 口语中可区分的语音单位)。

    6. 分词

    分词(word segmentation),指对字符序列进行分块处理的过程,其输出结果由分开的有意义的词元组成,是形态分析的基础性步骤。

    7. 语音分析

    语音分析(speech analysis) 是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。

    8. 词法分析

    词法分析(lexical analysis) 是找出词汇的各个词素,从中获得语言学的信息,主要任务是词性标注和词义标注。

    9. 句法分析

    句法分析(parsing),发现句子内部结构的方法,显式地发现句子中可能存在的各种谓词-论元的依存关系。

    10. 语义分析

    语义分析(semantic parsing),在句子或文本中识别出意义块(meaning chunk),确定语言所表达的真正含义或概念,并尝试将其转换为某种数据结构的过程(将自然文本映射成计算机可处理的结构化表示),包括深层语义分析(deep semantic parsing)与浅层语义分析(shallow semantic parsing),又称语义角色标注(semantic role labeling)。

    11. 语用分析

    语用分析是研究语言所存在的外界环境对语言使用者所产生的影响。

    12. 命名实体识别

    命名实体识别(NER, Named Entity Recognition),又称未登录词识别,识别实体的每一次独立出现,一个命名实体代表了一个名词的实例,比如一个地点、一个人物或一个组织机构。(ACE任务包含7个主要类型实体:设施(FAC)、地理政治实体(GPE)、地点(LOC)、组织机构(ORG)、人(PER)、交通工具(VEH)、武器(WEA))。

    13. 提及检测

    提及检测(mention detection),检测某种提及的边界并有选择的确定其语义类型(如人物或组织机构)及其他属性(如名称、名词或者代词)。

    14. 共指消解

    共指消解(coreference resolution),也称指代消解(anaphora resolution),确定代词或名词短语指的是什么,将指代相同实体的提及归结到一个等价类中。

    15. 文档分类

    文档分类(document categorization/classification),称文本分类(text categorization/classification)或信息分类(information categorization/classification),其目的就是对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。

    16. 情感分类

    情感分类(sentiment classification) 或称文本倾向性识别(text orientation identification),以自然语言中的个人陈述,如意见(opinion)、感情(emotion)、情感(sentiment)、评价(evaluation)、信念(belief)以及推测(speculation)为主要研究目标,通过主观性(subjectivity)分析和情感(sentiment)分析,对文本进行分类,其中主观性分析对文本进行主观和客观的分类标注,情感分析更进一步将主观性文本划分为正向文本、负向文本以及中性文本。情感分类已经成为支撑舆情分析(public opinion analysis)的基本技术,如公司以利用该技术了解用户对产品的评价,政府部门可以通过分析网民对某一事件、政策法规或社会现象的评论,实时了解大众的态度。

    17. 文本蕴含识别

    文本蕴含识别(RTE,Recognizing Textual Entailment) 对一段文本中表示的事实进行推理(Text->Hypothesis),如需要知道一个句子中提到的事实是否被文档中前面的某个句子所蕴含。

    18. 自动文摘

    自动文摘(automatic summarizing或automatic abstracting) 将相同主题的若干文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
    通过自动文摘不同的实现方式将自动文摘分为文档的摘录(extract)或文档的摘要(abstract)。摘录通过提取文档中最重要的部分(找到若干句子或句子片段)来表示文本的大意,可能也会包含少量次要的部分进行文摘;摘要通过理解文本,描述了对文档内容的总结,未必直接包含文档内容的原句。

    19. 信息抽取

    信息抽取(information extraction) 又称事件抽取(event extraction),指从文本中识别并抽取出特定的事件(event)或事实信息,来解决5W(WHO WHEN WHERE WHY WHAT)以及HOW的问题(谁在何时何地由于什么原因(对谁)做了什么(如何做))。例如,从时事新闻报道中抽取出某一恐怖事件的基本信息:时间、地点、事件制造者、受害人、袭击目标、伤亡人数等;从经济新闻中抽取出某些公司发布的产品信息:公司名称、产品名称、开发时间、某些性能指标等。

    (1)信息抽取与信息检索

    信息检索主要是从海量文档集合中找到与用户需求(一般通过关键词表达)相关的文档列表,而信息抽取则是希望直接从文本中获得用户感兴趣的事实信息。两者也有密切的关系,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性能。

    (2)信息抽取与问答系统

    信息抽取与问答系统也有密切的联系。一般而言,信息抽取系统要抽取的信息是明定的、事先规定好的,系统只是将抽取出来的事实信息填充在给定的框架槽里,而问答系统面对的用户问题往往是随机的、不确定的,而且系统需要将问题的答案生成自然语言句子,通过自然、规范的语句准确地表达出来,使系统与用户之间形成一问一答的交互过程。

    20. 问答系统

    问答系统(QA,Question Answering System) :用自然语言方式提问,从信息库中检索,提供既准确又切合主题的答案。

    21. 机器翻译

    机器翻译(MT,Machine Translation):在保留意义的情况下,把一种语言的文字转换为另一种语言。机器翻译作为NLP的起源,是NLP一直的研究目标,没有最终解决,只有最新现状(State of art)

    展开全文
  • 自然语言处理是人工智能的一个重要应用领域 ,也是新一代计算机必须研究的课题。它 也是新一代计算机必须...自然语言处理概念。 自然语言处理研究情况 。 自然语言处理领域专家介绍。 自然语言处理的应用及趋势预测。
  • 面向自然语言处理的歧义概念.pdf 万方数据库 中国期刊网
  • 给外行能看懂的科普:这就叫自然语言处理如何向文科同学科普自然语言处理(NLP)? 刘知远,NLPer前几年曾经马少平老师的引荐,为某科普图书写过一篇短文介绍自然语言处理。如果只是介绍NLP的概念、任务和挑战,...
    给外行能看懂的科普:这就叫自然语言处理
    
    如何向文科同学科普自然语言处理(NLP)?
     刘知远,NLPer
    前几年曾经马少平老师的引荐,为某科普图书写过一篇短文介绍自然语言处理。如果只是介绍NLP的概念、任务和挑战,应该可以参考这篇小文。原文如下,仅供参考。


    自然语言处理
    Natural Language Processing


    一、什么是自然语言处理 
    简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。


    从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。


    值得一提的是,自然语言处理的兴起与机器翻译这一具体任务有着密切联系。机器翻译指的是利用计算机自动地将一种自然语言翻译为另外一种自然语言。例如自动将英文“I like Beijing Tiananmen Square”翻译为“我爱北京天安门”,或者反过来将“我爱北京天安门”翻译为“I like Beijing Tiananmen Square”。由于人工进行翻译需要训练有素的双语专家,翻译工作非常耗时耗力。更不用说需要翻译一些专业领域文献时,还需要翻译者了解该领域的基本知识。世界上有超过几千种语言,而仅联合国的工作语言就有六种之多。如果能够通过机器翻译准确地进行语言间的翻译,将大大提高人类沟通和了解的效率。


    《圣经》里有一个故事说巴比伦人想建造一座塔直通天堂。建塔的人都说着同一种语言,心意相通、齐心协力。上帝看到人类竟然敢做这种事情,就让他们的语言变得不一样。因为人们听不懂对方在讲什么,于是大家整天吵吵闹闹,无法继续建塔。后来人们把这座塔叫作巴别塔,而“巴别”的意思就是“分歧”。虽然巴别塔停建了,但一个梦想却始终萦绕在人们心中:人类什么时候才能拥有相通的语言,重建巴别塔呢?机器翻译被视为“重建巴别塔”的伟大创举。假如能够实现不同语言之间的机器翻译,我们就可以理解世界上任何人说的话,与他们进行交流和沟通,再也不必为相互不能理解而困扰。


    事实上,“人工智能”被作为一个研究问题正式提出来的时候,创始人把计算机国际象棋和机器翻译作为两个标志性的任务,认为只要国际象棋系统能够打败人类世界冠军,机器翻译系统达到人类翻译水平,就可以宣告人工智能的胜利。四十年后的1997年,IBM公司的深蓝超级计算机已经能够打败国际象棋世界冠军卡斯帕罗夫。而机器翻译到现在仍无法与人类翻译水平相比,从此可以看出自然语言处理有多么困难!


    自然语言处理兴起于美国。第二次世界大战之后,二十世纪五十年代,当电子计算机还在襁褓之中时,利用计算机处理人类语言的想法就已经出现。当时,美国希望能够利用计算机将大量俄语材料自动翻译成英语,以窥探苏联科技的最新发展。研究者从破译军事密码中得到启示,认为不同的语言只不过是对“同一语义”的不同编码而已,从而想当然地认为可以采用译码技术像破译密码一样“破译”这些语言。 


    1954年1月7日,美国乔治敦大学和IBM公司合作实验成功地将超过60句俄语自动翻译成英语。虽然当时的这个机器翻译系统非常简单,仅仅包含6个语法规则和250个词,但由于媒体的广泛报道,纷纷认为这是一个巨大的进步,导致美国政府备受鼓舞,加大了对自然语言处理研究的投资。实验完成者也当即自信地撰文称,在三到五年之内就能够完全解决从一种语言到另一种语言的自动翻译问题。他们认为只要制定好各种翻译规则,通过大量规则的堆砌就能够完美地实现语言间的自动翻译。 


    然而,事实是理解人类语言远比破译密码要复杂得多,因此研究进展非常缓慢。1966年的一份研究报告总结发现,经过十年之久的研究,结果远远未能达到预期,因此支持资金急剧下降,使自然语言处理(特别是机器翻译)的研究陷入长达二十年的低潮。直到二十世纪八十年代,随着电子计算机的计算能力的飞速提高和制造成本的大幅下降,研究者又开始重新关注自然语言处理这个极富挑战的研究领域。三十年沧海桑田,此时研究者已经认识到简单的语言规则的堆砌无法实现对人类语言的真正理解。研究发现,通过对大量的文本数据的自动学习和统计,能够更好地解决自然语言处理问题,如语言的自动翻译。这一思想被称为自然语言处理的统计学习模型,至今方兴未艾。


    那么,自然语言处理到底存在哪些主要困难或挑战,吸引那么多研究者几十年如一日孜孜不倦地探索解决之道呢?


    二、自然语言处理的主要困难 
    自然语言处理的困难可以罗列出来很多,不过关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。而正确的消歧需要大量的知识,包括语言学知识(如词法、句法、语义、上下文等)和世界知识(与语言无关)。这带来自然语言处理的两个主要困难。


    首先,语言中充满了大量的歧义,这主要体现在词法、句法及语义三个层次上。歧义的产生是由于自然语言所描述的对象――人类活动非常复杂,而语言的词汇和句法规则又是有限的,这就造成同一种语言形式可能具有多种含义。


    例如单词定界问题是属于词法层面的消歧任务。在口语中,词与词之间通常是连贯说出来的。在书面语中,中文等语言也没有词与词之间的边界。由于单词是承载语义的最小单元,要解决自然语言处理,单词的边界界定问题首当其冲。特别是中文文本通常由连续的字序列组成,词与词之间缺少天然的分隔符,因此中文信息处理比英文等西方语言多一步工序,即确定词的边界,我们称为“中文自动分词”任务。通俗的说就是要由计算机在词与词之间自动加上分隔符,从而将中文文本切分为独立的单词。例如一个句子“今天天气晴朗”的带有分隔符的切分文本是“今天|天气|晴朗”。中文自动分词处于中文自然语言处理的底层,是公认的中文信息处理的第一道工序,扮演着重要的角色,主要存在新词发现和歧义切分等问题。我们注意到:正确的单词切分取决于对文本语义的正确理解,而单词切分又是理解语言的最初的一道工序。这样的一个“鸡生蛋、蛋生鸡”的问题自然成了(中文)自然语言处理的第一条拦路虎。


    其他级别的语言单位也存在着各种歧义问题。例如在短语级别上,“进口彩电”可以理解为动宾关系(从国外进口了一批彩电),也可以理解为偏正关系(从国外进口的彩电)。又如在句子级别上,“做手术的是她的父亲”可以理解为她父亲生病了需要做手术,也可以理解为她父亲是医生,帮别人做手术。总之,同样一个单词、短语或者句子有多种可能的理解,表示多种可能的语义。如果不能解决好各级语言单位的歧义问题,我们就无法正确理解语言要表达的意思。


    另外一个方面,消除歧义所需要的知识在获取、表达以及运用上存在困难。由于语言处理的复杂性,合适的语言处理方法和模型难以设计。


    例如上下文知识的获取问题。在试图理解一句话的时候,即使不存在歧义问题,我们也往往需要考虑上下文的影响。所谓的“上下文”指的是当前所说这句话所处的语言环境,例如说话人所处的环境,或者是这句话的前几句话或者后几句话,等等。假如当前这句话中存在指代词的时候,我们需要通过这句话前面的句子来推断这个指代词是指的什么。我们以“小明欺负小亮,因此我批评了他”为例。在其中的第二句话中的“他”是指代“小明”还是“小亮”呢?要正确理解这句话,我们就要理解上句话“小明欺负小亮”意味着“小明”做得不对,因此第二句中的“他”应当指代的是“小明”。由于上下文对于当前句子的暗示形式是多种多样的,因此如何考虑上下文影响问题是自然语言处理中的主要困难之一。 


    再如背景知识问题。 正确理解人类语言还要有足够的背景知识。举一个简单的例子,在机器翻译研究的初期,人们经常举一个例子来说明机器翻译任务的艰巨性。在英语中“The spirit is willing but the flesh is weak.”,意思是“心有余而力不足”。但是当时的某个机器翻译系统将这句英文翻译到俄语,然后再翻译回英语的时候,却变成了“The Voltka is strong but the meat is rotten.”,意思是“伏特加酒是浓的,但肉却腐烂了”。从字面意义上看,“spirit”(烈性酒)与“Voltka”(伏特加)对译似无问题,而“flesh”和“meat”也都有肉的意思。那么这两句话在意义上为什么会南辕北辙呢?关键的问题就在于在翻译的过程中,机器翻译系统对于英语成语并无了解,仅仅是从字面上进行翻译,结果自然失之毫厘,差之千里。 


    从上面的两个方面的主要困难,我们看到自然语言处理这个难题的根源就是人类语言的复杂性和语言描述的外部世界的复杂性。人类语言承担着人类表达情感、交流思想、传播知识等重要功能,因此需要具备强大的灵活性和表达能力,而理解语言所需要的知识又是无止境的。那么目前人们是如何尝试进行自然语言处理的呢? 


    三、自然语言处理的发展趋势 
    目前,人们主要通过两种思路来进行自然语言处理,一种是基于规则的理性主义,另外一种是基于统计的经验主义。理性主义方法认为,人类语言主要是由语言规则来产生和描述的,因此只要能够用适当的形式将人类语言规则表示出来,就能够理解人类语言,并实现语言之间的翻译等各种自然语言处理任务。而经验主义方法则认为,从语言数据中获取语言统计知识,有效建立语言的统计模型。因此只要能够有足够多的用于统计的语言数据,就能够理解人类语言。然而,当面对现实世界充满模糊与不确定性时,这两种方法都面临着各自无法解决的问题。例如,人类语言虽然有一定的规则,但是在真实使用中往往伴随大量的噪音和不规范性。理性主义方法的一大弱点就是鲁棒性差,只要与规则稍有偏离便无法处理。而对于经验主义方法而言,又不能无限地获取语言数据进行统计学习,因此也不能够完美地理解人类语言。二十世纪八十年代以来的趋势就是,基于语言规则的理性主义方法不断受到质疑,大规模语言数据处理成为目前和未来一段时期内自然语言处理的主要研究目标。统计学习方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。


    迈进二十一世纪,我们已经进入了以互联网为主要标志的海量信息时代,这些海量信息大部分是以自然语言表示的。一方面,海量信息也为计算机学习人类语言提供了更多的“素材”,另一方面,这也为自然语言处理提供了更加宽广的应用舞台。例如,作为自然语言处理的重要应用,搜索引擎逐渐成为人们获取信息的重要工具,涌现出以百度、谷歌等为代表的搜索引擎巨头;机器翻译也从实验室走入寻常百姓家,谷歌、百度等公司都提供了基于海量网络数据的机器翻译和辅助翻译工具;基于自然语言处理的中文(输入法如搜狗、微软、谷歌等输入法)成为计算机用户的必备工具;带有语音识别的计算机和手机也正大行其道,协助用户更有效地工作学习。总之,随着互联网的普及和海量信息的涌现,自然语言处理正在人们的日常生活中扮演着越来越重要的作用。


    然而,我们同时面临着一个严峻事实,那就是如何有效利用海量信息已成为制约信息技术发展的一个全局性瓶颈问题。自然语言处理无可避免地成为信息科学技术中长期发展的一个新的战略制高点。同时,人们逐渐意识到,单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识,只有同时充分发挥基于规则的理性主义方法和基于统计的经验主义方法的各自优势,两者互相补充,才能够更好、更快地进行自然语言处理。


    自然语言处理作为一个年龄尚不足一个世纪的新兴学科,正在进行着突飞猛进的发展。回顾自然语言处理的发展历程,并不是一帆风顺,有过低谷,也有过高潮。而现在我们正面临着新的挑战和机遇。例如,目前网络搜索引擎基本上还停留在关键词匹配,缺乏深层次的自然语言处理和理解。语音识别、文字识别、问答系统、机器翻译等目前也只能达到很基本的水平。路漫漫其修远兮,自然语言处理作为一个高度交叉的新兴学科,不论是探究自然本质还是付诸实际应用,在将来必定会有令人期待的惊喜和异常快速的发展。 


    参考文献 
    [1] 张钹. 自然语言处理的计算模型. 中文信息学报, 2007, 21(3):3-7. 
    [2] 冯志伟. 《统计自然语言处理》序言. 1版. 北京: 清华大学出版社, 2008.
    [3] 孙茂松. 语言计算:信息科学技术中长期发展的战略制高点. 语言文字应用, 2005, 3:38-40.


    查看知乎原文(12 条讨论)
    扫描二维码下载知乎日报
    支持 iOS 和 Android
    二维码下载知乎日报
    知乎网 · © 2018 知乎
    展开全文
  • 自然语言处理入门

    千次阅读 2019-07-28 19:57:36
    自然语言处理入门自然语言处理入门自然语言的概念自然语言的理解自然语言处理概念自然语言处理的相关技术自然语言处理难点相关学习链接 自然语言处理入门 自然语言的概念 自然语言的理解 自然语言处理(NLP) ...

    自然语言的概念

    自然语言是指人类日常使用的语言,如汉语、英语、法语、德语、等等。自然语言是人类交流和思维的主要工具。
    

    自然语言的理解

    人工智能早期研究的领域之一。
    从微观上讲,语言理解是从自然语言到机器内部之间的一种映射。
    从宏观上讲,语言理解是指机械能够执行人类所期望的某些功能。 
    

    自然语言处理的概念

    为了研究在人与人交际中以及在人与计算机交际中的语言问题的一门科学。
    利用计算机为工具对人类特有的书面形式和空头形式的自然语言的信息进行各种类型处理和加工的技术。
    

    自然语言处理的相关技术

    主要技术将连续的自然语言文本切分成具有语义合理性和完整性的词汇序列
    分词将连续的自然语言文本切分成具有语义合理性和完整性的词汇序列
    命名实体识别识别自然语言文本中具有特定意义的实体(人、地机构、作品等)
    词性标注为自然语言文本中的每一个词汇赋予一个词性(名词、动词、形容词等)
    依存句法分析自动分析句子中的句法成分(主语、谓语、宾语等)
    词向量与语义相似度依托全网海量数据和深度神经网络技术实现对词汇的向量化表示,并据此实现了词汇的语义相似度计算
    文本语义相似度依托全网海量数据和深度神经网络技术实现对词汇的向量化表示,实现文本间的语义相似度计算的能力
    篇章分析分析篇章及文本的内在结构,进而分析文本的情感倾向,提取评论性观点,并生成反应文本关键信息的标签与摘要
    机器翻译技术利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)

    自然语言处理难点

    1. 单词的边界界定

    在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。

    2. 词义的消歧

    许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。

    3. 句法的模糊性

    自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的信息才能在其中选择一棵最为适合的剖析树。

    4. 有瑕疵的或不规范的输入

    例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。

    5. 语言行为与计划

    句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程上一年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。

    相关学习链接

    https://www.bilibili.com/video/av27557638
    https://baijiahao.baidu.com/s?id=1617804790284517552&wfr=spider&for=pc

    展开全文
  • 文章目录论述自然语言处理的技术范畴(基本全貌) 一、前言二、主要技术范畴1、语音合成(Speech Synthesis)2、语音识别(Speech Recognition)3、中文自动分词4、词性标注5、句法分析7、文本分类7、文本挖掘8、信息抽取9...
  • 最近准备学习自然语言处理相关的知识,推荐大家阅读《统计自然语言处理·宗成庆》和《Natural Language Processing with Python》,第一篇主要介绍的是NLP的基础知识和概念介绍,希望对大家有所帮助。 一. 概念介绍 ...
  • 自然语言处理相关概念解析

    千次阅读 2018-10-10 19:01:37
    中文分词: 词性标注: 词性标准课参考哈工大LTP词性列表。 命名实体识别:
  • 自然语言处理--概述篇

    千次阅读 2019-02-27 01:35:59
    1.1 自然语言处理概念 自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指人类社会约定俗成...
  • 自然语言处理

    2021-08-13 16:57:42
    该书涵盖自然语言处理(NLP)的基础知识,将向您介绍NLP的基本概念、思想和算法。这些内容将有助于初学者以循序渐进和直观的方式学会开发自己的NLP应用程序。课程循序渐进,从具体到抽象,将带领你从最基础的理论...
  • 自然语言处理综述

    千次阅读 2018-12-25 11:08:16
    本文从两篇论文出发先简要介绍了自然语言处理的基本分类和基本概念,再向读者展示了深度学习中的 NLP。这两篇论文都是很好的综述性入门论文,希望详细了解自然语言处理的读者可以进一步阅读这两篇论文。 第一部分...
  • 自然语言处理简明教程 ,简单明了地讲述了自然语言处理的一些概念,作为入门读物
  • 宗成庆著统计自然语言处理第二版,包括统计学习的基本概念自然语言处理的相关知识, PDF版本
  • 本文来自于51cto,文章详细介绍了自然语言处理的基本分类和基本概念深度学习中的 NLP等相关知识。本文从两篇论文出发先简要介绍了自然语言处理的基本分类和基本概念,再向读者展示了深度学习中的 NLP。这两篇论文都...
  • 目的 探讨自然语言处理中的语义研究的必要性和概念图的优势及特点。方法 阐述基于概念图进行语义研究的步骤及关键技术。结果基于概念图进行语义研究能进一步提高自然语言理解的水平,改善现有语义分析技术对句子的...
  • NLP 自然语言处理研究报告 概念 技术 人才 应用 清华大学整理
  • 统计自然语言处理

    2019-02-08 10:21:32
    《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 150,157
精华内容 60,062
关键字:

自然语言处理概念