精华内容
下载资源
问答
  • 自然语言处理基本概念

    千次阅读 2017-03-29 10:24:30
    自然语言处理常用术语 文本主要分为三种文本,自由文本、结构化文本、半结构化文本,自然语言处理一般是...词为文本最基本的单位,分词是进行自然语言处理中最基本的步骤。分词算法分为词典方法和统计方法。其中,基于

    本文为 http://blog.sina.com.cn/s/blog_1334cae810102wovb.html 笔记

    自然语言处理常用术语

    文本主要分为三种文本,自由文本、结构化文本、半结构化文本,自然语言处理一般是对自由文本进行的处理。常见的基本操作如下:

    分词

    通常我们处理的自由文本分为中文、英文等。词为文本最基本的单位,分词是进行自然语言处理中最基本的步骤。分词算法分为词典方法和统计方法。其中,基于词典和人工规则的方法是按照一定的策略将待分析词与词典中的词条进行匹配(正向匹配、逆向匹配、最大匹配)。统计方法是基本字符串在语料库中出现的统计频率,典型的算法有HMM\CRF等。其中CRF相比HMM有更弱的上下文无相关性假设,理论上效果更好一点。

    英文以空格为分割符,因此不需要进行分词的操作(这是片面的,对于一些特殊情况,依旧需要分词的操作 ,例如 it's等,另外对于英文中复合词的情况,也需要进行一定的识别,因此在进行关键词识别的时候会运营到分词的一些技术)。中文的分词工具有很多,近年来常用的是jieba 和stanford corenlp等。

    词性标注

    在进行词性标注时,需先定义出词性的类别:名词、动词、形容词、连词、副词、标点符号等。词性标注是语音识别、句法分析、信息抽取技术的基础技术之一,词性标注是标注问题,可以采用最大熵、HMM或CRF等具体算法进行模型的训练。自动问答系统中,为了提高用户问题匹配后端知识库的召回率,对一些关键词进行了过滤,包括连词、副词对于全文检索系统,理论上可以通过对用户输入的查询条件进行词性过滤,但由于全文检索是基于词袋模型的机械匹配,并且采用IDF作为特征值之一,因此词性标注的效果不大。

    句法分析

    句法分析的目的是确定句子的句法结构,主谓宾、动宾、定中、动补等。在问答系统和信息检索领域有重要的作用。


    命名实体识别

    命名实体识别是定位句子中出现的人名、地名、机构名、专有名词等。命名实体属于标注问题,因此可以采用HMM\CRF等进行模型的训练。基于统计的命名实体识别需要基于分词、词性标注等技术。命名实体定义了五大类类型:设施(FAC)\地理政治实体(GPE)\位置(LOC)\人物(PER)。在实际应用中,可以根据自己的业务需求,定义实体类别,并进行模型训练。


    实体关系抽取

    实体关系抽取是自动识别非结构化文档中两个实体之间的关联关系,属于信息抽取领域的基础知识之一。近年来,搜索领域流行的知识图谱技术是构建实体关系。实体关系抽取有多种方式,包括规则匹配、有监督学习、无监督学习。其中有监督学习需要预先定义实体关系类别,并通常将问题建模为分类问题。有监督学习需要预先人工标注语料库。






    展开全文
  • 统计自然语言处理基本概念 统计自然语言处理基本概念 统计自然语言处理基本概念
  • 在“ Deep_learning_for_NLP.ipynb”文件中,我尝试介绍了NLP的基础知识,并遵循了名为“自然语言处理的深度学习”的书。 我将继续更新当前的仓库。 基本NLP模型,例如Count Vectorizer,TF-IDF,Word2Vec,嵌入...
  • 于是我们将国内外优秀的科普内容用最通俗易懂的方式整合到一起,专门针对非技术人员,让大家都能理解人工智能领域里的基本概念。 先通过一张长图来讲解一下 PDF 中会涉及到的主要内容,如果想了解详情请下载 PDF。 ...

    easyai.tech 发现入门人工智能是一件很难的事情,尤其是对于非技术人员。

    于是我们将国内外优秀的科普内容用最通俗易懂的方式整合到一起,专门针对非技术人员,让大家都能理解人工智能领域里的基本概念。

    先通过一张长图来讲解一下 PDF 中会涉及到的主要内容,如果想了解详情请下载 PDF。

    PDF 下载地址

    非技术一图看懂 NLP

    让非技术也能理解 NLP

    本篇内容则是 NLP 的专题,我们汇总了一些关于 NLP 的基础内容,相信大家看完这个 PDF 后可以理解下面几个问题:

    1. NLP 是什么,为什么大家要研究 NLP ?
    2. 研究和应用 NLP 的目的是什么?
    3. NLP 在实际应用中会用到哪些方法,大概有哪些步骤?

    由于是针对非技术人群的,所以内容里不会涉及到代码或者大量的技术概念,不需要有技术基础同样可以看明白。

    PDF 里的内容结构

    NLP概念结构

    上图是 PDF 里涉及到的主要内容,下面给大家讲解一下:

    自然语言处理 - NLP

    NLP 就是人类和机器之间沟通的桥梁!这个部分会讲解 NLP 的重要性,研究 NLP 的目的,NLP 的应用方向,NLP 的大致方法和流程等内容,让大家对 NLP 有一个宏观的认识。

    了解详情:《一文看懂自然语言处理-NLP(4个典型应用+5个难点+6个实现步骤)

    自然语言理解 - NLU

    自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点(下面详细说明),所以 NLU 是至今还远不如人类的表现。

    了解详情:《一文看懂自然语言理解-NLU(基本概念+实际应用+3种实现方式)

    自然语言生成 - NLG

    NLG 是为了跨越人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。

    了解详情:《一文看懂自然语言生成 – NLG(6个实现步骤+3个典型应用)

    分词 - Tokenization

    分词是自然语言理解 – NLP 的重要步骤。分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

    了解详情:《一文看懂NLP里的分词-Tokenization(中英文区别+3大难点+3种典型方法)

    词干提取 – Stemming | 词形还原 – Lemmatisation

    词干提取和词形还原是英文语料预处理中的重要环节。虽然他们的目的一致,但是两者还是存在一些差异。本文将介绍他们的概念、异同、实现算法等。

    了解详情:《一文看懂词干提取-Stemming和词形还原-Lemmatisation(概念、异同、算法)

    词性标注 – Part of speech

    本文根据自己的学习过程以及查阅相关资料的理解,对自然语言基础技术之词性标注进行了相对全面的简绍,包括定义、目前的难点以及常见方法,还推荐了一大波python实战利器,并且包括工具的用法。

    了解详情:《一文看懂词性标注(基本概念+4种方法+7种工具)

    命名实体识别 – Named-entity recognition | NER

    命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。

    了解详情:《一文看懂命名实体识别 - NER(发展史+4类方式+数据集+工具推荐)

    上面的所有内容都整理成了59页的PDF《非技术也能看懂的 NLP 入门科普》,点击下方按钮进行下载。

    下载《非技术也能看懂的 NLP 入门科普》

    如果上面的图片显示有问题,请点击这里下载:下载链接

    展开全文
  • 自然语言处理——基本概念NLP基本概念what is NLP?why NLP is harder?机器翻译language ModelNLP的应用场景NLP的关键技术自然语言处理技术四个维度 NLP基本概念 what is NLP? NLP=NLU+NLG NLU:语音/文本——>意思...

    NLP基本概念

    what is NLP?

    NLP=NLU+NLG
    NLU:语音/文本——>意思(meaning)
    NLG:意思——>语音/文本

    why NLP is harder?

    1. Multiple Ways to express
    2. Ambiguity:learning from data

    机器翻译

    在这里插入图片描述

    language Model

    判断一句话是不是人话
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    NLP的应用场景

    1. Question Answering(问答系统)
      在这里插入图片描述

    2. Sentiment Analysis(情感分析)
      在这里插入图片描述
      在这里插入图片描述

    3. Machine Translation(机器翻译)

    4. Text Summarization(自动摘要)

    5. chabot(聊天机器人)

    6. information Extraction(信息抽取)

    NLP的关键技术

    自然语言处理技术四个维度

    1. Semantic(语义)
    2. Syntax(句子结构)
    3. Morphology(单词)
    4. Phonetics(声音)

    Word Segmentation(分词)
    Part-of-Speech(词性)
    Named Entity Recognition(命名实体识别)
    Parsing(句法分析)
    Dependency Parsing(y依存分析)
    Relation Extraction(关系抽取)

    展开全文
  • 前言:自然语言处理是人工智能皇冠上的明珠。 1 提出问题 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图? 如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,...
  • 自然语言处理的21个基本概念

    千次阅读 多人点赞 2020-08-15 22:09:52
    语言(language)是人类特有的用来...自然语言处理NLP,Natural Language Processing)又称自然语言理解(NLU,Natural language Understanding),是研究人与人交际中以及人与计算机交际中的语言问题的一门学科。

    1. 语言

    语言(language),即自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,,区别于如程序设计的语言的人工语言。

    自然语言是人类特有的用来表达情感、交流思想的工具,本质是一种信息编码。语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的书写符号系统。

    2. 自然语言处理

    自然语言处理(NLP,Natural Language Processing) 又称自然语言理解(NLU,Natural language Understanding),即使计算机理解自然语言。

    美国计算机科学家马纳瑞斯(Bill Manaris)给自然语言处理的定义为:“自然语言处理是研究人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”

    3. 语料库

    语料库(Corpus,复数为Corpora或Corpuses)定义为:为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。语料库具有以下三个基本特征:样本代表性;规模有限性;机读形式化。

    4. 语言模型

    语言模型(language model) 通过对句子的上下文特征进行数学建模,来回答一个问题:出现的句子是否合理。语言模型是自然语言的基础,广泛应用于机器翻译、语音识别、拼写纠错、输入法、手写体识别等。

    5. 词

    **词(word)**被定义为能够形成完整言语的最小语言单位,词的最小语义部分称为词素(morpheme),词素可用形素(grapheme,字母和字符等书写符号)拼写出或用音素(phoneme, 口语中可区分的语音单位)。

    6. 分词

    分词(word segmentation),指对字符序列进行分块处理的过程,其输出结果由分开的有意义的词元组成,是形态分析的基础性步骤。

    7. 语音分析

    语音分析(speech analysis) 是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。

    8. 词法分析

    词法分析(lexical analysis) 是找出词汇的各个词素,从中获得语言学的信息,主要任务是词性标注和词义标注。

    9. 句法分析

    句法分析(parsing),发现句子内部结构的方法,显式地发现句子中可能存在的各种谓词-论元的依存关系。

    10. 语义分析

    语义分析(semantic parsing),在句子或文本中识别出意义块(meaning chunk),确定语言所表达的真正含义或概念,并尝试将其转换为某种数据结构的过程(将自然文本映射成计算机可处理的结构化表示),包括深层语义分析(deep semantic parsing)与浅层语义分析(shallow semantic parsing),又称语义角色标注(semantic role labeling)。

    11. 语用分析

    语用分析是研究语言所存在的外界环境对语言使用者所产生的影响。

    12. 命名实体识别

    命名实体识别(NER, Named Entity Recognition),又称未登录词识别,识别实体的每一次独立出现,一个命名实体代表了一个名词的实例,比如一个地点、一个人物或一个组织机构。(ACE任务包含7个主要类型实体:设施(FAC)、地理政治实体(GPE)、地点(LOC)、组织机构(ORG)、人(PER)、交通工具(VEH)、武器(WEA))。

    13. 提及检测

    提及检测(mention detection),检测某种提及的边界并有选择的确定其语义类型(如人物或组织机构)及其他属性(如名称、名词或者代词)。

    14. 共指消解

    共指消解(coreference resolution),也称指代消解(anaphora resolution),确定代词或名词短语指的是什么,将指代相同实体的提及归结到一个等价类中。

    15. 文档分类

    文档分类(document categorization/classification),称文本分类(text categorization/classification)或信息分类(information categorization/classification),其目的就是对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。

    16. 情感分类

    情感分类(sentiment classification) 或称文本倾向性识别(text orientation identification),以自然语言中的个人陈述,如意见(opinion)、感情(emotion)、情感(sentiment)、评价(evaluation)、信念(belief)以及推测(speculation)为主要研究目标,通过主观性(subjectivity)分析和情感(sentiment)分析,对文本进行分类,其中主观性分析对文本进行主观和客观的分类标注,情感分析更进一步将主观性文本划分为正向文本、负向文本以及中性文本。情感分类已经成为支撑舆情分析(public opinion analysis)的基本技术,如公司以利用该技术了解用户对产品的评价,政府部门可以通过分析网民对某一事件、政策法规或社会现象的评论,实时了解大众的态度。

    17. 文本蕴含识别

    文本蕴含识别(RTE,Recognizing Textual Entailment) 对一段文本中表示的事实进行推理(Text->Hypothesis),如需要知道一个句子中提到的事实是否被文档中前面的某个句子所蕴含。

    18. 自动文摘

    自动文摘(automatic summarizing或automatic abstracting) 将相同主题的若干文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
    通过自动文摘不同的实现方式将自动文摘分为文档的摘录(extract)或文档的摘要(abstract)。摘录通过提取文档中最重要的部分(找到若干句子或句子片段)来表示文本的大意,可能也会包含少量次要的部分进行文摘;摘要通过理解文本,描述了对文档内容的总结,未必直接包含文档内容的原句。

    19. 信息抽取

    信息抽取(information extraction) 又称事件抽取(event extraction),指从文本中识别并抽取出特定的事件(event)或事实信息,来解决5W(WHO WHEN WHERE WHY WHAT)以及HOW的问题(谁在何时何地由于什么原因(对谁)做了什么(如何做))。例如,从时事新闻报道中抽取出某一恐怖事件的基本信息:时间、地点、事件制造者、受害人、袭击目标、伤亡人数等;从经济新闻中抽取出某些公司发布的产品信息:公司名称、产品名称、开发时间、某些性能指标等。

    (1)信息抽取与信息检索

    信息检索主要是从海量文档集合中找到与用户需求(一般通过关键词表达)相关的文档列表,而信息抽取则是希望直接从文本中获得用户感兴趣的事实信息。两者也有密切的关系,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性能。

    (2)信息抽取与问答系统

    信息抽取与问答系统也有密切的联系。一般而言,信息抽取系统要抽取的信息是明定的、事先规定好的,系统只是将抽取出来的事实信息填充在给定的框架槽里,而问答系统面对的用户问题往往是随机的、不确定的,而且系统需要将问题的答案生成自然语言句子,通过自然、规范的语句准确地表达出来,使系统与用户之间形成一问一答的交互过程。

    20. 问答系统

    问答系统(QA,Question Answering System) :用自然语言方式提问,从信息库中检索,提供既准确又切合主题的答案。

    21. 机器翻译

    机器翻译(MT,Machine Translation):在保留意义的情况下,把一种语言的文字转换为另一种语言。机器翻译作为NLP的起源,是NLP一直的研究目标,没有最终解决,只有最新现状(State of art)

    展开全文
  • 自然语言处理(NLP,Nature Language Processing): 通过算法、统计或常识专门处理语言和各种方法的学科。 自然语言理解(NLU,Nature Language Understanding): 对某种自然语言的文本的真正理解。 计算语言学...
  • 基本概念 doc: 表示document的缩写,可以结构化地读取文本相关的信息,并且不会产生丢失 doc = nlp(text) for token in doc: print(token.text) token表示文本中的字符,比如一个词或者一个标点符号。要读取...
  • 一、基本概念 1.字符串:假定 Σ 是字符的有限集合,它的每一个元素称之为字符。由 Σ 中字符相连而成的有限序列被称之为Σ上的字符串。 这是教材对于字符串的定义,通俗地理解,字符串就是一连串的字符。不包括...
  • NLP一些基本概念初识

    千次阅读 2014-07-18 15:53:13
    这个信息量其实也有专门的名称,就叫做“条件熵”,条件嘛,自然就是指“t已经固定“这个条件。 但是问题接踵而至,例如一个特征X,它可能的取值有n多种(x1,x2,……,xn), 当计算条件熵而需要把它固定的时候...
  • NLP基本概念入门

    千次阅读 2017-10-18 16:29:44
    词向量(Word Embedding)  词向量主要用于将自然语言中的词符号数学化,这样才能作为机器学习问题的输入。  数学化表示词的方式很多,最简单的有独热编码,即“足球”=[0,0,1,0,0,0,0,…],“篮球”=[0,0,0,0,0...
  • 人工智能是个非常大的概念,囊括了几乎所有学科,并非单纯计算机、通信、声学、光学等领域,也并非热炒的机器学习(例如深度学习和强化学习)就能实现的。然而,基于大数据和机器学习的狭义人工智能,确实已经给人类...
  • 本文来自于51cto,文章详细介绍了自然语言处理的基本分类和基本概念深度学习中的 NLP等相关知识。...首先第一部分介绍了自然语言处理基本概念,作者将NLP分为自然语言理解和自然语言生成,并解释了 NL
  • 最近准备学习自然语言处理相关的知识,推荐大家阅读《统计自然语言处理·宗成庆》和《Natural Language Processing with Python》,第一篇主要介绍的是NLP的基础知识和概念介绍,希望对大家... 自然语言处理基本方法
  • 面向对象基本概念

    万次阅读 多人点赞 2019-02-06 21:56:15
    类中的大多数数据,只能用本类的方法进行处理。类通过一个简单的外部接口与外界发生关系,对象与对象之间通过消息进行通信。程序流程由用户在使用中决定。对象即为人对各种具体物体抽象后的一个概念,人们每天都要...
  • 语言模型的基本概念

    万次阅读 2011-01-14 10:50:00
    ------------------------------------------------------------------ 本文介绍一下有关语言模型的基本概念,但是在介绍语言模型之前,先简单回顾一下自然语言处理这个大问题吧。现在自然语言处理的研究绝对是一个...
  • 目录基本概念分词的多种匹配方法([这部分是直接复制的](https://blog.csdn.net/u013061183/article/details/78259727))正向最大匹配法:逆向最大匹配法:双向最大匹配法:unigram、bigram、...基本概念 分词的多...
  • 简介-自然语言处理 汉良作者何晗老师的新书《自然语言处理入门》详细的笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名...
  • NLP自然语言处理初步的认识
  • NLP入门基础什么是NLP概念研究任务NLP的发展NLP相关知识的构成基本术语知识结构语料库NLP的几个层面典型案例和实现方式功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段...
  • 图的概念: 1.无向图:属于定点与边界的集合 G = (N,E) G为图,N(node)为顶点的集合,E(edge)为边的集合 G = (N,E) N = {v1,v2,v3,v4,v5,v6} E = {(v1,v2),(v1,v3),(v1,v4),(v2,v5),(v3,v4),(v3,v5),(v3,...
  • 自然语言处理NLP)简介

    千次阅读 多人点赞 2020-05-30 00:00:29
    简单地说,自然语言处理就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本...
  • 程序设计语言基本概念

    千次阅读 2012-09-10 08:46:45
    一、基本概念 在计算机中,程序设计语言可划分为低级语言和高级语言两大类,与高级语言相比,用低级语言开发的程序,其运行效率高,但开发效率低。与程序设计相关的基本概念如下。 (1)低级语言:又称面向机器...
  • 自然语言生成(Natural Language Generation,NLG) 指从结构化数据中以读取的方式自动生成文本,主要包括三个阶段: 文本规划:完成结构化数据中的基础内容规划; 语句规划:从结构化数据中组合语句来表达信息流; ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 119,418
精华内容 47,767
关键字:

nlp基本概念