精华内容
下载资源
问答
  • 人工智能之自然语言处理技术总结与展望
    万次阅读 多人点赞
    2022-02-20 20:44:48

      大家好,我是 herosunly。985 院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池安全恶意程序检测第一名,科大讯飞恶意软件分类挑战赛第三名,CCF 恶意软件家族分类第四名,科大讯飞阿尔茨海默综合症预测挑战赛第四名,科大讯飞事件抽取挑战赛第七名,Datacon 大数据安全分析比赛第五名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。今天给大家分享的是人工智能之自然语言处理技术总结与展望,欢迎大家在评论区留言,和大家一起成长进步。

    1. 背景

      2021年5月20日,第五届世界智能大会在天津开幕。中国科协主席万钢在开幕式上表示,新一代人工智能正逐步从感知智能向认知智能发展。感知智能是机器具备了视觉、听觉、触觉等感知能力,将多元数据结构化,并用人类熟悉的方式去沟通和互动。而认知智能则是从类脑的研究和认知科学中汲取灵感,结合跨领域的知识图谱、因果推理、持续学习等,赋予机器类似人类的思维逻辑和认识能力,特别是理解、归纳和应用知识的能力。

      如果将感知智能认知智能分别映射到到人工智能的细分领域中,那么感知智能对应的就是CV(计算机视觉)

    更多相关内容
  • 自然语言处理常用模型方法总结 自然语言处理常用模型方法总结
  • 【课程简介】 本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 ...自然语言处理总结 脑图总结.pdf
  • Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论
  • N元模型;马尔可夫模型以及隐马尔可夫模型;最大熵模型;支持向量机;条件随机场
  • 自然语言处理必读论文 聚类&词向量 主题模型 语言模型 分割、标注、解析 序列模型、信息抽取 机器翻译, seq2seq模型 指代消歧 自动文本总结 问答系统、阅读理解 生成模型、强化学习 机器学习 神经网络模型 转载:...
  • 讲述语言模型的发展历史,对阶段性较有代表性的工作进行了简述,同时对一些重要的技术细节展开了分析,主要从n-gram语言模型到BERT预训练语言模型,同时对这些模型的应用场景也进行了阐述,可以帮助我们整理思路,...
  • 自然语言处理(NLP)知识结构总结

    万次阅读 多人点赞 2018-03-17 18:04:35
    自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言...
           自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言处理课程。主要参考书为宗成庆老师的《统计自然语言处理》,虽然很多内容写的不清楚,但好像中文NLP书籍就这一本全一些,如果想看好的英文资料,可以到我的GitHub上下载:  
    http://github.com/lovesoft5/ml

      下面直接开始正文:

        一、自然语言处理概述

                   1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。
                  2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。
                  3)研究问题(主要):
                                       信息检索
                                       机器翻译
                                       文档分类
                                       问答系统
                                       信息过滤
                                       自动文摘
                                       信息抽取
                                       文本挖掘
                                       舆情分析
                                       机器写作
                                       语音识别
                研究模式:自然语言场景问题,数学算法,算法如何应用到解决这些问题,预料训练,相关实际应用
                   自然语言的困难:
                               场景的困难:语言的多样性、多变性、歧义性
                               学习的困难:艰难的数学模型(hmm,crf,EM,深度学习等)
                               语料的困难:什么的语料?语料的作用?如何获取语料?

        二、形式语言与自动机 

                   语言:按照一定规律构成的句子或者字符串的有限或者无限的集合。

                    描述语言的三种途径:

                                                  穷举法
                                                  文法(产生式系统)描述
                                                  自动机

                   自然语言不是人为设计而是自然进化的,形式语言比如:运算符号、化学分子式、编程语言

                   形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域,从语言学而来,作为一种理解自然语言的句法规律,在计算机科学中,形式语言通常作为定义编程和语法结构的基础

                   形式语言与自动机基础知识:

                                                     集合论
                                                     图论
                   自动机的应用:

                                                1,单词自动查错纠正

                                                2,词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?)

                  形式语言的缺陷:

                                          1、对于像汉语,英语这样的大型自然语言系统,难以构造精确的文法

                                          2、不符合人类学习语言的习惯

                                          3、有些句子语法正确,但在语义上却不可能,形式语言无法排出这些句子

                                          4、解决方向:基于大量语料,采用统计学手段建立模型                              

        三、语言模型

               1)语言模型(重要):通过语料计算某个句子出现的概率(概率表示),常用的有2-元模型,3-元模型
               2)语言模型应用:

                                             语音识别歧义消除例如,给定拼音串:ta shi yan yan jiu saun fa de

                                             可能的汉字串:踏实烟酒算法的   他是研究酸法的      他是研究算法的,显然,最后一句才符合。

              3)语言模型的启示:

                                  1、开启自然语言处理的统计方法

                                  2、统计方法的一般步骤:               

                                                                     收集大量语料
                                                                     对语料进行统计分析,得出知识
                                                                     针对场景建立算法模型
                                                                     解释和应用结果
              4) 语言模型性能评价,包括评价目标,评价的难点,常用指标(交叉熵,困惑度)

              5)数据平滑:

                             数据平滑的概念,为什么需要平滑

                             平滑的方法,加一法,加法平滑法,古德-图灵法,J-M法,Katz平滑法

            6)语言模型的缺陷:

                            语料来自不同的领域,而语言模型对文本类型、主题等十分敏感

                             n与相邻的n-1个词相关,假设不是很成立。


       四、概率图模型,生成模型与判别模型,贝叶斯网络,马尔科夫链与隐马尔科夫模型(HMM)

                1)概率图模型概述(什么的概率图模型,参考清华大学教材《概率图模型》)

               2)马尔科夫过程(定义,理解)

          3)隐马尔科夫过程(定义,理解)

                  HMM的三个基本问题(定义,解法,应用)

                     注:第一个问题,涉及最大似然估计法,第二个问题涉及EM算法,第三个问题涉及维特比算法,内容很多,要重点理解,(参考书李航《统计学习方法》,网上博客,笔者github)

           

        五、马尔科夫网,最大熵模型,条件随机场(CRF)

                   1)HMM的三个基本问题的参数估计与计算

                   2)什么是熵

                   3)EM算法(应用十分广泛,好好理解)
                   4)HMM的应用
                   5)层次化马尔科夫模型与马尔科夫网络

                                             提出原因,HMM存在两个问题
                   6)最大熵马尔科夫模型
                                             优点:与HMM相比,允许使用特征刻画观察序列,训练高效
                                             缺点: 存在标记偏置问题

                   7)条件随机场及其应用(概念,模型过程,与HMM关系)
                                参数估计方法(GIS算法,改进IIS算法)

                                CRF基本问题:特征选取(特征模板)、概率计算、参数训练、解码(维特比)

                                应用场景:

                                                 词性标注类问题(现在一般用RNN+CRF)
                                                 中文分词(发展过程,经典算法,了解开源工具jieba分词)
                                                 中文人名,地名识别

                   8)  CRF++

        六、命名实体 识别,词性标注,内容挖掘、语义分析与篇章分析(大量用到前面的算法)

                1)命名实体识别问题

                                         相关概率,定义

                                         相关任务类型

                                         方法(基于规程->基于大规模语料库)

                  2)未登录词的解决方法(搜索引擎,基于语料)

                  3)CRF解决命名实体识别(NER)流程总结:

                           训练阶段:确定特征模板,不同场景(人名,地名等)所使用的特征模板不同,对现有语料进行分词,在分词结                      果基础上进行词性标注(可能手工),NER对应的标注问题是基于词的,然后训练CRF模型,得到对应权值参数值

                           识别过程:将待识别文档分词,然后送入CRF模型进行识别计算(维特比算法),得到标注序列,然后根据标                            注划分出命名实体

                  4)词性标注(理解含义,意义)及其一致性检查方法(位置属性向量,词性标注序列向量,聚类或者分类算法)

                
        七、句法分析

                  1)句法分析理解以及意义

                               1、句法结构分析
                                          完全句法分析
                                                 浅层分析(这里有很多方法。。。)
                               2、 依存关系分析

                 2)句法分析方法

                                    1、基于规则的句法结构分析
                                    2、基于统计的语法结构分析
              

        八、文本分类,情感分析

                   1)文本分类,文本排重

                                      文本分类:在预定义的分类体系下,根据文本的特征,将给定的文本与一个或者多个类别相关联
                               典型应用:垃圾邮件判定,网页自动分类

                   2)文本表示,特征选取与权重计算,词向量

                              文本特征选择常用方法:

                                            1、基于本文频率的特征提取法
                                            2、信息增量法
                                            3、X2(卡方)统计量
                                            4、互信息法

                   3)分类器设计

                                    SVM,贝叶斯,决策树等
                   4)分类器性能评测

                                    1、召回率
                                    2、正确率
                                    3、F1值

                   5)主题模型(LDA)与PLSA

                                  LDA模型十分强大,基于贝叶斯改进了PLSA,可以提取出本章的主题词和关键词,建模过程复杂,难以理解。

                   6)情感分析

                             借助计算机帮助用户快速获取,整理和分析相关评论信息,对带有感情色彩的主观文本进行分析,处理和归纳例如,评论自动分析,水军识别。

                            某种意义上看,情感分析也是一种特殊的分类问题
                   7)应用案例


        九、信息检索,搜索引擎及其原理

                  1)信息检索起源于图书馆资料查询检索,引入计算机技术后,从单纯的文本查询扩展到包含图片,音视频等多媒体信息检索,检索对象由数据库扩展到互联网。

                        1、点对点检索
                        2、精确匹配模型与相关匹配模型
                        3、检索系统关键技术:标引,相关度计算
                2)常见模型:布尔模型,向量空间模型,概率模型
                3)常用技术:倒排索引,隐语义分析(LDA等)   
                4)评测指标 

        十、自动文摘与信息抽取,机器翻译,问答系统

                  1)统计机器翻译的的思路,过程,难点,以及解决

                2)问答系统

                        基本组成:问题分析,信息检索,答案抽取

                        类型:基于问题-答案, 基于自由文本

                        典型的解决思路

               3)自动文摘的意义,常用方法

               4)信息抽取模型(LDA等)
     
        十一、深度学习在自然语言中的应用  

                 1)单词表示,比如词向量的训练(wordvoc)
                 2)自动写文本
                                写新闻等
                 3)机器翻译
                 4)基于CNN、RNN的文本分类

                 5)深度学习与CRF结合用于词性标注
                           ...............

             更多深度学习内容,可参考我之前的文章。
     
       


     

    展开全文
  • 中文分词/宋词生成/n-gram模型/全部java源代码,课程设计报告。全部源代码,详细注释。
  • 《计算机科学丛书·多语自然语言处理:从原理到实践》是一本全面阐述如何构建健壮和准确多语种自然语言处理系统的图书,由两位资深专家编辑,集合了该领域众多尖端进展以及从广泛的研究和产业实践中总结的实用解决...
  • 第1章 自然语言处理简介 1. pyton总结: list列表功能 help()和dir(lst)可以了解结构相关函数 strip()删除其尾随空白符 upper()/lower()改变字符串大小写 replace()替换目标字符串中子串 正则表达式匹配 字典 利用...
  • 自然语言处理发展历程自我总结

    千次阅读 2017-06-04 23:14:56
    自然语言处理(NLP)历史悠久,从上个世纪初,便有人开始提出自然语言相关的规律和假设,但本人阅读了若干自然语言相关的书籍后,发现自然语言处理的方法论在长达近1个世纪的时间内并无半点实质上的进展。 自然语言...
    自然语言处理(NLP)历史悠久,从上个世纪初,便有人开始提出自然语言相关的规律和假设,但本人阅读了若干自然语言相关的书籍后,发现自然语言处理的方法论在长达近1个世纪的时间内并无半点实质上的进展。
    自然语言处理的方法体系目前大致可分为两个方向:
    1.形式化语言处理方向
         这个方向吸引了众多学者,体系非常庞杂,其中诞生了很多处理主义,但都并未有革命性的变化,基本上属于盲人摸象,其中就包括了如下理论:范畴语法、语言串分析、语言集合论、有限状态语法、短语结构语法、线图分析、汉字结构、左结合、合一运算、依存配价、格语法、词汇模型……
         不一一列举了,防止被绕晕,其实都是文字概念上的变化,很多概念都有重复的嫌疑,总结一下,就是基于语言规则的形式化模型,各有各的细微变化,但都没有从根本上解决问题,用人力可以实现有限状态机的“有限度的”智能。
    2.数字化语言处理方向
         这个方向似乎才是沿着科学的道路在前进,但发展似乎也很慢,主要包括如下理论:概率语法、Bayes动态规划、HMM、CRF、LSTM、CNN,这些方法将语言看作数字信号,使用概率论的方法对其处理,但也没有真正实现语义理解。

    针对以上两个方向,我个人认为,数字化语言处理才是正确的,但对形式化语言处理的认识越深,才能更好的设计自然语言处理模型,现阶段想要做出自动学习语言并生成语言认知模型还比较困难,但形式化方向上很多先驱提出的算法、语言规律和语言现象,有助于网络结构和参数的设计。
    展开全文
  • 自然语言处理(NLP)学习路线总结

    万次阅读 多人点赞 2019-03-20 21:01:53
    自然语言处理概述 自然语言处理入门基础 自然语言处理的主要技术范畴 自然语言处理基本点 特征处理 模型选择 NLP常用工具 NLP语言模型 快速入门NLP方法 自然语言处理...

    目录

    1. 自然语言处理概述

    2. 自然语言处理入门基础

    3. 自然语言处理的主要技术范畴

    4. 自然语言处理基本点

    5. 特征处理

    6. 模型选择

    7. NLP常用工具

    8. NLP语言模型

    9. 快速入门NLP方法

    10. 自然语言处理学习资料

    1、自然语言处理概述

    自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。自然语言处理是人工智能中最为困难的问题之一。

    2、自然语言处理入门基础

    2.1 数学基础

    (1)线性代数

    向量、 矩阵、距离计算(余弦距离、欧式距离、曼哈顿距离、明可夫斯基距离、切比雪夫距离、杰卡德距离、汉明距离、标准欧式距离、皮尔逊相关系数)

    (2)概率论

    随机试验、条件概率、全概率、贝叶斯定理、信息论

    (3)统计学

    图形可视化(饼图、条形图、热力图、折线图、箱线图、散点图、雷达图、仪表盘)

    数据度量标准(平均数、中位数、众数、期望、方差、标准差)

    概率分布(几何分布、二项分布、正态分布、泊松分布)

    统计假设检验

    2.2 语言学基础

    语音、词汇、语法

    2.3 Python基础

    廖雪峰教程,Python从入门到实践

    2.4 机器学习基础

    统计学习方法、机器学习周志华、机器学习实战

    2.5 深度学习基础

    CNN、RNN、LSTM

    2.6 自然语言处理的理论基础

    统计自然语言处理(宗成庆第二版)、Python自然语言处理、数学之美(第二版)

    3、自然语言处理的主要技术范畴

    3.1 语义文本相似度分析

    语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。

    3.2 信息检索(Information Retrieval, IR)

    信息检索是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。

    3.3 信息抽取(Information Extraction)

    信息抽取是指从非结构化/半结构化文本(如网页、新闻、 论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。

    3.4 文本分类(Text Categorization)

    文本分类的任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。

    3.5 文本挖掘(Text Mining)

    文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。

    3.6 文本情感分析(Textual Affective Analysis)

    情感分析是一种广泛的主观分析,它使用自然语言处理技术来识别客户评论的语义情感,语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等。

    3.7 问答系统(Question Answering, QA)

    自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。

    3.8 机器翻译(Machine Translation,MT)

    机器翻译是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译。被翻译的语言称为源语言(source language),翻译到的语言称作目标语言(target language)。

    机器翻译研究的目标就是建立有效的自动翻译方法、模型和系统,打破语言壁垒,最终实现任意时间、任意地点和任意语言的自动翻译,完成人们无障碍自由交流的梦想。

    3.9 自动摘要(Automatic Summarization)

    自动文摘(又称自动文档摘要)是指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),该摘要中的句子可直接出自原文,也可重新撰写所得。

    根据输入文本的数量划分,文本摘要技术可以分为单文档摘要和多文档摘要。
    在单文档摘要系统中,一般都采取基于抽取的方法。而对于多文档而言,由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异,因此如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常以为着要在句子层以下做工作,如对句子进行压缩,合并,切分等。另外,单文档的输出句子一般是按照句子在原文中出现的顺序排列,而在多文档摘要中,大多采用时间顺序排列句子,如何准确的得到每个句子的时间信息,也是多文档摘要需要解决的一个问题。

    3.10 语音识别(Speech Recognition)

    语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况
    在这里插入图片描述

    4、自然语言处理基本点

    4.1 语料库(Corpus)

    语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。

    4.2 中文分词(Chinese Word egmentation)

    (1)中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

    (2)现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于深度学习的中文分词。推荐

    (3)比较流行的中文分词工具:jieba、StanfordNLP、HanLP、SnowNLP、THULAC、NLPIR

    4.3 词性标注(Part-of-speech tagging)

    (1)词性标注是指为给定句子中的每个词赋予正确的词法标记,给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记(part-of-speech tag),比如,名词(noun)、动词(verb)、形容词(adjective)等。

    (2)词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型, 然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用的结构是感知器模型和条件随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。

    4.4 句法分析(Parsing)

    (1)基于规则的句法结构分析

    (2)基于统计的语法结构分析

    4.5 词干提取(Stemming)

    词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干。

    4.6 词形还原(Lemmatization)

    词形还原是将一组词语还原为词源或词典的词目形式的过程。

    4.7 停用词过滤

    停用词过滤是指在文本中频繁出现且对文本信息的内容或分类类别贡献不大甚至无贡献的词语,如常见的介词、冠词、助词、情态动词、代词以及连词等。

    4.8 词向量化(Word Vector)

    词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词语或者一段短语可以用一个定维的向量表示。(word2vec)

    from gensim.models import Word2Vec
    

    4.9 命名实体消歧(Named Entity Disambiguation)

    命名实体消岐是对句子中的提到的实体识别的过程。

    例如,对句子“Apple earned a revenue of 200 Billion USD in 2016”,命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说,命名实体要求有一个实体知识库,能够将句子中提到的实体和知识库联系起来。

    4.10 命名实体识别(named entity recognition)

    命名实体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的任务。

    三种主流算法:CRF,字典法和混合方法

    5、特征处理

    5.1 特征提取(Feature Extraction)

    特征提取是指将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程。

    举例(文本分类特征提取步骤):

    (1)对训练数据集的每篇文章,我们进行词语的统计,以形成一个词典向量。词典向量里包含了训练数据里的所有词语(假设停用词已去除),且每个词语代表词典向量中的一个元素。

    (2)在经过第一步的处理后,每篇文章都可以用词典向量来表示。这样一来,每篇文章都可以被看作是元素相同且长度相同的向量,不同的文章具有不同的向量值。这也就是表示文本的词袋模型(bag of words)。

    (3)针对于特定的文章,如何给表示它的向量的每一个元素赋值呢?最简单直接的办法就是0-1法了。简单来说,对于每一篇文章,我们扫描它的词语集合,如果某一个词语出现在了词典中,那么该词语在词典向量中对应的元素置为1,否则为0。

    5.2 特征选择( Feature Selection)

    当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。特征选择是指去掉无关特征,保留相关特征的过程,也可以认为是从所有的特征中选择一个最好的特征子集。特征选择本质上可以认为是降维的过程。

    from sklearn.feature_extraction.text import TfidfVectorizer

    5.3 降维(Dimension Reduction)

    6、模型选择

    6.1 马尔可夫模型、隐马尔可夫模型、层次化隐马尔可夫模型、马尔可夫网络

    (1)应用:词类标注、语音识别、局部句法剖析、语块分析、命名实体识别、信息抽取等。应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。

    (2)马尔可夫链:在随机过程中,每个语言符号的出现概率不相互独立,每个随机试验的当前状态依赖于此前状态,这种链就是马尔可夫链。

    (3)多元马尔科夫链:考虑前一个语言符号对后一个语言符号出现概率的影响,这样得出的语言成分的链叫做一重马尔可夫链,也是二元语法。二重马尔可夫链,也是三元语法,三重马尔可夫链,也是四元语法

    6.2 条件随机场(CRF)

    (1)条件随机场用于序列标注,中文分词、中文人名识别和歧义消解等自然语言处理中,表现出很好的效果。原理是:对给定的观察序列和标注序列,建立条件概率模型。条件随机场可用于不同预测问题,其学习方法通常是极大似然估计。

    (2)条件随机场模型也需要解决三个基本问题:特征的选择、参数训练和解码。

    6.3 贝叶斯网络

    贝叶斯网络又称为信度网络或信念网络(belief networks),是一种基于概率推理的数学模型,其理论基础是贝叶斯公式。

    6.4 最大熵模型

    7、NLP常用工具

    (1)Anaconda

    Anaconda是一个用于科学计算的Python开发平台,支持 Linux,Mac和Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本Python并存、切换以及各种第三方包安装问题。Anaconda利用conda命令来进行package和environment的管理,并且已经包含了Python和相关的配套工具。Anaconda集成了大量的机器学习库以及数据处理必不可少的第三方库,比如NumPy,SciPy,Scikit-Learn以及TensorFlow等。

    (2)Scikit-learn

    Scikit-learn是广受欢迎的入门级机器学习库,包含大量的机器学习算法和特征提取实现,使用非常简便。Scikit-learn实现的是浅层学习算法,神经网络仅实现了多层感知机。

    (3)TensorFlow

    TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,可被用于语音识别或图像识别等多项机器学习和深度学习领域。

    (4)Keras

    Keras是一个高级别的Python神经网络框架,能在TensorFlow或者 Theano 上运行。Keras的作者、谷歌AI研究员Francois Chollet宣布了一条激动人心的消息,Keras将会成为第一个被添加到TensorFlow核心中的高级别框架,这将会让Keras变成Tensorflow的默认API。

    (5)Gensim

    Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。

    (6)NLTK

    在NLP领域中,NLTK是最常使用的一个Python库。

    (7)Jieba

    Jieba,结巴分词是最受欢迎的中文分词工具。

    8、NLP语言模型

    (1)词的独热表示(one-hot representation)

    (2)Bag of Words

    (3)Bi-gram 和 N-gram

    (4)词的分布式表示(distributed representation)

    (5)共现矩阵(Cocurrence martrix)

    (6)神经网络语言模型(Neural Networ Language model,NNLM)

    (7)word2vec

       连续词袋模型(Continuous Bag of Words,CBOW)
       Skip-Gram模型
    

    9、快速入门NLP方法

    (1)认真看完一本NLP相关的书,坚持看完一部视频。

    (2)看这两年相关方向的综述论文,然后看一些经典的论文和最新论文。

    (3)独立实现一个小型的自然语言处理项目。

    (4)可以在Github上找到很多相关的开源代码,选一个自己感兴趣的方向进行研究。

    10、自然语言处理学习资料

    (1)我爱自然语言处理

    (2)一文读懂自然语言NLP

    (3)中文分词原理与工具

    (4)自然语言处理项目资源库汇总

    在这里插入图片描述
    在这里插入图片描述
    大爷赏个脸?
    在这里插入图片描述

    展开全文
  • 人工智能 之 自然语言处理(NLP)算法分类总结

    万次阅读 多人点赞 2018-08-29 14:16:37
    目录 文章目录 目录 〇、推荐 一、人工智能学习算法分类 1. 纯算法类 2.建模方面 二、详细算法 1.分类算法 ...异常值处理 (3).二值化 (4).缺失值填充: 支持均值、中位数、特定值补差、多重插补
  • 【课程简介】 本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 ...自然语言处理总结 脑图总结.pdf
  • 面向NLP自然语言处理的深度学习对抗样本综述.pdf 深度学习模型被证明存在脆弱性并容易遭到对抗样本的攻击,但目前对于对抗样本的研究主要集中在计算机视觉领域而忽略了自然语言处理模型的安全问题。针对自然语言处理...
  • 主要介绍了Python自然语言处理之词干,词形与MaxMatch算法代码详解,涉及词干提取,词形还原,简单总结了二者的区别和联系,最后还分享了最大匹配算法的相关示例,具有一定参考价值,需要的朋友可以了解下。
  • NLP技术基础知识 自然语言处理技术基础 计算语言学工作者需要了解的数学知识总结
  • 【课程列表】 第01章 自然语言处理概论 共64页.pptx 第02章 基础知识-数学基础与语言学基础 共75页.ppt 第03章 汉语的分词与频度统计 共88页.pptx 第04章 汉语语料库的多级加工 共82...自然语言处理总结 脑图总结.pdf
  • nlp:自然语言处理项目

    2021-04-13 14:59:49
    自然语言处理项目 1- Sentiment_analysis:该项目的目标是实现完整的情感分类器。 2-变形金刚:该项目的目的是对变形金刚有一个完整的了解,并在不同的任务(例如:问题与答案,总结,翻译)中实施其中的某些变形...
  • Python自然语言处理(NLP)工具小结

    万次阅读 2018-01-03 14:00:51
    Python 的几个自然语言处理工具自然语言处理(Natural Language Processing,简称NLP)是人工智能的一个子域。自然语言处理的应用包括机器翻译、情感分析、智能问答、信息提取、语言输入、舆论分析、知识图谱等方面...
  • 自然语言处理以及对话系统知识点总结

    千次阅读 热门讨论 2018-07-06 20:32:00
    自然语言处理以及对话系统知识点总结 一、先谈谈 GAN 二、自然语言处理 三、对话系统
  • 《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序...
  • 自然语言处理课程学习总结

    千次阅读 2016-12-13 21:08:48
    概念自然语言处理, 主要是研究如何利用计算机来理解和生成自然语言, 其发展经历了三个阶段, 分别是: Natural language understanding Natural language processing Computational Linguistics 现在的自然...
  • 自然语言处理中的分词问题总结

    千次阅读 2018-10-29 13:47:46
    自然语言处理中的分词问题总结   众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人...
  • 总结各种不同类型的自动文摘系统的特点的基础上,将基于潜在语义分析和篇章多级依存结构的文摘方法相结合,一种综合型的自动文摘系统。
  • 自然语言处理(NLP)算法分类总结

    千次阅读 2019-11-05 22:22:23
    文章目录 目录 〇、推荐 一、人工智能学习算法分类 1. 纯算法类 2.建模方面 二、详细算法 1.分类算法 ...异常值处理 (3).二值化 (4).缺失值填充: 支持均值、中位数、特定值补差、多重插补
  • 牛客网自然语言处理(NLP)专项练习总结过拟合与欠拟合1.有助于解决模型训练过程中的过拟合问题的方法2.解决欠拟合的方法梯度消失1.下面哪些方法有助于解决深度网络的梯度消失问题激活函数1.Sigmoid、tanh和Relu机器...
  • **自然语言处理(NLP)**是一门融合了计算机科学、人工智能以 及语言学的交叉学科, 这门学科研究的是如何通过机器学习等技术, 让计算机学会处理人类语言,乃至实现终极目标——理解人类语言或人工智能 [外链图片...
  • 文章目录论述自然语言处理的技术范畴(基本全貌) 一、前言二、主要技术范畴1、语音合成(Speech Synthesis)2、语音识别(Speech Recognition)3、中文自动分词4、词性标注5、句法分析7、文本分类7、文本挖掘8、信息抽取9...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 131,858
精华内容 52,743
关键字:

自然语言处理总结