• 本资源为tanxinxueyuan的NLP自然语言处理培训视频,及供大家学习交流使用。
  • 自然语言处理和大部分的机器学习或者人工智能领域的技术一样,是一个涉及到多个技能、技术和领域的综合体。 所以自然语言处理工程师会有各种各样的背景,大部分都是在工作中自学或者是跟着项目一起学习的,这其中也...

    作者 | 兰红云
    责编 | 何永灿

    自然语言处理和大部分的机器学习或者人工智能领域的技术一样,是一个涉及到多个技能、技术和领域的综合体。

    所以自然语言处理工程师会有各种各样的背景,大部分都是在工作中自学或者是跟着项目一起学习的,这其中也不乏很多有科班背景的专业人才,因为技术的发展实在是日新月异,所以时刻要保持着一种强烈的学习欲望,让自己跟上时代和技术发展的步伐。本文作者从个人学习经历出发,介绍相关经验。

    一些研究者将自然语言处理(NLP,Natural Language Processing)和自然语言理解(NLU,Natural Language Understanding)区分开,在文章中我们说的NLP是包含两者的,并没有将两者严格分开。

    图片描述
    图1 自然语言处理工程师技能树

    自然语言处理学习路线

    数学基础

    数学对于自然语言处理的重要性不言而喻。当然数学的各个分支在自然语言处理的不同阶段也会扮演不同的角色,这里介绍几个重要的分支。

    • 代数

    代数作为计算数学里面很重要的一个分支,在自然语言处理中也有举足轻重的作用。这一部分需要重点关注矩阵处理相关的一些知识,比如矩阵的SVD、QR分解,矩阵逆的求解,正定矩阵、稀疏矩阵等特殊矩阵的一些处理方法和性质等等。

    对于这一部分的学习,既可以跟着大学的代数书一起学习,也可以跟着网上的各种公开课一起学习,这里既可以从国内的一些开放学习平台上学,也可以从国外的一些开放学习平台上学。这里放一个学习的链接,网易公开课的链接:https://c.open.163.com/search/search.htm?query=线性代数#/search/all。(其他的资料或者平台也都OK)。

    • 概率论

    在很多的自然语言处理场景中,我们都是算一个事件发生的概率。这其中既有特定场景的原因,比如要推断一个拼音可能的汉字,因为同音字的存在,我们能计算的只能是这个拼音到各个相同发音的汉字的条件概率。也有对问题的抽象处理,比如词性标注的问题,这个是因为我们没有很好的工具或者说能力去精准地判断各个词的词性,所以就构造了一个概率解决的办法。

    对于概率论的学习,既要学习经典的概率统计理论,也要学习贝叶斯概率统计。相对来说,贝叶斯概率统计可能更重要一些,这个和贝叶斯统计的特性是相关的,因其提供了一种描述先验知识的方法。使得历史的经验使用成为了可能,而历史在现实生活中,也确实是很有用的。比如朴素贝叶斯模型、隐马尔卡模型、最大熵模型,这些我们在自然语言处理中耳熟能详的一些算法,都是贝叶斯模型的一种延伸和实例。

    这一部分的学习资料,也非常丰富,这里也照例对两种概率学习各放一个链接,统计学导论http://open.163.com/movie/2011/5/M/O/M807PLQMF_M80HQQGMO.html,贝叶斯统计:https://www.springboard.com/blog/probability-bayes-theorem-data-science/

    • 信息论

    信息论作为一种衡量样本纯净度的有效方法。对于刻画两个元素之间的习惯搭配程度非常有效。这个对于我们预测一个语素可能的成分(词性标注),成分的可能组成(短语搭配)非常有价值,所以这一部分知识在自然语言处理中也有非常重要的作用。

    同时这部分知识也是很多机器学习算法的核心,比如决策树、随机森林等以信息熵作为决策桩的一些算法。对于这部分知识的学习,更多的是要理解各个熵的计算方法和优缺点,比如信息增益和信息增益率的区别,以及各自在业务场景中的优缺点。照例放上一个链接:http://open.163.com/special/opencourse/information.html

    数据结构与算法

    这部分内容的重要性就不做赘述了。学习了上面的基础知识,只是万里长征开始了第一步,要想用机器实现对自然语言的处理,还是需要实现对应的数据结构和算法。这一部分也算是自然语言处理工程师的一个看家本领。这一部分的内容也是比较多的,这里就做一个简单的介绍和说明。

    首先数据结构部分,需要重点关注链表、树结构和图结构(邻接矩阵)。包括各个结构的构建、操作、优化,以及各个结构在不同场景下的优缺点。当然大部分情况下,可能使用到的数据结构都不是单一的,而是有多种数据结构组合。比如在分词中有非常优秀表现的双数组有限状态机就使用树和链表的结构,但是实现上采用的是链表形式,提升了数据查询和匹配的速度。在熟练掌握各种数据结构之后,就是要设计良好的算法了。

    伴随着大数据的不断扩张,单机的算法越来越难发挥价值,所以多数场景下都要研发并行的算法。这里面又涉及到一些工具的应用,也就是编程技术的使用。例如基于Hadoop的MapReduce开发和Spark开发都是很好的并行化算法开发工具,但是实现机制却有很大的差别,同时编程的便利程度也不一样。

    当然这里面没有绝对的孰好孰坏,更多的是个人使用的习惯和业务场景的不同而不同。比如两个都有比较成熟的机器学习库,一些常用的机器学习算法都可以调用库函数实现,编程语言上也都可以采用Java,不过Spark场景下使用Scala会更方便一些。因为这一部分是偏实操的,所以我的经验会建议实例学习的方法,也就是跟着具体的项目学习各种算法和数据结构。最好能对学习过的算法和数据结构进行总结回顾,这样可以更好的得到这种方法的精髓。因为基础的元素,包括数据结构和计算规则都是有限的,所以多样的算法更多的是在不同的场景下,对于不同元素的一个排列组合,如果能够融会贯通各个基础元素的原理和使用,不管是对于新知识的学习还是对于新解决方案的构建都是非常有帮助的。

    对于工具的选择,建议精通一个,对于其他工具也需要知道,比如精通Java和MapReduce,对于Spark和Python也需要熟悉,这样可以在不同的场景下使用不同的工具,提升开发效率。这一部分实在是太多、太广,这里不能全面地介绍,大家可以根据自己的需求,选择合适的学习资料进行学习。这里给出一个学习基础算法(包含排序、图、字符串处理等)的课程链接:https://algs4.cs.princeton.edu/home/

    语言学

    这一部分就更多是语文相关的知识,比如一个句子的组成成分包括:主、谓、宾、定、状、补等。对于各个成分的组织形式也是多种多样。比如对于主、谓、宾,常规的顺序就是:主语→谓语→宾语。当然也会有:宾语→主语→宾语(饭我吃了)。这些知识的积累有助于我们在模型构建或者解决具体业务的时候,能够事半功倍,因为这些知识一般情况下,如果要被机器学习,都是非常困难的,或者会需要大量的学习素材,或许在现有的框架下,机器很难学习到。如果把这些知识作为先验知识融合到模型中,对于提升模型的准确度都是非常有价值的。

    在先期的研究中,基于规则的模型,大部分都是基于语言模型的规则进行研究和处理的。所以这一部分的内容对于自然语言处理也是非常重要的。但是这部分知识的学习就比较杂一些,因为大部分的自然语言处理工程师都是语言学专业出身,所以对于这部分知识的学习,大部分情况都是靠碎片化的积累,当然也可以花一些精力,系统性学习。对于这部分知识的学习,个人建议可以根据具体的业务场景进行学习,比如在项目处理中要进行同义词挖掘,那么就可以跟着“百科”或者“搜索引擎”学习同义词的定义,同义词一般会有什么样的形式,怎么根据句子结构或者语法结构判断两个词是不是同义词等等。

    深度学习

    随着深度学习在视觉和自然语言处理领域大获成功,特别是随着AlphaGo的成功,深度学习在自然语言处理中的应用也越来越广泛,大家对于它的期望也越来越高。所以对于这部分知识的学习也几乎成为了一个必备的环节(实际上可能是大部分情况,不用深度学习的模型,也可以解决很多业务)。

    对于这部分知识,现在流行的几种神经网络都是需要学习和关注的,特别是循环神经网络,因为其在处理时序数据上的优势,在自然语言处理领域尤为收到追捧,这里包括单项RNN、双向RNN、LSTM等形式。同时新的学习框架,比如对抗学习、增强学习、对偶学习,也是需要关注的。其中对抗学习和对偶学习都可以显著降低对样本的需求,这个对于自然语言处理的价值是非常大的,因为在自然语言处理中,很重要的一个环节就是样本的标注,很多模型都是严重依赖于样本的好坏,而随着人工成本的上升,数据标注的成本越来越高,所以如果能显著降低标注数据需求,同时提升效果,那将是非常有价值的。

    现在还有一个事物正在如火如荼地进行着,就是知识图谱,知识图谱的强大这里就不再赘述,对于这部分的学习可能更多的是要关注信息的链接、整合和推理的技术。不过这里的每一项技术都是非常大的一个领域,所以还是建议从业务实际需求出发去学习相应的环节和知识,满足自己的需求,链接http://www.chinahadoop.cn/course/918

    自然语言处理现状

    随着知识图谱在搜索领域的大获成功,以及知识图谱的推广如火如荼地进行中,现在的自然语言处理有明显和知识图谱结合的趋势。特别是在特定领域的客服系统构建中,这种趋势就更明显,因为这些系统往往要关联很多领域的知识,而这种知识的整合和表示,很适合用知识图谱来解决。随着知识图谱基础工程技术的完善和进步,对于图谱构建的容易程度也大大提高,所以自然语言处理和知识图谱的结合就越来越成为趋势。

    语义理解仍然是自然语言处理中一个难过的坎。目前各项自然语言处理技术基本已经比较成熟,但是很多技术的效果还达不到商用的水平。特别是在语义理解方面,和商用还有比较大的差距。比如聊天机器人现在还很难做到正常的聊天水平。不过随着各个研究机构和企业的不断努力,进步也是飞速的,比如微软小冰一直在不断的进步。

    对于新的深度学习框架,目前在自然语言处理中的应用还有待进一步加深和提高。比如对抗学习、对偶学习等虽然在图像处理领域得到了比较好的效果,但是在自然语言处理领域的效果就稍微差一些,这里面的原因是多样的,因为没有深入研究,就不敢妄言。

    目前人机对话、问答系统、语言翻译是自然语言处理中的热门领域,各大公司都有了自己的语音助手,这一块也都在投入大量的精力在做。当然这些上层的应用,也都依赖于底层技术和模型的进步,所以对于底层技术的研究应该说一直是热门,在未来一段时间应该也都还是热门。之前听一个教授讲过一个故事,他是做parser的,开始的时候很火,后来一段时间因为整个自然语言处理的效果差强人意,所以作为其中一个基础工作的parser就随之受到冷落,曾经有段时间相关的期刊会议会员锐减,但是最近整个行业的升温,这部分工作也随之而受到重视。不过因为他一直坚持在这个领域,所以建树颇丰,最近也成为热门领域和人物。

    所以在最后引用一位大牛曾经说过的话:“任何行业或者领域做到头部都是非常有前途的,即使是打球,玩游戏。”(大意)

    个人经验

    笔者是跟着项目学习自然语言处理的,非科班出身,所以的经验难免会有偏颇,说出来仅供大家参考, 有不足和纰漏的地方敬请指正。

    知识结构

    要做算法研究,肯定需要一定的知识积累,对于知识积累这部分,我的经验是先学数学理论基础,学的顺序可以是代数→概率论→随机过程。当然这里面每一科都是很大的一个方向,学的时候不必面面俱到,所有都深入理解,但是相对基础的一些概念和这门学科主要讲的是什么问题一定要记住。

    在学习了一些基础数学知识之后,就开始实现——编写算法。这里的算法模型,建议跟着具体的业务来学习和实践,比如可以先从识别垃圾邮件这样的demo进行学习实验,这样的例子在网上很容易找到,但是找到以后,一定不要看看就过去,要一步一步改写拿到的demo,同时可以改进里面的参数或者实现方法,看看能不能达到更好的效果。个人觉得学习还是需要下苦功夫一步一步模仿,然后改进,才能深入的掌握相应的内容。对于学习的资料,上学时期的各个教程即可。

    工具

    工欲善其事必先利其器,所以好的工具往往能事半功倍。在工具的选择上,个人建议,最高优先级的是Python,毕竟其的宣传口语是:人生苦短,请用Python。第二优先级的是Java,基于Java可以和现有的很多框架进行直接交互,比如Hadoop、Spark等等。对于工具的学习两者还是有很大的差别的,Python是一个脚本语言,所以更多的是跟着“命令”学,也就是要掌握你要实现什么目的来找具体的执行语句或者命令,同时因为Python不同版本、不同包对于同一个功能的函数实现差别也比较大,所以在学习的时候,要多试验,求同存异。

    对于Java就要学习一些基础的数据结构,然后一步一步的去编写自己的逻辑。对于Python当然也可以按照这个思路,Python本身也是一个高级编程语言,所以掌握了基础的数据结构之后,也可以一步一步的实现具体的功能,但是那样好像就失去了slogan的意义。

    紧跟时代

    自然语言处理领域也算是一个知识密集型的行业,所以知识的更新迭代非常的快,要时刻关注行业、领域的最新进展。这个方面主要就是看一些论文和关注一些重要的会议,对于论文的获取,Google Scholar、arxiv都是很好的工具和资源(请注意维护知识产权)。会议就更多了KDD、JIST、CCKS等等。

    作者简介:兰红云,滴滴算法工程师,负责算法策略相关工作。主要专注于机器学习和自然语言处理方向。著有《自然语言处理技术入门与实践》。
    本文来源公众号“人工智能头条”,未经允许不得转载。

    如何成为一名

    这里写图片描述

    展开全文
  • 从零开始自然语言处理 楚门智能创始人,昆士兰理工大学数据科学硕士,多年大数据...

    订阅后:请点击此处观看视频课程

     

    视频教程-从零开始自然语言处理-NLP

    学习有效期:永久观看

    学习时长:317分钟

    学习计划:6天

    难度:

     

    口碑讲师带队学习,让你的问题不过夜」

    讲师姓名:钱兴会

    CTO/CIO/技术副总裁/总工程师

    讲师介绍:楚门智能创始人,昆士兰理工大学数据科学硕士,多年大数据行业经验,原联想电商大数据平台负责人,Cloudera认证架构师、管理员,主要科研方向为数据科学,在自然语言处理领域有的经验,擅长Spark、Hadoop等平台架构,具有多年的实战经验,讲课风格幽默风趣、实战为主。

    ☛点击立即跟老师学习☚

     

    「你将学到什么?」

    本课程隶属于自然语言处理(NLP)实战系列。自然语言处理(NLP)是数据科学里的一个分支,它的主要覆盖的内容是:以一种智能与高效的方式,对文本数据进行系统化分析、理解与信息提取的过程。通过使用NLP以及它的组件,我们可以管理非常大块的文本数据,或者执行大量的自动化任务,并且解决各式各样的问题,如自动摘要,机器翻译,命名实体识别,关系提取,情感分析,语音识别,以及主题分割等等。

    一般情况下一个初级NLP工程师的工资从15-35万不等,所以掌握NLP技术,对于人工智能学习者来讲是非常关键的一个环节。



    【超实用课程内容】

    课程从自然语言处理的基本概念与基本任务出发,对目前主流的自然语言处理应用进行全面细致的讲解,包括文本分类,文本摘要提取,文本相似度,文本情感分析,文本特征提取等,同时算法方面包括经典算法与深度学习算法的结合,例如LSTM,BiLSTM等,并结合京东电商评论分类、豆瓣电影摘要提取、今日头条舆情挖掘、饿了么情感分析等过个案例,帮助大家熟悉自然语言处理工程师在工作中会接触到的常见应用的实施的基本实施流程,从0-1入门变成自然语言处理研发工程师。


    【课程如何观看?】

    PC端:https://edu.csdn.net/course/detail/25649

    移动端:CSDN 学院APP(注意不是CSDN APP哦)

    本课程为录播课,课程2年有效观看时长,大家可以抓紧时间学习后一起讨论哦~


    【学员专享增值服务】

    源码开放

    课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化

    下载方式:电脑登录https://edu.csdn.net/course/detail/25649,点击右下方课程资料、代码、课件等打包下载


    通过第二课时下载材料



     

    「课程学习目录」

    第1章:自然语言处理概述
    1.自然语言处理工程师岗位介绍
    2.自然语言处理的应用场景
    3.自然语言处理的工作原理
    4.深度学习与自然语言处理的关系
    第2章:自然语言处理分词实践工具:今日头条新闻处理
    1.分词工具介绍
    2.jieba分词介绍
    3.HaNLP介绍
    4.今日头条新闻处理项目背景介绍
    5.使用jieba分词完成今日头条新闻数据分词
    6.自己构建jieba分词的词库,提升分词质量
    7.自己构建jieba分词的停词库,提升分词质量
    8.项目总结
    第3章:文本特征提取实践: 今日头条特征提取
    1.项目背景介绍
    2.今日头条数据集介绍
    3.项目架构设计
    4.基于TF-IDF提取关键词
    5.基于TextRank提取关键词
    6.项目总结
    第4章:文本分类项目实践:搜狗新闻分类
    1.项目背景介绍
    2.搜狗新闻数据集介绍
    3.项目流程与架构设计
    4.文本分类算法原理-贝叶斯
    5.数据加载模块开发
    6.分词模块实现
    7.基于TF-IDF模块的特征提取
    8.贝叶斯模型开发实践
    9.模型结果分析
    10.项目总结
    第5章:文本情感分析项目实践:京东评论情感挖掘
    1.项目数据介绍
    2.京东评论情感分析数据集介绍
    3.京东情感分类算法-LSTM原理介绍
    4.京东情感分类算法-项目架构设计
    5.数据加载与处理
    6.分词模块的实现
    7.Word2Vec词向量构建
    8.词典生成
    9.模型设计与构建
    10.模型训练
    11.预测部分编写
    12.课程总结
    第6章:文本摘要项目实践: 新浪新闻摘要提取
    1.项目背景介绍
    2.新浪新闻摘要提取样本介绍
    3.摘要提取算法seq2seq介绍
    4.Attention模型
    5.seq2seq源码
    6.模型训练部分
    7.预测部分代码
    8.模型训练
    9.项目总结
    第7章:命名实体项目实践:医疗病例命名实体提取
    1.项目背景介绍
    2.医疗命名实体提取样本数据介绍
    3.项目流程设计
    4.命名实体提取算法BiLSTM+CRF原理深度解析
    5.数据处理
    6.医疗命名实体提取数据集构造
    7.医疗命名实体提取词向量构建
    8.BiLSTM+CRF模型构建
    9.模型训练
    10.模型预测部分
    11.项目总结
    第8章:文本相似度项目实践: 客服评论相似性分析
    1.项目背景介绍
    2.客服评论相似性数据介绍
    3.孪生网络概述
    4.客服评论数据处理与加载
    5.构建数据集
    6.构建词向量矩阵
    7.Siamese LSTM基础模型构建
    8.构建Keras可以使用的数据
    9.Siamese LSTM模型整合与实现
    10.项目总结

     

    7项超值权益,保障学习质量」

    • 大咖讲解

    技术专家系统讲解传授编程思路与实战。

    • 答疑服务

    专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。

    • 课程资料+课件

    超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)

    • 常用开发实战

    企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。

    • 大牛技术大会视频

    2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。

    • APP+PC随时随地学习

    满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。

     

    「什么样的技术人适合学习?」

    • 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
    • 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
    • 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。

     

    「悉心打造精品好课,6天学到大牛3年项目经验」

    【完善的技术体系】

    技术成长循序渐进,帮助用户轻松掌握

    掌握NLP知识,扎实编码能力

    【清晰的课程脉络】

    浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。

    【仿佛在大厂实习般的课程设计】

    课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。

     

    「你可以收获什么?」

    熟悉常见的自然语言处理算法:文本分类,文本摘要提取,文本相似度,文本情感分析,文本特征提取等

    了解常见的自然语言处理应用:京东电商评论分类、豆瓣电影摘要提取、今日头条舆情挖掘、饿了么情感分析等等

    掌握自然语言处理项目的开发流程:包括数据制作、网络训练、测试、优化等

    了解自然语言处理常见的深度学习算法,如LSTM,BiLSTM等

     

    展开全文
  • NLP:《NLP_2019_Highlights》2019年自然语言处理领域重要进展及其解读 NLP_2019_Highlights 2019 was an impressive year for the field of natural language processing (NLP). In this report, I want to ...

    NLP:《NLP Year in Review 2019&NLP_2019_Highlights》2019年自然语言处理领域重要进展回顾及其解读

    导读:2019年是自然语言处理(NLP)领域令人印象深刻的一年。在这份报告中,我想重点介绍一些我在2019年遇到的关于机器学习和NLP的最重要的故事。我将主要关注NLP,但我也会强调一些与AI相关的有趣故事。标题没有特定的顺序。故事可以包括出版物、工程成果、年度报告、教育资源的发布等。

     

     

    目录

    NLP_2019_Highlights

    Publications 📙

    ML/NLP Creativity and Society 🎨

    ML/NLP Tools and Datasets ⚙️

    Articles and Blog posts ✍️

    Ethics in AI 🚨

    ML/NLP Education 🎓


     

    NLP_2019_Highlights

    2019 was an impressive year for the field of natural language processing (NLP). In this report, I want to highlight some of the most important stories related to machine learning and NLP that I came across in 2019. I will mostly focus on NLP but I will also highlight a few interesting stories related to AI in general. The headlines are in no particular order. Stories may include publications, engineering efforts, yearly reports, the release of educational resources, etc. 2019年是自然语言处理(NLP)领域令人印象深刻的一年。在这份报告中,我想重点介绍一些我在2019年遇到的关于机器学习和NLP的最重要的故事。我将主要关注NLP,但我也会强调一些与AI相关的有趣故事。标题没有特定的顺序。故事可以包括出版物、工程成果、年度报告、教育资源的发布等。
    Warning! This is a very long article so before you get started I would suggest bookmarking the article if you wish to read it in parts. I have also published the PDF version of this article which you can find at the end of the post. 警告!这是一篇很长的文章,所以在你开始阅读之前,我建议你把这篇文章放在书签里,如果你想分几部分阅读的话。我也发布了这篇文章的PDF版本,你可以在文章末尾找到。

     

    Publications 📙

    Google AI introduces ALBERT which a lite version of BERT for self-supervised learning of contextualized language representations. The main improvements are reducing redundancy and allocating the model’s capacity more efficiently. The method advances state-of-the-art performance on 12 NLP tasks.

    Earlier this year, researchers at NVIDIA published a popular paper (coined StyleGAN) which proposed an alternative generator architecture for GANs, adopted from style transfer. Here is a follow-up work where that focuses on improvements such as redesigning the generator normalization process.

    谷歌人工智能介绍ALBERT,这是一个精简版的BERT自我监督学习语境化的语言表示。主要的改进是减少冗余和更有效地分配模型的容量。该方法提高了12个NLP任务的最新性能。
    今年早些时候,NVIDIA的研究人员发表了一篇很受欢迎的论文(发表了StyleGAN),该论文为GANs提出了一种替代的生成器架构,采用了style transfer。接下来的工作重点是改进,比如重新设计生成器的标准化过程。

    One of my favorite papers this year was code2seq which is a method for generating natural language sequences from the structured representation of code. Such research can give way to applications such as automated code summarization and documentation.

    Ever wondered if it’s possible to train a biomedical language model for biomedical text mining? The answer is BioBERT which is a contextualized approach for extracting important information from biomedical literature.

    今年我最喜欢的一篇论文是code2seq,它是一种从代码的结构化表示生成自然语言序列的方法。这样的研究可能会让位于自动化代码摘要和文档等应用程序。有没有想过是否有可能为生物医学文本挖掘训练一个生物医学语言模型?答案是BioBERT,这是一种从生物医学文献中提取重要信息的语境化方法

    After the release of BERT, Facebook researchers published RoBERTa which introduced new methods for optimization to improve upon BERT and produced state-of-the-art results on a wide variety of NLP benchmarks.

    Researchers from Facebook AI also recently published a method based on an all-attention layer for improving the efficiency of a Transformer language model. More work from this research group includes a method to teach AI systems on how to plan using natural language.

    在BERT发布之后,Facebook的研究人员发布了RoBERTa,它引入了新的优化方法来改进BERT,并在各种NLP基准上产生了最先进的结果。Facebook人工智能的研究人员最近还发布了一种基于全注意力层的方法,用于提高Transformer语言模型的效率。该研究小组的更多工作包括教授人工智能系统如何使用自然语言进行规划。

     

    Explainability continues to be an important topic in machine learning and NLP. This paper provides a comprehensive overview of works addressing explainability, taxonomies, and opportunities for future research.

    Sebastian Ruder published his thesis on Neural Transfer Learning for Natural Language Processing.

    A group of researchers developed a method to perform emotion recognition in the context of conversation which could pave the way to affective dialogue generation. Another related work involves a GNN approach called DialogueGCN to detect emotions in conversations. This research paper also provides code implementation.

    The Google AI Quantum team published a paper in Nature where they claim to have developed a quantum computer that is faster than the world’s largest supercomputer. Read more about their experiments here.

    可解释性一直是机器学习和NLP中的一个重要课题。这篇文章提供了一个关于可解释性、分类和未来研究机会的全面综述。

    Sebastian Ruder发表了他关于自然语言处理的神经转移学习的论文。

    一组研究人员开发了一种在对话环境下进行情感识别的方法,为情感对话的产生铺平了道路。另一项相关工作涉及一种名为DialogueGCN的GNN方法来检测对话中的情绪。本论文还提供了代码实现。

    谷歌人工智能量子小组在《自然》杂志上发表了一篇论文,声称他们已经开发出一种比世界上最大的超级计算机还要快的量子计算机。此处可阅读更多关于他们的实验。

    As mentioned earlier, one of the areas of neural network architectures that require a lot of improvement is explainability. This paper discusses the limitations of attention as a reliable approach for explainability in the context of language modeling.

    Neural Logic Machine is a neural-symbolic network architecture that is able to do well at both inductive learning and logic reasoning. The model does significantly well on tasks such as sorting arrays and finding shortest paths.

    And here is a paper that applies Transformer language models to Extractive and Abstractive Neural document summarization.

    Researchers developed a method that focuses on using comparisons to build and train ML models. Instead of requiring large amounts of feature-label pairs, this technique compares images with previously seen images to decide whether the image should be of a certain label.

    Nelson Liu and others presented a paper discussing the type of linguistic knowledge being captured by pretrained contextualizers such as BERT and ELMo.

    如前所述,需要大量改进的神经网络体系结构的一个领域是可解释性。本文讨论了注意力作为一种可靠的可解释性方法在语言建模中的局限性。

    神经逻辑机是一种既能进行归纳学习又能进行逻辑推理的神经符号网络结构。该模型在排序数组和寻找最短路径等任务中表现得非常出色。

    这是一篇将Transformer语言模型应用于提取和抽象神经类文档摘要的论文。

    研究人员开发了一种方法,侧重于使用比较来建立和训练ML模型。这种技术不需要大量的特征标签对,而是将图像与以前看到的图像进行比较,以确定图像是否属于某个特定的标签。

    Nelson Liu等人发表了一篇论文,讨论了预先训练的语境设定者(如BERT和ELMo)获取的语言知识的类型。

    XLNet is a pretraining method for NLP that showed improvements upon BERT on 20 tasks. I wrote a summary of this great work here.

    This work from DeepMind reports the results from an extensive empirical investigation that aims to evaluate language understanding models applied to a variety of tasks. Such extensive analysis is important to better understand what language models capture so as to improve their efficiency.

    VisualBERT is a simple and robust framework for modeling vision-and-language tasks including VQA and Flickr30K, among others. This approach leverages a stack of Transformer layers coupled with self-attention to align elements in a piece of text and the regions of an image.

    This work provides a detailed analysis comparing NLP transfer learning methods along with guidelines for NLP practitioners.

    XLNet是NLP的一种前训练方法,它在20个任务上都比BERT有改进。我写了一个总结,这伟大的工作在这里。

    这项来自DeepMind的工作报告了一项广泛的实证调查的结果,该调查旨在评估应用于各种任务的语言理解模型。这种广泛的分析对于更好地理解语言模型所捕获的内容以提高它们的效率是很重要的。

    VisualBERT是一个简单而健壮的框架,用于建模视觉和语言任务,包括VQA和Flickr30K等。这种方法利用了一组Transformer层,并结合了self-attention来对齐文本中的元素和图像中的区域

    这项工作提供了一个详细的分析比较NLP转移学习方法和指导NLP的从业者。

    Alex Wang and Kyunghyun propose an implementation of BERT that is able to produce high-quality, fluent generations. Here is a Colab notebookto try it.

    Facebook researchers published code (PyTorch implementation) for XLM which is a model for cross-lingual model pretraining.

    This works provides a comprehensive analysis of the application of reinforcement learning algorithms for neural machine translation.

    This survey paper published in JAIR provides a comprehensive overview of the training, evaluation, and use of cross-lingual word embedding models.

    The Gradient published an excellent article detailing the current limitations of reinforcement learning and also providing a potential path forward with hierarchical reinforcement learning. And in a timely manner, a couple of folks published an excellent set of tutorials to get started with reinforcement learning.

    This paper provides a light introduction to contextual word representations.

    Alex Wang和Kyunghyun提出了BERT的实现,能够产生高质量、流畅的代。这里有一个Colab notebookt笔记本来试试。

    Facebook的研究人员发表了XLM的代码(PyTorch实现),这是一个跨语言模型的预培训模型。

    本文全面分析了强化学习算法在神经机器翻译中的应用。

    这篇发表在JAIR上的调查论文对跨语言单词嵌入模型的培训、评估和使用进行了全面的概述。

    Gradient发表了一篇优秀的文章,详细阐述了强化学习目前的局限性,并提供了一条潜在的分级强化学习的前进道路。及时地,一些人发布了一套优秀的教程来开始强化学习。

    本文简要介绍了上下文词表示。

     

    ML/NLP Creativity and Society 🎨

    Machine learning has been applied to solve real-world problems but it has also been applied in interesting and creative ways. ML creativity is as important as any other research area in AI because at the end of the day we wish to build AI systems that will help shape our culture and society.

    Towards the end of this year, Gary Marcus and Yoshua Bengio debated on the topics of deep learning, symbolic AI and the idea of hybrid AI systems.

    The 2019 AI Index Report was finally released and provides a comprehensive analysis of the state of AI which can be used to better understand the progress of AI in general.

    机器学习已被应用于解决现实世界的问题,但它也被应用在有趣和创造性的方式。创造力和任何其他人工智能研究领域一样重要,因为在一天结束的时候,我们希望建立有助于塑造我们的文化和社会的人工智能系统。

    今年年底,加里·马库斯(Gary Marcus)和约舒亚·本吉奥(yobengio)就深度学习、象征性人工智能和混合人工智能系统的想法展开了辩论。

    2019年人工智能指数报告最终发布,全面分析了人工智能的现状,可以更好地了解人工智能的总体进展。

     

    Commonsense reasoning continues to be an important area of research as we aim to build artificial intelligence systems that not are only able to make a prediction on the data provided but also understand and can reason about those decisions. This type of technology can be used in conversational AI where the goal is to enable an intelligent agent to have more natural conversations with people. Check out this interview with Nasrin Mostafazadeh having a discussion on commonsense reasoning and applications such as storytelling and language understanding. You can also check out this recent paper on how to leverage language models for commonsense reasoning.

    Activation Atlases is a technique developed by researchers at Google and Open AI to better understand and visualize the interactions happening between neurons of a neural network

    常识推理仍然是一个重要的研究领域,因为我们的目标是建立人工智能系统,不仅能够对提供的数据进行预测,而且能够理解和推理这些决策。这种类型的技术可以用于会话人工智能,其目标是使智能代理能够与人进行更自然的对话。来看看Nasrin Mostafazadeh对常识推理和诸如讲故事和语言理解等应用的讨论吧。您还可以查看最近这篇关于如何利用语言模型进行常识推理的文章。

    激活地图集是谷歌和Open AI的研究人员开发的一种技术,用于更好地理解和可视化神经网络神经元之间发生的交互作用

     

    Check out the Turing Lecture delivered by Geoffrey Hinton and Yann LeCun who were awarded, together with Yoshua Bengio, the Turing Award this year.

    Tackling climate change with machine learning is discussed in this paper.

    OpenAI published an extensive report discussing the social impacts of language models covering topics like beneficial use and potential misuse of the technology.

    Emotion analysis continues to be used in a diverse range of applications. The Mojifier is a cool project that looks at an image, detects the emotion, and replaces the face with the emojis matching the emotion detected.

    看看Geoffrey Hinton和Yann LeCun的图灵奖演讲,他们和Yoshua Bengio一起获得了今年的图灵奖。

    本文讨论了利用机器学习来应对气候变化的问题。

    OpenAI发布了一份广泛的报告,讨论了语言模型的社会影响,包括对技术的有益使用和潜在的误用。

    情绪分析继续在各种各样的应用中得到应用。Mojifier是一个很酷的项目,它可以查看图像,检测情绪,然后用与检测到的情绪相匹配的表情符号替换脸部表情

    Work on radiology with the use of AI techniques has also been trending this year. Here is a nice summary of trends and perspectives in this area of study. Researchers from NYU also released a Pytorch implementationof a deep neural network that improves radiologists’ performance on breast cancer screening. And here is a major dataset release called MIMIC-CXR which consists of a database of chest Xrays and text radiology reports.

    The New York Times wrote a piece on Karen Spark Jones remembering the seminal contributions she made to NLP and Information Retrieval.

    OpenAI Five became the first AI system to beat a world champion at an esports game.

    今年,人工智能技术在放射学方面的应用也很流行。以下是对这一研究领域的趋势和前景的一个很好的总结。纽约大学的研究人员还发布了Pytorch深层神经网络的实现,提高了放射科医生在乳腺癌筛查中的表现。这是一个主要的数据集发布,叫做MIMIC-CXR,它包括一个胸部x光和文本放射学报告的数据库。

    《纽约时报》(The New York Times)写了一篇关于凯伦•斯帕克•琼斯(Karen Spark Jones)的文章,回忆她对NLP和信息检索的重大贡献。

    OpenAI Five成为第一个在电子竞技游戏中击败世界冠军的AI系统。

    The Global AI Talent Report provides a detailed report of the worldwide AI talent pool and the demand for AI talent globally.

    If you haven’t subscribed already, the DeepMind team has an excellent podcast where participants discuss the most pressing topics involving AI. Talking about AI potential, Demis Hassabis did an interview with The Economist where he spoke about futuristic ideas such as using AI as an extension to the human mind to potentially find solutions to important scientific problems.

    全球人工智能人才报告提供了全球人工智能人才库和全球对人工智能人才需求的详细报告。

    如果你还没有订阅,DeepMind团队有一个很棒的播客,参与者可以在里面讨论与人工智能有关的最紧迫的话题。谈到人工智能的潜力,杰米斯·哈萨比斯(Demis Hassabis)在接受《经济学人》(The Economist)采访时谈到了一些未来主义的想法,比如将人工智能作为人类思维的延伸,以潜在地找到重要科学问题的解决方案

    This year also witnessed incredible advancement in ML for health applications. For instance, researchers at Massachusetts developed an AI system capable of spotting brain hemorrhages as accurate as humans.

    Janelle Shane summarizes a set of “weird” experiments showing how machine learning can be used in creative ways to conduct fun experimentation. Sometimes this is the type of experiment that’s needed to really understand what an AI system is actually doing and not doing. Some experiments include neural networks generating fake snakes and telling jokes.

    今年还见证了ML在健康应用方面令人难以置信的进步。例如,马萨诸塞州的研究人员开发了一种人工智能系统,能够像人类一样准确地发现脑出血

    Janelle Shane总结了一组“奇怪”的实验,展示了机器学习如何以创造性的方式进行有趣的实验。有时候,这是一种需要真正理解人工智能系统实际在做什么和没有在做什么的实验。一些实验包括神经网络生成假蛇和讲笑话。

    Learn to find planets with machine learning models build on top of TensorFlow.

    OpenAI discusses the implication of releasing (including the potential of malicious use cases) large-scale unsupervised language models.

    This Colab notebook provides a great introduction on how to use Nucleus and TensorFlow for “DNA Sequencing Error Correction”. And here is a great detailed post on the use of deep learning architectures for exploring DNA.

    Alexander Rush is a Harvard NLP researcher who wrote an important article about the issues with tensors and how some current libraries expose them. He also went on to talk about a proposal for tensors with named indices.

    学习使用建立在TensorFlow之上的机器学习模型来寻找行星。

    OpenAI讨论了发布(包括潜在的恶意用例)大型非监督语言模型的含义。

    这个Colab笔记本提供了一个很好的介绍如何使用细胞核和张力流“DNA测序错误纠正”。这里有一篇关于深度学习架构在探索DNA中的应用的详细文章。

    Alexander Rush是哈佛大学的一位NLP研究员,他写了一篇关于张量的问题以及当前的一些库如何暴露张量的重要文章。他还讨论了一个关于带命名指标的张量的建议

     

    ML/NLP Tools and Datasets ⚙️

    Here I highlight stories related to software and datasets that have assisted in enabling NLP and machine learning research and engineering.

    Hugging Face released a popular Transformer library based on Pytorch names pytorch-transformers. It allows NLP practitioners and researchers to easily use state-of-the-art general-purpose architectures such as BERT, GPT-2, and XLM, among others. If you are interested in how to use pytorch-transformers there are a few places to start but I really liked this detailed tutorial by Roberto Silveira showing how to use the library for machine comprehension.

    在这里,我强调了与软件和数据集相关的故事,它们帮助了NLP和机器学习的研究和工程。

    抱抱脸发布了一个基于Pytorch名称Pytorch - Transformer的流行Transformer库。它允许NLP从业者和研究人员轻松地使用最先进的通用架构,如BERT、GPT-2和XLM等。如果您对如何使用pytorch-transformer感兴趣,可以从以下几个地方开始,但是我非常喜欢Roberto Silveira的这个详细教程,它展示了如何使用库进行机器理解。

    TensorFlow 2.0 was released with a bunch of new features. Read more about best practices here. François Chollet also wrote an extensive overview of the new features in this Colab notebook.

    PyTorch 1.3 was released with a ton of new features including named tensors and other front-end improvements.

    The Allen Institute for AI released Iconary which is an AI system that can play Pictionary-style games with a human. This work incorporates visual/language learning systems and commonsense reasoning. They also published a new commonsense reasoning benchmark called Abductive-NLI.

    TensorFlow 2.0发布了一系列新特性。在这里阅读更多关于最佳实践的信息。Francois Chollet也在这个Colab笔记本中对新特性进行了广泛的概述。

    PyTorch 1.3发布了大量新特性,包括命名张量和其他前端改进

    艾伦人工智能研究所(Allen Institute for AI)发布了一款名为ic的人工智能系统,它可以和人类一起玩图画类游戏。这项工作结合了视觉/语言学习系统和常识推理。他们还发布了一个新的常识推理基准,称为外展- nli。

     

    spaCy releases a new library to incorporate Transformer language models into their own library so as to be able to extract features and used them in spaCy NLP pipelines. This effort is built on top of the popular Transformers library developed by Hugging Face. Maximilien Roberti also wrote a nice article on how to combine fast.ai code with pytorch-transformers.

    The Facebook AI team released PHYRE which is a benchmark for physical reasoning aiming to test the physical reasoning of AI systems through solving various physics puzzles.

    spaCy发布了一个新的库,将Transformer语言模型合并到它们自己的库中,以便能够提取特性并在spaCy NLP管道中使用它们。这一努力是建立在流行的变形金刚图书馆开发拥抱的脸。Maximilien Roberti也写了一篇关于如何快速合并的好文章。ai代码与pytorch-transformer。

    Facebook人工智能团队发布了物理推理基准PHYRE,旨在通过解决各种物理难题来测试人工智能系统的物理推理

     

    StanfordNLP released StanfordNLP 0.2.0 which is a Python library for natural language analysis. You can perform different types of linguistic analysis such as lemmatization and part of speech recognition on over 70 different languages.

    GQA is a visual question answering dataset for enabling research related to visual reasoning.

    exBERT is a visual interactive tool to explore the embeddings and attention of Transformer language models. You can find the paper hereand the demo here.

    StanfordNLP发布了一个用于自然语言分析的Python库StanfordNLP 0.2.0。你可以对70多种不同的语言进行不同类型的语言分析,如词化和部分语音识别。

    GQA是一个可视化的问题回答数据集,用于支持与可视化推理相关的研究。

    exBERT是一个可视化交互工具,用于探索Transformer语言模型的嵌入和注意事项。你可以在这里找到论文和演示。

     

    Distill published an article on how to visualize memorization in Recurrent Neural Networks (RNNs).

    Mathpix is a tool that lets you take a picture of an equation and then it provides you with the latex version.

    Parl.ai is a platform that hosts many popular datasets for all works involving dialog and conversational AI.

    Uber researchers released Ludwig, an open-source tool that allows users to easily train and test deep learning models with just a few lines of codes. The whole idea is to avoid any coding while training and testing models.

    Google AI researchers release “Natural Questions” which is a large-scale corpus for training and evaluating open-domain question answering systems.

    Distill 发表了一篇关于如何在递归神经网络中可视化记忆的文章。

    Mathpix是一个工具,它允许您为一个等式拍照,然后为您提供乳胶版本。

    Parl。人工智能是一个平台,为所有涉及对话和对话人工智能的工作托管许多流行的数据集。

    Uber的研究人员发布了一个开源工具路德维希(Ludwig),用户只需几行代码就可以轻松地训练和测试深度学习模型。整个想法是在训练和测试模型时避免任何编码

    谷歌人工智能研究人员发布了“自然问题”,这是一个大规模的语料库,用于培训和评估开放领域的问题回答系统。

     

    Articles and Blog posts ✍️

    This year witnessed an explosion of data science writers and enthusiasts. This is great for our field and encourages healthy discussion and learning. Here I list a few interesting and must-see articles and blog posts I came across:

    Christian Perone provides an excellent introduction to maximum likelihood estimation (MLE) and maximum a posteriori (MAP) which are important principles to understand how parameters of a model are estimated.

    Reiichiro Nakano published a blog post discussing neural style transfer with adversarially robust classifiers. A Colab notebook was also provided.

    Saif M. Mohammad started a great series discussing a diachronic analysis of ACL anthology.

    今年见证了数据科学作家和爱好者的激增。这对我们的领域很有好处,并鼓励健康的讨论和学习。这里我列出了一些有趣的、必须看的文章和博客帖子。

    Christian Perone对极大似然估计(MLE)和极大后验概率(MAP)进行了很好的介绍,它们是理解如何估计模型参数的重要原则

    Reiichiro Nakano发表了一篇博客文章,讨论了神经类型转换与反鲁棒分类器之间的关系。还提供了一个Colab notebook

    Saif M. Mohammad开始了一个伟大的系列讨论ACL选集的历时分析。

    The question is: can a language model learn syntax? Using structural probes, this work aims to show that it is possible to do so using contextualized representations and a method for finding tree structures.

    Andrej Karpathy wrote a blog post summarizing best practices and a recipe on how to effectively train neural networks.

    Google AI researchers and other researchers collaborated to improve the understanding of search using BERT models. Contextualized approaches like BERT are adequate to understand the intent behind search queries.

    问题是:语言模型可以学习语法吗?通过使用结构探测,这项工作的目的是证明使用上下文化的表示和查找树结构的方法是可行的

    Andrej Karpathy写了一篇博客文章,总结了最佳实践和有效训练神经网络的方法。

    谷歌人工智能研究人员和其他研究人员合作使用BERT模型来提高对搜索的理解。像BERT这样的上下文化方法足以理解搜索查询背后的意图

    Rectified Adam (RAdam) is a new optimization technique based on Adam optimizer that helps to improve AI architectures. There are several efforts in coming up with better and more stable optimizers but the authors claim to focus on other aspects of optimizations that are just as important for delivering improved convergence.

    With a lot of development of machine learning tools recently, there are also many discussions on how to implement ML systems that enable solutions to practical problems. Chip Huyen wrote an interesting chapter discussing machine learning system design emphasizing on topics such as hyperparameter tuning and data pipeline.

    Rectified Adam(RAdam)是一种基于亚当优化器的新型优化技术,有助于改善人工智能架构。在提出更好和更稳定的优化器方面已经做了一些努力,但是作者声称关注优化的其他方面,这些方面对于提高收敛性同样重要。

    随着最近大量机器学习工具的开发,关于如何实现ML系统以解决实际问题的讨论也越来越多。Chip Huyen写了一个有趣的章节,讨论机器学习系统的设计,强调超参数调优和数据管道等主题

    NVIDIA breaks the record for creating the biggest language model trained on billions of parameters.

    Abigail See wrote this excellent blog post about what makes a good conversation in the context of systems developed to perform natural language generation task.

    英伟达打破了在数十亿个参数上训练出最大语言模型的记录

    Abigail See写了一篇优秀的博客文章,讨论了在执行自然语言生成任务的系统环境中,如何进行良好的对话。

     

    Google AI published two natural language dialog datasets with the idea to use more complex and natural dialog datasets to improve personalization in conversational applications like digital assistants.

    Deep reinforcement learning continues to be one of the most widely discussed topics in the field of AI and it has even attracted interest in the space of psychology and neuroscience. Read more about some highlights in this paper published in Trends in Cognitive Sciences.

    Samira Abner wrote this excellent blog post summarizing the main building blocks behind Transformers and capsule networks and their connections. Adam Kosiorek also wrote this magnificent piece on stacked capsule-based autoencoders (an unsupervised version of capsule networks) which was used for object detection.

    谷歌人工智能发布了两个自然语言对话数据集的想法,使用更复杂和自然的对话数据集,以改善个性化会话应用程序,如数字助理。

    深度强化学习仍然是人工智能领域中最广泛讨论的话题之一,它甚至引起了心理学和神经科学领域的兴趣。阅读这篇发表在《认知科学趋势》上的论文中的一些重点。

    Samira Abner写了一篇优秀的博客文章,总结了Transformers和capsule 胶囊网络及其连接背后的主要构件。亚当·科西奥雷克(Adam Kosiorek)还写了一篇关于堆叠的基于胶囊的自动编码器(一种无监督的胶囊网络)的精彩文章,用于对象检测。

    Researchers published an interactive article on Distill that aims to show a visual exploration of Gaussian Processes.

    Through this Distill publication, Augustus Odena makes a call to researchers to address several important open questions about GANs.

    Here is a PyTorch implementation of graph convolutional networks (GCNs) used for classifying spammers vs. non-spammers.

    At the beginning of the year, VentureBeat released a list of predictions for 2019 made by experts such as Rumman Chowdury, Hilary Mason, Andrew Ng, and Yan LeCun. Check it out to see if their predictions were right.

    研究人员发表了一篇关于提取的交互式文章,旨在展示对高斯过程的可视化探索。

    通过这本精粹的出版物,奥古斯都·奥德纳呼吁研究人员解决关于甘斯的几个重要的开放性问题。

    这是一个图卷积网络(GCNs)的PyTorch实现,用于对垃圾邮件发送者和非垃圾邮件发送者进行分类。

    今年年初,VentureBeat发布了一份由鲁曼·乔杜里(Rumman Chowdury)、希拉里·梅森(Hilary Mason)、吴恩达(Andrew Ng)和严乐存(Yan LeCun)等专家做出的2019年预测清单。看看他们的预测是否正确。

    Learn how to finetune BERT to perform multi-label text classification.

    Due to the popularity of BERT, in the past few months, many researchers developed methods to “compress” BERT with the idea to build faster, smaller and memory-efficient versions of the original. Mitchell A. Gordon wrote a summary of the types of compressions and methods developed around this objective.

    学习如何调整BERT来执行多标签文本分类

    由于BERT的流行,在过去的几个月里,许多研究人员开发出了“压缩”BERT的方法,以期在原始版本的基础上构建出更快、更小、更节省内存的版本。Mitchell A. Gordon写了一个总结类型的压缩和方法围绕这一目标发展

    Superintelligence continued to be a topic of debate among experts. It’s an important topic that needs a proper understanding of frameworks, policies, and careful observations. I found this interesting series of comprehensive essays (in the form of a technical report by K. Eric Drexler) to be useful to understand some issues and considerations around the topic of superintelligence.

    Eric Jang wrote a nice blog post introducing the concept of meta-learning which aims to build and train machine learning models that not only predict well but also learn well.

    summary of AAAI 2019 highlights by Sebastian Ruder.

    Graph neural networks were heavily discussed this year. David Mack wrote a nice visual article about how they used this technique together with attention to perform shortest path calculations.

    Bayesian approaches remain an interesting subject, in particular how they can be applied to neural networks to avoid common issues like over-fitting. Here is a list of suggested reads by Kumar Shridhar on the topic.

    超级智能仍然是专家们争论的话题。这是一个需要正确理解框架、策略和仔细观察的重要主题。我发现这一系列有趣的综合文章(以K. Eric Drexler的技术报告的形式)对理解有关超级智能的一些问题和考虑非常有用。

    Eric Jang写了一篇很好的博客文章,介绍了元学习的概念,旨在建立和训练机器学习模型,这些模型不仅能很好地预测,还能很好地学习。

    塞巴斯蒂安·鲁德对2019年AAAI的总结。

    图神经网络是今年的热门话题。David Mack写了一篇很好的可视化文章,介绍了他们如何将这种技术与注意力结合起来进行最短路径计算。

    贝叶斯方法仍然是一个有趣的课题,尤其是如何将它们应用到神经网络中以避免诸如过拟合这样的常见问题。以下是Kumar Shridhar关于这个话题的建议阅读清单。

     

    Ethics in AI 🚨

    Perhaps one of the most highly discussed aspects of AI systems this year was ethics which include discussions around bias, fairness, and transparency, among others. In this section, I provide a list of interesting stories and papers around this topic:

    The paper titled “Does mitigating ML’s impact disparity require treatment disparity?” discusses the consequences of applying disparate learning processes through experiments conducted on real-world datasets.

    HuggingFace published an article discussing ethics in the context of open-sourcing NLP technology for conversational AI.

    Being able to quantify the role of ethics in AI research is an important endeavor going forward as we continue to introduce AI-based technologies to society. This paper provides a broad analysis of the measures and “use of ethics-related research in leading AI, machine learning and robotics venues.”

    也许今年人工智能系统讨论最多的方面之一是伦理,其中包括关于偏见、公平和透明度等的讨论。在这一部分中,我提供了一个关于这个主题的有趣故事和论文列表:

    这篇题为“缓解ML的影响差异需要治疗差异吗?”通过在真实数据集上进行的实验,讨论应用不同的学习过程的后果。

    HuggingFace发表了一篇文章,讨论了在开源NLP技术用于人工智能对话环境下的伦理问题。

    随着我们继续将基于人工智能的技术引入社会,量化伦理在人工智能研究中的作用是一项重要的努力。本文对这些措施和“在领先的人工智能、机器学习和机器人领域使用与伦理相关的研究”进行了广泛的分析。

     

    This work presented at NAACL 2019 discusses how debiasing methods can cover up gender bias in word embeddings.

    Listen to Zachary Lipton presenting his paper “Troubling Trends in ML Scholarship”. I also wrote a summary of this interesting paper which you can find here.

    Gary Marcus and Ernest Davis published their book on “Rebooting AI: Building Artificial Intelligence We Can Trust”. The main theme of the book is to talk about the steps we must take to achieve robust artificial intelligence. On the topic of AI progression, François Chollet also wrote an impressive paper making a case for better ways to measure intelligence.

    Check out this Udacity course created by Andrew Trask on topics such as differential privacy, federated learning, and encrypted AI. On the topic of privacy, Emma Bluemke wrote this great post discussing how one may go about training machine learning models while preserving patient privacy.

    At the beginning of this year, Mariya Yao posted a comprehensive list of research paper summaries involving AI ethics. Although the list of paper reference was from 2018, I believe they are still relevant today.

    这项工作在NAACL 2019上提出,讨论了去偏方法如何掩盖词嵌入中的性别偏见

    请听扎卡里•利普顿(Zachary Lipton)发表的论文《ML学术的令人不安的趋势》(Trends in ML Scholarship)。我还写了一篇关于这篇有趣论文的总结,你们可以在这里找到。

    加里•马库斯(Gary Marcus)和欧内斯特•戴维斯(Ernest Davis)出版了一本关于“重启人工智能:构建我们可以信任的人工智能”(Rebooting AI: Building Artificial Intelligence We Can Trust)的书。这本书的主题是讨论我们必须采取哪些步骤来实现强大的人工智能。在人工智能发展的话题上,弗朗索瓦·乔莱(Francois Chollet)也写了一篇令人印象深刻的论文,为更好地衡量智力提出了理由。

    查看这个由Andrew Trask创建的Udacity课程,主题包括差异隐私、联邦学习和加密人工智能。关于隐私的话题,Emma Bluemke写了一篇很棒的文章,讨论如何在训练机器学习模型的同时保护病人的隐私。

    今年年初,Mariya Yao发布了一份全面的关于AI伦理的研究论文总结列表。虽然这份纸质参考文献的清单是从2018年开始的,但我相信它们在今天仍然适用。

     

    ML/NLP Education 🎓

    Here I will feature a list of educational resources, writers and people doing some amazing work educating others about difficult ML/NLP concepts/topics:

    CMU released materials and syllabus for their “Neural Networks for NLP” course.

    Elvis Saravia and Soujanya Poria released a project called NLP-Overviewthat is intended to help students and practitioners to get a condensed overview of modern deep learning techniques applied to NLP, including theory, algorithms, applications, and state of the art results — Link

    在这里,我将列出一些教育资源,作家和人们做一些了不起的工作,教育别人关于ML/NLP的困难概念/主题:

    CMU为他们的“NLP的神经网络”课程发布了材料和教学大纲。

    Elvis Saravia和Soujanya Poria发布了一个名为NLP- overview的项目,旨在帮助学生和实践者获得应用于NLP的现代深度学习技术的简要概述,包括理论、算法、应用,以及最先进的结果- Link

    Microsoft Research Lab published a free ebook on the foundation of data science with topics ranging from Markov Chain Monte Carlo to Random Graphs.

    Mathematics for Machine Learning” is a free ebook introducing the most important mathematical concepts used in machine learning. It also includes a few Jupyter notebook tutorials describing the machine learning parts. Jean Gallier and Jocelyn Quaintance wrote an extensive free ebookcovering mathematical concepts used in machine learning.

    Stanford releases a playlist of videos for its course on “Natural Language Understanding”.

    On the topic of learning, OpenAI put together this great list of suggestions on how to keep learning and improving your machine learning skills. Apparently, their employees use these methods on a daily basis to keep learning and expanding their knowledge.

    微软研究实验室出版了一本关于数据科学基础的免费电子书,主题从马尔科夫链蒙特卡罗到随机图。

    《机器学习的数学》是一本介绍机器学习中最重要的数学概念的免费电子书。它还包括几个木星笔记本教程描述的机器学习部分。Jean Gallier和Jocelyn quain容西写了一本广泛的免费电子书,涵盖了机器学习中使用的数学概念。

    斯坦福大学发布了“自然语言理解”课程的视频播放列表。

    关于学习的话题,OpenAI整理了关于如何持续学习和提高机器学习技能的建议列表。显然,他们的员工每天都使用这些方法来不断学习和扩展知识。

    Adrian Rosebrock published an 81-page guide on how to do computer vision with Python and OpenCV.

    Emily M. Bender and Alex Lascarides published a book titled “Linguistic Fundamentals for NLP”. The main idea behind the book is to discuss what 
    “meaning” is in the field of NLP by providing a proper foundation on semantics and pragmatics.

    Elad Hazan published his lecture notes on “Optimization for Machine Learning” which aims to present machine training as an optimization problem with beautiful math and notations. Deeplearning.ai also published a great article that discusses parameter optimization in neural networks using a more visual and interactive approach.

    Andreas Mueller published a playlist of videos for a new course in “Applied Machine Learning”.

    Fast.ai releases its new MOOC titled “Deep Learning from the Foundations”.

    MIT published all videos and syllabus for their course on “Introduction to Deep Learning”.

    Adrian Rosebrock出版了一本81页的指南,介绍如何使用Python和OpenCV实现计算机视觉。

    Emily M. Bender和Alex Lascarides出版了一本名为《NLP的语言学基础》的书。这本书的主要思想是讨论什么

    “意义”是自然语言处理的范畴,它为语义学和语用学奠定了一定的基础。

    Elad Hazan发表了他关于“机器学习的最优化”的演讲笔记,旨在用漂亮的数学和符号把机器训练描述成一个最优化问题。Deeplearning。ai还发表了一篇很棒的文章,讨论了使用更可视化和交互式方法的神经网络中的参数优化

    Andreas Mueller发布了“应用机器学习”新课程的视频播放列表。

    Fast.ai发布了名为“从基础中深度学习”的新MOOC。

    麻省理工学院发布了他们“深度学习入门”课程的所有视频和教学大纲。

     

    Chip Huyen tweeted an impressive list of free online courses to get started with machine learning.

    Andrew Trask published his book titled “Grokking Deep Learning”. The book serves as a great starter for understanding the fundamental building blocks of neural network architectures.

    Sebastian Raschka uploaded 80 notebooks about how to implement different deep learning models such as RNNs and CNNs. The great thing is that the models are all implemented in both PyTorch and TensorFlow.

    Here is a great tutorial that goes deep into understanding how TensorFlow works. And here is one by Christian Perone for PyTorch.

    Fast.ai also published a course titled “Intro to NLP” accompanied by a playlist. Topics range from sentiment analysis to topic modeling to the Transformer.

    Learn about Graph Convolutional Neural Networks for Molecular Generation in this talk by Xavier Bresson. Slides can be found here. And here is a paper discussing how to pre-train GNNs.

    Chip Huyen在推特上发布了一份令人印象深刻的免费在线课程列表,开始机器学习。

    安德鲁·查斯克出版了他的书《探索深度学习》。这本书是一个伟大的开端,以了解基本建设模块的神经网络架构

    Sebastian Raschka上传了80本关于如何实现不同深度学习模型的笔记,例如RNNs和CNNs。重要的是这些模型都是在PyTorch和TensorFlow中实现的。

    这里有一个很好的教程,深入地介绍了TensorFlow是如何工作的。这是Christian Perone为PyTorch设计的。

    快。ai还发布了一门名为“NLP入门”的课程,并配有播放列表。主题范围从情感分析到主题建模再到转换器。

    在Xavier Bresson的演讲中学习关于分子生成的图卷积神经网络。幻灯片可以在这里找到。这是一篇讨论如何训练GNNs的论文。

     

    On the topic of graph networks, some engineers use them to predict the properties of molecules and crystal. The Google AI team also published an excellent blog post explaining how they use GNNs for odor prediction. If you are interested in getting started with Graph Neural Networks, here is a comprehensive overview of the different GNNs and their applications.

    Here is a playlist of videos on unsupervised learning methods such as PCA by Rene Vidal from Johns Hopkins University.

    If you are ever interested in converting a pretrained TensorFlow model to PyTorch, Thomas Wolf has you covered in this blog post.

    在图形网络这个话题上,一些工程师用它们来预测分子和晶体的性质。谷歌人工智能团队还发表了一篇优秀的博客文章,解释他们如何使用GNNs来预测气味。如果您对图形神经网络感兴趣,这里是不同gnn及其应用程序的全面概述。

    这里有一些关于无监督学习方法的视频,如约翰霍普金斯大学的Rene Vidal的PCA。

    如果您有兴趣将一个预先训练好的TensorFlow模型转换成PyTorch, Thomas Wolf将在这篇博客文章中为您介绍。

    Want to learn about generative deep learning? David Foster wrote a great book that teaches data scientists how to apply GANs and encoder-decoder models for performing tasks such as painting, writing, and composing music. Here is the official repository accompanying the book, it includes TensorFlow code. There is also an effort to convert the code to PyTorch as well.

    A Colab notebook containing code blocks to practice and learn about causal inference concepts such as interventions, counterfactuals, etc.

    Here are the materials for the NAACL 2019 tutorial on “Transfer Learning in Natural Language Processing” delivered by Sebastian Ruder, Matthew Peters, Swabha Swayamdipta and Thomas Wolf. They also provided an accompanying Google Colab notebook to get started.

    Another great blog post from Jay Alammar on the topic of data representation. He also wrote many other interesting illustrated guides that include GPT-2 and BERT. Peter Bloem also published a very detailed blog post explaining all the bits that make up a Transformer.

    想学习生成式深度学习吗?David Foster写了一本伟大的书,教数据科学家如何将GANs和编解码器模型应用到绘画、写作和作曲等任务中。这是本书附带的官方存储库,它包括TensorFlow代码。还需要将代码转换为PyTorch。

    一个包含代码块的Colab笔记本,用于练习和学习诸如干预、反事实等因果推理概念。

    以下是NAACL 2019年“自然语言处理中的迁移学习”教程的材料,由Sebastian Ruder、Matthew Peters、Swabha Swayamdipta和Thomas Wolf提供。他们还提供了一个附带的谷歌Colab笔记本开始。

    另一篇来自Jay Alammar的关于数据表示主题的博客文章。他还写了许多有趣的插图指南,包括GPT-2和BERT。Peter Bloem还发表了一篇非常详细的博客文章,解释了构成Transformer的所有部件。

    Here is a nice overview of trends in NLP at ACL 2019, written by Mihail Eric. Some topics include infusing knowledge into NLP architectures, interpretability, and reducing bias among others. Here are a couple more overviews if you are interested: link 2 and link 3.

    The full syllabus for CS231n 2019 edition was released by Stanford.

    David Abel posted a set of notes for ICLR 2019. He was also nice to provide an impressive summary of NeurIPS 2019.

    This is an excellent book that provides learners with a proper introduction to deep learning with notebooks provided as well.

    以下是由Mihail Eric撰写的关于2019 ACL NLP趋势的精彩概述。一些主题包括将知识注入NLP体系结构、可解释性和减少偏见。如果您感兴趣,这里还有一些概述:链接2和链接3。

    CS231n 2019版的完整教学大纲由斯坦福大学发布。

    大卫·阿贝尔为ICLR 2019发布了一套说明。他还很高兴地提供了一个令人印象深刻的NeurIPS 2019总结。

    这是一本优秀的书,为学习者提供了一个适当的介绍深入学习和笔记本提供了。

    An illustrated guide to BERT, ELMo, and co. for transfer learning NLP.

    Fast.ai releases its 2019 edition of the “Practical Deep Learning for Coders” course.

    Learn about deep unsupervised learning in this fantastic course taught by Pieter Abbeel and others.

    Gilbert Strang released a new book related to Linear Algebra and neural networks.

    Caltech provided the entire syllabus, lecture slides, and video playlist for their course on “Foundation of Machine Learning”.

    The “Scipy Lecture Notes” is a series of tutorials that teach you how to master tools such as matplotlib, NumPy, and SciPy.

    BERT, ELMo和co.的转移学习NLP的图解指南。

    Fast.ai发布了其2019年版“面向程序员的实用深度学习”课程。

    在这个奇妙的课程中学习关于深度非监督学习,由彼得·阿贝尔和其他人教授。

    Gilbert Strang出版了一本关于线性代数和神经网络的新书。

    加州理工学院为他们的“机器学习基础”课程提供了完整的教学大纲、幻灯片和视频播放列表。

    “Scipy课堂笔记”是一系列教程,教你如何掌握matplotlib、NumPy和Scipy等工具。

    Here is an excellent tutorial on understanding Gaussian processes. (Notebooks provided).

    This is a must-read article in which Lilian Weng provides a deep dive into generalized language models such as ULMFit, OpenAI GPT-2, and BERT.

    Papers with Code is a website that shows a curated list of machine learning papers with code and state-of-the-art results.

    Christoph Molnar released the first edition of “Interpretable Machine Learning” which is a book that touches on important techniques used to better interpret machine learning algorithms.

    David Bamman releases the full syllabus and slides to the NLP courses offered at UC Berkley.

    Berkley releases all materials for their “Applied NLP” class.

    Aerin Kim is a senior research engineer at Microsoft and writes about topics related to applied Math and deep learning. Some topics include intuition to conditional independence, gamma distribution, perplexity, etc.

    Tai-Danae Bradley wrote this blog post discussing ways on how to think about matrices and tensors. The article is written with some incredible visuals which help to better understand certain transformations and operations performed on matrices.

    这是一个关于理解高斯过程的优秀教程。(笔记本提供)。

    这是一篇必读的文章,在这篇文章中,Lilian Weng深入研究了通用语言模型,如ULMFit、OpenAI GPT-2和BERT。

    “带代码的论文”是一个网站,它展示了一个包含代码和最新成果的机器学习论文列表。

    克里斯托夫·莫尔纳(Christoph Molnar)出版了《可解释机器学习》的第一版,这本书触及了用于更好地解释机器学习算法的重要技术。

    大卫班曼发布完整的教学大纲和幻灯片的NLP课程提供在加州大学伯克利分校。

    伯克利为他们的“应用NLP”类发布了所有的材料。

    Aerin Kim是微软公司的一名高级研究工程师,主要撰写与应用数学和深度学习相关的文章。一些主题包括对条件独立的直觉,伽马分布,困惑等。

    taii - danae Bradley写了这篇博客文章,讨论如何考虑矩阵和张量。这篇文章是用一些令人难以置信的视觉效果写的,这些视觉效果有助于更好地理解在矩阵上执行的某些转换和操作。

     

    I hope you found the links useful. I wish you a successful and healthy 2020!

    Due to the holidays, I didn’t get much chance to proofread the article so any feedback or corrections are welcomed!

    我希望你觉得这些链接有用。祝你2020年成功健康!

    由于假期的关系,我没有太多机会校对这篇文章,所以欢迎任何反馈或修改!

     

    原文地址https://medium.com/dair-ai/nlp-year-in-review-2019-fb8d523bcb19
    Github地址https://github.com/omarsar/nlp_highlights/blob/master/NLP_2018_Highlights.pdf

     

     

     

    展开全文
  • 暑期自然语言处理学习笔记一、 自然语言处理的应用 自然语言处理(natural language processing,即 NLP)(1)拼写检查纠错,关键词搜索,垃圾邮件识别 (2)文本挖掘,文本分类 (3)机器翻译 (4)自动问答、...

    暑期学习自然语言处理笔记

    一、 自然语言处理的应用

    自然语言处理(natural language processing,即 NLP

    • (1)拼写检查纠错,关键词搜索,垃圾邮件识别
      (2)文本挖掘,文本分类
      (3)机器翻译
      (4)自动问答、客服机器人
      (5)复杂对话系统:微软小冰

    二、 自然语言处理的模型

    • 深度学习网络应用于NLP,在于特征提取的优势。深度学习中的强化学习无监督的模型。

    • 关于语言模型

      1. 机器翻译 (语言搭配的概率
      2. 拼写纠错 (出现一句话的概率
      3. 智能问答
    • 什么是语言模型

      用来计算 一句话概率的 模型。

    语言模型

    • 几个词都出现的联合概率密度。在前 i-1 个词出现的条件下第 i 个词出现的概率称之为与之相关性。当词非常多的时候就会造成数据过于稀疏,参数空间太大。 如果 i 很大,参数空间过大容易过拟合,也无法实用。

    相关性


    • 如何简化问题?近似上面的公式,效果又要求比独立性假设好。

      n-gram 模型

    • n-gram公式如下图所示。下图公式②叫做三元语法(trigram,3-gram)

    n-gram

    • 马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词。这对于联合概率链规则来说其实是相对粗糙的简化,位置离得较远而且关系比较弱的词语就简化省略掉了。
    • 概率的计算过程(P=0.33 = 927/2533):

    cal


    三、 词向量

    • 计算机理解文本的方式——word vector,就是指将单词向量化,将某个单词用特定的向量来表示。
      • 注意:转化的是一个词,而非一个字。如:
      • 假设/下/一个/词/没有/出现。=>正确转化
      • 假/设/下/一/个/词/没/有/出/现。=>错误转化
    • 如何构造有意义的向量?

      • 希望构造的词向量,对于意义相近的词对应的向量相关性大些
      • 构造是基于上下文的语境构造,与语言拼写规则本身无关。如下图,虽然单词是不同国家的语言,但是转化为的向量分布想非常相似。

      text

    • 关于NLP的神经网络模型。

      • 假设一个文本(“神经网络模型。”)交给这个模型,根据上下文的前 i-1 个词(【1】【2】)输入到input layer,经过网络,让模型自己找到后面的第 i 个词(【3】)是什么。这就是模型的任务。

      model

      • 模型的架构:输入层=>投影层=>隐层=>输出层。
      • 输入层:每个词的向量维数必须一致
      • 投影层:输入层的多个向量连成一串变成一个大向量。
      • 输出层:类似于softmax,输出的是一组概率值。

    架构


    四、 Hierarchical Softmax 模型

    • 更新每个输出词向量在训练集上每个词的分布的问题是非常耗时耗力的。为了解决这个问题。两个方法:hierarchical softmax 和 negative sampling。
      • Hierarchical softmax:用一个二叉树代表词表中的所有词,这个词是叶子节点。对于每一个叶子节点,存在着从根到叶子的唯一路径,这个路径用来估计这个词的概率。
      • Negative Sampling:每次只更新一个输出词,目标输出词应该一直在样本中得到更新,并且添加一些negative samples进去。

    1. CBOW模型

    • 拿一个词语的上下文作为输入,来预测这个词语本身。(基于上下文预测某词)(ContinuousBag Of Words Model)
    • 公式参考:
    • 当结果分类较多(比如50分类)时,如何解决输出问题。

      • 哈夫曼树,最优二叉树(Huffman Tree)。
      • 路径长度是指一个结点到另外一个结点之间分支数
      • 带权路径长度是指每个分支上有权值,一个结点到另外一个结点所有路径权值总和。树的带权路径长度是从根结点出发到每一个叶节点的带权路径长度总和
        tree

      • 哈夫曼树的建立步骤:在给定的权值中选择两棵根结点权值最小的作为左右子树构造一棵新的二叉树,并将新二叉树的根结点的新权值再替代原来两个小权值放入原权值中重新挑选两棵根结点权值最小,不断迭代创建左右子树。

      • 哈夫曼编码 参考网址:
        http://blog.csdn.net/qq_19762007/article/details/50708573
    • 逻辑回归

      • 不属于回归分析,而是属于分类,差异主要在于变量不同。逻辑回归是无监督学习的一个重要算法,对某些数据与(事物的归属类别)及(分到某一类别的概率)进行评估。

      • logistic(即sigmoid)具体针对的是二分类问题,而softmax解决的是多分类问题。sigmoid函数在这里将得分值转化为概率。

      • 到输出层则利用上下文词向量的拼接和做为输入,输出的是窗口中心位置所有词出现的概率。利用softmax求中心词概率,当语料较大时,计算变的非常耗时。于是为了解决这个问题,利用哈夫曼树对词表进行分类,用一连串的二分类来近似多分类

    • 哈夫曼编码,一句话就是 频率越高编码越短。

      • 哈夫曼编码怎么用的,先将词表的词频统计好,词频高的放在接近于跟根节点的位置,词频低的放在叶子。
    • 训练不仅仅针对 θ 的更新,还有输入的词向量 x 要更新。

      • 损失函数中有2个待求参数:θ、x。在训练CBOW模型时,词向量只是个副产品。确切来说,是CBOW模型的一个参数。

    cbow



    2. skip-gram模型

    • 用一个词语作为输入,来预测它周围的上下文。(基于当前词预测上下文)(Continuous Skip-gram Model)

    模型


    五、 Negative Sampling 模型


    Negative Sampling:负采样



    • 已知一个词w,它的上下文是context(w),那么词w就是一个正例,其他词就是一个负例。但是负例样本太多了,我们怎么去选取呢?


    • 在语料库C中,各个词出现的频率不一样,采样的时候要求高频词选中的概率较大,而低频词选中的概率较小。这就是一个带权采样的问题。 随机抽取负样本,随机数生成满足均匀分布,而取词概率可不是均匀分布,其概率应当随着词频大小变化。

    • 将词频转换为线段长度。选取负例样本的时候,取线段上的一个随机数,对应到相应词频区间上就可以了。
    展开全文
  • 自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理NLP)领域而言,2019年是令人印象深刻的一年。在这篇博客文章中,将重点介绍一些与AI相关的有趣故事。标题没有特别的顺序...

    前言

    自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理(NLP)领域而言,2019年是令人印象深刻的一年。在这篇博客文章中,将重点介绍一些与AI相关的有趣故事。标题没有特别的顺序。故事可能包括论文,工程工作,年度报告,教育资源的发布等。

    在这里插入图片描述

    • 论文刊物

    • ML / NLP创造力与社会

    • ML / NLP工具和数据集

    • 文章和博客文章

    • 人工智能伦理

    • ML / NLP教育

    Google AI引入了ALBERT ,它是BERT 的精简版本,用于自监督学习上下文语言表示。主要改进是减少冗余并更有效地分配模型的容量。该方法提高了12个NLP任务的最新性能。

    • Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations.ICLR 2020.

    • Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186 https://arxiv.org/abs/1810.04805

    在这里插入图片描述
    机器在比赛中的表现(类似sat的阅读理解)。随机猜测的基线得分为25.0。最高分是95.0分。

    今年早些时候,NVIDIA的研究人员发表了一篇颇受欢迎的论文(Coined StyleGAN),提出了一种从样式转换中采用的GAN替代生成器架构。这是一项后续工作(https://arxiv.org/pdf/1912.04958v1.pdf),着重于改进,例如重新设计生成器归一化过程。

    • Tero Karras, Samuli Laine, Timo Aila: A Style-Based Generator Architecture for Generative Adversarial Networks. CVPR 2019: 4401-4410

    • Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila: Analyzing and Improving the Image Quality of StyleGAN. CoRR (2019) https://arxiv.org/pdf/1912.04958.pdf

    在这里插入图片描述

    上排显示目标图像,下排显示合成图像

    论文code2seq(https://code2seq.org/),它是一种从结构化代码表示中生成自然语言序列的方法。这样的研究可以让位于诸如自动代码摘要和文档之类的应用程序。

    • Uri Alon, Shaked Brody, Omer Levy, Eran Yahav: code2seq: Generating Sequences from Structured Representations of Code. ICLR (Poster) 2019
      在这里插入图片描述
      有没有想过是否有可能为生物医学文本挖掘训练生物医学语言模型?答案是BioBERT,这是一种从生物医学文献中提取重要信息的情境化方法。

    • Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang: BioBERT: a pre-trained biomedical language representation model for biomedical text mining. CoRR (2019)

    在这里插入图片描述

    BERT发布后,Facebook研究人员发布了RoBERTa,该版本引入了新的优化方法来改进BERT,并在各种NLP基准上产生了最新的结果。(https://ai.facebook.com/blog/-teaching-ai-to-plan-using-language-in-a-new-open-source-strategy-game/

    • Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov:RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692 (2019)

    来自Facebook AI的研究人员最近还发布了一种基于全注意力关注层的方法,用于提高Transformer语言模型的效率。从这个研究小组更多的工作包括方法来教如何使用自然语言规划的AI系统。

    • Sainbayar Sukhbaatar, Edouard Grave, Piotr Bojanowski, Armand Joulin: Adaptive Attention Span in Transformers. ACL (1) 2019: 331-335

    在这里插入图片描述
    可解释性仍然是机器学习和NLP中的重要主题。集大成者!可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

    • Alejandro Barredo Arrieta, Natalia Díaz Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-Lopez, Daniel Molina, Richard Benjamins, Raja Chatila, Francisco Herrera:Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI. CoRR abs/1910.10045 (2019)

    Sebastian Ruder发表了有关自然语言处理的神经迁移学习的论文

    https://ruder.io/thesis/)。

    • Ruder2019Neural, Neural Transfer Learning for Natural Language Processing, Ruder, Sebastian,2019,National University of Ireland, Galway

    在这里插入图片描述
    一些研究人员开发了一种在对话中进行情感识别的方法(https://arxiv.org/abs/1910.04980),可以为情感对话的产生铺平道路。另一个相关的工作涉及一种称为DialogueGCNhttps://www.aclweb.org/anthology/D19-1015.pdf)的GNN方法,以检测对话中的情绪。该研究论文还提供了代码实现。

    • Devamanyu Hazarika, Soujanya Poria, Roger Zimmermann, Rada Mihalcea: Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling. CoRR abs/1910.04980 (2019)

    • Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, Alexander F. Gelbukh: DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation. EMNLP/IJCNLP (1) 2019: 154-164

    在这里插入图片描述
    Google AI Quantum团队在《自然》杂志上发表了一篇论文(https://www.nature.com/articles/s41586-019-1666-5),他们声称自己开发了一种量子计算机,其速度比世界上最大的超级计算机还要快。在此处详细了解他们的实验。

    • Arute, F., Arya, K., Babbush, R. et al. Quantum supremacy using a programmable superconducting processor. Nature 574, 505–510 (2019) doi:10.1038/s41586-019-1666-5

    在这里插入图片描述

    如前所述,神经网络体系结构需要大量改进的领域之一是可解释性。本论文(https://arxiv.org/abs/1908.04626)探讨了在语言模型的上下文explainability一个可靠的方法关注的局限性。

    • Sarah Wiegreffe, Yuval Pinter: Attention is not not Explanation. EMNLP/IJCNLP (1) 2019: 11-20

    在这里插入图片描述

    神经逻辑机器是一种神经符号网络体系结构(https://arxiv.org/abs/1904.11694),能够很好地在归纳学习和逻辑推理方面做得很好。该模型在诸如排序数组和查找最短路径之类的任务上表现出色。

    • Honghua Dong, Jiayuan Mao, Tian Lin, Chong Wang, Lihong Li, Denny Zhou: Neural Logic Machines. ICLR (Poster) 2019

    在这里插入图片描述

    神经逻辑机器架构

    这是一篇将Transformer语言模型应用于提取和抽象神经类文档摘要的论文(https://arxiv.org/abs/1909.03186)。

    • Sandeep Subramanian, Raymond Li, Jonathan Pilault, Christopher J. Pal: On Extractive and Abstractive Neural Document Summarization with Transformer Language Models. CoRRabs/1909.03186 (2019)
      在这里插入图片描述

    研究人员开发了一种方法,侧重于使用比较来建立和训练ML模型。这种技术不需要大量的特征标签对,而是将图像与以前看到的图像进行比较,以确定图像是否属于某个特定的标签。

    在这里插入图片描述

    Nelson Liu等人发表了一篇论文,讨论了预先训练的语境设定者(如BERT和ELMo)获取的语言知识的类型。

    • https://arxiv.org/abs/1903.08855

    • Nelson F. Liu, Matt Gardner, Yonatan Belinkov, Matthew E. Peters, Noah A. Smith: Linguistic Knowledge and Transferability of Contextual Representations. NAACL-HLT (1) 2019: 1073-1094

    在这里插入图片描述

    XLNet是NLP的一种前训练方法,它在20个任务上都比BERT有改进。我写了一个总结,这伟大的工作在这里。

    • https://arxiv.org/abs/1906.08237

    • Zhilin Yang, Zihang Dai, Yiming Yang, Jaime G. Carbonell, Ruslan Salakhutdinov, Quoc V. Le: XLNet: Generalized Autoregressive Pretraining for Language Understanding. CoRR abs/1906.08237 (2019)

    在这里插入图片描述

    这项来自DeepMind的工作报告了一项广泛的实证调查的结果,该调查旨在评估应用于各种任务的语言理解模型。这种广泛的分析对于更好地理解语言模型所捕获的内容以提高它们的效率是很重要的。

    • https://arxiv.org/abs/1901.11373

    • Dani Yogatama, Cyprien de Masson d’Autume, Jerome Connor, Tomás Kociský, Mike Chrzanowski, Lingpeng Kong, Angeliki Lazaridou, Wang Ling, Lei Yu, Chris Dyer, Phil Blunsom: Learning and Evaluating General Linguistic Intelligence. CoRR abs/1901.11373 (2019)

    VisualBERT是一个简单而健壮的框架,用于建模视觉和语言任务,包括VQA和Flickr30K等。这种方法利用了一组Transformer层,并结合了self-attention来对齐文本中的元素和图像中的区域。

    • https://arxiv.org/abs/1908.03557

    • Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang:VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR abs/1908.03557 (2019)

    在这里插入图片描述

    这项工作提供了一个详细的分析比较NLP转移学习方法和指导NLP的从业者。

    • https://arxiv.org/abs/1903.05987

    • Matthew E. Peters, Sebastian Ruder, Noah A. Smith: To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks.RepL4NLP@ACL 2019: 7-14

    Alex Wang和Kyunghyun提出了BERT的实现,能够产生高质量、流畅的表示。

    Facebook的研究人员发表了XLM的代码(PyTorch实现),这是一个跨语言模型的预培训模型。

    本文全面分析了强化学习算法在神经机器翻译中的应用。

    这篇发表在JAIR上的调查论文对跨语言单词嵌入模型的培训、评估和使用进行了全面的概述。

    Gradient发表了一篇优秀的文章,详细阐述了强化学习目前的局限性,并提供了一条潜在的分级强化学习的前进道路。一些人发布了一套优秀的教程来开始强化学习。

    https://thegradient.pub/the-promise-of-hierarchical-reinforcement-learning/

    这篇简要介绍了上下文词表示。

    https://arxiv.org/abs/1902.06006

    参考链接:

    1. https://medium.com/dair-ai/nlp-year-in-review-2019-fb8d523bcb19
    展开全文
  • 自然语言处理Word2Vec视频培训课程:自然语言处理中重要的算法,word2vec原理,词向量模型。教程从语言模型入手,详解词向量构造原理与求解算法。理论与实战结合,使用深度学习框架Tensorflow从零开始打造word2vec...
  • 目录 第1步:基础知识 第2步:确定宏观与微观理解 第3步:确定您想要的是什么(在合理的成本内) 第4步:理解整个文档...在许多用例中,具有最重要信息的内容以自然语言(例如英语,德语,西班牙语,中文等...
  • 来源:专知【导读】自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理NLP)领域而言,2019年是令人印象深刻的一年。在这篇博客文章...
  • 引言 国际学术会议是一种学术影响度较高的会议,它具有国际性、权威性、高知识性、高互动性等特点,其参会者一般...针对自然语言处理方向比较重要的几个会议有:ACL、EMNLP、NACAL、CoNLL、COLING、ICLR、AAAI、NL...
  • ************************* 精华总结,时间不够只看这个部分就行了 1.书和课 Michael Collins:COMS W4705: Natural Language Processing (Spring 2015)(重要) Jason Eisner的Lecture Notes:600.465 - Natural ...
  • AI Conference 北京站AI Conference 2019 北京站6月18-21日即将开幕!培训:大会推出「PyTorch 深度学习」两天培训课程,资深数据科...
  • nlp学习资料

    2018-03-18 21:42:05
    我爱自然语言处理 斯坦福nlp首页 https://nlp.stanford.edu/ 公开课 http://coursegraph.com/navigation/ 资料 http://www.52nlp.cn/resources 统计自然语言处理pdf http://vdisk.weibo.com/s/vfFpMc1S7T9V ...
  • 1. 1.NLP自然语言处理文本处理 1 2. 知识图谱知识处理系统 2 3. 2.机器视觉 图像处理 2 4. 3.机器人 在线机器人 自动化 2 5. 生物特征识别 3 6. 人机交互 3 6.1. 手势识别 4 6.2. 语音交互 4 6.3. 键盘、...
  • 自然语言处理NLP)是数据科学中最有趣的子领域之一,越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(均具有STEM和社会科学背景)依然缺乏NLP自然语言处理)...
  • 自然语言处理的发展大致经历了4个阶段:1956年以前的萌芽期;1957-1970年的快速发展期;1971 -1993年的低谷的发展期和1994年至今的复苏融合期。 一、萌芽期(1956年以前) 1956年以前,可以看作自然语言处理的基础...
  • 本文根据实际项目撰写,由于项目保密要求,源代码将进行一定程度的删减。本文撰写的目的是进行公司培训,请勿以任何形式进行转载。由于是日语项目,用到的分词软件等,在中文任务中需要...自然语言处理真实项目实战...
  • 自然语言处理 (Natural Language Processing,NLP)是一门融合了计算机科学、人工智能以及语言学的交叉学科,它们的关系如图 1-1 所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至...
  • 本文涵盖的预训练NLP模型 多用途NLP模型 ULMFiT 有关ULMFiT的更多信息,请参阅: Transformer 学习和阅读更多有关Transformer的资源: 谷歌的BERT 学习和阅读更多有关BERT的资源: 谷歌的Transformer-XL ...
1 2 3 4 5 ... 20
收藏数 21,484
精华内容 8,593