精华内容
下载资源
问答
  • 自然语言处理论文
    千次阅读
    2018-06-08 19:18:03
    mark一下,感谢作者分享!

    自然语言处理论文10篇 | PaperWeekly


    本文经授权转载自公众号 Paper Weekly (ID:paperweekly)。Paperweekly 每周分享自然语言处理领域好玩的paper。


    1、Neural Personalized Response Generation as Domain Adaptation


    【个性化】【对话生成】 本文研究的问题是如何生成个性化的对话,模型仍是基于经典的seq2seq+attention,在该模型的基础上通过两个步骤来生成特定style的对话,第一步是initialization,第二步是adaptation。工作来自哈工大 @刘挺 老师组,他们推出了一个聊天机器人 “笨笨” (可微信搜),而且具有中文阅读理解的功能。关于生成更多样的对话内容,可以参考  PaperWeekly 第十八期 — 提高seq2seq方法所生成对话的流畅度和多样性


    2、RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems


    【对话系统】【评价】 本文研究的问题也是当前对话系统中非常关键的一个问题,如何更加准确地自动评价模型的效果,本文提出了一种新的评价方法RUBER,旨在通过生成的reply和用户的当前query来联合评判效果,建议从业者和相关研究人员精读。


    3、Generating Long and Diverse Responses with Neural Conversation Models


    【对话生成】【seq2seq】 本文研究的问题是如何生成一个又长、又多样的对话,模型仍是基于经典的seq2seq,在decoding部分,加了一个所谓的self-attention部件来保证对话长度和连贯性,在解空间中用随机beam search来搜索候选对话,然后进行重排得到最终结果。


    4、Decoding as Continuous Optimization in Neural Machine Translation


    【seq2seq】【解码】 本文的亮点在于将seq2seq模型中的解码部分转化成一个连续优化的问题,通过比较成熟的优化算法来解决解码问题,这个思路可以被应用到所有seq2seq解决方案中。


    5、OpenNMT: Open-Source Toolkit for Neural Machine Translation


    【NMT】【开源】 Harvard NLP组和SYSTRAN公司联合推出的开源机器翻译系统OpenNMT,torch实现,代码地址:https://github.com/opennmt/opennmt 主页地址:http://opennmt.net/


    6、Implicitly Incorporating Morphological Information into Word Embedding


    【词向量】将词形信息考虑在词向量模型中是一种常见的增强手段,一般的做法是将词的前缀、后缀和词根作为独立的token进行建模,而本文的思路则是用能够代表前缀、后缀意思的词来代替进行建模。


    7、Real Multi-Sense or Pseudo Multi-Sense: An Approach to Improve Word Representation


    【真假多义词】 词向量是一个非常活跃的研究领域,word2vec提供了一种非常简单粗暴、充满问题的词向量,比如一个典型的问题是一词多义,于是很多的工作都是在解决一词多义的问题,但一个词对应的多个向量其实都指向同一个词义,本文的工作正是对这些伪一词多义进行识别,降低语言研究的复杂度。


    8、Multi-level Representations for Fine-Grained Typing of Knowledge Base Entities


    【entity表示】 entity是知识图谱的基础组件,很多的entity都是罕见词(短语),entity的表示是一个相对困难的问题。本文提出了一种char-level、word-level和entity-level三种level的联合表示模型,得到了不错的效果。本文非常值得精读!数据和代码都已公开 http://cistern.cis.lmu.de/figment/


    9、Task-Specific Attentive Pooling of Phrase Alignments Contributes to Sentence Matching


    【短语对齐】 本文研究的问题是句子匹配,该问题常常被应用于文本蕴含和答案选择两个任务上,针对短语识别、表示和对齐等关键问题,本文提出了一种基于GRU的NN模型,取得了不错的效果。本文作者是@Wenpeng_Yin


    10、Parsing Universal Dependencies without training


    【依存分析】【无监督】 本文的工作是基于pagerank和一些规则来做无监督式的依存文法分析,无监督的paper总是让人眼前一亮,EACL2017。”在现今去规则化和拼语料库的机器学习型parser盛行时,少有的使用规则,无监督的Parser。每人研究都有自己支撑点,在没有被完全推翻时,自然会坚持,不为热潮激流所动,我认为这是理性研究者的主骨,我一直有敬畏之心。尽管各家学说各异,相信还是以结果优良和可发展性为最终评价标准”(观点来自微博 王伟DL)




    更多相关内容
  • 自然语言处理论文

    2018-06-14 22:13:05
    本届 EMNLP 大会涉及自然语言处理的各个领域,“机器学习”毫无悬念仍然成为重点,并且还首次单独出来自成一类(EMNLP 2015 时是“统计机器学习方法”)。大会覆盖的主题包括:计算心理语言;对话和交互系统;话语...
  • 自然语言处理论文(2021.08.05).rar
  • NLP论文:自然语言处理论文
  • 包含近年较为热门的论文 以及一篇word论文适用于学生应付课设。
  • Recurrent neural network based language model Word representations: A simple and general method for semi-supervised learning Natural Language Processing (Almost) from Scratch Efficient Estimation of ...
  • 包含文本分类,文本自动校对,《统计自然语言处理》等多篇论文,图书等资源,所有论文基本都是2018年8月以后发表的,只有少数两篇是2017年的
  • nlp自然语言处理论文精读
  • 超牛逼的自然语言处理论文和代码

    热门讨论 2012-01-30 17:20:15
    Research on Issues of Translation Selection for Phrase and Structure in Statistical Machine Translation_hezhongjun_phd thesis 2008.pdf Research on domain adaptation in Statistical Machine Translation...
  • AI视野·今日CS.NLP 自然语言处理论文速览 Wed, 1 Dec 2021 Totally 27 papers ????上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Automatic Extraction of Medication Names in Tweets ...

    AI视野·今日CS.NLP 自然语言处理论文速览
    Wed, 1 Dec 2021
    Totally 27 papers
    👉上期速览更多精彩请移步主页

    在这里插入图片描述

    Daily Computation and Language Papers

    Automatic Extraction of Medication Names in Tweets as Named Entity Recognition
    Authors Carol Anderson, Bo Liu, Anas Abidin, Hoo Chang Shin, Virginia Adams
    社交媒体帖子包含有关医疗状况和健康相关行为的潜在有价值的信息。 Biocreative VII 任务 3 侧重于通过识别推文中提及的药物和膳食补充剂来挖掘这些信息。我们通过微调多个 BERT 风格的语言模型来执行令牌级别分类,并将它们组合成集成以生成最终预测来处理此任务。

    Chemical Identification and Indexing in PubMed Articles via BERT and Text-to-Text Approaches
    Authors Virginia Adams, Hoo Chang Shin, Carol Anderson, Bo Liu, Anas Abidin
    Biocreative VII Track 2 挑战包括命名实体识别、实体链接或实体规范化以及主题索引任务,实体和主题仅限于该挑战的化学品。命名实体识别是一个成熟的问题,我们使用基于 BERT 的 BioMegatron 模型实现了最佳性能。我们将基于 BERT 的方法扩展到实体链接任务。在使用称为自对齐预训练 SAP 的度量学习损失策略预训练 BioBERT 的第二阶段之后,我们根据 SAP BioBERT 词嵌入之间的余弦相似度链接实体。

    Text Mining Drug/Chemical-Protein Interactions using an Ensemble of BERT and T5 Based Models
    Authors Virginia Adams, Hoo Chang Shin, Carol Anderson, Bo Liu, Anas Abidin
    在 BioCreative VII Challenge 的 Track 1 中,参与者被要求确定药物化学物质和蛋白质之间的相互作用。在上下文中,提供了每种药物化学物质和蛋白质的命名实体注释,并且必须自动预测十四种不同相互作用中的一种。对于这个关系提取任务,我们尝试了基于 BERT 的句子分类方法和使用 T5 模型的更新颖的文本到文本方法。我们发现更大的基于 BERT 的模型总体上表现更好,我们基于 BioMegatron 的模型在所有指标上都取得了最高分,达到了 0.74 F1 分数。尽管我们新颖的 T5 文本到文本方法的性能不如我们大多数基于 BERT 的模型,但它的表现优于在类似数据上训练的模型,显示出有希望的结果,F1 得分为 0.65。

    Fine-grained prediction of food insecurity using news streams
    Authors Ananth Balashankar, Lakshminarayanan Subramanian, Samuel P. Fraiberger
    预测粮食危机的爆发对于有效分配紧急救济和减少人类苦难至关重要。然而,现有的粮食不安全预警系统依赖的风险措施往往是延迟的、过时的或不完整的。在这里,我们利用深度学习的最新进展从 1980 年至 2020 年间发表的大量关于脆弱国家的新闻文章的文本中提取粮食危机的高频前兆。并允许我们最多提前三个月在 15 个脆弱国家的地区一级预测比现有模型多 32 次的粮食危机。

    Pureformer: Do We Even Need Attention?
    Authors Uladzislau Yorsh, Alexander Kovalenko
    在本文中,我们提出广泛用于基于变换器的模型中的点积成对匹配注意层对于模型性能是冗余的。其原始表述中的注意力必须被视为一种人类级别的工具,用于探索和/或可视化序列中的相关性分数。

    What Do You See in this Patient? Behavioral Testing of Clinical NLP Models
    Authors Betty van Aken, Sebastian Herrmann, Alexander L ser
    基于临床记录的决策支持系统有可能通过将医生指向受监督的风险来改善患者护理。预测患者的结果是此类系统的重要组成部分,深度神经网络的使用已显示出有希望的结果。然而,这些网络学习到的模式大多是不透明的,而且之前的工作揭示了关于意外偏差再现的缺陷。因此,我们引入了一个可扩展的测试框架,用于评估临床结果模型关于输入变化的行为。该框架有助于理解学习模式及其对模型决策的影响。在这项工作中,我们应用它来分析关于患者特征性别、年龄和种族的行为变化。我们对三个当前临床 NLP 模型的评估证明了这些特征对模型决策的具体影响。

    New Approaches to Long Document Summarization: Fourier Transform Based Attention in a Transformer Model
    Authors Andrew Kiruluta, Andreas Lemos, Eric Lundy
    在这项工作中,我们广泛地重新设计了新引入的使用傅立叶变换 FNET 的令牌混合方法,以替换长文档摘要任务 512 个令牌的完整变换器实现中计算成本高的自注意力机制。作为基线,我们还使用已建立的方法(例如 Longformer 和 Big Bird 转换器模型)进行了长文档摘要,这些模型能够处理超过 8000 个标记,并且是目前解决此类问题的最先进方法。最初的 FNET 论文在仅编码器的架构中实现了这一点,而抽象摘要需要编码器和解码器。由于公共领域中目前不存在这种预训练的变换器模型,我们决定在编码器解码器架构中实现基于这种傅立叶标记混合方法的完整变换器,我们从语料库中单个单词的 Glove 嵌入开始训练。我们研究了原始 FNET 架构的许多不同扩展,并评估了它们在摘要任务上的 Rouge F1 得分表现。

    KARL-Trans-NER: Knowledge Aware Representation Learning for Named Entity Recognition using Transformers
    Authors Avi Chawla, Nidhi Mulay, Vikas Bishnoi, Gaurav Dhama
    使用 BERT、ELMo 和 Flair 等模型对上下文信息进行建模的开始显着改善了单词的表示学习。它还在几乎所有 NLP 任务机器翻译、文本摘要和命名实体识别中给出了 SOTA 结果,仅举几例。在这项工作中,除了使用这些主要的上下文感知表示之外,我们还提出了一个用于命名实体识别 NER 的知识感知表示学习 KARL 网络。我们讨论了使用现有方法将世界知识纳入 NER 的挑战,并展示了如何利用我们提出的方法来克服这些挑战。 KARL 基于 Transformer Encoder,它利用表示为事实三元组的大型知识库,将它们转换为图上下文,并提取驻留在其中的基本实体信息,以生成用于特征增强的上下文三元组表示。实验结果表明,使用 KARL 进行的增强可以显着提高我们的 NER 系统的性能,并且在三个公开可用的 NER 数据集(即 CoNLL 2003、CoNLL 和 OntoNotes v5)上取得比文献中现有方法更好的结果。

    A Comparative Study of Transformers on Word Sense Disambiguation
    Authors Avi Chawla, Nidhi Mulay, Vikas Bishnoi, Gaurav Dhama, Dr. Anil Kumar Singh
    近年来,自然语言处理 NLP 的研究见证了训练用于生成上下文感知语言表示的大型模型的显着增长。在这方面,许多 NLP 系统利用基于神经网络的架构的力量将语义信息合并到嵌入中,从而产生了上下文化的词嵌入 CWE。尽管取得了这些进展,但 NLP 社区还没有看到任何对此类架构的上下文化能力进行比较研究的重要工作。本文对九种广泛采用的 Transformer 模型进行了比较研究和广泛分析。这些模型是 BERT、CTRL、DistilBERT、OpenAI GPT、OpenAI GPT2、Transformer XL、XLNet、ELECTRA 和 ALBERT。我们使用两个词汇样本 Word Sense Disambiguation WSD 任务 SensEval 2 和 SensEval 3 来评估它们的上下文化能力。我们采用一种简单而有效的 WSD 方法,在 CWE 上使用 k 最近邻 kNN 分类。

    Minor changes make a difference: a case study on the consistency of UD-based dependency parsers
    Authors Dmytro Kalpakchi, Johan Boye
    许多下游应用程序使用依赖树,因此依赖依赖解析器产生正确的,或者至少是一致的输出。然而,依赖解析器是使用机器学习进行训练的,因此容易出现由于训练数据中的偏差而导致的不必要的不​​一致。本文通过我们研究替换句子中数字的效果的实验,探讨了这种偏见在英语、瑞典语、俄语和乌克兰语四种语言中的影响。

    Text classification problems via BERT embedding method and graph convolutional neural network
    Authors Loc Hoang Tran, Tuan Tran, An Mai
    本文提出了结合 BERT 嵌入方法和图卷积神经网络的新方法。这种组合用于解决文本分类问题。最初,我们将 BERT 嵌入方法应用于 BBC 新闻数据集和 IMDB 电影评论数据集中的文本,以便将所有文本转换为数值向量。然后,图卷积神经网络将应用于这些数值向量,以将这些文本分类为适当的类别标签。

    Challenges in Developing LRs for Non-Scheduled Languages: A Case of Magahi
    Authors Ritesh Kumar
    Magahi 是一种印度雅利安语言,主要在印度东部地区使用。尽管有大量的使用者,但实际上没有为该语言开发的语言资源 LR 或语言技术 LT,主要是因为它是一种非预定语言。本论文描述了开发 Magahi 注释语料库的尝试。

    Generating Rich Product Descriptions for Conversational E-commerce Systems
    Authors Shashank Kedia, Aditya Mantha, Sneha Gupta, Stephen Guo, Kannan Achan
    通过最近语音技术的进步和智能助手(例如 Amazon Alexa、Apple Siri 和 Google Home)的引入,越来越多的用户通过语音命令与各种应用程序进行交互。当需要简洁时,电子商务公司通常在他们的网页上显示简短的产品标题,无论是人工策划的还是算法生成的。但是,这些标题与自然口语不同。例如,Lucky Charms Gluten Free Break fast Cereal, 20.5 oz a box Lucky Charms Gluten Free 可以显示在网页上,而类似的标题不能用于基于语音的文本到语音应用程序中。在此类会话系统中,首选易于理解的句子,例如一盒 20.5 盎司的幸运符无麸质麦片。与可以向用户呈现图像和详细产品信息的显示设备相比,在与语音助手交互时,传达最重要信息的产品的简短标题是必要的。我们提出了 eBERT,一种序列到序列的方法,通过在电子商务产品描述语料库上进一步预训练 BERT 嵌入,然后微调结果模型以从输入的网络标题生成简短、自然的口语标题。我们在现实世界行业数据集上的大量实验以及对模型输出的人工评估表明,eBERT 摘要优于可比较的基线模型。

    Bilingual Topic Models for Comparable Corpora
    Authors Georgios Balikas, Massih Reza Amini, Marianne Clausel
    像潜在狄利克雷分配 LDA 这样的概率主题模型以前已经扩展到双语环境。这些扩展中的一些基本建模假设是输入语料库采用文档对的形式,其组成文档共享单个主题分布。然而,对于由主题相似的文档组成的可比语料库,这种假设是强有力的,而这些文档又是最常见的或最容易获得的。在本文中,我们通过提议成对文档具有单独但绑定的主题分布来放宽这一假设。配对文档的分布之间的绑定机制。我们建议边界的强度应该取决于每对的语义相似性。为了估计用不同语言编写的文档的相似性,我们使用通过浅层神经网络学习的跨语言词嵌入。我们通过扩展两个主题模型来评估所提出的绑定机制,一个是假设词袋输入的 LDA 的双语改编,另一个是以语义连贯段边界的形式合并部分文本结构的模型。为了评估新主题模型的性能,我们对五个双语、可比较的英语文档语料库与法语、德语、意大利语、西班牙语和葡萄牙语文档进行了内在和外在实验。

    Towards automatic identification of linguistic politeness in Hindi texts
    Authors Ritesh Kumar
    在本文中,我提出了一个分类器,用于自动识别印地语文本中的语言礼貌。我使用了超过 25,000 条博客评论的手动注释语料库来训练 SVM。本文利用话语和互动的方法来表达礼貌,阐述了印地语规范的、约定俗成的礼貌结构。可以看出,使用这些人工识别的结构作为特征训练 SVM 显着提高了分类器在测试集上的性能。

    Improvement in Machine Translation with Generative Adversarial Networks
    Authors Jay Ahn, Hari Madhu, Viet Nguyen
    在本文中,我们通过生成对抗网络 GAN 架构探索机器翻译改进。我们从文本生成模型 RelGAN 和对抗性机器翻译模型 NMT GAN 中汲取灵感,实现了一个模型,该模型学习将笨拙、不流利的英语句子转换为流利的英语句子,同时仅在单语语料库上进行训练。我们使用参数 lambda 来控制与输入句子的偏差量,即在保留原始标记和修改它以使其更流畅之间进行权衡。在某些情况下,我们的结果改进了基于短语的机器翻译。特别是,带有变压器生成器的 GAN 显示出一些有希望的结果。

    Automated Speech Scoring System Under The Lens: Evaluating and interpreting the linguistic cues for language proficiency
    Authors Pakhi Bamdev, Manraj Singh Grover, Yaman Kumar Singla, Payman Vafaee, Mika Hama, Rajiv Ratn Shah
    英语水平评估已成为筛选和选择学术界和工业界潜在候选人的必要指标。随着对此类评估需求的增加,越来越有必要拥有自动化的人工可解释结果,以防止不一致并确保向第二语言学习者提供有意义的反馈。基于特征的经典方法在理解评分模型学习的内容方面更具可解释性。因此,在这项工作中,我们利用经典机器学习模型将语音评分任务制定为分类和回归问题,然后进行深入研究以解释和研究语言线索与说话者英语水平之间的关系.首先,我们提取流利度、发音、内容、语法和词汇以及声学五类下的语言学特征,并训练模型对响应进行评分。相比之下,我们发现基于回归的模型的性能等同于或优于分类方法。其次,我们进行消融研究以了解每个特征和特征类别对熟练程度分级表现的影响。此外,为了理解单个特征的贡献,我们展示了顶级特征对于评分任务的最佳性能算法的重要性。

    Learning to Predict Persona Information forDialogue Personalization without Explicit Persona Description
    Authors Wangchunshu Zhou, Qifei Li, Chenle Li
    个性化对话代理对于对话系统生成更具体、一致和引人入胜的响应很重要。然而,目前大多数对话个性化方法在推理过程中依赖于明确的角色描述,这严重限制了其应用。在本文中,我们提出了一种新方法,该方法可以学习根据对话历史预测角色信息,从而在推理过程中不依赖任何明确的角色描述来个性化对话代理。在PersonaChat 数据集上的实验结果表明,所提出的方法可以在以对话代理的预测配置文件(即自我角色)为条件时提高生成响应的一致性,并在以对话伙伴的预测角色为条件时提高生成响应的参与度。即他们的角色。

    Joint Modeling of Code-Switched and Monolingual ASR via Conditional Factorization
    Authors Brian Yan, Chunlei Zhang, Meng Yu, Shi Xiong Zhang, Siddharth Dalmia, Dan Berrebbi, Chao Weng, Shinji Watanabe, Dong Yu
    会话双语语音包括三种类型的话语,两种纯单语类型和一种句内代码切换类型。在这项工作中,我们提出了一个通用框架来联合建模包含双语语音识别的单语和代码切换子任务的可能性。通过定义带有标签到帧同步的单语子任务,我们的联合建模框架可以有条件地分解,从而仅在给定单语信息的情况下获得最终的双语输出,可能会或可能不会进行代码切换。我们表明,这种条件分解的联合框架可以通过端到端的可微神经网络进行建模。

    Adversarial Training for a Hybrid Approach to Aspect-Based Sentiment Analysis
    Authors Ron Hochstenbach, Flavius Frasincar, Maria Mihaela Trusca
    Web 的日益普及随后增加了对产品和服务的评论。挖掘这些评论以表达情感对公司和消费者都是有益的,因为可以根据这些信息提高质量。在本文中,我们考虑了基于方面的情感分析的最先进的 HAABSA 算法,其任务是识别评论句子中对给定方面表达的情感。具体来说,我们使用对抗网络训练该算法的神经网络部分,这是一种新颖的机器学习训练方法,其中生成器网络试图通过生成高度逼真的新样本来欺骗分类器网络,从而提高鲁棒性。这种方法从未以其经典形式应用于基于方面的情感分析,被发现能够显着提高 SemEval 2015 数据集的 HAABSA 样本外准确性,准确性从 81.7 增加到 82.5,并且对于

    Trend and Thoughts: Understanding Climate Change Concern using Machine Learning and Social Media Data
    Authors Zhongkai Shangguan, Zihe Zheng, Lei Lin
    与传统的调查方法相比,如今 Twitter 等社交媒体平台提供了一个很好的机会来了解气候变化的公众舆论。在本文中,我们构建了一个海量的气候变化 Twitter 数据集,并使用机器学习进行了综合分析。通过主题建模和自然语言处理,我们展示了关于气候变化的推文数量与重大气候事件、人们讨论气候变化的共同话题和情绪趋势之间的关系。

    Abusive and Threatening Language Detection in Urdu using Boosting based and BERT based models: A Comparative Approach
    Authors Mithun Das, Somnath Banerjee, Punyajoy Saha
    在线仇恨在许多社交媒体平台上越来越受到关注。为了解决这个问题,不同的社交媒体平台已经针对此类内容引入了审核政策。他们还聘请了版主,可以检查违反节制政策的帖子并采取适当的行动。辱骂性语言研究领域的院士也进行了各种研究,以更好地检测此类内容。尽管对英语中的辱骂性语言检测进行了广泛的研究,但在印地语、乌尔都语等低资源语言中的辱骂性语言检测方面存在缺陷。在这个 FIRE 2021 共享任务 HASOC 乌尔都语中的辱骂性和威胁性语言检测中,组织者提出了一种辱骂性语言乌尔都语检测数据集以及威胁语言检测。在本文中,我们基于共享任务探索了几种机器学习模型,例如 XGboost、LGBM、m BERT 模型,用于乌尔都语中的辱骂性和威胁性内容检测。我们观察到专门针对阿拉伯语滥用语言数据集训练的 Transformer 模型有助于获得最佳性能。

    DiPD: Disruptive event Prediction Dataset from Twitter
    Authors Sanskar Soni, Dev Mehta, Vinush Vishwanath, Aditi Seetha, Satyendra Singh Chouhan
    骚乱和抗议如果失控,可能会在一个国家造成严重破坏。我们已经看到了这方面的例子,例如 BLM 运动、气候罢工、CAA 运动等等,它们在很大程度上造成了破坏。我们创建这个数据集的动机是用它来开发机器学习系统,让用户深入了解正在发生的趋势事件,并提醒他们注意可能导致国家中断的事件。如果任何事件开始失控,可以通过在事件升级之前对其进行监控来处理和缓解。该数据集收集了已知造成中断的过去或正在进行的事件的推文,并将这些推文标记为 1。我们还收集被认为是非事件的推文并将其标记为 0,以便它们也可用于训练分类系统。该数据集包含 94855 条独特事件记录和 168706 条独特非事件记录,因此数据集总共有 263561 条记录。我们从推文中提取多个特征,例如用户的关注者数量和用户的位置,以了解推文的影响和范围。

    Undecidability in Finite Transducers, Defense Systems and Finite Substitutions
    Authors Vesa Halava
    在这份手稿中,我们详细证明了正则语言 b 0,1 c 上有限替换等价的不可判定性。

    Easy Semantification of Bioassays
    Authors Marco Anteghini, Jennifer D Souza, Vitor A.P. Martins dos Santos, S ren Auer
    生物数据和知识库越来越依赖语义 Web 技术和知识图谱用于数据集成、检索和联合查询。我们提出了一种自动语义化生物测定的解决方案。我们的解决方案将自动语义化问题并置为分类与聚类,其中两种方法位于方法复杂性范围的两端。对我们的问题进行特征建模,我们发现聚类解决方案明显优于最先进的深度神经网络分类方法。这种新颖的贡献基于两个因素 1 在数据优于具有复杂语义建模的替代方法之后紧密建模的学习目标 2 自动语义化生物测定实现了接近 83 的高性能 F1,据我们所知,这是首次报道的标准化评估

    A Natural Language Processing and Deep Learning based Model for Automated Vehicle Diagnostics using Free-Text Customer Service Reports
    Authors Ali Khodadadi, Soroush Ghandiparsi, Chen Nee Chuah
    初始故障检测和诊断是提高车辆运行效率、安全性和稳定性的必要措施。近年来,许多研究调查了数据驱动的方法,以使用可用的车辆数据改进车辆诊断过程。此外,采用数据驱动的方法来增强客户服务代理交互。在这项研究中,我们展示了一个机器学习管道,以改进自动车辆诊断。首先,自然语言处理 NLP 用于从客户致电服务部门期间生成的自由文本故障报告中自动提取关键信息。然后,使用深度学习算法来验证服务请求并过滤模糊或误导性的声明。最终,通过不同的分类算法对服务请求进行分类,从而将有效的服务请求引导至相关的服务部门。与技术人员的能力相比,所提出的模型双向长短期记忆 BiLSTM 和卷积神经网络 CNN 在验证服务请求方面的准确性提高了 18 倍以上。此外,在预处理和特征提取阶段使用基于域的 NLP 技术以及基于 CNN BiLSTM 的请求验证增强了梯度树提升 GTB 服务分类模型的准确性 25 、敏感性 39 、特异性 11 和精度 11 。

    Do We Still Need Automatic Speech Recognition for Spoken Language Understanding?
    Authors Lasse Borgholt, Jakob Drachmann Havtorn, Mostafa Abdou, Joakim Edin, Lars Maal e, Anders S gaard, Christian Igel
    口语理解 SLU 任务通常通过首先使用自动语音识别 ASR 转录话语,然后将输出提供给基于文本的模型来解决。语音数据的自监督表示学习的最新进展集中在改进 ASR 组件上。我们调查语音的表征学习是否已经成熟到足以取代 SLU 中的 ASR。我们比较了从 wav2vec 2.0 学到的语音特征、最先进的 ASR 成绩单和地面实况文本作为基于新语音的命名实体识别任务、真实世界紧急呼叫的心脏骤停检测任务和两个现有 SLU 基准的输入。我们表明,在三个分类任务上,学习到的语音特征优于 ASR 转录本。对于机器翻译,ASR 成绩单仍然是更好的选择。

    Chinese Abs From Machine Translation

    Papers from arxiv.org

    更多精彩请移步主页


    pic from pexels.com

    展开全文
  • 自然语言处理NLP英文论文参考源
  • 2017自然语言处理精选论文
  • 在这次演讲中,我将分享一些技巧和技巧,如何写有效的论文总结基于ML和NLP发表的论文。重点是如何写一篇紧凑,清晰,负责任,有效的文章。
  • 自己整理的IJCAI2018自然语言处理方向的论文,总共95篇,有感兴趣的可以一阅。
  • 自然语言处理论文集合

    热门讨论 2011-11-29 16:30:09
    自然语言处理-句法剖析论文.pdf 自然语言理解的语义分析在产品设计中的应用.pdf 融合丰富语言知识的汉语统计句法分析.pdf 限定领域的基本陈述句句法分析.pdf 面向中文问答系统的问句句法分析.pdf
  • 深度之眼招募人工智能领域讲师,兼职时间一年可赚30w,招聘详情见文章底部。学习人工智能的你想快速发论文吗?今天给大家推荐一个出论文的好方向——图神经网络!它是近些年学术界和工业界最新的研...

    深度之眼招募人工智能领域讲师,兼职时间一年可赚30w,招聘详情见文章底部。


    学习人工智能的你想快速发论文吗?今天给大家推荐一个出论文的好方向——图神经网络!

    它是近些年学术界和工业界最新的研究热点!在社交网络、知识图谱、推荐系统等工业界有广阔的应用前景!

    最重要的是,图神经网络与CV和NLP交叉,容易有创新点,是出论文的好方向!

    学习图神经网络,想要发表论文,就一定要理解并掌握图神经网络领域的经典Paper,才能梳理出主要的知识框架,从而找到论文创新点。

    可能你会说,读论文好难!代码复现好难!创新优化更难!!而且现在论文质量参差不齐,该如何甄选?对于一些优秀论文,又该如何寻找论文源代码?如何剖析算法优缺点?如何复现?如何结合实际应用实施呢?

    为了让大家在学习图神经网络的过程中少走弯路、少踩坑,深度之眼重磅推出神经网络论文体验课:

    图神经网络论文精讲班,讲解的论文篇目:

    学员走心评价

    品牌口碑


    如有任何疑问请扫码咨询客服

    年轻最有效的资本是时间,让我们带你更有效的学习,帮你节约盲目摸索的时间。让你赚取更多的价值!

    订阅须知

    Q:课程资料在哪里看?

    A:所有的课程资料均会在训练营内上传,报名以后请务必添加客服微信入群!

    Q:视频可以电脑看吗?

    A:课程视频支持PC端倍速播放。

    Q:报名后可以退款吗?

    A:本服务为虚拟内容产品,一经购买,概不退款,敬请谅解。

    Q:可以开具发票吗?

    A:可以开具普通电子发票,请联系微信班主任填写需要的信息即可。

    paper讲师招聘

    【工作职责】

    1、讲解计算机视觉(自然语言处理)经典/前沿论文及后续内容迭代和优化

    2、制作录播课课件,如有代码复现,需要提供经过自己跑的代码及相关注释,方便讲解

    3、结合自己的理解和实际工作经历对论文内容做拓展讲解

    4、按照我们的模板制定教学计划,提升学员的学习效果

    【任职要求】

    1、计算机视觉(自然语言处理)算法、工程岗在职工程师,或人工智能相关课题研究的国内外名校高材生

    2、精读过计算机视觉(自然语言处理)经典论文并对部分论文做过复现,随时关注前沿研究动态

    3、自己出过相关视频课或者在其他机构任职过兼职/全职讲师者优先考虑

    4、对教育有热情,在博客、或者知乎等相关知识分享平台写过技术分享文章优先考虑

    5、无须全职,线上工作,能在不影响本职工作下完成备课、授课和学员服务,没有工作地点的限制。

    如有意向添加工作人员微信:

    展开全文
  • 自然语言处理必读论文 聚类&词向量 主题模型 语言模型 分割、标注、解析 序列模型、信息抽取 机器翻译, seq2seq模型 指代消歧 自动文本总结 问答系统、阅读理解 生成模型、强化学习 机器学习 神经网络模型 转载:...
  • 自然语言处理论文发表

    千次阅读 2016-03-04 15:38:59
    曾经写过一篇小文,初学者如何查阅自然语言处理(NLP)领域学术资料_zibuyu_新浪博客,也许可以供你参考。 昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形...

    曾经写过一篇小文, 初学者如何查阅自然语言处理(NLP)领域学术资料_zibuyu_新浪博客,也许可以供你参考。

    昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个人认知所限,难免挂一漏万,还望大家海涵指正。


    1. 国际学术组织、学术会议与学术论文

    自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合。与其他计算机学科类似,NLP/CL有一个属于自己的最权威的国际专业学会,叫做The Association for Computational Linguistics(ACL,URL:ACL Home Page),这个协会主办了NLP/CL领域最权威的国际会议,即ACL年会,ACL学会还会在北美和欧洲召开分年会,分别称为NAACL和EACL。除此之外,ACL学会下设多个特殊兴趣小组(special interest groups,SIGs),聚集了NLP/CL不同子领域的学者,性质类似一个大学校园的兴趣社团。其中比较有名的诸如SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。这些SIGs也会召开一些国际学术会议,其中比较有名的就是SIGDAT组织的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL组织的CoNLL(Conference on Natural Language Learning)。此外还有一个International Committee on Computational Linguistics的老牌NLP/CL学术组织,它每两年组织一个称为International Conference on Computational Linguistics (COLING)的国际会议,也是NLP/CL的重要学术会议。NLP/CL的主要学术论文就分布在这些会议上。

    作为NLP/CL领域的学者最大的幸福在于,ACL学会网站建立了称作ACL Anthology的页面(URL:ACL Anthology),支持该领域绝大部分国际学术会议论文的免费下载,甚至包含了其他组织主办的学术会议,例如COLING、IJCNLP等,并支持基于Google的全文检索功能,可谓一站在手,NLP论文我有。由于这个论文集合非常庞大,并且可以开放获取,很多学者也基于它开展研究,提供了更丰富的检索支持,具体入口可以参考ACL Anthology页面上方搜索框右侧的不同检索按钮。

    与大部分计算机学科类似,由于技术发展迅速,NLP/CL领域更重视发表学术会议论文,原因是发表周期短,并可以通过会议进行交流。当然NLP/CL也有自己的旗舰学术期刊,发表过很多经典学术论文,那就是Computational Linguistics(URL:MIT Press Journals)。该期刊每期只有几篇文章,平均质量高于会议论文,时间允许的话值得及时追踪。此外,ACL学会为了提高学术影响力,也刚刚创办了Transactions of ACL(TACL,URL:Transactions of the Association for Computational Linguistics (ISSN: 2307-387X)),值得关注。值得一提的是这两份期刊也都是开放获取的。此外也有一些与NLP/CL有关的期刊,如ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。

    根据Google Scholar Metrics 2013年对NLP/CL学术期刊和会议的评价,ACL、EMNLP、NAACL、COLING、LREC、Computational Linguistics位于前5位,基本反映了本领域学者的关注程度。

    NLP/CL作为交叉学科,其相关领域也值得关注。主要包括以下几个方面:(1)信息检索和数据挖掘领域。相关学术会议主要由美国计算机学会(ACM)主办,包括SIGIR、WWW、WSDM等;(2)人工智能领域。相关学术会议主要包括AAAI和IJCAI等,相关学术期刊主要包括Artificial Intelligence和Journal of AI Research;(3)机器学习领域,相关学术会议主要包括ICML,NIPS,AISTATS,UAI等,相关学术期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近兴起的knowledge graph研究论文,就有相当一部分发表在人工智能和信息检索领域的会议和期刊上。实际上国内计算机学会(CCF)制定了“中国计算机学会推荐国际学术会议和期刊目录”(CCF推荐排名),通过这个列表,可以迅速了解每个领域的主要期刊与学术会议。

    最后,值得一提的是,美国Hal Daumé III维护了一个natural language processing的博客(natural language processing blog),经常评论最新学术动态,值得关注。我经常看他关于ACL、NAACL等学术会议的参会感想和对论文的点评,很有启发。另外,ACL学会维护了一个Wiki页面(ACL Wiki),包含了大量NLP/CL的相关信息,如著名研究机构、历届会议录用率,等等,都是居家必备之良品,值得深挖。


    2. 国内学术组织、学术会议与学术论文

    与国际上相似,国内也有一个与NLP/CL相关的学会,叫做中国中文信息学会(URL:中国中文信息学会)。通过学会的理事名单(中国中文信息学会)基本可以了解国内从事NLP/CL的主要单位和学者。学会每年组织很多学术会议,例如全国计算语言学学术会议(CCL)、全国青年计算语言学研讨会(YCCL)、全国信息检索学术会议(CCIR)、全国机器翻译研讨会(CWMT),等等,是国内NLP/CL学者进行学术交流的重要平台。尤其值得一提的是,全国青年计算语言学研讨会是专门面向国内NLP/CL研究生的学术会议,从组织到审稿都由该领域研究生担任,非常有特色,也是NLP/CL同学们学术交流、快速成长的好去处。值得一提的是,2010年在北京召开的COLING以及2015年即将在北京召开的ACL,学会都是主要承办者,这也一定程度上反映了学会在国内NLP/CL领域的重要地位。此外,计算机学会中文信息技术专委会组织的自然语言处理与中文计算会议(NLP&CC)也是最近崛起的重要学术会议。中文信息学会主编了一份历史悠久的《中文信息学报》,是国内该领域的重要学术期刊,发表过很多篇重量级论文。此外,国内著名的《计算机学报》、《软件学报》等期刊上也经常有NLP/CL论文发表,值得关注。

    过去几年,在水木社区BBS上开设的AI、NLP版面曾经是国内NLP/CL领域在线交流讨论的重要平台。这几年随着社会媒体的发展,越来越多学者转战新浪微博,有浓厚的交流氛围。如何找到这些学者呢,一个简单的方法就是在新浪微博搜索的“找人”功能中检索“自然语言处理”、 “计算语言学”、“信息检索”、“机器学习”等字样,马上就能跟过去只在论文中看到名字的老师同学们近距离交流了。还有一种办法,清华大学梁斌开发的“微博寻人”系统(清华大学信息检索组)可以检索每个领域的有影响力人士,因此也可以用来寻找NLP/CL领域的重要学者。值得一提的是,很多在国外任教的老师和求学的同学也活跃在新浪微博上,例如王威廉(Sina Visitor System)、李沐(Sina Visitor System)等,经常爆料业内新闻,值得关注。还有,国内NLP/CL的著名博客是52nlp(我爱自然语言处理),影响力比较大。总之,学术研究既需要苦练内功,也需要与人交流。所谓言者无意、听者有心,也许其他人的一句话就能点醒你苦思良久的问题。无疑,博客微博等提供了很好的交流平台,当然也注意不要沉迷哦。


    3. 如何快速了解某个领域研究进展

    最后简单说一下快速了解某领域研究进展的经验。你会发现,搜索引擎是查阅文献的重要工具,尤其是谷歌提供的Google Scholar,由于其庞大的索引量,将是我们披荆斩棘的利器。

    当需要了解某个领域,如果能找到一篇该领域的最新研究综述,就省劲多了。最方便的方法还是在Google Scholar中搜索“领域名称 + survey / review / tutorial / 综述”来查找。也有一些出版社专门出版各领域的综述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它们发表了很多热门方向的综述,如文档摘要、情感分析和意见挖掘、学习排序、语言模型等。

    如果方向太新还没有相关综述,一般还可以查找该方向发表的最新论文,阅读它们的“相关工作”章节,顺着列出的参考文献,就基本能够了解相关研究脉络了。当然,还有很多其他办法,例如去videolectures.net上看著名学者在各大学术会议或暑期学校上做的tutorial报告,去直接咨询这个领域的研究者,等等。

    展开全文
  • 【自然语言处理入门系列】推荐:NLP Paper - 按主题分类的自然语言处理论文汇总 这是一个很优秀的论文汇总链接,忍不住要通过博客分享给各位NLPer: NLP Paper - 按主题分类的自然语言处理论文汇总 主题十分全面,...
  • 本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
  • 自然语言处理(Natural Language Processing)俗称人机对话,是研究如何利用计算机来理解和处理自然语言的,即把计算机作为语言研究的工具,在计算机技术的支持下对语言信息进行定量化的研究,通常又被称为自然语言...
  • 深度学习模型通常需要大量数据。 但是,这些大型数据集并非总是可以实现的。这在许多具有挑战性的NLP任务中很常见...例如,考虑使用神经机器翻译,在这种情况下,特别对于低资源语言而言,可能无法整理如此大的数据集。
  • 包含自然语言处理、语音识别、RNN网络结构、CNN网络结构等相关外文文献
  • 自然语言处理综论,包含中文与英文两个版本。自然语言处理 入门书籍,很有帮助
  • 2018年对于自然语言处理(NPL)是很有意义的一年,见证了许多新的研究方向和尖端成果。Elvis Saravia 是计算语言学专家,也是2019 计算语言学会年度大会北美分部的项目委员之一。他总结了2018年 NLP 的重要进展,...
  • 本资源来源于万方,属于学术论文,包括几篇硕士论文,几篇期刊论文。结合自然语言处理和推荐系统的,还有日志处理的。侵删。
  • 者篇论文相当详细的描绘了自然语言处理在深度学习的基础上的研究情况,是很好的综述性质文章,可以借鉴借鉴
  • 有源码及数据集,资源描述:基于TextRank、TF-IDF、LSI、LDA模型的关键词提取,实验数据为人民网的新闻,计算不同模型提取出的关键字的相似度
  • 引言: 下面是作者整理的关于自然语言生成(NLG)相关的论文文章,能找到源码的作者也直接贴出来了,如果你对NLG感兴趣或者也在找一些相关的文章,希望能够帮助你~~ 如果你一篇篇的论文下载不方便,你也可以关注 ...
  • 本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 67,679
精华内容 27,071
关键字:

自然语言处理论文

友情链接: rormal.rar