精华内容
下载资源
问答
  • 《开放型对话技术研究综述》论文阅读
    2021-12-22 20:33:06

    摘要

    开放型对话是对话系统的一个重要分支,有着极强的应用前景。它不同于任务型对话,具有较强的随机性和不确定性。该文从回复方式驱动对话技术发展这个角度切入﹐进行开放型对话技术发展过程的梳理﹐紧扣序列到序列及其改良模型在对话生成场景中应用的这条主要线索﹐对开放型对话的关键技术进行了探讨和研究。上述研究勾画出了从单轮对话到多轮对话发展的主要研究主线。为进一步探索对话技术发展的内在规律和发展趋势,通过研究发现,基于序列到序列的生成模型在面向多轮对话生成的任务场景时﹐显现出模型实现特点和应用场景不完全匹配的问题。因此﹐在该文的最后v从引入外部知识、改写机制及代理机制三个角度切入﹐初步探索了相关技术针对多轮对话生成的可能改进方向。
     

    4思考与展望
    本文以单轮对话到多轮对话的发展为全文的研究主线,进行了三个方面研究工作的综述。首先从回复方式驱动的角度切入进行对话技术发展的梳理。其次紧扣S2S及其改良模型在对话生成场景中的应用,对开放型对话的关键技术进行了探讨和研究。为进一步探索对话技术的未来发展趋势,在本文的最后从引入外部知识、改写机制及代理机制三个角度切入,进行相关技术针对多轮对话生成改进方向的探索与研究。通过相关内容的梳理与分析,进一步思考展望如下:
    检索式和生成式算法作为对话生成模型的两种主要方法﹐具有各自的优缺点。检索式模型的回复往往更加可控,并且流畅性也会更加突出﹐总体给人的感觉是“中规中矩”,缺乏语言的多样性和个性化。生成式模型的回复多样性较强,经常会给人“眼前一亮”的感觉,但也时常会冒出一些让人摸不着头脑的话语,可控性较差。如果能将这两种对话生成方式有机结合起来,吸取各自算法上的优势﹐可以在一定程度上提升对话生成的质量。但如何寻找两种生成方式的合适结合点,还需要进一步研究。
    对话生成模型情感的引入对于对话质量的提升有着十分显著的作用。对话系统作为一个直接与人对话的系统,若能实现对用户情绪的实时感知,会给人带来极为舒适的对话体验。如果将情感信息强化学习相结合,可以进一步提升对话系统中情感引入的效果。强化学习时﹐需要机器能接受环境(Environment)的反馈来完成奖励(Reward),从而产生相应的动作( Action),该方式可增强对情感信息的实时感知。因此,情感引入与强化学习的结合研究方向,值得持续关注。


    在提问方式上,人们希望的是对话系统能够找到适合自己的提问方式,有利于对话顺利进行下去。机器可能不清楚提问质量的好坏,这个就涉及到了一个重要的因素“语义理解”,也就是说,机器要理解整句话在说什么﹐而不是局限于某个局部,这样才能达到更好的提问效果。同时,在聊天过程中﹐说话者通常不是对上文中提到的东西进行提问﹐而是对与其相关的东西进行提问,这就要求模型在给定的话题下具有一定的知识迁移能力。外部知识的引用(基于知识库﹑知识图谱和文档)可以帮助系统增加“话源”并提升相关内容的迁移能力﹐能够“触类旁通”,灵活地进行话题的延续和转换。所以在对话生成模型中引入外部知识就显得十分重要。其中在引入外部知识的过程中﹐哪些技术的运用可以更好地提升对话生成的效果体验,还需要进行深入探索。


    不难发现,在对话生成领域,应用最广的依然是S2S模型及其变种模型,S2S模型是机器翻译领域的重要模型,迁移到单轮对话生成上表现尚可。因为单轮对话与传统的问答系统相似﹐一般表现为一问一答的形式,用户提出问题或发出请求﹐系统识别用户意图﹐做出回答或执行特定操作,这个特点与机器翻译的特点类似﹐有着较强的机械式对应关系。
     

    但是,多轮对话的场景则更加复杂﹐除了问答内容外,还有情感和场景表述,与上下文语义高度相关或不相关交错出现﹐导致了多轮对话的高度复杂性。同时,对话本身所包含的信息也只占总传递信息量的一小部分,更多信息来源于说话人的身份、行为、当前的时间、地点等一系列的外部知识﹐所以多轮对话的信息获取方式也不应当只局限于用户所说的话。因此,传统的S2S模型在多轮对话场景下就显得比较“机械”和“被动”。如果能从心理认知的角度来思考多轮对话生成,探索如何使会话双方的认知空间内容达成同步,或许能够更加满足该应用场景下的需求。
     

    更多相关内容
  • 目标驱动型人机对话技术现状与展望
  • 智能对话技术介绍

    千次阅读 2020-11-19 18:01:38
    目录前言对话系统分类技术选型基于模版:基于检索:对话系统架构对话系统架构细分任务对话系统主要模块对话闲聊主要有两种解决方式 前言 对话领域发展已经有半个世纪的历程,在上个世纪60年代有了最早的与人对话程序...

    前言

    对话领域发展已经有半个世纪的历程,在上个世纪60年代有了最早的与人对话程序——伊莉莎(ELIZA),通过规则和脚本库的方法可以像心理咨询师一样和人对话,而后又出现了Alice、Mitsuku等基于更好剧本引擎的对话机器人。
    近几年,智能对话问答领域在不断发展,出现了Siri、Watson、Google Assistant、微软小冰、天猫精灵、小度等。
    本文将系统地介绍对话系统前沿的技术。

    对话系统分类

    任务对话系统(Task - Oriented)

    • 业务办理技能(面向动作)

    问答系统

    • 业务咨询技能(面向需求)

    开放域对话系统(Open Domain Dialogue System)

    • 闲聊技能(无目的,无领域约束)

    技术选型

    基于模版:

    • 优势:准确率高
    • 劣势:泛化能力弱

    基于检索:

    • 优势:业务适应能力强
    • 劣势:准确率低

    基于深度学习:

    • 优势:准确率高
    • 劣势:数据要求高

    基于模版

    在这里插入图片描述

    基于检索

    在这里插入图片描述

    语料生产

    • 社区抓取:豆瓣、微博、贴吧等各类公开社区对话语料
    • 语料挖掘:相关性、可用性、封禁、人设
    • 语料运营:生产人设、同语义对话对、剧本等

    语料召回

    • 索引:倒排索引、向量索引
    • 范式和模版:基于句法范式、常用话术、关键词、模版等

    排序

    • 相关性:相关性特征、低耗时
    • LTR排序:基于词、句法、语义、topic、相似度等特征,GBDT模型融合
    • 触发排序:基于索引、特征组合、实体以及特殊字符匹配等策略、保证触发准确性
    • 标准问题匹配当前使用的主要模型是 Bi-LSTM-DSSM

    劣势

    • 在目前的端到端对话模型中,经常出现很多 badcase
    • 包括出现上下文逻辑冲突
    • 背景有关的一些信息,比如年龄其实不可控
    • 安全回复居多,对话过程显得很无聊

    对话系统架构

    在这里插入图片描述
    第一种是TaskBot: 完成的是任务型对话,如询问天气、订票服务,某些客服也可以看成是一种任务型对话;
    第二种是QABot: 问答是人们见的最多的,主要是一问一答;
    第三种是ChatBot: 闲聊范围广,常见的例子就是微软小冰,聊天是平常最多的信息交互,也是技术上难度最高的。
    在这里插入图片描述

    对话系统架构细分

    在这里插入图片描述
    常见的对话系统除了语音的ASR和TTS以外,就是一个NLU和NLG,中间一个DM,但是这里多出来一些东西。
    从一个系统的角度或者更加拟人的角度来说明,对一个对话来说理解并不是内容的理解,还需要根据对话的人的对象的理解以及基于我们的记忆和知识去理解。

    任务对话系统主要模块

    在这里插入图片描述
    任务对话系统主要场景

    • 整合资源,提供丰富的信息服务
    • 一站式的智能服务场景
      • 天气询问
      • 知识小卡片
      • 国学/诗词/百科/谚语/俚语
      • 新闻
      • 股票/汇率查询

    TaskBot基于任务型的对话系统是一个小的通用对话系统,需要针对不同领域做一些优化,类似地,在DM和NLG中也需要补充相应的policy和表达式。

    槽位提取
    提取对话文本中的词槽,当前主要使用的是 IDCNN+CRF 的方式进行。

    在这里插入图片描述

    问答系统主要模块

    在这里插入图片描述

    • 问答机器人有很多种,最简单的是基于配规则的卡片式问答。

    • 这里主要讲两种问答

      • 基于知识图谱的knowledge based question answering(KBQA)
      • 基于非结构化的网页知识来抽取答案的问答机器人称为DeepQA
    • 推荐一个在非结构化挖掘做的比较好的:https://magi.com/
      在这里插入图片描述
      主要流程
      在这里插入图片描述

    对话闲聊的解决方案

    • 一类是检索式
    • 一类是基于深度学习的生成式 seq2seq+Attention

    传统的对话解决思路和问答是类似的,因此数据变得很重要。
    生成式对话系统通过深度学习直接生成最后的回复,目前应用还不是很成熟,其准确率很难达到90%。
    生成式方法容易生成单调乏味的短回复,或者一些不通顺的长回复,相关性上也常会出现一些过于通用泛化的弱相关性结果。

    展开全文
  • AI人工智能技术探索 NLP技术分享 自然语言处理技术 人机对话技术初探
  • 意象对话技术教程PPT学习教案.pptx
  • 移动开发者触手可得的AI对话技术
  • 意象对话技术初级新PPT学习教案.pptx
  • 移动开发者触手可得的AI对话技术.pdf
  • 7-1+人机对话技术研究进展与思考
  • 8-6+百分点智能对话技术应用实践
  • 人机语音对话技术在58的应用实践(36页).pdf
  • 9-5+人机语音对话技术在58的应用实践
  • 人机对话技术发展迅速,本文以对话式AI为例,讲述面临的挑战和实践,探索未来的发展方向及路径。

    ​作者:黄非、孙健、李永彬、张佶、戴音培、余海洋、耿瑞莹、高星、严明

    一、人机对话概况

    提起人机对话这个词,你可能会感到困惑,但说起人机对话技术的应用和体验,你绝对不会陌生。比如以Siri为代表的手机语音助手、智能音箱、车载对话机器人等类似的消费级硬件对话交互,这种以语音为基础的对话形式使人机交互更加方便快捷;另一类场景是服务场景的对话机器人,比如用户在周末/晚上时间给客服打电话时,首先接听用户电话的大概率是一个对话机器人,该类机器人主要应用在客服、泛交互等服务场景。

    简单来讲,人机对话就是指让机器能够理解人类的自然语言并能够与人进行相应对话交互的智能系统。从人工智能研究初期开始,人们就致力于开发高度智能化的人机对话系统。通常意义上的人机对话在技术框架上主要包括5个子系统,如下图所示:

    根据人机对话所讨论的领域开放程度,可以分为开放域的人机对话和垂直领域的人机对话;根据人机对话有无明确目标可以分为聊天(无特定目标)和有目标导向的对话(goal-oriented dialog);根据功能不同一般分为任务型对话、智能问答和聊天三种类型;参照艾瑞咨询的界定,从产品维度我们将对话交互产品分为消费级硬件交互产品与对话式AI产品两种类型。

    在国内的市场规模上,消费级硬件交互AI语音助手算法产值2021年为34亿元左右;对话式AI的2021年市场规模为45亿元,带动规模126亿元,总体而言,消费级硬件交互产品与对话式AI产品处于较高速的增长阶段。为什么人机对话在过去这几年取得了较显著的进展呢?笔者认为有以下几个方面的原因:首先,来自于C端消费者对随时随地快捷方便的获取信息和服务的刚性需求;其次,来自于B端企业的人力成本压力和以客户为中心的服务理念,推动企业来打造更智能化且高效的客户连接与交互的服务手段,即以客服机器人为核心的客户联络中心整体解决方案;第三,以预训练大模型+fine-tuning的新一代技术范式让人机对话机器人的泛化能力有了显著提升,场景之间的可扩展性得到加强,打造机器人的成本在降低。

    依托于达摩院自然语言处理、语音交互等能力,我们在FAQ知识检索问答、任务流程式问答、知识图谱复杂推理问答、表格检索问答、MRC文档理解问答等方面积累了一些经验,在对话交互能力、全链路运营工具、智能辅助及洞察分析等角度持续创新升级。本文将通过几个章节带大家一起了解:

    • 对话式AI产品背后面临的关键技术挑战

    • 达摩院新一代人机对话技术平台

    • 智能客服的典型应用场景和客户

    • 人机对话未来发展方向、发展路径的思考

    二、对话式AI面临的关键技术挑战

    让机器理解人类语言并和人自由对话,至少面临以下几个方面的关键挑战:

    • 知识构建的成本高:要让机器听懂并理解人所说的话,那前提是机器要像人一样预先具备大量的知识,这些知识也需要是结构化的这里的结构化知识主要包括两类:以特定目标为中心的对话流程知识和知识图谱。要构建围绕给定场景的较完备的对话逻辑流程(动态知识)预计需要花费1~2周的人力,构建给定场景的schema和知识图谱(静态知识)预计需要2周左右的人力,因此知识构建的成本是非常高的;

    • 机器人从启动到符合上线标准的优化周期长:机器人从启动到符合上线标准需要进行多批次的优化打磨,每一批次都涉及都需要收集真实情况下的对话数据、标注数据、训练模型、调试模型、测试对话效果、分析问题背后的原因,然后再进行下一轮次的优化,前后预计需要2~3周;类似的,知识图谱问答效果迭代优化也需要2周;

    • 机器人从成熟场景迁移到小样本新场景的对话体验差:对话机器人在成熟场景下由于有较多的真实对话数据可供加工和利用,对话体验是可以不断优化的但迁移到小样本和新场景后的对话体验效果就有非常明显的下降。

    • 人类语言的语系、语种、方言非常多样,大量小语种数据匮乏;在东南亚/南亚等多语言社会中,混合语言现象非常普遍;有些语言存在不同的书写方式,且不同书写方式之间的转写并不规范;机器人在跨越语言障碍、深入本地文化、支持地道的本地语言方面存在很多挑战。

    • 人类感知世界的方式是多模态的,会涉及图像、文本、语音、视频等多种不同模态的信息,机器人需要能同时理解不同模态的多维度信息,而不同模态的信息如何进行高效精准的语义表征,针对跨模态语义鸿沟问题如何更好地做跨模态信息对齐,以及如何基于对齐的多模态信息做深度模态融合等存在一系列挑战。

    针对以上关键挑战,达摩院智能对话与服务团队过去这一年主要从如下层面来展开:

    • 从知识层面,重点打造结构化知识的半自动构建能力,降低知识构建的成本;并进一步拓展到图文、视频等多模态知识的充分利用;

    • 从对话模型层面,重点打造融入知识的预训练对话模型,从而缩短机器人从启动到符合上线标准的优化周期;并进一步从单模态拓展到多模态,从单语言拓展到多语言的预训练模型能力;

    • 从对话引擎层面,重点拓展和增强对话引擎的核心能力,包括多能力对话引擎、多语言的问答、多模态问答、小样本学习技术等。

    三、达摩院新一代人机对话技术体系

    基于上述思路,我们设计了新一代人机对话技术体系,其核心主要是三层:知识层、预训练对话问答模型层、引擎层。其中预训练对话问答模型层包括预训练对话模型、预训练图谱问答模型(KGBert)、预训练表格问答模型(TableBert);引擎层包括Dialog Studio多轮对话引擎、KBQA图谱问答引擎、TableQA表格问答引擎、FAQ多语言问答引擎、VQA视觉问答引擎。

    3.1 知识层:可扩展性的知识图谱构建

    知识来源于数据,数据来源主要分为两类,一类是人人对话日志,另一类是企业文档。相对应的,知识构建也分两个方面,一是基于人人对话日志的对话流的构建,从传统的手工配置升级为自动挖掘意图,从人工标注变成自动的挖掘和半自动标注、对话流程半自动的构建。从人工构建到半自动构建,大幅降低流程型知识的构建成本。二是基于文档的知识图谱构建。文档本身就具备一定的结构化信息,做了结构化后可以让问答更加精准。从多轮对话交互的视角来看,结构化使得对话交互更加流畅。

    围绕基于文档的知识图谱构建,我们设计了一套拥有可扩展性的知识图谱构建方案,该方案主要包括文档预训练模型(DocBert)、企业文档的标注平台、信息抽取这三层(见下图)。其中,信息抽取又细分为文档结构识别、粗粒度三元组抽取、细粒度三元组抽取三个步骤。

    3.1.1 DocBert

    我们设计了针对半结构化长文档的预训练文档模型DocBert,其主要设计思路是将文档表示分为物理结构、逻辑结构和语义结构三个层次,使用百万级的无标文档数据,基于其文本语义、版面信息、视觉特征来构建自监督学习任务,使得模型能够更好地理解文档语义和结构信息。具体的预训练任务如下:

    1)Layout-Aware MLM:通过语义、物理联合建模任务Layout-Aware MLM,在Mask任务中,考虑文本的位置、字体大小等信息,实现了文档布局感知的语义理解任务;

    2)Text-Image Alignmet:对于文本和图像的对齐,我们采取了和LayoutLM相同的方法,即通过对文档图像里文字的Mask进行重建,帮助模型学习到文本、版面、图像不同模态间的对齐关系;

    3)Title Permutation:以自监督的方式来构建章节标题重建任务,增强模型对文档层次目录结构的理解能力;

    4)Sparse Transformer Layers:使用基于Sparse-Attention的Transformer层,替换传统的Transformer,增强模型对于长文档的处理能力。如下图所示:

    3.1.2 粗粒度三元组抽取

    基于文档的粗粒度三元组抽取,本质上是输入整篇文档的物理组件的有序序列,然后将其物理组件如标题、正文识别出来,再根据这些信息生成文档树,最终根据一些简单的规则即可得到文档的所有粗粒度三元组,其核心是文档树的生成,整体流程如下图所示:

    基于文档逻辑结构抽取的文档树生成面临两个重要挑战,分别是长文档和深度可变的层级结构。一方面,长文档指的是文档可能包含数百页,数千个物理组件,计算量很大;另一方面,深度可变的层级结构指在不同文档中,树的深度不一样,有的只有3层,有的可能有数10层。基于此,我们提出了文档结构抽取三阶段的框架:

    • 第一步,首先检测物理组件序列中的标题,我们首先提取物理组件序列的文本和格式等信息,用DocBert对其提取特征,然后对每一个标题做二分类,类别是标题还是其他组件。由于这个步骤相对简单,所以用序列标注的模型可以获得较高的准确率;

    • 第二步,对于提取出来的标题序列,我们生成标题层级结构树。具体地,以一个空树为初始状态,依次取序列中的一个标题插入到树中,当前标题可能的插入位置是树的最右分支中节点的子节点;

    • 最后一步,当标题层级树生成结束后,根据其他组件在序列中的位置,就能插入到树对应的节点中。

    我们将DocBert应用在下游的粗粒度三元组抽取业务中,在政务、保险、银行、电力多个行业的测试集上,三元组抽取普遍优于传统的预训练模型3%~7%,特别是在小样本数据集上取得了10%以上的提升;同时在我们自己构建的公开数据集LIE上,也超过了LayoutLMV2等最新的预训练模型,取得了很好的效果。

    3.1.3 细粒度三元组抽取

    在针对文本的细粒度三元组抽取中,我们设计了如下的细粒度信息抽取任务:

    ClosedIE是在给定图谱schema即实体和关系类型前提下,进行细粒度三元组知识抽取。从模型角度,我们研究了双线性三维tensor稀疏、Rotationary span length建模以及损失函数的Power Trick等技术,基于自建的政务、电力、医疗、常识等业务数据集实验表明,我们的模型效果相较基线Biaffine模型均有1-3个点的提升。详见基于半结构化知识的问答技术体系。

    区别于经典的ClosedIE,OpenIE无需给定schema即可从文档中抽取三元组知识。当前SOTA的OpenIE模型MacroIE,将文本中的知识建模为以词为基本粒度的极大团结构,在中文SAOKE和英文OIE4数据集上均达到最好的效果。将知识建模为极大团在模型鲁棒性和泛化性上不佳,容易出现漏边或者错边的情况。因此我们放松极大团结构的限制而转为有向无环图结构的建模,提出了一个新模型DragonIE。此模型在处理重叠span、不连续span等复杂case有明显优势,大大降低了模型复杂性。在中文公开数据集SAOKE和英文公开数据集OIE4上, 我们自研的DragonIE相比当前的SOTA,标签数量减少80%,内存占用减少了50%,同时还有1个点的效果提升。

    3.2 半监督预训练开启了向对话模型中融入知识的新范式

    基于对话的特点,我们专门设计了一个预训练对话模型,预训练对话模型(Pre-trained Conversation Model, PCM)建模刻画的是,给定对话历史context来选择/生成一个最合适的response。它相比预训练语言模型任务更加特定化,需要综合考虑对话历史、对话目标、对话策略、对话角色、对话轮次等。

    3.2.1 为什么要融入知识?

    预训练的本质是将训练数据中蕴含的信息以模型可理解的方式隐含地存储到参数中,不少研究工作已经表明,预训练模型如BERT能够学习到大规模文本中的一部分语言学知识(句法、语法),甚至一定程度上的世界知识和常识知识。但是预训练模型在如何更好地学习利用人类经验知识上依旧存在很多问题。

    这里,我们将人类经验知识粗略分为三类:第一类是事实型知识,例如人工构建的知识表格、知识图谱和结构化文档(包含篇章结构、图文信息);第二类是数理逻辑知识,包括数理公式、公理定理、符号计算等,这一类知识不作为本文讨论内容;第三类是标注知识,即标注数据中蕴含的知识,这类知识十分普遍,属于任务相关的,例如文本分类、情感分析等。人类在标注过程中需要根据该特定的任务进行归纳总结,在预先定义的高层语义分类空间中对无标数据进行推断并赋值相应的标签。因此,利用人类经验知识来增强预训练模型应会对相关下游任务带来明显效果提升。

    3.2.2 对话策略知识

    对话策略是对话过程中的一个重要模块,一般用dialog act(DA)来进行刻画,即给定双方的对话历史,对话策略需要选择出正确的对话动作用于指导对话生成。当前各种常见预训练对话模型,如Meena、DialoGPT等往往都直接将对话动作的选择过程隐含建模到模型参数里,存在着不可解释和不可控等问题。由于策略是一种高层语义,难以仅仅利用自监督的方式就能很好地学习出来。因此,接下来我们将从对话策略建模出发,提出利用半监督的方式实现更好的预训练,将标注数据中的对话策略知识融入到预训练对话模型中来。下图给出了我们梳理并定义的dialog act体系:

    3.2.3 将对话策略知识注入预训练中

    我们设计了半监督预训练的方式来解决对话策略的建模难题,将对话动作预测任务改造成半监督学习任务,并设计出对话预训练模型SPACE 。该模型也是阿里巴巴深度语言模型体系的有机组成部分。

    具体来看,SPACE采用了类似于encoder+decoder架构,预训练的目标既包含了传统的对对话理解和生成建模的自监督loss,也包含了对对话策略建模的半监督loss,完整框架见下图:

    半监督对话预训练框架

    首先,对于理解能力,我们采用了回复选择(response selection)作为预训练目标,即给定对话上下文(context)和候选回复(response)在 [CLS] 处进行二分类判断是否是正确的回复。在诸多PCM工作中都已经证明了回复选择的训练对于对话理解至关重要,因此我们保留该训练目标;对于生成能力,我们则使用了常见的回复生成(response generation)目标,即给定对话上下文生成正确回复语句;对于策略部分,我们采用了半监督学习中十分高效的一致性正则(consistency regularization)方法来建模对话动作。理论可以证明,在满足低密度假设下(即分类边界处于低密度分布),通过对同一个样本进行扰动后分类结果仍然具备一定程度上的一致性 (即分布接近或预测结果接近),那么最终基于一致性正则的半监督学习可以保证找到正确的分类面。最终对于模型的预训练,我们将整个模型的理解、策略、生成目标加在一起进行优化。

    3.2.4 半监督预训练带来显著效果提升

    我们在三个国际对话数据集上(斯坦福的In-Car数据集、MultiWOZ2.0、MultiWOZ2.1数据集)进行了效果验证,如下图所示,经过半监督预训练融入策略知识后,可以看到我们的GALAXY模型在这些对话榜单上均大幅超过了之前的SOTA模型,端到端总体得分在In-Car、MultiWOZ2.0和MultiWOZ2.1分别提升2.5、5.35.5个点。

    3.3 多模态预训练带来对话问答新体验

    针对不同的视觉特征表示,考虑到各自特征的优缺点,我们研发了一系列自研的多模态预训练模型,在多个多模态公开任务上取得SOTA效果。

    • Region:在真实的图像-文本数据中,一部分图像-文本对很容易在两种模态上对齐语义,而另一部分图像-文本对需要进行更高级语义上的对齐。现有的基于Region特征两种预训练框架:

      1)直接将特征级的图像表示和文本表示连接起来作为single-stream Transformer的输入,更适合简单的图文对;

      2)使用two-stream Transformer可以将图像-文本表示在高级语义空间对齐。基于此,我们提出SemVLP多模态单双流融合模型,引入了一种新的跨模态融合机制soft cross-modal attention,它集成了hard cross-modal attention和partial cross-modal attention,可以从不同语义粒度对齐文本和图像。在多个视觉语言理解任务上进行了实验,实验表明基于单双流融合的SemVLP模型较传统的单流模型和双流模型均能取得一定程度的提升。

    • Grid:对于Region存在线上延时长的问题和如何更好的利用Grid特征的思考,我们探索了两种融合方式,

      1)E2E-VLP:将End2End多模态预训练统一到Transformer框架,同时支持NLU/NLG任务;Pretraining阶段,增加VisualTasks (ObjectDetection,ImageCaption) 更好的融合图文语义,Finetuning阶段,可以摆脱耗时的检测模块,直接基于ResNet特征图进行端到端的训练,在多个多模态NLU/NLG任务取得两阶段方法相当的效果,同时提速3倍,详见E2E-VLP论文;

      2)Grid-VLP:预训练的目标检测器的FasterCNN Encoder作为Visual Encoder,在Pretraining阶段,通过Random Grid Sampling机制提高模型的鲁棒性,在VQA、NLVR2和GQA等数据集上取得超越基于Region的多模态模型效果,详见Grid-VLP论文。其中E2E-VLP已被ACL2021接受。

    E2E-VLP                                           Grid-VLP

    主要结论:Grid-based模型可以取得和Region-based的模型Comparable的效果,并支持端到端训练和预测,具有更快的Infer速度,比较适合于实际业务应用。

    • Patch & Fusion:ViT在视觉任务上取得了巨大的进展,最近也成为多模态的研究热点,我们尝试了基于预训练的目标检测器和图文对预训练的CLIP抽取Patch特征,以及正在探索类似VILT的图文底层融合的结果。此外,为了结合各类图文特征的优势,我们提出了Fusion-VLP,通过Learning to Attend自适应融合(Region,Grid,Patch)三类视觉特征和文本特征,在多模态视觉问答VQA取得同等预训练数据量下Single模型SOTA效果,详见相关论文。

    主要结论:基于检测的预训练的Patch特征相对容易过拟合,更多无标注图文数据预训练的Patch特征能够取得更好的效果,但是容易破坏边界信息,暂时效果低于Region-based和Grid-based的方法,Patch-Based模型可以把图文统一到Transformer框架,是现在的研究热点 ;综合三类特征可以更有效的捕捉图片存在不同的粒度的语义信息,起到相辅相成的作用。

    • Learning to Attend:现有的多模态预训练框架大多采用单流和双流两种交互模式,在单流框架中图文之间的交互仍采用常规的self-attention机制。而从经验上来看,模型底层应该更偏向于图文各自表征的建模,而顶层更偏向于图文之间表征的建模,因此,我们提出基于Learning to Attend的新的多模态预训练框架,对每一层使用两个可学习的自注意力权重来动态控制模态间和模态内的交互,该框架可以自适应融合上面提到的的多类视觉特征(region,grid,patch)和文本特征。

    在原始的transformer机制上,我们将self-attention计算注意力矩阵拆分为两部分:模态内注意力矩阵和模态间注意力矩阵。然后,我们分别为模态内注意力矩阵和模态间注意力矩阵引入了两个可学习的权重ε1和ε2。在每层transformer的self-attention计算中,我们将可学习权重与对应注意力矩阵相乘,以获得新的注意力权重矩阵,通过这种方式来使模型自适应地学习和调整模态内和模态间的注意力权重。

    主要结论:基于Learning to Attend的图文融合框架,我们在多个特征下分别验证,无论Region,还是Fusion特征上, 相比于原始transformer都取得了一定的提升,说明新框架可以一定程度自适应融合视觉特征和文本特征。

    • Structure:在多模态数据中,除了全是视觉元素图片外,还有一部分是图片中包含着富文本信息,而目前的多种视觉特征都无法表征图片中的OCR文本信息。针对这些挑战,我们提出了结构化预训练模型StructuralLM,在语言模型StructBERT的基础上,充分利用图片文档数据的2D位置信息,提出box共享坐标表示,并引入box位置预测的预训练任务,帮助模型感知图片不同位置之间词语的关系,相关方法在经典的表格理解数据集FUNSD和表格问答数据DocVQA较之前的SOTA方法提升近10个点,详见StructuralLM论文。该论文被ACL2021接收。

    StructuralLM

    主要结论:在多样性视觉表征模型的基础上,引入StructuralLM模型,在VQA测试集绝对提升1.2pt,证明了我们的模型可以很好的学习到图片中富文本信息及其空间位置表示。

    目前各公开权威多模态任务的SOTA方法都基本是基于多模态预训练技术,利用海量的无标注多模态数据预训练模型,较未预训练的模型效果均有显著提升,我们的多模态预训练技术也不局限于VQA任务,也可广泛应用于多模态分类、搜索、生成等任务,曾在SemEval 2021多模态分类、DocVQA结构化等榜单取得第一名成绩。

    3.4 引擎层:达摩院TableQA取得四大榜单第一并规模化应用

    在引擎层面,达摩院人机对话平台主要包括针对流程型知识的对话引擎Dialog Studio、针对表格知识的TableQA问答引擎、针对知识图谱的图谱问答引擎。受篇幅所限,这里主要介绍TableQA问答引擎。

    由于表格数据结构清晰、易于维护,并且对人类和机器理解都比较友好,表格/SQL数据库是各行各业应用最普遍的结构化知识存储形式。表格问答TableQA通过将自然语言直接转换为SQL查询语言,允许用户使用自然语言与表格知识直接交互,从而拓展了对话机器人的能力边界。我们围绕TableQA做了一系列探索,先后在四大数据集榜单上取得了第一名,并且开源了中文首个预训练表格模型,成为新一代人机对话技术体系中的核心引擎之一。

    针对表格的表格问答TableQA引擎,最简单的情况是单表单轮问答,业界的工作也主要停留在单表单轮。团队在单表单轮问答基础上,主要开拓并打造了从单轮到多轮的问答和从单表到多表的问答能力。

    3.4.1 从单轮到多轮

    对于多轮的表格问答,其难点包括以下两个方面:

    • 如何有效建模并利用多轮对话历史来理解用户的问题;

    • utterance和表格Schema之间的语义链接问题;

    针对多轮场景下的语义链接问题,我们在AAAI 2021提出了一种基于动态上下文模式图的框架 R²SQL (Hybrid Relation Network for Cross-Domain Context-Dependent Text-to-SQL Parsing),有效刻画了多轮场景下的自然语言和表格Schema之间复杂的语义链接关系。

    该框架包括以下两个模块:1.融合关系图,2.动态记忆遗忘机制。如下图所示,我们的融合关系图既包含基于注意力机制获取到的隐式关系,也包含基于语义链接得到的显式关系,从而最大限度发挥模型和先验规则在处理多轮语义理解的优势。而且随着多轮问答的进行,我们发现用户的话题会随着轮次发生变化,因此我们进一步提出了动态记忆遗忘机制更新每个关系的权重,从而得到适应于多轮问答场景的动态上下文模式图。

    我们在业界权威多轮表格问答数据集SParC和CoSQL进行实验,在SParC数据集相比之前最好效果EditSQL,Turn粒度的准确率提升7.9%(47.9%->55.8%),在CoSQL数据集效果提升6.0%(40.8%->46.8%)。该工作发表在AAAI 2021。

    3.4.2 从单表到多表的问答

    真实世界的场景往往包含多个表格,这将涉及到多个表格的联合查询,而且给SQL语句的解析带来两类复杂性:1.更多的SQL关键字比如JOIN,UNION等高级关键字;2.SQL互相嵌套的情况。

    相比单表单轮,多表单轮的任务主要存在以下难点:

    • SQL层面:针对复杂的SQL语句,如何设计有语法约束的解码器;

    • 表格层面:如何利用数据库内多个表格之间的关联关系;

    • Schema之间的语义链接关系在多表场景下更加复杂。

    之前的工作有些关注于Schema内部的建模,将Schema中的表、列、外键信息转换为图的形式,融入网络进行学习,另一些工作主要关注于多表任务中的语义链接关系的建模。而我们首先关注到了自然语言问题的句法结构对text-to-SQL任务的重要性。为此,我们利用句法关系建模了自然语言问题内部的关系,在句法距离的度量下,id和date的关系将被拉近,从而将生成正确的SQL。基于这个动机,我们提出了 S²SQL(Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers),将自然语言内部的句法结构,Schema内部的结构以及自然语言与Schema之间的语义交互结构同时建模,得到一个完备的Question-Schema 语义交互图,实现更强的表征能力。

    效果上, S²SQL 在Spider数据集均取得了最好的结果,相比之前最好的结果(微软的RAT-SQL)提升2.8个百分点(64.3->67.1)。R²SQL模型分别在2020年7月、2020年8月登顶榜单第一。

    SDSQL和S²SQL模型分别于2021年3月、2021年9月在WikiSQL榜单和Spider榜单上取得了第一名的成绩。

    3.5 FAQ问答

    基本上每个客户都需要支持FAQ问答, 所以FAQ问答引擎是应用最为广泛的一个引擎。围绕着「提升业务定制效率、提升问答体验、降低FAQ运营和部署成本」, 我们在问答模型库和代码框架、对话预训练和小样本理解、多轮理解和澄清引导、口语化长句理解、基于多源异构内容生成FAQ、模型蒸馏和高性能部署等方面展开了很多探索和实践。这里重点介绍下我们在小样本分类在FAQ问答中的应用。

    基于MetaLearning的小样本分类,相比传统意图分类,没见过的类别只提供少量样本就能自动泛化识别;相比句子对匹配,能对FAQ知识更完整建模,解决单条知识标题歧义问题。绝大多数已有模型都是基于经典原型网络设计,属于表征型匹配, 我们提出了MGIMN(Multi-grained Interactive Matching Network)基于交互型匹配设计模型, 先计算Instance-wise的匹配特征向量,然后聚合得到每个Class的匹配特征向量,最后得到每个Class的匹配置信度;句子间进行多粒度的交互匹配,能从全局视角、类别视角、句子对视角、单句视角,匹配时增强对区分度高词汇的关注。

    在真实应用场景落地的过程中, 我们发现仅仅依靠预训练语言模型和目标任务的少量数据进行训练,并不能满足我们的上线效果要求。这种小样本分类技术在行业内, 接受度和知名度不如句子对匹配技术, 主要原因是训练数据集需要包含大量的类别,否则会比较容易meta-overfitting,公开数据集不足以支撑这项技术快速发展。但好在我们经过多年的积累,平台已沉淀了上百万的意图类别和上千万的知识标题,基于此我们改进meta-task采样策略(概率采样、动态NK采样、困难样本采样、多领域/语种采样),并通过推断加速,在多类实际应用场景中取得了显著的提升。比如小样本分类模型在不使用任何云小蜜数据的情况下, FAQ问答开箱效果超过了句子对匹配模型的SOTA(目标领域有上百万匹配标注数据)。

    3.6 多语言问答

    全球化是阿里巴巴三大战略之一,随着国际业务的拓展,多语言问答面临着和单语言完全不同的难点和新的技术挑战, 包括新接入的语言大部分是低资源小语种,如何利用高资源语言迁移帮助低资源小语种取得提升是一个挑战;不同语言语法、构词各异且复杂, 比如阿拉伯语构词复杂,词性多变+大词表导致模型效果下降;东南亚(印尼、马来等)、南亚地区(巴基斯坦等)多种文化混杂,带来语言的混用现象;语言和业务众多,每个业务都需要快速提升,线上维护成本高。 

    团队在业务中成长与打磨, 逐渐构建了语言无关的问答对话技术体系,包括语言无关的预处理、语言无关的句子表征、语言无关的对话预训练模型、语言无关的数据增广和语言无关的运营工具。本文重点介绍语言无关的句子表征:

    • 语言无关的句子表征:加入平行词袋预测、对话适配对比训练、自编码MLM等更多预训练任务来消除语言障碍, 并适应到问答领域,增强语言无关的句向量表征学习能力, 在拓展新语言时减少对目标语言标注数据的依赖,实现业务快速冷启动;同一种语言在不同地区存在语序混合、语码混合、不同用词等差异, 基于Normalization、罗马化转写、数据增广、对抗攻击等方法加强混合语言的句子表示。

    3.7 多模态VQA问答

    达摩院NLP团队对AI视觉-文本推理体系进行了系统性的设计,做出了一系列创新,包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义融合和对齐技术、知识驱动的多技能AI集成等,让 AI「读图会意」水平上了一个新台阶。

    具体地,为了解决多模态任务的挑战,基于阿里云PAI平台及EFLOPS框架的工程底座,达摩院语言技术实验室及视觉实验室对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,包括:

    1. 多样性的视觉特征表示,从各方面刻画图片的局部和全局语义信息,同时使用 Region,Grid,Patch 等视觉特征表示,以更精准地进行单模态理解;

    2. 基于海量图文数据和多粒度视觉特征的多模态预训练,用于更好地进行多模态信息融合和语义映射,创新性地提出了SemVLP [3],Grid-VLP [4],E2E-VLP [5] 和 Fusion-VLP等预训练模型;

    3. 研发自适应的跨模态语义融合和对齐技术,在多模态预训练模型中加入 Learning to Attend机制来进行跨模态信息地高效深度融合;

    4. 基于图片中包含富文本信息的结构化预训练,用于更好的融合图片和OCR文本,提出StructuralLM [6]预训练模型来进行图片、OCR、文本多模态融合;

    5. 采用 Mixture of Experts (MOE) 技术进行知识驱动的多技能AI集成,利用知识挖掘自主发现AI技能,通过MoE技术自动匹配构建好的AI技能专家。

    对整体技术细节感兴趣的同学也可阅读我们的论文《Achieving Human Parity on Visual Question Answering》,其中E2E-VLP [5] 和StructuralLM [6] 已经被国际顶级会议ACL2021主会长文接收。

    2021年6月,阿里巴巴达摩院在VQA Challenge 2021的55支提交队伍中夺冠,成绩领先第二名1个百分点、领先去年冠军3.4个百分点。

    两个月后,达摩院在VQA榜单再次取得关键性突破,以81.26%的准确率创造VQA Leaderboard全球纪录,首次超越人类基准线 80.83%。

    这是VQA测试以来,AI第一次超过人类水平,是标志性的重大突破。这是继2015年、2018年AI分别在视觉识别及文本理解领域超越人类后,人工智能在涉及视觉-文本多模态理解的高阶认知的多模态技术领域迎来的一次重大进展。该进展被MIT Technology Review《2021人工智能创新研究院报告》作为关键技术突破收录。

    四、应用客户和场景

    4.1 新零售智能客服 

    4.1.1 店小蜜

    ⍟ 4.1.1.1 VQA

    在店小蜜中,买家提问的时候,店小蜜识别出买家意图,然后去知识库中找到相应的商家配置答案回复用户。这个过程中,答案需商家手工配置导致启动成本高。基于这个痛点,提出利用商品详情页中的图文内容回答问题,这不仅可以减少商家的答案配置成本,降低启动成本,还可以促进买家购买欲望进而促进询单转化率提升。

    因此,我们基于图文预训练等技术开发了面向商品详情页图片的问答能力,根据买家的问题,从商品详情页中找到一张最合适的图片,并且在具体的答案区域进行高亮来回复买家。

    目前,已经支持了店小蜜的全行业应用,开通商家的解决率和转化率都有明显提升。不仅提升了用户体验,也大幅降低了商家的知识维护成本。

    ⍟ 4.1.1.2 视频问答

    直播带货成为一种新的商业方式,越来越多的商家开通直播来介绍商品,直播视频中包含了丰富的商品讲解、商品细节展示、上身效果等内容,可以基于算法自动切出这些直播视频片段来回复用户,既可以省去商家编辑视频的成本,又可以更形象更具体地回答问题,提升用户体验。

    基于这个想法,我们开展了结合文本理解和视频理解技术开发面向直播视频的问答能力,核心工作是对直播视频进行结构化理解。这里稍微展开介绍一下整体方案,首先获取商品对应的完整直播视频片段,然后基于两种方法进行结构化理解,其一基于文本理解技术,针对视频ASR文本进行意图识别和命名实体识别,这里借助店小蜜已有的完善的意图体系和实体类别体系,识别出每个文本片段的意图和槽位值;其二是基于视频理解技术,先通过图文预训练模型进行Video-Text Retrieval来挖掘出符合需求的粗粒度的视频片段,再基于Video Grounding技术来定位更精细的时间区间。经过上述两种方法可以挖掘得到结构化的视频片段作为商家的视频答案。针对多模态视频理解这一块,我们做了一定的创新与沉淀,探索了基于强大的图文预训练模型做Video-Text Retrieval任务的一套有效方法,提出了基于多示例学习思想,仅使用video-level的监督信息实现clip-level的精细化Video Grounding的定位能力。

    ⍟ 4.1.1.3 商品评论问答

    买家评论应用到商家客服问答中存在非常大的挑战, 除了通过细粒度情感分析、时效性话术判别、低信息量内容过滤、不确定性话术判别等技术进行内容风控以外, 还要结合商家自产内容(客服FAQ知识、商品详情图、商品属性、商家直播内容等)进行多源异构内容的冲突检测和集成整合, 以保障这部分内容的可用性。

    • 智能直播间商品问答

    随着直播电商的兴起,让智能直播间中的虚拟主播具备问答交互能力必不可少,帮助虚拟主播高效的回答用户对商品的售前咨询问题,提升转化。但由于商家商品数量众多,我们不能让商家逐个配置FAQ,需要提供基于商品现成的多源异构多模态内容,包括商品评论、商品详情页、达人文章等, 不依赖商家配置, 实现开箱即用的商品问答能力,打造虚拟主播语音播报+字幕/花字展示+看板图片组合的多模态问答体验。相比过去传统的在线智能客服,直播间问答还具有一些新的特点,例如主播是一对多问答,需要在商品内容播报的过程中判断回答问题的时机,通过口语化的方式口播答案,这都给直播间问答带来新的挑战和机会。

    4.1.2 面向阿里巴巴集团的智能客服

    DeepQA技术体系支持了集团数十个BU的智能服务,涵盖在线渠道和热线渠道,FAQ问答支撑大盘大部分业务流量。随着单轮问答效果的不断优化, 消费者问答体验的瓶颈逐渐转移到模糊问题的处理上。FAQ问答多轮理解和澄清引导, 支持了新零售商家、电商平台、本地生活等众多领域, 及热线口语化场景、动态快捷短语预测、图片问答、FAQ知识分类和匹配、无答案兜底推荐场景等众多场景;对于小客户的接入, 也可以低成本快速启用多轮问答能力, 消费者服务体验方面有了更好的提升。比如热线小蜜中提供多轮语义建模、多轮问题改写、澄清反问、澄清确认、多轮对话状态管理,提供多轮FAQ问答能力,有效提升了系统的出答案率。

    4.1.3 面向海外客户的智能客服

    通过多语言问答技术体系把国内的中文智能服务能力拓展到全球,支持英、俄、西、法、日、阿、韩、波、葡、泰、印、越等22种语言, 让阿里集团Lazada、AliExpress、Daraz等国际业务的用户进入智能服务时代。基于多语言算法平台的建设,使得2周内可以拓展一个新的小语种, 整体解决率已与中文相当。

    除了快速拓展语言, 还要深入当地文化支持地道的本地语言理解,目前在马来西亚、泰国、巴基斯坦等地支持符合当地习惯的混合语言风格。由于中东、南亚地区的一些语言输入法不完善,当地用户在线交流时还常使用罗马化拼音的方式进行输入,系统需要同时支持原始乌尔都语、英语、罗马化(拼音)乌尔都语三个语言混合理解。

    4.2 云上智能客服

    达摩院新一代人机对话技术体系目前已经服务并全面支撑了阿里云智能客服业务,包括政务城市大脑(政务服务网、12345热线电话机器人等)、金融(银行、保险、证券等)、交通(高速ETC、港口等)、能源(电网、燃气、水务、热力等)、医疗健康(医保、卫生健康、慢病管理等)、运营商(话费、流量等)。截止当前,阿里云智能客服为千余家国内外企业和机构提供了对话式AI相关服务,在制造、零售、金融、交通、通信、政务等近20行业沉淀了成熟的解决方案和客户案例。

    在IDC每半年发布的《中国AI云服务市场研究报告》中,阿里云智能客服自2019年以来一直排名中国对话式AI云服务市场份额第一。2021年10月,国际权威研究机构IDC发布了《IDC MarketScape 全球对话式AI平台厂商评估报告》,阿里云智能客服以突出的多轮对话能力、大规模预训练对话模型带来的快速冷启动、低成本的知识构建、低代码可视化操作、自训练的语义模型等产品技术优势,以及丰富场景下积累的领域经验和应用,首次入选IDC全球Marketscape报告,且取得Major Players位置。

    4.2.1 政务行业

    在政务领域,典型业务是12345热线。覆盖场景广泛:包括社保查询、ETC、户籍管理、出入境管理、住房保障、公积金全语音门户等场景。

    4.2.2 银行行业

    数字经济时代,仅依靠人工坐席进行服务的传统模式已渐渐难以适应金融机构的客服业务需求。通过智能客服为人工坐席赋能,一方面提升了人工坐席个人价值,降低离职率,另一方面提升了客服接入效率,改善了用户体验,是金融机构的重要需求。达摩院强大的对话式AI能力、语音识别能力和AIC技术,打造了包含智能辅助、智能培训在内的教练机器人,构建了AI能力平台,客户涵盖多家头部银行。

    4.2.3 能源行业

    能源、基础设施领域:构建全链路服务平台,贯穿新装、计费、故障上报、维修、投诉等场景;渠道覆热线、微信、支付宝等渠道;各地市燃气、水务、热力、电力等均可复用。

    4.3 社会责任:疫情外呼平台

    在疫情刚刚爆发的时候,达摩院团队就行动起来,希望通过打造疫情外呼平台来助力政府解决一些问题。该平台在五天内迅速打造完成并开始在全国推广,截止到2020年3月31日,这个平台用在27个省、助力政府拨打了过千万的外呼电话,对话完成率超过90%,获得了人民网的“人民战疫”一等奖。

    五、新一代人机对话的未来展望

    过去这两年,达摩院智能对话和服务团队在技术和业务方面已经取得了很大进展,那人机对话能力现在到底处于什么阶段呢?未来往哪些方向发展呢?

    为此,在借鉴自动驾驶5级体系的基础上,我们定义了人机对话能力的5级标准,主要从三个维度来描述:1. 场景的受限和开放程度;2. 人机对话涉及的模态;3. 对话能力是预先定义的还是能够持续学习演进的。这5级标准体系界定如下:

    • L1:受限场景、单语言、单模态、预定义的对话

    • L2:半开放场景、单语言、单模态、预定义的对话

    • L3:半开放场景、多语言、多模态、预定义的对话

    • L4:半开放场景、多语言、多模态、终身学习的对话机器人

    • L5:完全开放场景、多语言、多模态、终身学习的对话机器人

    按照这个标准来看,业界人机对话基本处于L1到L2之间。未来三年,人机对话会逐步从受限场景拓展到半开放场景,从单模态升级到语音+语言+视觉+情感融合的多模态,对话能力从预定义跨越到具备一定终身学习的对话机器人,从而演进到L3~L4。

    而达到L5,让机器在完全开放场景下能够和人跨越语言鸿沟和模态限制自由对话,则还需要达摩院智能对话与服务团队锲而不舍的研究和探索。

    诚邀有志于人机对话、知识图谱、智能问答、多模态人机交互、虚拟空间场景人机对话人才加入我们。

    达摩院智能对话与服务相关论文

    1.

    Yinpei Dai, Hangyu Li, Yongbin Li, Jian Sun, Fei Huang, Luo Si and Xiaodan Zhu. Preview, Attend and Review: Schema-Aware Curriculum Learning for Multi-Domain Dialogue State Tracking. ACL-IJCNLP 2021

    2.

    Che Liu, Rui Wang, Jinghua Liu, Jian Sun, Fei Huang, Luo Si. DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings, EMNLP2021

    3.

    Wanwei He, Yinpei Dai, Yinhe Zheng, Yuchuan Wu, Zheng Cao, Dermot Liu, Peng Jiang, Min Yang, Fei Huang, Luo Si, Jian Sun, Yongbin Li. GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection, AAAI 2022

    4.

    Binyuan Hui, Ruiying Geng, Qiyu Ren, Binhua Li, Yongbin Li, Jian Sun, Fei Huang, Luo Si, Pengfei Zhu, Xiaodan Zhu, Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing, AAAA 2021.

    5.

    Guanglin Niu, Yang Li, Chengguang Tang, Ruiying Geng, Jian Dai, Qiao Liu, Hao Wang, Jian Sun, Fei Huang and Luo Si. Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion,SIGIR2021

    6.

    Ruiying Geng, Binghua Li, Yongbin Li, Jian Sun, Xiaodan Zhu. Dynamic Memory Induction Networks for Few-Shot Text Classification, The 59th Annual Meeting of the Association for Computational Linguistics (ACL2020). Seattle, USA.

    7.

    Yinpei Dai, Hangyu Li, Chengguang Tang, Yongbin Li, Jian Sun, Xiaodan Zhu. Learning Low-Resource End-To-End Goal-Oriented Dialog for Fast and Reliable System Deployment, The 59th Annual Meeting of the Association for Computational Linguistics (ACL2020). Seattle, USA.

    8.

    Jinghan Zhang, Yuxiao Ye, Yue Zhang, Likun Qiu, Jian Sun. Multi-Point Semantic Representation for Intent Classification, Proceedings of the 34th AAAI Conference on Artificial Intelligence (AAAI2020). New York City, NY, USA.

    9.

    Yinpei Dai, Huihua Yu, Yixuan Jiang, Chengguang Tang, Yongbin Li, Jian Sun, A Survey on Dialog Management: Recent Advances and Challenges, arXiv: 2005.02233

    10.

    Haitao Mi, Qiyu Ren, Yinpei Dai, Yifan He, Jian Sun, Yongbin Li, Jing Zheng, Peng Xu, Towards Generalized Models for Beyond Domain API Task-oriented Dialogue, AAAI 2021 DSTC9 Workshop.

    11.

    Yajing Sun, Yong Shan, Chengguang Tang, Yue Hu, Yinpei Dai, JING YU, Jian Sun, Fei Huang, Luo Si, Unsupervised Learning of Deterministic Dialogue Structure with Edge-Enhanced Graph Auto-Encoder, AAAI2021.

    12.

    Bin Fu, Yunqi Qiu, Chengguang Tang, Yang Li, Haiyang Yu, Jian Sun, A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges, arXiv:2007.13069

    13.

    Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Zhicheng Zhang, Qiyu Zhang, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin. "Achieving Human Parity on Visual Question Answering", arXiv.org, https://arxiv.org/abs/2111.08896

    14.

    Feng-Lin Li, Zhongzhou Zhao, Qin Lu, Xuming Lin, Hehong Chen, Bo Chen,Liming Pu, Jiashuo Zhang, Fu Sun, Xikai Liu, Liqun Xie, Qi Huang, Ji Zhang, Haiqing Chen, AliMe Avatar: Multi-modal Content Production and Presentation for Live-streaming E-commerce [SIGIR2021 Industrial Track]

    15.

    Guohai Xu, Yan Shao, Chenliang Li, Feng-Lin Li, Bing Bi, Ji Zhang, Haiqing Chen, AliMe DA: a Data Augmentation Framework for Question Answering in Cold-start Scenarios [SIGIR2021 Industrial Track]

    16.

    Qianglong Chen, Feng Ji, Xiangji Zeng, Feng-Lin Li, Ji Zhang, Haiqing Chen, Yin Zhang, KACE: Generating Knowledge Aware Contrastive Explanations for Natural Language Inference [ACL2021]

    17.

    Feng-Lin Li, Hehong Chen, Guohai Xu, Tian Qiu, Feng Ji, Ji Zhang, Haiqing Chen, AliMe KG:Domain Knowledge Graph Construction and Application in E-commerce, CIKM 2020, Applied Research Track

    18.

    Haiyang Xu, Ming Yan, Chenliang Li, Bin Bi, Songfang Huang, Wenming Xiao, Fei Huang. "E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning", ACL 2021, https://aclanthology.org/2021.acl-long.42.pdf

    19.

    Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, Luo Si. "StructuralLM: Structural Pre-training for Form Understanding", ACL 2021, https://aclanthology.org/2021.acl-long.493/

    20.

    Chenliang Li, Ming Yan, Haiyang Xu, Fuli Luo, Wei Wang, Bin Bi, Songfang Huang. "SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels", arXiv.org, https://arxiv.org/abs/2103.07829.

    21.

    Ming Yan, Haiyang Xu, Chenliang Li, Bin Bi, Junfeng Tian, Min Gui, Wei Wang. "Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training", arXiv.org, https://arxiv.org/abs/2108.09479

    22.

    ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross-and Intra-modal Knowledge IntegrationY Cui, Z Yu, C Wang, Z Zhao, J Zhang, M Wang, J Yu [ACM MM 2021]

    23.

    Xuming Lin, Shaobo Cui, Zhongzhou Zhao, Wei Zhou, Ji Zhang and Haiqing Chen,GGP: A Graph-based Grouping Planner for Explicit Control of Long Text Generation [CIKM2021]

    24.

    Guohai Xu, Hehong Chen, Feng-Lin Li, Fu Sun, Yunzhou Shi, ZhiXiong Zeng, Wei Zhou, Zhongzhou Zhao, Ji Zhang, AliMe MKG: a Multi-modal Knowledge Graph for Live-streaming E-commerce [CIKM21 Demo]

    25.

    Fu Sun, Feng-Lin Li, Ruize Wang, Qianglong Chen, Xingyi Cheng, Ji Zhang, K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering [CIKM21 Applied Track]

    26.

    Fangkai Jiao, Yangyang Guo, Yilin Niu, Feng Ji, Feng-Lin Li, Liqiang Nie, REPT: Bridging Language Models and Machine Reading Comprehension via Retrieval-Based Pre-training [ACL 2021 Findinds]

    27.

    Shaobo Cui, Xintong Bao, Xinxing Zu, Yangyang Guo, Zhongzhou Zhao, Ji Zhang, Haiqing Chen, OneStop QAMaker: Extract Question-Answer Pairs from Text in a One-Stop Approach, [WWW2021]

    28.

    Yangyang Guo, Liqiang Nie, Zhiyong Cheng, Feng Ji, Ji Zhang, Alberto Del Bimbo, AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss, [IJCAI2021]

    29.

    Zhenxin Fu, Shaobo Cui, Feng Ji, Ji Zhang, Haiqing Chen, Dongyan Zhao, Rui Yan, Query-to-Session Matching: Do NOT Forget History and Future during Response Selection for Multi-Turn Dialogue Systems, CIKM 2020

    30.

    Runqi Yang, Jianhai Zhang, Xing Gao, Feng Ji and Haiqing Chen, Simple and Effective Text Matching with Richer Alignment Features, ACL 2019, Long Paper

    31.

    Ming Yan, Jiangnan Xia, Chen Wu, Bin Bi, Zhongzhou Zhao, Ji Zhang, Luo Si, Rui Wang, Wei Wang and Haiqing Chen, A Deep Cascade Model for Multi-Document Reading Comprehension [AAAI 2019]

    32.

    Feng-Lin Li, Minghui Qiu, Haiqing Chen, Xiongwei Wang, Xing Gao, Jun Huang, Juwei Ren, Zhongzhou Zhao, Weipeng Zhao, Lei Wang, Guwei Jin and Wei Chu, AliMe Assist: An Intelligent Assistant for Creating an Innovative E-commerce Experience, CIKM 2017 Demo(Best Demo Award)

    33.

    Minghui Qiu, Fenglin Li, Siyu Wang, Xing Gao, Yan Chen, Weipeng Zhao, Haiqing Chen, Jun Huang and Wei Chu, AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine,ACL 2017,Short Paper

    展开全文
  • 阿里技术分享-自然语言处理知识图谱语音图像数据采集人机对话技术及动态56页.pdf
  • 看人机对话技术一步步突破与发展

    千次阅读 2017-07-23 07:35:17
    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR 本文作者:思颖 2017-07-21 09:09 导语:下一步,让机器分析你的言外之意 雷锋网按:...

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    本文作者:思颖 2017-07-21 09:09
    导语:下一步,让机器分析你的言外之意

    雷锋网按:2017 年 7 月 8 日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的全球人工智能与机器人峰会(CCF-GAIR)进入第二天。在智能助手专场,来自哈尔滨工业大学的刘挺教授为我们带来了题为“人机对话技术的进展”的主题演讲。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    刘挺,哈尔滨工业大学教授,社会计算与信息检索研究中心主任。多次担任国家863重点项目总体组专家、973项目专家组成员、基金委会评专家,入选科技部中青年科技创新领军人才。主要研究方向为自然语言处理和社会计算,是国家973课题、国家自然科学基金重点项目的负责人,曾获国家科技进步二等奖、省科技进步一等奖、钱伟长中文信息处理科学技术一等奖。

    以下内容由雷锋网整理自刘挺教授的报告,有删减:

    感谢主办方的邀请,我是来自哈尔滨工业大学的刘挺,我的题目叫“人机对话技术的进展”。

    人机对话概述

    下面是人机对话的基本框架,可以通过语音输入和输出,也可以通过文本直接交互。其中包括三个重要的模块:语言理解、对话管理、语言生成。我后面的演讲会提到这几项技术。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    作为一个学者,我可能不如大家对产业界理解得这么深入。从我的角度观察,人机对话走过了三个阶段:第一,语音助手时代;第二,2014年进入聊天机器人时代;第三就是2016年进入场景化的任务执行。

    语音助手时代

    2011年,乔布斯临终前在iPhone4S中推出Siri,当时的技术还是很不成熟。2012年,中国的各个厂商纷纷效仿做语音助手。2014年,个别企业纷纷把语音助手团队解散。主要原因:第一,技术尚不成熟,听得见,但听不懂。以至于很多本来严肃的服务变成对语音助手的调戏;第二,语音也并不总是最自然的沟通方式,它需要私密的环境,有时候还需要图像交互界面进行配合。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    聊天机器人时代

    2014年微软推出小冰,干脆就来聊天和娱乐,放弃语音使用,直接用文字进行沟通。这时候深度学习被充分运用,技术水平有提高,难点在于对语境的建模和机器人自身建模方面。比如你问机器人:“你今年多大了?”,“我5岁了”。但说“你结婚了吗?”,“我结婚10年了”,他自己会发生矛盾。 应用上,用户留存率并不是很高,虽然用户量大,但持续跟机器人聊下去的并不多。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    现在有人反思做聊天没意义,我认为还是有用的。主要有三方面的作用。第一,建立人和机器之间的信任。第二,聊天过程中,聊天机器人和搜索引擎相比有一个大的优势,搜索引擎只能被动观察用户的输入,但机器可以主动向人发问。比如机器人问人喜欢看电影吗,回复喜欢。机器人再问喜欢哪一类的,回复喜欢看动作片,机器人立刻推荐一个成龙的动作片过去。第三,情绪抚慰功能,机器人的优点是随叫随到、嘴严、可定制。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    场景化的任务执行时代

    现在处于实用化的努力阶段,通用的做不到,既可以回退为娱乐化也可以回退在特定场景下使用。这一阶段的特点是:将人机对话局限在特定场景,进一步降低用户期望值;利用场景约束,提高语义消歧能力。当你坐在电视机前想点电视节目,能发出指令,并且发出指令的方式是有限的。存在的问题有两个:一是场景切换,需要重新部署。二是工程化色彩严重,不能够一揽子解决问题,研发成本增高。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    当今人机对话系统功能:

    当今人机对话系统主要有四大功能。一是聊天。聊天的目的是要让人和机器尽可能的多聊下去,去消耗时间。另外知识问答、任务执行、推荐这三个是比较严肃的功能,都是以快速的结束聊天为目标。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    人机对话系统又分下面这三方面:自然语言理解、对话管理、自然语言生成。这里面聊天、知识、任务、推荐,都有各自相应的研究点。具体内容请看PPT。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    人机对话技术进展

    现在人机对话技术到底到了一个什么程度,主要从前面说的四方面选出两个最重要的:聊天、任务执行。任务执行不同企业的叫法不一样,我们叫任务。聊天是没有明确目标的,任务是定机票、定餐馆等。聊天搜索空间比较大。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    聊天机器人最早出现是在上世纪60年代,有人研究出一个能够和精神病患者聊天的机器人,效果挺惊人,此后不断的发展。腾讯的小Q机器人、还有微软小冰、Tay,这都是聊天机器人的系列产品。提到聊天,首先会想到根据以前的聊天记录,通过搜索,就可以回答一些问题。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    单轮对话生成的进展比较技术化。发展趋势是不仅仅通过算法解决问题,而且要确定一个主题,借用外部资源,把话说得更丰满。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    多轮对话中,聊天和搜索有很大的区别。搜索也开始启动多轮搜索,但是真正的多轮是在聊天当中体现的,要有多个回合,这里面会产生指代、省略等等。如何在多轮对话里让人感觉这是一个完整的对话很值得研究。这里面出现很多技术,包括深度学习和强化学习的融合。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    智能助手有一系列产品,从苹果、微软,到Facebook、亚马逊。现在很多大企业不但自己做智能助手,而且提供对话平台。对话可以称为对话操作系统或者对话人工智能。微软在研发,很多企业在收购,百度既研发又收购,推出面向中小企业的平台。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    任务型对话系统的语言理解部分,通常使用语义槽来表示用户的需求,如出发地、到达地、出发时间等信息。因此可以使用序列标注模型来抽取语义槽。CRF (条件随机场)是过去经常使用的序列标注模型,但是受限于马尔科夫假设,它无法很好的处理长距离依赖问题。随着深度学习方法的流行,人们使用循环神经网络,如双向 LSTM 来解决长距离依赖问题,同时还避免了繁琐的特征工程工作。最近,人们将这两种方法进行融合,即双向 LSTM-CRF 模型,进一步提高了槽填充的准确率。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    对话管理指的是根据上一步语言理解步骤识别的语义信息,决策系统下一步所需采取的策略,如追问、澄清还是给出结果等。最简单也是最常用的方法是采用基于规则的方法,即根据不同的情况人工制定对话树,这种方法需要耗费大量的人力,而且可移植性也比较差。有指导学习的方法只需人工针对一些具体的样例,标注对应的回复策略数据,然后就可以交给机器学习了。但是这种方法需要针对每条对话进行标注,标注难度很高。近年来,采用强化学习的方法成为研究的主流,该方法无需逐条标注,只需要将整个对话的最终结果作为奖励,系统就可以学习到最优的策略序列。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    最后对话生成模块根据采用的不同对话策略,给出不同的系统回复。最简单就是采用基于模板的方法,但是该方法很难在不同的领域之间迁移。后来人们采用基于语言模型的方法,直接从语料库中学习回复的语言。近年来,深度学习中序列到序列的方法为对话生成提供了一种新的思路,不同于机器翻译等任务所采用的序列到序列模型,这里原序列是上一步输出的对话策略,目标序列则是系统的自然语言回复。该方法具有学习简单,生成的语言自然、多样等优点。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    关于“笨笨”机器人的介绍

    下面介绍一下我们实验室研制的一个系统,叫“笨笨”。我们不敢叫“灵、百灵”,只能承认自己笨,进一步降低用户的期望值。当用户拿着一个手机以为什么都可以问的时候,他一定会失望。我们这个研究中心是哈工大社会计算与信息检索研究中心,这是我们的公众号,有上万人关注。功能包括聊天、知识问答、任务执行、推荐。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    生成式对话模型往往存在一个问题——语义相关性差。比如说问机器你今年多大了,回复说不知道。这里面产生问题的原因,从技术上讲是生成话的第一个词会产生概率很高的通用词。比如“我”、“你”。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    我们采用了专门的Learning to Start模型去生成,大家可以对比一下。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    单轮对话也采用主题规划的方式,进行两阶段的生成。先规划,然后响应内容。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    多轮对话是基于DQN进行。这个优化和任务执行的优化正好反过来。聊天的优化是要尽可能让这个聊天能继续下去,让话题轮数更多。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    下面是“笨笨”聊天的一些对话(见PPT),比较好玩,大家可以下去自己玩。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    下面是知识问答。在各个具体的问题上,都在使用深度学习技术,知识问答方面也不例外。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    这是任务执行的系统框架(见PPT)。在任务执行方面,哈工大最近也开发了一个系统,这个系统是一个平台,各位可以在里面添加你的特定领域要解决的一些问题实例,添加若干实例之后,系统会帮你训练出一个特别实用的场景任务执行系统。这个推荐也被嵌入到人机对话中,有些创业公司专门做人机对话领域的推荐。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    在“笨笨”跟你聊天的过程中,可能跟你推荐产品,这就是营销机器人。营销机器人会先和你聊天,建立信任之后推荐产品。还有服务于售后的客服机器人。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    人机对话评测介绍

    最后讲一下人机对话评测,任何一项技术要想进步,特别依赖于它的目标,就是怎么评测这项技术,这项技术到底是前进还是后退了。在人机对话方面的评测比问答系统难。问答系统是单轮的,我问毛泽东出生于哪一年。你答出的是准确答案,就算成功了。但是人机对话里,一轮过后,就会分岔,一旦分岔了就没有办法做标准答案进行评测。现在国内在这方面的处理也是评测驱动。哈工大也在主持若干评测。以前我们也参加过美国的一些评测,现在有一些在参加日本NTCIR的评测。我们的理念是中国人的评测要由中国人引导。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    我们主持了首届中文人机对话评测,由张伟男担任主席。我们分两个任务,一是用户意图分类,区分到底是聊天还是任务,如果是任务,到底想完成一个什么样的任务。二是特定域任务型的人机对话评测。比如定机票,问两句话,会出现分岔,很难展开评测。解决办法是人工评测,先给一个问题的描述,让人根据这个描述和不同的机器人进行对话,看看哪个机器人可以在最短的轮数内把这个问题解决掉。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    国际上,2017年也在开始组织评测,在自然语言处理最前沿方面,国内学者和国际学者是齐头并进的。在斯坦福主持的英文阅读理解评测中,很多巨头都有参加。排第一位的是微软亚洲研究院,第二位是哈佛大学一个研究实验室。即使在英文上,国内也并不落后。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    未来的挑战

    最后概括,最主要的技术挑战在两方面。

    一是聊天机器人未来有待解决的问题。我估计在座的各位没有谁愿意和一个机器人持续聊超过一周。另外还有情感,对机器人说考试不及格,怎么分析是不是伤心的情绪,还有用户画像,回复质量,多样性,个性化等的研究。机器人怎么主导话题,如何是让机器人具有各种各样的性格,为每一个用户定制多个不同性格的机器人,包括在游戏世界里,让机器人扮演一些角色,能和人对话。还有基于主题的上下文生成、基于用户的情绪反馈。用户一旦骂你或者不跟你聊了,说明你回答问题的不好。

    二是任务执行中有待研究的问题。比如任务之间的切换,目前即使通过工程手段把一两个场景做对了,扩展到其他地方还是很难。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    什么时候人机对话才能取得真正的突破,主要取决于以下几点:自然语音处理技术的突破、机器对情境理解的进展、机器推理能力的提升、文本生成技术的进步等。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    人机对话是自然语言处理发展的一个高峰,它的发展和自然语言处理的发展是密不可分的。我认为自然语言处理有四个阶段。从形式匹配到语义匹配,现在到文本推理,再下一步会到言外之意。一个小女孩对男朋友说“讨厌”,这句话怎么理解,需要一些文化的背景。现在已经有人在研究隐喻这方面的工作。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    最后介绍一下我们实验室在布局的工作,研究方向如PPT所示。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    我们实验室有70多人的科研团队,在LTP、句法分析方面我们始终保持国内甚至国际领先地位,前一段时间谷歌推动的45种语言通用句法分析评测,哈工大取得第四名的成绩。很多企业在和哈工大合作,我们也希望能够有机会和在座的其他企业建立更多的合作关系。

    哈尔滨工业大学刘挺教授:历经50年,看人机对话技术一步步突破与发展! | CCF-GAIR

    我今天的演讲就到这里,谢谢大家!

    展开全文
  • SMP2018中文人机对话技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司承办,讯飞公司提供数据,华为公司提供奖金。 这是刚刚出炉的排行榜: 最近刚好在做人机对话的研究,...
  • 对话系统旨在让用户和系统之间更加自然的对话,让系统记住用户历史话语。 网络上开源的对话系统架构不多,以OpenDial和Alex较为成熟。本文采用Alex的方式。 Alex 系统是由位于捷克的查理大学使用Python 2开发。
  • 人机对话技术研究进展与思考

    千次阅读 2019-11-21 19:25:25
    导读:本次分享的主题为人机对话技术研究进展与思考。主要梳理了我们团队近两年的工作,渴望可以通过这样的介绍,能给大家一个关于人机对话 ( 包括它的科学问题和应用技术 ) 方面的启示,帮助我们进行更深入的研究和...
  • 对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。图1给出了对话系统开发中涉及到的主要技术。图1给出的诸多...
  • 2020年度第九届国际对话技术竞赛 DSTC9共设有4个赛道(Track-1~Track-4),主办方包括Facebook、亚马逊、微软、卡内基梅隆大学、清华大学等,参与者广泛覆盖了企业和高校的参赛团队。近期DSTC9官方陆续公布各个赛道...
  • 技术对话

    2021-02-20 06:39:25
    技术对话 描述 这是一个简单的应用程序,其重点是:不同背景的开发人员之间关于过多主题的对话。 您将能够查看任何当前帖子,但是要发表评论或创建自己的帖子,则需要先注册到技术博客。 这是一个很好的应用程序,...
  • 智能语音对话技术揭秘 前言 对话式交互技术原理及流程揭秘 如何基于Amazon Alexa创建一个语音对话技能 如何基于Google Dialogflow创建一个语音对话技能 如何基于Microsoft Cortana创建一个语音对话技能 智能家居...
  •  触摸屏正在迅速成为人机对话用户界面技术的最佳选择,被应用在零售、工业、汽车、医疗、数字信号显示等不同行业。  这一技术日益广泛的应用在一定程度上受至iPhone异乎寻常的成功的促进。iPhone实现了完全触屏...
  • 面向任务的基于深度学习的多轮对话系统与技术.pdf
  •  触摸屏正在迅速成为人机对话用户界面技术的选择,被应用在零售、工业、汽车、医疗、数字信号显示等不同行业。  这一技术日益广泛的应用在一定程度上受至iPhone异乎寻常的成功的促进。iPhone实现了完全触屏控制...
  • 阿里智能对话交互技术实践与创新

    千次阅读 2017-11-30 10:17:30
    本文将对阿里巴巴在智能对话交互技术上的实践和创新进行系统的介绍。首先简要介绍智能对话交互框架和主要任务;接下来详细介绍自然语言理解、智能问答、智能聊天和对话管理等核心技术;然后介绍阿里巴巴的智能对话...
  • NLP-对话式交互技术

    千次阅读 2018-06-04 11:48:36
    对话式交互技术原理及流程揭秘http://www.infoq.com/cn/articles/alibaba-AI-voic?useSponsorshipSuggestions=true&utm_source=articles_about_AI&utm_medium=link&utm_campaign=AI语音识别...
  • 1、新型人机对话接口与音频数据转换器是消费类应用发展的需要  人机交互信息技术的高速发展给人类生产、生活带来了广泛而深刻的影响。“上网冲浪”、“数码相机”、“PDA”、“优盘”、“彩屏手机”、“蓝牙技术”...
  • 智能对话系统之多轮对话

    千次阅读 2019-09-10 15:58:48
    一周前我讲:相对的,自然语言解析技术已经逐渐不再成为各家广义智能助理产品的核心竞争力,识别用户意图之后所提供的服务开始成为对话机器人差异化的核心。 百度:对话系统的组成 对于一个对话系统而言,我微博...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 128,759
精华内容 51,503
关键字:

对话技术