精华内容
下载资源
问答
  • java8集合源码Alexa 技能表达和模式生成器 (V2.0) 这是一个方便的工具,许多开发人员已经使用它来为他们的自定义 Alexa 技能创建更好的交互模型。 该工具引入了一种易于阅读的语法,只需编写几行即可生成成百上千的...
  • Utterance 可让您在 Titanium 项目中使用设备的原生 Text to Speech 和 Speech to Text 功能。 在查看 Android 示例视频 在你开始之前 * 您需要 Titanium SDK 3.2.1.GA 或更高版本 * 如果使用 iOS,您需要 iOS 7 ...
  • npm install intent-utterance-file-parser 用法 IntentUtterances.txt GetHoroscope what is the horoscope for {pisces|Sign} GetHoroscope what will the horoscope for {leo|Sign} be {next tuesday|Date} ...
  • 模型架构 Utterance Representation Turns-aware Aggregation Matching Attention Flow Response Matching Attentive Turns Aggregation 三、实验 1. 数据集 2. 评价指标 3. 实验设置 4. 实验结果 四、结果分析 1. ...


    在这里插入图片描述
    DUA模型: 使用深度话语聚合建模多轮对话

    paper地址:https://arxiv.org/pdf/1806.09102v2.pdf

    代码地址:https://github.com/cooelf/DeepUtteranceAggregation


    一、简介

    基于检索的多轮对话回复选择的相关工作只是简单地将对话话语串联起来,忽略了先前话语之间的交互作用。

    本文使用提出的DUA深度话语聚合模型将先前的话语转化为上下文,以形成细粒度的上下文表示,然后引入自匹配注意来传递每句话中的重要信息,对每个精细化的话语进行匹配,通过注意转向聚合得到最终的匹配分数。

    实验结果表明,在三个多回合对话基准上,包括一个新引入的电子商务对话语料库,本模型优于当时现有的方法。


    二、方法

    1.任务

    多轮对话回复检索任务中的每个会话可以描述为一个< C, R, Y >的三元组。 C = U 1 , … , U t C = {U_1,…, U_t} C=U1Ut是会话上下文,{Uk}表示第k个话语。R是会话的回复,Y属于{0,1},其中 Y i = 1 Y_i= 1 Yi=1表示回复是适当的,否则 Y i = 0 Y_i= 0 Yi=0

    目标:在< C, R, Y >上建立一个鉴别器 F ( ⋅ , ⋅ ) F(·, ·) F(,)。对于每个上下文回复对{C, R},$ F(C, R)$度量对的匹配分数。

    2. 模型架构

    在这里插入图片描述
    DUA中有五个模块:

    1. Utterance Representation,每一个话语或回复被输入到第一个模块,形成一个话语或回复嵌入。
    2. Turns-aware Aggregation,第二模块将最后一句话和前面的一句话结合起来。
    3. Matching Attention Flow,第三个模块过滤冗余信息,挖掘话语和回复中的显著特征。
    4. Response Matching,第四个模块在单词和话语两级匹配回复和每个话语,为卷积神经网络(CNN)编码成匹配向量。
    5. Attentive Turns Aggregation,在最后一个模块中,将匹配向量按照上下文中的话语的时间顺序传递给GRU,得到最终的匹配得分{U, R}。

    优势:

    1. 在对话中最重要的最后一句话在前一句话中被特别融合,从而使最后一句话中的关键指导信息在语义上更加切题。
    2. 在每句话语中,突出的信息都能被突出,而冗余的部分在一定程度上被忽略,这两者都能有效地指导后续的回复匹配。
    3. 第三,经过细心的转向聚合后,再次对会话中的连接进行累积,计算匹配分数。

    Utterance Representation

    给定上下文回复对{C, R},其上下文被分割为话语,C = {U1,…, Ut},一个查找表用于将每个单词映射到一个低维向量。 n u n_u nu n r n_r nr表示第k个话语和回复的长度, U k U_k Uk R R R可以表示为 U k = [ u 1 , … , u n u ] Uk= [u_1,…,u_{n_u}] Uk=[u1,,unu], R = [ r 1 , … , r n r ] R = [r1,…,r_{n_r}] R=[r1,,rnr],其中ui, ri是话语和回复中的第i个单词。

    用GRU沿着单词序列 U k U_k Uk R R R传递信息,对每个话语和回复进行编码,令 H k = [ h 1 , … , h n ] H_k= [h_1,…, h_n] Hk=[h1hn]为输入序列的隐藏状态
    在这里插入图片描述

    Turns-aware Aggregation

    以上述方式对话语序列和回复进行编码的缺点是,会话中的所有话语都得到了公平的处理,未能挖掘出最后一句话语与前一句话语之间的联系。为此,提出了一种第一阶段的回合感知聚合机制。

    S = [ S 1 , … , S t , S r ] S = [S_1,…, S_t, S_r] S=[S1St,Sr]表示话语和回复的表征。假设 F = [ F 1 , … , F t , F r ] F = [F_1,…, F_t, F_r] F=[F1Ft,Fr]是每个 S j ∈ S S_j∈S SjS与最后一个话语 S t S_t St的融合,对于每 个 ∀ j ∈ 1 , … , r 个∀j∈{1,…, r} j1r F j ∈ F F_j∈F FjF
    在这里插入图片描述
    这里采用了一个简单的连接策略(串联),通过聚合得到了回合感知的表示F。

    Matching Attention Flow

    经过 turns-aware aggregation后,前一个话语和回复的表征由最后一个话语进行细化。然而,这些序列相当长且冗余,这使得提取关键信息变得困难。为了解决这个问题,本文采用了一种自匹配的注意机制,直接将融合的表征与自身进行匹配,动态地从输入序列中收集信息,并过滤冗余信息。输入 ˆ F = [ f 1 , … , f n ] ∈ F ˆF = [f_1,…, f_n]∈F ˆF=[f1fn]F,输出 P = [ p 1 , … p n ] P = [p_1,…p_n] P=[p1pn]
    在这里插入图片描述

    ct就是自匹配注意力的结果在这里插入图片描述

    其中 v T v^T vT是随机初始化并联合训练的上下文矩阵

    自匹配注意通过融合前一段和后一段话语,根据当前词和整个话语表征,从话语中定位重要部分

    Response Matching

    使用词语级和话语级表示构建两个匹配矩阵,并使用CNN从矩阵中获取显著匹配信息。假设我们在单词级和话语级对每个话语-回复对有匹配矩阵m1和m2。然后∀k, Uk∈U,∀(i, j)分别定义m1和m2的第(i, j)个元素:
    在这里插入图片描述
    其中 p u i p_{u_i} pui p r j p_{r_j} prj分别表示匹配注意流后的话语输出和回复输出。 A ∈ R c × c A∈R^{c×c} ARc×c是一个线性变换矩阵。

    对于每一个表述,首先对M1和M2进行卷积运算,然后进行最大池化运算。卷积层用于提取和组合相邻单词的局部特征,接下来的最大池化层形成当前单词的表示。对于卷积运算,利用了一组可变大小l∗l和偏置b的滤波器矩阵K。该滤波器将单词矩阵M1和M2转换为另外两个矩阵 M 1 c M_{1c} M1c M 2 c M_{2c} M2c。∀i, k∈(1,2),变换矩阵 M k c M_{kc} Mkc定义为:
    在这里插入图片描述
    其中I和j分别指向第i行第j列的元素。接下来,采用最大池化操作,将池化后的两个矩阵扁平化并连接,得到会话中第p个话语的表示mp:
    在这里插入图片描述
    其中flatten()为扁平化运算,⊕为级联运算。

    Attentive Turns Aggregation

    为了对最后阶段的attentive turns 注意转向匹配信息进行聚合,CNN的输出M = [m1,…, mn],给GRU得到Hm= [hm1,…]定义为:
    在这里插入图片描述
    v f = L ( H m ) v_f= L(H_m) vf=L(Hm)为注意操作
    在这里插入图片描述

    在这里插入图片描述
    在训练阶段,根据交叉熵损失更新模型参数。

    需要注意的是,Turns-aware Aggregation 回合意识聚合和Attentive Turns Aggregation注意回合聚合可以被视为话语互动的两个阶段(我们将这两个过程称为“语境融合”)。.前者是在话语表征后对更丰富的轮觉信息的简单组合,后者是在注意学习后对每个话语本身和回复的匹配状态进行聚合


    三、实验

    1. 数据集

    • Ubuntu Dialogue Corpus

    • Douban Conversation Corpus

    • E-commerce Dialogue Corpus

    2. 评价指标

    • Rn@k,n个候选项中k处的查全率

    • MAP ,Mean Average Precision,平均准确率。

    例如,假设有两个对话,对话1有4个相关回复,对话2有5个相关回复。某系统对于对话1检索出4个相关回复,其rank分别为1, 2, 4, 7;对于对话2检索出3个相关回复,其rank分别为1,3,5。对于对话1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于对话2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。

    • MRR ,Mean Reciprocal Rank,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。

    • P@1,Precision-at-one

    3. 实验设置

    • 将最多的话语数限定为10个,每个话语最多包含50个单词。在必要时应用截断和零填充。

    • 对训练数据进行word embedding 预训练,维数为200

    • 模型是使用Theano实现的,使用ADAM进行优化

    • batch size为200,初始学习率为0.001。卷积和池化的窗口大小为(3,3),GRU的隐藏单位数设置为200。

    • 所有的模型都运行在单个GPU (GeForce GTX 1080ti)上

    • 运行所有的模型直到5个epoch,并选择在验证中获得最佳结果的模型

    4. 实验结果

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述


    四、结果分析

    1. 实验结果分析

    • 以前连接话语的单个匹配模型,表现得比DUA差得多,显示话语关系的重要性和简单地将话语连接在一起并不是多轮对话建模的合适解决方案。

    • DUA与当前最先进的多轮回复匹配模型SMN相比取得了很大的进步(ECD 语料库上的 R10@1 为 4.8%),SMN匹配每个话语和回复,无需轮流感知聚合和匹配注意力流,这些比较表明本文的上下文组合方法的有效性,DUA可以很好地模仿向客户服务的真实对话,而不仅仅是擅长闲聊

    • 将ECD测试集分为5类:咨询、物流、推荐、谈判、闲聊。表4显示了统计数据和模型结果。闲聊和物流的类型往往很容易处理。建议、咨询和谈判往往涉及到不同的话题(如相关商品)和意图,相对来说更难回复,这使得本文的语料库比以往的聊天或问答语料库更具挑战性

    2. 注意力可视化

    在这里插入图片描述

    从ECD数据的验证集来看,图3分别显示了一个重要话语(在回复匹配组件中权重很高)和回复的词权值。我们看到模型可以准确的从话语中提炼出关键,{下次消费,再发,一包杏仁,送你,一些坚果,回款},并从回复{之前订单太多,真的很抱歉,别生气,你的礼物}。当用户抱怨缺少礼物、传递速度慢时,我们的模型能够在自匹配后区分用户的意图,并根据所呈现话语的症结本质上寻找合适的回应。这说明我们的模型在匹配注意流后的关键点选择上是有效的,可以引导回复匹配层收集更多的相关片段。

    3. 消融实验.

    加粗样式

    • 删除Matching Attention Flow匹配注意流时,观察到最大的下降(6.9% R10@1),这表明绘制每个话语的关键很重要

    • 删除Context Fusion 上下文融合,包括第一回合感知聚合(第一阶段聚合)和替换最后一阶段聚合(最后阶段聚合),用多层感知器进行匹配积累时,性能也会显著下降(4.8% R10@1),这表明话语关系很重要

    • 在没有Context Fusion 上下文融合与Matching Attention Flow匹配注意流机制的情况下,该模型的表现最差,验证了该机制确实从根本上改善了上下文表示

    4. 错误分析

    • Multiple intentions多意图,在电子商务会话中,用户极有可能在单个消息中表达不同的意图,这是除了不同商品之间的会话类型不同之外,有别于以往的多轮会话语料库的另一大区别。例如:{用户:那护肤产品的包装呢?顺便问一下,请问是哪个快递公司负责发货,我能收到货物的时间是多久?} 这将严重混淆模型,即给定的响应可能优先于某个方面或另一个方面。

    • Topic errors话题错误,模型根据与上下文的语义相似度检索响应,没有特别注意会话主题,如当前讨论的商品。当对话涉及到几种商品时,例如:{用户:坚果怎么样?机器人:坚果不错。用户:好吧,那粽子呢?},模型可能会给出与上下文更相关的坚果的响应,而不是粽子。

    • Multiple suitable responses多个正确回复,由于精确匹配的严格限制,有多个正确回复时某些正确回复可能会在评估是判定为错误


    参考:IR的评价指标-MAP,NDCG和MRR


    有帮助的话可以点个赞喔~
    在这里插入图片描述

    展开全文
  • 论文名称:SUMBT: Slot-Utterance Matching for Universal and Scalable Belief Tracking Abstract 本文的模型叫做SUMBT,全称slot-utterance matching belief tracker,槽-话语匹配的对话状态跟踪器。 根据多...

    论文名称:SUMBT: Slot-Utterance Matching for Universal and Scalable Belief Tracking

    Abstract

    本文的模型叫做SUMBT,全称slot-utterance matching belief tracker,槽-话语匹配的对话状态跟踪器。

    根据多领域DST简史的调研,SUMBT属于fixed-vocabulary based DST方法,这种方法说白了就是基于预定义的本体和候选槽值列表,寻找合适的value。那么SUMBT好在哪呢?

    以往的方法,建模的跟踪器都是领域/槽位依赖的,所以欠缺领域本体设置的灵活性。

    本文把这些以往的方法统称为slot-dependent methods。

    而根据这篇论文的题目,可以看出这个模型自我标榜的就是Universal 和Scalable。

    SUMBT模型的思想简单归纳为两点:

    1. 通过基于上下文语义向量(contextual semantic vectors)的注意力机制学习出现在话语中的domain-slot-types与slot-values之间的关系。

    2. 模型以一种非参数(non-parametric)的方式预测slot-value标签

    好下面进入具体内容。

    一些名词:

    utterance:话语。包括用户话语与系统话语。

    Introduction

    fixed-vocabulary based DST方法的一个优化方向,就是解决Scalable(可扩展性)问题,即灵活地追加新domain、slot或value的问题。

    传统的基于统计学的DST(statistical belief trackers),对lexical and morphological variations(词汇和词形变化)很脆弱,因为它们依赖与人手动构造的语义字典

    后来深度学习兴起,基于神经的DST(neural belief trackers)即NBT出现了,它们通过学习神经语义词表示大幅提高了性能。

    但是,可扩展性调整依然没有被解决。以往的方法,要么对每一个domain/slot分别建模,要么难以集成本体中未定义的新value。

    本文的模型标榜的就是Universal 和Scalable,所有domain和slot类型都靠一个跟踪器处理,从而实现了所谓的domain and slot-independent。

    本文吸收了机器阅读理解方面的成果,把domain-slot type看做问题,把slot-value pair看做回答,从用户与系统的话语中寻找合适的回答(假定话语中存在)。

    用户与系统的话语通过BERT编码,此处BERT提供了句子们的上下文语义表示(contextualized semantic representation of sentences)。

    domain-slot type和把slot-values也通过BERT编码。

    然后,SUMBT学习the way where to attend(啥意思?)。

    模型基于一个特定指标以一种非参数方式预测slot-value label,这使得模型的结构是domain and slot-independent的。

    最后,一个单一的SUMBT就能处理任何domain-slot type和把slot-values,并且使用了多领域多槽位之间共享的信息。

    在这里插入图片描述

    SUMBT

    这一部分详细介绍本文DST的结构。

    SUMBT的结构如图1。红字是一个对话例子,问题是restaurant-food,回答是modern European。 U t U_t Ut q s q^s qs y t v y^v_t ytv是编码器输出向量,

    由图1可看出SUMBT分成四个部分:

    • BERT encoders:灰色(BERT_sv_)和蓝色部分(BERT),把所有该encode的东西(话语和本体)encode。
    • a slot-utterance matching network:红色方框,多头注意力机制
    • a belief tracker:黄色方框
    • a nonparametric discriminator:顶部虚线

    Encoders

    此处的编码器,学名Contextual Semantic Encoders,因为它们提供了句子们的上下文语义表示(contextualized semantic representation of sentences),而不是简单的静态词向量。

    考虑domain-slot-types s, 轮次t下的slot-values v t v_t vt,输出向量分别是 x s x^s xs x t v x^v_t xtv编码输出成 q s q^s qs y t v y^v_t ytv。在训练中固定BERT_sv_的权重,以确保输出上下文向量的domain and slot-independence,从而能够对新领域scalable。

    对于系统话语(n个word),用户话语(m个word),BERT把每个word $\omega 编 码 成 上 下 文 语 义 词 向 量 编码成上下文语义词向量 u , 一 个 用 户 系 统 话 语 对 通 过 一 个 [ S E P ] 标 志 符 拼 接 , 编 码 成 矩 阵 ,一个用户系统话语对通过一个[SEP]标志符拼接,编码成矩阵 [SEP]U_t$。

    Slot-Utterance Matching

    注意力机制是关键。encoders输出的domain-slot type 向量 q s q^s qs,q取自query。模型把这个query与上下文语义向量u在每个可能word上匹配,然后计算注意力分数。这里,我们使用多头注意力。

    输入 q s q^s qs U t U_t Ut,输出attended context vector h t s h^s_t hts

    Belief Tracker

    这里是DST,很常规的方法。随着对话继续,对话状态不仅由当前turn决定,也由以往对话历史决定。

    将上一步获取的参与上下文向量(attended context vector)喂入一个RNN:

    d t s = R N N ( d t − 1 s , h t s ) d^s_t=RNN(d^s_{t-1}, h^s_t) dts=RNN(dt1s,hts)

    得到了很接近target slot-value’s semantic vector的向量。

    既然BERT中,输出被一个正则化层正则化,那么本文就业进行一次正则化,以增进训练收敛。

    Training Criteria

    a nonparametric discriminator,这是一个分类器,我们给出的模型需要通过训练学习最小化target slot-value’s semantic vector与上一步获取的输出向量的差异。

    对于一个槽值 v t v_t vt的概率分布p,计算方法大致就是一种距离度量,每一个turn的每一个slot-types的p对数似然函数的加和就是目标函数L,从而对全部domain-slot-types一起训练,模型学习到slot-types与slot-types的一般关系。

    Experimental Setup & Results

    数据集是woz 2.0和multiwoz。前者包含一个领域,三种槽位。后者包含七个领域,35种槽位。

    本文设计了3个基线模型:BERT+RNN,BERT+RNN+ontology,以及Slot-dependent SUMBT。

    • BERT+RNN:BERT指contextual semantic encoder,RNN指RNN-based
      belief tracker。
    • BERT+RNN+ontology:ontology指ontology-utterance matching network
    • Slot-dependent SUMBT:结构和SUMBT完全相同,但是模型对每个slot分别训练,所以是Slot-dependent。

    网络细节什么的就略过了。

    Joint Accuracy

    在这里插入图片描述

    WOZ 2.0数据集上的性能对比,可见三种基线模型彼此几乎没有区别,并且都比以前的模型好。而本文的SUMBT达到了0.91的联合准确率,效果拔群。可见通过一个单一模型利用普遍性知识是很好的。

    multiwoz数据集上的性能就不上图了,反正宣称SOTA就是了。

    Attention visualizations

    在这里插入图片描述
    这是一个注意力权重分析的例子,对话共三轮,每轮的两个柱状图分别是given slots。可以看出attention是有作用的。

    展开全文
  • 语音是非平稳信号,通过分帧...segmental level的特征应该是指多帧特征,比如音素特征就是segmental level的,而utterance level的就是指一句话上的特征,就有很多帧,例如说话人的特征就是utterance level的。 ...

    语音是非平稳信号,通过分帧可以认为每帧信号近似为平稳信号,然后就可以在一帧上提取特征。这种就叫做帧级别特征。segmental level的特征应该是指多帧特征,比如音素特征就是segmental level的,而utterance level的就是指一句话上的特征,就有很多帧,例如说话人的特征就是utterance level的。



     

    展开全文
  • 主要是有一个utterance rewriter的机制,将一句话里面的省略和共指关系给找出来,然后形成一句新的话语,这样显示的声明一句话的省略部分和共指词可以提高对话系统的效果。具体来说对于task-oriented对话系统,提高...

    总述:

         主要是有一个utterance rewriter的机制,将一句话里面的省略和共指关系给找出来,然后形成一句新的话语,这样显示的声明一句话的省略部分和共指词可以提高对话系统的效果。具体来说对于task-oriented对话系统,提高了intention Precision(每一句话的意图检测),对于chitchat,提高了CPS:coversation-turns-persession(平均对话轮数)。

    贡献:

    1.首先,作者和我都觉得最大的贡献应该是一个标注了共指和省略关系的数据集,20w条对话

    2.结合了transformer和point-generator从dialogu history里面重写当前这句句子,消除指代和省略

    3.毕竟是wechat团队,放在实时的chatbots里面,效果很好

    实验:

    我认为这篇论文实验做的很充分,所以单独拿出来枚举一下。

    第一个实验:

    对比了直接生成模型(GEN),直接copy模型(PTR_NET),pointer-genertor模型,以及他的PTR-Y模型。其中,每一种模型,分别用transformer和lstm做encoder来比较transformer,lstm的好坏。

    pointer-genertor模型和他提出来模型的不同,主要在于,pointer-genertorcopy的来源只有input和一个固定的词表(整个vocab),但是PTR_y是从dialogue history 以及当前这一句话中copy,并且有一个哨兵y 决定是从historycopy'还是从当前这句话copy。

    BLEU 和rouge就不解释了,可以看下:https://blog.csdn.net/lwgkzl/article/details/100014922

    EM:exact match,就是和标准答案做精准比较,然后EM还分为positive sample和negative sample,这个positive 我觉得就是有共指关系和省略关系的句子,可以看到明显结果比较差,只有55.8.negative 就是没有共指关系和省略关系的,那么直接copy就好了,所以结果比较好,也就是说这个模型可以很好的区分有没有省略和共指关系,但是在如何copy省略和共指关系上还需要加油。

    此外:显然T-ptr-y最好。

    第二个实验:指代词汇

    计算了一下rewrite之后生成的句子中包含了原句子指代词汇的precision 和recall。precision就是生成的这些词汇中,有多少个是真的指代词汇,recall就是需要生成的指代词汇中有多少个真的生成了。

    第三个实验:省略词汇

    同指代词汇,看precision 和recall,此外加了省略词之后,还做了一个human evaluation评价了句子的流畅度。

    第四个实验:

    将rewrite用于dialogue里面,看看对intention  precision 和CPS(平均对话轮数)有没有帮助。

    模型:

    模型的话,相当于魔改了point-generator,不过魔改的比较多就是了。如图所示:

    左边部分:

    左边是一个类transformer结构,不过他有两个分别的输入,一个是dialogue history(H),一个是当前用户的话语(Un)将这两个input输入到一个transformer的encoder中,可以得到两个两个输出Eh和En,如下公式

    这两个就是encoder的输出部分了。接下来看看decoder怎么做

    右边部分:

    首先把已经生成出来的部分做一个self-attention,右边下半部分就是做的这个事情。得到一个M

    然后接下来就是把M和encoder得到的E结合起来了。可以形成两个词的分布:

    第一个:由M和E(h)做attention,不是self-attention,是long attention得到,表示从dialogue history中得到的信息

    第二个:由M和E(n)得到,表示从用户的上一句中得到的信息

    然后这两个词的分布该如何取权重呢,这就需要一个权重y。

    其中:

    可以看到这个y的权重是由M和Eh做multi-attention,M和En做multi-attention得到的。

    一句话总结:

    通过transformer来 抽取信息,得到dialogue history的词以及当前句子的词的分布,之后应用一个类似于pointer-generator的结构决定下一句该copy哪一个句子的词汇,去除用户句子中的省略和指代。

    ps:

    今年另一篇指代和省略的论文,用的attention和copynet: https://blog.csdn.net/lwgkzl/article/details/102482928

    论文地址: https://arxiv.org/abs/1906.07004?context=cs.CL

    代码: 

    展开全文
  • 本文使用NetVLAD,将frame-level聚合为utterance-level。 in the wild: 4s以上的语音 实现流程 将通过Thin ResNet的frame-level通过NetVLAD聚合为utterance-level。 网络输入为R(257×T×1),输出变为了R(1×T/...
  • Higru Hierarchical gated recurrent units for utterance-level emotion recognition Wenxiang Jiao, Haiqin Yang, Irwin King, Michael R. Lyu: HiGRU: Hierarchical Gated Recurrent Units for Utterance-Level ...
  • 第一个特性:传统的文本摘要比如说新闻摘要,往往只关注新闻的前几句话,而对话摘要关注的焦点,则需要从对话的开始慢慢的转移到对话的结束,作者将这个特点称为supporting utterance flow。在这里,作者定义了...
  • Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue 论文运行代码记录 拉取代码 学习之前我另外学习了pytorch的transformers工具包,学习网址(转载):...
  • Utterance Representation是将utterance同等看待没有考虑the last utterance和之前对话之间的关系,该模块主要是将最后一个utterance(the last utterance)与context中的其他utterance以及候选response进行融合,...
  • 论文链接:https://arxiv.org/abs/1902.10107v1 ...网络结构 主干网络:Thin-ResNet,提取frame-level特征 NetVLAD或GhostVLAD层:将frame-level的特征转换成utterance-level特征。大多数算法是采用...
  •     最近2019年新鲜的ACL论文出来了,发现了一篇关于多轮对话模型的文章还不错,其题目为:Improving Multi-turn Dialogue Modelling with Utterance ReWriter。文章单位:微信人工智能模式识别中心(腾讯)。...
  • Alexa话务生成器 一个允许您使用简单的GUI生成大量语音的。
  • —————————————————————————————————————— ... 前言:论文主要用来指导多轮交互如何进行指代消解和重写补全,在闲聊机器人和任务型机器人中都有很大的作用。...
  • (2)研究了基于长短期记忆(LSTM)的递归神经网络(RNN)和带语音级描述符(utterance-level)的卷积神经网络(CNN)在语音情感识别中的应用。 (3)在这些模型上采用了不同的融合策略,以得到每个情感类别的总分。在为...
  • 会议:2018interspeech 作者:MengHelen, liusongxiang, sunlifa abstract  针对特定说话者的VC任务通常需要相当大数量的source-target数据,而我们想要仅通过一句source-target就完成voice conversion,我们称之为...
  • 参考https://zhangzw.com/posts/20190720.html 放弃了该方案 之前的评论也找不见了
  • Utterance API

    2015-06-06 16:44:54
    表示一个完整音频数据的Utterance,在信号的传输中,每一个Utterance的前面有一个DataStartSignal类对象,Utterance其后有一个DataEndSignal类对象,用来表示一个Utterance的开始和结束。Utterance可为一个字或多个...
  • 单声道语音识别的逐句循环Dropout迭代说话人自适应 WRBN(wide residual BLSTM network,宽残差双向长短时记忆网络) [2] J. Heymann, L. Drude, and R. Haeb-Umbach, "Wide residual blstm network with ...
  • Weicheng Cai1,2,Danwei Cai1, Shen Huang3and Ming Li1∗ 1Data Science Research Center, Duke Kunshan University, Kunshan, China 2School of Electronics and Information Technology, Sun Yat-sen University,...
  • 语言上: phoneme -> syllable -> word -> phrase(syntagm) -> sentence -> paragraph -> discourse  语音上: frame -> chunk -> segment -> utterance
  • PMI(Pointwise Mutual Information) 机器学习相关文献中,可以看到使用PMI衡量两个变量之间的相关性,比如两个词,两个句子。原理公式为: 在概率论中,如果x和y无关,p(x,y)=p(x)p(y);如果x和y越相关,p(x,y...
  • Interactive Representation Learning,进行 utterance 和 user 的交互表示学习,不仅使用 utterance embedding 来更新 user 状态,而且将 user 状态融合进 utterance embedding 中。如图11所示,具体来说: 2.1 ...
  • 文章目录 前言 介绍 模型细节 问题符号化 模型结构 注意力模块-Attentive Module 整理表示 Utterance-Response 匹配 Aggregation 实验结果 参数配置 总结 前言 标题:Multi-Turn Response Selection for Chatbots ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,361
精华内容 944
关键字:

utterance