精华内容
下载资源
问答
  • 情感情感与面部表情相结合的多模态情感识别
  • 针对多模态情感特征提取与融合的技术难点,列举了目前应用较广的多模态情感识别数据库,介绍了面部表情和语音情感这两个模态的特征提取技术,重点阐述了多模态情感融合识别技术,主要对多模态情感特征融合策略和融合...
  • 16.4 多模态情感识别

    2021-08-22 21:05:06
    文章目录1、前言2、相关工作文本情感分析图像情感分析多模态情感识别多模态偏移门的模态融合多任务学习3、模型结构多任务学习的多模态共享层多模态情感识别模型单模态情感识别模型数据处理ANNM:多模态注意力网络图像...

    1、前言

    在人类情感交流中, 每个人作为个体, 通过聆听语言、观察表情以及分析语言内容等方式, 感受其他人的情感变化, 识别情感状态信息, 进而进行情感交流。如果想让模型如同人类一样理解情感, 就需要对人类多种情感的表达**(视觉、语音和文本)**进行识别, 让机器具有捕捉多模态情感特征并进行处理, 最后表达出相应人类情感的能力。

    目前, 大多数关于情感识别模型的研究集中在语言(尤其是文本)模态上, 但是单模态文本情感识别存在识别率不够高和鲁棒性差等缺点。多模态情感识别可以有效地利用多种模态识别包含的信息, 捕捉模态之间的互补信息, 从而提升模型的识别能力和泛化能力。在进行模态融合之前, 若能够更好地挖掘视觉和语音模态的情感倾向特征, 则 3 种模态表示之间的任务相关性更强, 也更有助于模态的融合。

    在多模态情感分析领域, 已经提出大量计算模型, 包括张量融合网络 1、记忆融合网络2和多级注意力循环网络3等。传统的多模态情感分析模型通常将单个模态信号建模为独立的向量表示, 通过模态融合, 进行模态之间相互关联的建模, 但是在模态融合前, 缺少对情感特征的提取, 导致模态间的共享情感特征不易被识别。为了解决这一问题, Akhtar 等4提出使用多任务学习框架, 对情绪识别任务和情感识别任务间的关联建模, 通过相关任务之间的关联性, 对不同模态中的情感特征进行提取。

    2、相关工作

    文本情感分析

    广大学者也越来越重视深度学习在文本情感分析中的应用与研究。

    • 文本情感分类:通过卷积等操作显式获取文本的局部和全局的信息,能够快速地处理句子以获取文本特征表达,从而进行分类。
    • 篇章情感分类方法:采用了循环卷积和循环相关操作来计算评价文档中的单词与该评价文档的评价对象之间的相关性权重,并将文档中词向量的加权和作为文档向量的表达﹐从而进行情感分类。
    • 文档级的情感分类:首先利用卷积神经网络或长短时记忆模型学习句子表示,然后利用门控递归神经网络对句子进行自适应编码以获取文档表示。

    图像情感分析

    由于图像的情感是更为抽象主观的,图像情感分析任务相比文本情感分析更为复杂。

    • 基于图像低级特征的方法,采用视觉词袋模型获取的图像特征和颜色分布来预测图像情感。
    • 基于图像中级特征的方法,构建了1200个形容词-名词对(ANP),并以此抽取视觉情感本体,从而对图像进行情感分类。
    • 提高局部区域识别力:采用注意力机制自发检测到图像情感相关的视觉区域,

    多模态情感识别

    多模态机器学习的研究分为模态表示、模态传译、模态对齐、模态融合和联合学习 5 个方面, 多模态情感识别研究主要涉及模态表示、模态对齐、模态融合和联合学习 4 个方面, 当前多集中在模态融合层面。

    模态融合的目的是将不同单模态中提取的信息整合到一个紧凑的多模态表示中。根据融合发生的阶段, 分为早期融合、晚期融合和混合融合。

    • 早期融合指在编码前对多模态的特征进行融合, 是特征层面的融合。由于发生在特征提取阶段, 早期融合能够有效地提取模态间的交互信息, 但可能忽略单模态内的交互信息。较典型的早期融合模型是EF-LSTM3, 该模型将文本、语音和图像 3 种模态的特征表示进行拼接, 得到多模态表示, 再输入LSTM 中进行编码。
    • 晚期融合发生在解码之后, 是决策层面上的融合, 能够提取模态内的交互信息, 但无法提取模态间的交互信息, 常用的方法有平均、投票和加权等。
    • 混合融合则组合了前两种融合方法。由于深度学习方法主要用于特征层的处理, 基于深度学习的模态融合方法大多采用早期融合策略和混合策略。

    在社交媒体多模态数据的情感分析研究中主要有两个挑战。

    • 首先,不同模态数据所包含的情感信息是不同的,在进行多模态数据的情感分析时需要有效地获取各模态数据的情感特征。
    • 其次,不同模态的数据采用不同维度和不同属性的底层特征来表达 。

    与传统的单一模态情感分析相比,多模态情感分析需要正确结合各模态信息的有效方式,以最大化地保存各模态信息与各模态间的交互信息。

    多模态偏移门的模态融合

    Rahman 等5提出的 M-BERT 模型将预训练模型应用在多模态情感识别任务中。与 BERT 不同, M-BERT 在输入层与编码层之间加入模态融合层, 并使用多模态偏移门限机制6 ( MSG), 实现 3 种模态的融合。MSG 通过将词向量分别与视觉、语音模态的特征向量拼接, 用于产生两个模态的门向量, 作为模态融合的权重, 生成偏移向量。偏移向量乘上一个比例因子后与词向量相加, 得到修正后的多模态词向量。

    多任务学习

    多任务学习(multi-task learning, MTL)是机器学习的一个子领域, 其训练过程中包含多个学习任务, 通过利用不同任务间的共性和差异来提高模型的泛化能力和预测准确率。一般来说, 训练不同种类任务需要不同的模型结构, 要实现多任务学习, 就需要实现模型间的参数共享。因此, 多任务学习模型是由多个结构重叠的机器学习模型的组合, 重叠的部分是多个学习任务在反向传播过程中都必须经过的, 称为共享层(shared layers)。

    多任务学习模型的参数共享策略主要有硬共享和软共享两种, 其次还有分层共享(hierarchical sharing)和稀疏共享7 (sparse sharing)等。硬共享是最常见的共享策略, 不同任务共享除输出层外的模型部分。硬共享可以同时训练多个任务的通用表示, 有效地避免由于训练数据较少导致的过拟合风险。软共享策略不直接共享模型结构, 每个任务都有自己的模型和参数, 通过对模型相似部分的参数进行正则化来保证模型的参数相似性。

    3、模型结构

    多任务学习的多模态


    图 1 : 基 于 多 任 务 学 习 的 多 模 态 情 感 识 别 框 架 图1 :基于多任务学习的多模态情感识别框架 1:

    多任务学习的多模态情感识别模型框架如图 1 所示, 模型由以下 3 个部分组成。

    1. 多模态任务共享层: 包括 3 个任务模型共享的部分, 用于学习视频和语音表示, 位于输入层之后, 编码层之前。在训练的过程中, 每一次反向传播都会经过共享层。

    2. 多模态情感识别模型: 是加入了共享层的M-BERT, 除共享层外的部分, 只有在其输入为 3种模态的特征向量时, 才会在反向传播过程中更新参数。

    3. 单模态情感识别模型: 即视频/语音情感识别任务模型, 包括输入层、共享层、编码层和预测层。除共享层外, 只有在输入是任务对应模态的特征向量时, 才会在反向传播过程中更新参数。

    共享层

    在输入层后面加入视觉和语音共享层, 用于学习更适合情感分类任务的视觉/语音表示。图 1中的视觉隐向量和声学隐向量为视觉特征向量 V i V_{i} Vi 和声学特征向量 A i A_{i} Ai 经过共享层后的输出。这里为视频和语音模态分别设置一个线性层作为共享层, 共享层输出的视觉 / / / 声学隐向量 H i v \boldsymbol{H}_{i}^{v} Hiv H i a \boldsymbol{H}_{i}^{a} Hia :
    H i v = W v ⋅ V i + b v H i a = W a ⋅ A i + b a (1) \begin{aligned} &\boldsymbol{H}_{i}^{v}=\boldsymbol{W}_{v} \cdot \boldsymbol{V}_{i}+\boldsymbol{b}_{v} \\ &\boldsymbol{H}_{i}^{a}=\boldsymbol{W}_{a} \cdot \boldsymbol{A}_{\mathrm{i}}+\boldsymbol{b}_{a} \end{aligned}\tag{1} Hiv=WvVi+bvHia=WaAi+ba(1)
    其 中, i = 1 , 2 , … , N , H i v ∈ R d r , H i a ∈ R d a , W v , W a , b V i=1,2, \ldots, N, \boldsymbol{H}_{i}^{v} \in \mathbb{R}^{\mathrm{d}_{\mathrm{r}}}, \boldsymbol{H}_{i}^{a} \in \mathbb{R}^{d_{a}}, \boldsymbol{W}_{v}, \boldsymbol{W}_{a}, b_{V} i=1,2,,N,HivRdr,HiaRda,Wv,Wa,bV​ 和 b a b_{a} ba​ 分 别为视频和语音模态共享层的参数权重 和 偏置, W v ∈ R d 1 × d r , , W a ∈ R d d × d a , b v ∈ R d i , b a ∈ R d a W_{v} \in \mathbb{R}^{d_{1} \times d_{r},}, \boldsymbol{W}_{a} \in \mathbb{R}^{d_{d} \times d_{a}}, \boldsymbol{b}_{v} \in \mathbb{R}^{d_{i}}, \boldsymbol{b}_{a} \in \mathbb{R}^{d_{a}} WvRd1×dr,,WaRdd×da,bvRdi,baRda​​ 。

    当模型的输入为多模态数据时, 进行多模态情感识别训练, 将共享层输出的视觉隐向量和声学隐向量传入MSG 单元, 与词向量一起进行模态融合; 当输入仅为视频/语音模态的数据时, 进行单模态情感识别训练, 学习到的视觉/声学隐向量将传入后续的单模态编码器中, 经过预测层输出情感极性。

    多模态情感识别模型

    使用加入多模态任务共享层的 M-BERT模型作为多模态情感识别模型,共享层的位置在特征输入层与模态融合层之间。模型将长度为 N N N​ 的词序列 ( L 1 , L 2 , ⋯   , L N ) \left(L_{1}, L_{2}, \cdots, L_{N}\right) (L1,L2,,LN)​ 、视觉特征序列 ( V 1 , V 2 , ⋯   , V N ) \left(V_{1}, \quad V_{2}, \cdots, \quad V_{N}\right) (V1,V2,,VN)​ 和声学特征序列 ( A 1 , A 2 , ⋯   , A N ) \left(A_{1}, A_{2}, \cdots, A_{N}\right) (A1,A2,,AN)​​ 作为输入,词序列经BERT 输入层映射为词嵌入序列 ( E 1 , E 2 , ⋯   , E N ) \left(E_{1}, E_{2}, \cdots, E_{N}\right) (E1,E2,,EN) 。多模态情感识别模型的输出为预测的情感得分 y ~ \tilde{y} y~, 计算真实情感得分 y y y 和预测
    情感得分 y ~ \tilde{y} y~ 之间的平均绝对误差 L m \mathcal{L}_{\mathrm{m}} Lm :
    L m = 1 N ∑ i = 1 N ∣ y i − y ~ i ∣ 0 (2) \mathcal{L}_{m}=\frac{1}{N} \sum_{i=1}^{N}\left|y_{i}-\tilde{y}_{i}\right|_{0}\tag{2} Lm=N1i=1Nyiy~i0(2)

    单模态情感识别模型


    图 2 : 单 模 态 情 感 识 别 模 型 图2 :单模态情感识别模型 2
    单模态情感识别模型如图 2 所示, 使用双向LSTM 网络作为单模态编码器。为了准确地捕捉时间序列中的重要信息,加入软注意力机制对 LSTM的每一层输出进行加权求和,并与 LSTM 的最后一层输出拼接,作为预测层的输入。对输入的视觉/语音隐向量序列 H = [ H 1 , H 2 , ⋯   , H N ] H=\left[H_{1}, \quad H_{2}, \cdots, H_{N}\right] H=[H1,H2,,HN]​ 进行如下计算:
    h i = LSTM ⁡ → ( H i ) ⊕ LSTM ⁡ ← ( H i ) A t = h N ⊕ Attn ⁡ ( [ h 1 , h 2 , … , h N ] ) (3) \begin{aligned} \boldsymbol{h}_{i} &=\operatorname{LSTM}_{\rightarrow}\left(\boldsymbol{H}_{i}\right) \oplus \operatorname{LSTM}_{\leftarrow}\left(\boldsymbol{H}_{i}\right) \\ \boldsymbol{A}_{t} &=\boldsymbol{h}_{N} \oplus \operatorname{Attn}\left(\left[\boldsymbol{h}_{1}, \boldsymbol{h}_{2}, \ldots, \boldsymbol{h}_{N}\right]\right) \end{aligned}\tag{3} hiAt=LSTM(Hi)LSTM(Hi)=hNAttn([h1,h2,,hN])(3)
    其中, h i ∈ R 2 d n \boldsymbol{h}_{i} \in \mathbb{R}^{2 d_{n}} hiR2dn​ 为双向 LSTM 在 i i i​ 时刻输出的拼接向量, A t ∈ R 4 d h \boldsymbol{A}_{t} \in \mathbb{R}^{4 d_{h}} AtR4dh​ 为输出的拼接向量, d h d_{h} dh​ 为 LSTM 的隐向量维度。

    注意力Attn计算请看: 5.1注意力机制 Attention is all you need

    模型的预测层为一个多层感知机, A t A_{t} At 经过计算,得到预测的情感得分。多层感知机由 3 个线性层组成,两次线性变化之间会
    经过一次激活函数计算,使用ReLU激活函数。

    单模态情感识别任务的损失值计算方法 , L v \mathcal{L}_{\mathrm{v}} Lv L a  \mathcal{L}_{\text {a }} L 分别表示视觉和声学的情感识别任务损失。在训练过程中,不对损失值进行求和,而是分别进行训练。

    数据处理

    实验数据选用 MOSI 数据集和 MOSEI 数据集。MOSI 数据集是于 2016 年发布的多模态情感分析数据集, 包含2198 条视频片段, 视频内容为 YouTube 上的单镜头评论录像, 还包含每条短视频录制者说话内容的文本。MOSEI 是 2018 年发布的大规模情感及情绪分析数据集, 内容同样来自 YouTube, 包含 22856 条视频片段。MOSI 和 MOSEI 数据集的每条视频片段都包含一个位于[–3, 3]区间的情感得分, 数值越大, 正面情感极性越强。

    两个数据集的文本被映射为GloVe词向量序列, 每个词向量的尺寸为 300。使用 Facet 面部分析工具, 从视频画面提取一组特征, 包括面部标记、面部动作单元、头部姿势、视线轨迹和 HOG 特征等, 从 MOSI 提取的每一帧的特征向量尺寸为 47, MOSEI 为 35。

    使用 COVAREP 声学分析工具, 从语音提取包括 12 个梅尔倒谱系数(MFCCs)、音高跟踪和浊音/清音分割特征、声门源参数、峰值斜率参数和最大色散商等在内的低级的声学特征, 每一帧的特征向量尺寸为 74。表 1列出两个数据集的详细统计数据。

    img
    表 1 M O S I 和 M O S E I 数 据 集 的 统 计 信 息 表1 MOSI和MOSEI数据集的统计信息 1MOSIMOSEI
    由于 BERT 使用字节对编码(byte pair enco-der, BPE)的分词方法, 在进行模态对齐时, 需要对被拆分的单词重新进行模态对齐。对拆分后多出来的 token, 使用填充 0(zero)、复制(copy)和复制后平均(mean) 3 种方法来补充其对应的视觉和语音模态数据。图 3 展示文本“[CLS] no no he##s un ##fu ##nn ##y not funny at all [SEP]”分别用3种方法对齐后的形式。

    图 3 : 3 种 模 态 填 充 方 式 图3 :3种模态填充方式 3:3
    选取binary accuracy, 、加权平均的F1 值(weighted average F1-score, w-f1)、平均绝对误差(mean absolute error, MAE)和皮尔逊相关系数(Pearson correlation coefficient, Corr)作为性能评价指标。

    ANNM:多模态注意力网络

    为了能够更有效地获取各模态的情感特征表示和模学习到模态间的交互信息,采用基于注意力机制的方法来构建多模态情感分析模型。ANNM模型的整体结构如图4所示。首先提出了两个基于注意力机制的单模态特征提取模型﹐分别用于获取图像和文本的情感特征,然后采用张量融合的策略来获得多模态联合特征表示,从而进行情感分类。

    image-20210822152156557
    图 4 : 基 于 注 意 力 神 经 网 络 的 多 模 态 情 感 分 析 模 型 的 结 构 图4:基于注意力神经网络的多模态情感分析模型的结构 4:

    图像特征提取

    图像的情感信息通常与视觉区域的某一部分联系得更紧密﹐如图 5(a)所示﹐人物悲伤的表情比图像中的其他部分更能引起人们的情感共鸣,是图像情感信息更相关区域。因此﹐提取图像特征时,应突出图5( a)中人物表情这一局部特征减弱其他部分的影响。对图像进行有侧重的信息提取﹐使得特征表达更精炼,模型的计算效率更高。

    image-20210822152657251
    图 5 : 图 文 数 据 示 例 图 5:图文数据示例 5:

    综合考虑通道域注意力和空间域注意力的权重计算方法。对于每一次卷积计算后产生的多个特征图,模型需要知道哪个特征图应该更重视,特征图的哪一个部分包含的信息更多。因此,注意力权重计算主要分为两部分:

    1. 对各个特征图的权重进行计算;
    2. 对特征图局部权重进行计算。

    图像特征提取使用注意力机制的卷积神经网络(Convolutional Neural Networks with attention, C N N a \mathrm{CNNa} CNNa ),如图6所示。注意力权重的计算方法对卷积层输出的特征图进行注意力加权计算。共有13个卷积层﹐每个卷积核大小为3×3,每一个卷积步骤都经历了卷积、注意力权重计算以及特征图加权计算3个步骤计算得到最终的注意力特征图。然后,将得到的注意力特征图输入到下一个卷积步骤继续计算。最后,将最终卷积步骤的输出通过全连接层来获取图像情感特征向量。

    image-20210822154055305
    图 6 : 图 像 特 征 提 取 网 络 结 构 图6:图像特征提取网络结构 6:
    I = { I 1 , I 2 , ⋯   , I i , ⋯   , I n } I=\left\{I_{1}, I_{2}, \cdots, I_{i}, \cdots, I_{n}\right\} I={I1,I2,,Ii,,In}​ 表示数量为 n n n​ 的图像数据集。 C N N a \mathrm{CNNa} CNNa​完成了 C N N a ( I ) → V i \mathrm{CNNa}(I) \rightarrow V_{i} CNNa(I)Vi​ 的特征映射。将图片输入 C N N a \mathrm{CNNa} CNNa​ 模型,获取图像特征向量 V i V_{i } Vi 。​ 图 6中, F i l F_{i l} Fil​ 表示第 i i i​ 张图片经过第 l l l​ 层卷积层后所得到的特征图(Feature Map)。 F i l ′ F_{i l}^{\prime} Fil​​ 为经注意力加权后得到的注意力特征图。

    其中 F i l , F ′ i l ∈ R c × H × W , C F_{i l}, F^{\prime}{ }_{i l} \in \mathbb{R}^{c \times H \times W}, C Fil,FilRc×H×W,C 为通道数, H H H 为特征图的长, W W W 为特征图的宽。 A i l A_{i}^{l} Ail 为第 i i i 个图像的第 l l l 个特征图的注意力权重,其表达式如下:
    A i l = { α i l c , α i l s } (4) A_{i}^{l}=\left\{\alpha_{i l}^{c}, \alpha_{i l}^{s}\right\}\tag{4} Ail={αilc,αils}(4)
    其中, α i l c \alpha_{i l}^{c} αilc 为第 i i i 个图像的第 l l l 个特征图的通道注意力权重。而 α i l s \alpha_{i l}^{s} αils 为第 i i i 个图像的第 l l l 个特征图的空间注意力权重。通道注意力体现了经过卷积后的特征图的每个特征图对于关键信息的贡献大小。通道注意力权重 α i l c \alpha_{i l}^{c} αilc 的计算公式如下:
    α i l c = σ ( W 1 ( W 0 (  global  a v g ( F i l ) ) ) + W 1 ( W 0 ( g lobal ⁡ max ⁡ ( F i l ) ) ) ) (5) \begin{aligned} \alpha_{i l}^{c}=& \sigma\left(W_{1}\left(W_{0}\left(\text { global }_{\mathrm{avg}}\left(F_{i l}\right)\right)\right)+W_{1}\left(W _ { 0 } \left(g \operatorname{lobal}_{\max }\right.\right.\right. \left.\left.\left.\left(F_{i l}\right)\right)\right)\right) \end{aligned}\tag{5} αilc=σ(W1(W0( global avg(Fil)))+W1(W0(globalmax(Fil))))(5)
    其中, g l o b a l avg  global_{\text {avg }} globalavg  (・)表示全局平均池函数,计算每个特征图的所有特征点的平均值,所得结果特征空间为 R c × 1 × 1 \mathbb{R}^{c \times 1 \times 1} Rc×1×1, 其中 C C C为特征图数 ; ; ; g l o b a l max ⁡ ( ・ ) global_{\max } (・) globalmax() 表示全局最大池化函数,计算每个特征图的最大特征值, 所得结果特征空间为 R C × 1 × 1 \mathbb{R}^{C \times 1 \times 1} RC×1×1, 其中 C C C为特征图的通道数; σ ( \sigma( σ( ・) 为 sigmoid 函数, 将结果映射到 [ 0 , 1 ] [0,1] [0,1], 以 获 得 标准的通道 注意力权 重;通道 注意力权重 α i i c ∈ R C × 1 × 1 , C \alpha_{i i}^{c} \in \mathbb{R}^{C \times 1 \times 1}, C αiicRC×1×1,C 为特征图数。在式(5)中, W 1 , W 0 W_{1}, W_{0} W1,W0​ 是该神经网络中的参数。

    空间注意力权重体现了图片局部区域对关键信息的贡献大小,能够找出图片信息中需要被关注的区域。空间注意力权重 α i l s \alpha_{i l}^{s} αils​ 的计算公式如下:
    α i l s = σ ( f 7 × 7 ( [ avg ⁡ ( α i l c ⊙ F i t ) , max ⁡ ( α i l c ⊙ F i t ) ] ) ) (6) \alpha_{i l}^{s}=\sigma\left(f^{7 \times 7}\left(\left[\operatorname{avg}\left(\alpha_{i l}^{c} \odot F_{i t}\right), \max \left(\alpha_{i l}^{c} \odot F_{i t}\right)\right]\right)\right)\tag{6} αils=σ(f7×7([avg(αilcFit),max(αilcFit)]))(6)
    其中, ⊙ \odot 表示逐元素相乘 ; a v g ( ⋅ ) ; a v g(\cdot) ;avg() 为平均池化函数,沿着通道轴对特征点求平均值,输出结果的特征空间为 R 1 × H × W \mathbb{R}^{1 \times H \times W} R1×H×W

    max ⁡ ( ⋅ ) \max (\cdot) max() 为最大池化函数,沿着通道轴对求最大值,输出结果的特征空间为 R 1 × H × W 。 avg ⁡ ( \mathbb{R}^{1 \times H \times W} 。 \operatorname{avg}( R1×H×Wavg( ・) 和 max ⁡ ( \max ( max( ・) 实现了对特征图的信息的聚合, 同时减少了计算量。 [・]表示拼接操作, 输出结果向量空间为 R 2 × H × W 。 f 7 × 7 ( ⋅ ) \mathbb{R}^{2 \times H \times W} 。 f^{7 \times 7}(\cdot) R2×H×Wf7×7() 为卷积运算,通过卷积计算来获取特征图不同局部区域对关键信息的影响力。卷积核大小为 7 × 7 7 \times 7 7×7 f 7 × 7 ( f^{7 \times 7}( f7×7( ・) 的输出结果的特征空间为 R 1 × H × W 。 σ ( \mathbb{R}^{1 \times H \times W} 。\sigma( R1×H×Wσ( ・) 为 sigmoid 函数,将结果映射到 ( 0 , 1 ) (0,1) (0,1) 以获得标准的空间注意力权重。

    注意力特征图的计算公式如下:
    F i l ′ = F i l ⊙ α i l c ⊙ α i l s (7) F_{i l}^{\prime}=F_{i l} \odot \alpha_{i l}^{c} \odot \alpha_{i l}^{s}\tag{7} Fil=Filαilcαils(7)
    最后将注意力特征图作为下一个卷积层的输入继续计算。将最终卷积结构的输出经过一个全连接层转换为一维向量,即最终的图像特征表示 V i V_{i } Vi​。​​

    文本特征提取

    在文本的情感分类任务中,文本的情感信息往往与某些单词更相关。如‘cry’ ’ damaged’‘killed’等词比‘house’‘ vil-lage’等词更能体现文本所传达出来的情感。因此,在对文本进行特征提取的过程中应该要增大关键词的影响力

    文本特征提取网络中使用双向门控循环单元(Bi-GRU)来构建基于注意力的文本特征提取网络。并对 Bi-GRU层的输出进行加权以突出关键部分的影响力,从而获得更精确的文本特征表达。文本特征提取网络结构如图7所示。

    image-20210822160514302
    图 7 : 文 本 特 征 提 取 网 络 结 构 图7:文本特征提取网络结构 7:
    3.2 LSTM和GRU循环神经网络

    T = { t 1 , t 2 , ⋯   , t n } T=\left\{t_{1}, t_{2}, \cdots, t_{n}\right\} T={t1,t2,,tn} 为大小为 n n n 的文本记录。将单词嵌入向量空间第 i i i 个文本的第 t t t 个单词的词向量,用 $w_{it} $ 表示, 第 i i i 个文本可以表示为 { w i 1 , w i 2 , ⋯   \left\{w_{i 1}, w_{i 2}, \cdots\right. {wi1,wi2,, w i t , ⋯   , w i L } \left.w_{i t}, \cdots, w_{i L}\right\} wit,,wiL}, 其中 L L L​ 为文本长度。单门控循环单元 GRU 的计算过程如下:
    r t = σ ( W r [ h t − 1 , w i t ] + b r ) z t = σ ( W z [ h t − 1 , w i t ] + b z ) h ~ t = tanh ⁡ ( W h ˉ t [ r t ∗ h t − 1 , w i t ] + b h ˉ t ) h t = ( 1 − z t ) ∗ h t − 1 + z t ∗ h t ~ (8) \begin{aligned} &r_{t}=\sigma\left(W_{r}\left[h_{t-1}, w_{i t}\right]+b_{r}\right) \\ &z_{t}=\sigma\left(W_{z}\left[h_{t-1}, w_{i t}\right]+b_{z}\right) \\ &\tilde{h}_{t}=\tanh \left(W_{\bar{h}_{t}}\left[r_{t} * h_{t-1}, w_{i t}\right]+b_{\bar{h}_{t}}\right) \\ &h_{t}=\left(1-z_{t}\right) * h_{t-1}+z_{t} * \tilde{h_{t}} \end{aligned}\tag{8} rt=σ(Wr[ht1,wit]+br)zt=σ(Wz[ht1,wit]+bz)h~t=tanh(Whˉt[rtht1,wit]+bhˉt)ht=(1zt)ht1+ztht~(8)
    其中, [ ⋅ ] [\cdot] [] 表示两个向量相连接, *表示对应元素相乘。 z t z_{t} zt 为更新门、 r t r_{t} rt 为重置门。 tanh ⁡ ( \tanh \left(\right. tanh( ・) 是激活函数 。 W r , W z , W h ˉ 1 。 W_{r}, W_{z}, W_{\bar{h}_{1}} Wr,Wz,Whˉ1 皆为参数,需要训练得到。在 B i − G R U \mathrm{Bi}-\mathrm{GRU} BiGRU 神经网络中,将词向量 { w i 1 , w i 2 , ⋯   , w i t } \left\{w_{i 1}, w_{i 2}, \cdots, w_{i t}\right\} {wi1,wi2,,wit} 按正向输入得到对应的前向隐藏层输出 { h i 1 → , h i 2 → , ⋯   , h i t → } 。  \left\{\overrightarrow{h_{i 1}}, \overrightarrow{h_{i 2}}, \cdots, \overrightarrow{h_{i t}}\right\}_{\text {。 }} {hi1 ,hi2 ,,hit }  前向隐藏层输出 h i t → \overrightarrow{h_{i t}} hit ​ 的计算如下:
    h i t → = G R U ( h i ( t − 1 ) → , w i t ) (9) \overrightarrow{h_{i t}}=G R U\left(\overrightarrow{h_{i(t-1)}}, w_{i t}\right)\tag{9} hit =GRU(hi(t1) ,wit)(9)
    而将词向量 { w i 1 , w i 2 , ⋯   , w i t } \left\{w_{i 1}, w_{i 2}, \cdots, w_{i t}\right\} {wi1,wi2,,wit}​ 按反向输人得到对应的后向隐 藏层输出 { h i 1 ← , h i 2 ← , ⋯   , h i t ← } \left\{\overleftarrow{h_{i 1}}, \overleftarrow{h_{i 2}}, \cdots, \overleftarrow{h_{i t}}\right\} {hi1 ,hi2 ,,hit }​ 。反向传播状态信息输出 h i t h_{i t} hit​ 的计算如下:
    h i t ← = G R U ( h i ( t − 1 ) ← , w i t ) (10) \overleftarrow{h_{i t}}=G R U\left(\overleftarrow{h_{i(t-1)}}, w_{i t}\right)\tag{10} hit =GRU(hi(t1) ,wit)(10)
    由前向隐藏层输出 h i t → \overrightarrow{h_{i t}} hit 与反向隐藏层输出 h i t h_{i t} hit, 通过拼接操作得到 B i − G R U \mathrm{Bi}-\mathrm{GRU} BiGRU 网络的输出 h i t h_{i t} hit, 其计算式如下:
    h i t = [ h i t → , h i t ← ] (11) h_{i t}=\left[\overrightarrow{h_{i t}}, \overleftarrow{h_{i t}}\right]\tag{11} hit=[hit ,hit ](11)
    所得到的 h i t h_{i t} hit 可以看作是第 t t t​ 个单词,包含了上下文信息的表示。与计算视觉注意力相似,文本注意力权重是单词对于文本情绪分类的相关程度的衡量。
    y i t = tanh ⁡ ( W o ⋅ h i t ) β i t = exp ⁡ ( y i t T A w ) ∑ t exp ⁡ ( y i t T A w ) (12) \begin{aligned} &y_{i t}=\tanh \left(W_{o} \cdot h_{i t}\right) \\ &\beta_{i t}=\frac{\exp \left(y_{i t}^{\mathrm{T}} A_{w}\right)}{\sum_{t} \exp \left(y_{i t}^{\mathrm{T}} A_{w}\right)} \end{aligned}\tag{12} yit=tanh(Wohit)βit=texp(yitTAw)exp(yitTAw)(12)
    首先将 h i t h_{i t} hit​ 输人一层隐藏层, 并用 tanh ⁡ \tanh tanh​ 函数激活得到 y i t y_{i t} yit​ 。 W o W_{o} Wo​ 为隐藏层参数。 将 A w A_{w} Aw​​ 称为上下文向量,其可以看作是一个关键信息词的查询的向量,它被添加到文本特征提取网络中联合训练得到,能在训练中自主学习信息。将词表示 y i t y_{i t} yit​ 与 A w A_{w} Aw​ 的点积通过 softmax ⁡ \operatorname{softmax} softmax​ 函数归一化得到标准化的注意力权重。

    对隐藏层输出加权求和得到文本特征表示 T i T_{i} Ti​, 其计算过程如下:
    T i = ∑ t β i t h i t (13) T_{i}=\sum_{t} \beta_{i t} h_{i t}\tag{13} Ti=tβithit(13)

    多模态融合

    张量是多向阵列,可看作向量、矩阵的高阶扩展 , 其维度被称为张量的阶。向量是一阶张量,矩阵是二阶的张量。 对于 x x x​ 阶张量 A ∈ R N 1 × ⋯ × N x , \boldsymbol{A} \in \mathbb{R}^{N_{1}\times \cdots \times N_x } {,} ARN1××Nx,​与 y y y​ 阶张量 B ∈ R M 1 × ⋯ × M y \boldsymbol{B} \in \mathbb{R}^{M_{1} \times \cdots \times M_{y}} BRM1××My​ 之间的张量积为 A ⊗ B ∈ R N 1 × ⋯ × N x × M 1 × ⋯ × M y A \otimes B \in \mathbb{R}^{N_{1} \times \cdots \times N_{x} \times M_{1} \times \cdots \times M_{y}} ABRN1××Nx×M1××My​​.

    一阶张量 C ∈ R n \boldsymbol{C} \in \mathbb{R}^{n} CRn​ 与一阶张量 m ∈ R m m \in \mathbb{R}^{m} mRm​​ 的张量积计算如式(14) 所示:
    ( C ⊗ D ) i , j = c i d j (14) (\boldsymbol{C} \otimes \boldsymbol{D})_{i, j}=c_{i} d_{j}\tag{14} (CD)i,j=cidj(14)
    采用张量融合方法 对图像特征 V i = { v 1 , v 2 , ⋯   , V_{i}=\left\{v_{1}, v_{2}, \cdots,\right. Vi={v1,v2,,​, v n } \left.v_{n}\right\} vn}​ 和文本特征 T i = { t 1 , t 2 , ⋯   , t n } T_{i}=\left\{t_{1}, t_{2}, \cdots, t_{n}\right\} Ti={t1,t2,,tn}​ 进行融合。第 i i i​ 个图文数据对的联合特征记作 U i U_{i} Ui​, 其计算式如下:
    U i = [ V i , 1 ] ⊗ [ T i , 1 ] U i = [ v 1 ⋅ t 1 v 1 ⋅ t 2 ⋯ v 1 ⋅ t n v 1 v 2 ⋅ t 1 v 2 ⋅ t 2 ⋯ v 2 ⋅ t n v 2 ⋮ ⋮ ⋮ ⋮ v n ⋅ t 1 v n ⋅ t 2 ⋯ v n ⋅ t n v n t 1 t 2 ⋯ t n 1 ] (15) \begin{aligned} U_{i} &=\left[V_{i}, 1\right] \otimes\left[T_{i}, 1\right] \\ U_{i} &=\left[\begin{array}{ccccc} v_{1} \cdot t_{1} & v_{1} \cdot t_{2} & \cdots & v_{1} \cdot t_{n} & v_{1} \\ v_{2} \cdot t_{1} & v_{2} \cdot t_{2} & \cdots & v_{2} \cdot t_{n} & v_{2} \\ \vdots & \vdots & & \vdots & \vdots \\ v_{n} \cdot t_{1} & v_{n} \cdot t_{2} & \cdots & v_{n} \cdot t_{n} & v_{n} \\ t_{1} & t_{2} & \cdots & t_{n} & 1 \end{array}\right] \end{aligned}\tag{15} UiUi=[Vi,1][Ti,1]=v1t1v2t1vnt1t1v1t2v2t2vnt2t2v1tnv2tnvntntnv1v2vn1(15)
    在式(14 )、式(15)中, ⊗ \otimes 为求张量积运算。 [ . ] [.] [.]表示拼接操作。首先在每个单模态特征的末尾增加一个值为1 的特征点再进行张量积计算。使得在联合特征 U i U_{i} Ui 中, 不仅包含了图像与文本的模态交互信息,还包含了各单模态特征信息。最后为了便于计算,将 U i U_{i} Ui 转换成为向量表示来进行情感分类。

    张量融合的优点不仅在于能够充分获取模态间的交互信息,还在于能很容易地拓展到更多模态的融合,使得算法的应用性更广,然而也更容易造成冗余,所需计算量也更大。

    联合特征向量 U i U_{i} Ui 的向量维度仍然较大, 除了包含图文多模态数据关键的交互信息,还包含许多冗余了信息,这些允余信息对情感分类任务的作用小,还增加了分类器的计算量。因此,首先采用主成分分析方法(PCA)对联合特征进行降维,以减小冗余信息造成的误差,减少计算量,然后再运用支持向量机(SVM)进行情感分类。相比其他分类器, SVM 对于高维度的输入数据和大量的样本均具有良好的适应性,是有着良好泛化能力的预测工具。

    计算式如下:
     label  = SVM ⁡ ( P C A ( U ) ) (16) \text { label }=\operatorname{SVM}(P C A(\boldsymbol{U}))\tag{16}  label =SVM(PCA(U))(16)
    其中, U \boldsymbol{U} U 为图文数据的联合特征矩阵。
    U = [ U 1 ⋮ U n ] (17) \boldsymbol{U}=\left[\begin{array}{c} U_{1} \\ \vdots \\ U_{n} \end{array}\right]\tag{17} U=U1Un(17)

    MMMU-BA:多模态多话语双模态注意框架

    MMMU-BA利用多模态和语境信息来预测话语的情感。视频中特定说话者的话语代表时间序列信息,并且合乎逻辑的是,特定话语的情感会影响其他相邻话语的情感。为了模拟相邻话语和多模态之间的关系,使用递归神经网络的多模态注意框架。

    MMMU-BA为一系列话语提取多模态信息(即文本、视觉和听觉),并将其输入三个独立的双向门控循环单元(GRU) 。接下来是一个密集层全连接的操作,在时间步或话语之间共享(文本、视觉和听觉各一个)。然后,对密集层的输出应用多模态注意。

    目标是学习多种模态和话语之间的联合,并通过更多地关注这些来获得重要特征。特别地,采用了双模态注意框架,其中注意函数被应用于两两模态的表示,即视觉-文本、文本-听觉和听觉-视觉。最后,成对关注的输出和表示被连接并传递到softmax层进行分类。图8展示了所提出的MMMU-BA框架的总体架构。关于注意力计算的说明,请参见图9。

    image-20210822163743517
    图 8 : M M M U − B A 框 架 的 总 体 架 构 图8:MMMU-BA框架的总体架构 8:MMMUBA

    image-20210822163700589
    图 9 : M M M U − B A 注 意 力 计 算 过 程 图9:MMMU-BA注意力计算过程 9MMMUBA
    为了进行比较,还对MMMU-BA框架 进行另外两个变体,多模态单话语自我注意*(MMUU-SA)* 框架和多话语自我注意框架*(MU-SA)* f。这些变体的体系结构在注意力计算模块方面有所不同,命名惯例“MMMU”、“MMU”或“MU”表示参与注意力计算的信息。例如,在MMMU-BA中,通过多模态和多话语输入计算注意力,而在MMUU-SA中,注意力是通过多模态但单话语输入计算的。

    MMMU-BA框架

    假设一个特定的视频有“u”个话语,原始话语级别的多模态特征被表示为 T R ∈ R u × 300 ( T_{R} \in \mathbb{R}^{u \times 300}( TRRu×300(​​ 原始文本 ) , V R ∈ R u × 35 ), V_{R} \in \mathbb{R}^{u \times 35} ),VRRu×35​​(原始视觉) A R ∈ R u × 74 A_{R} \in \mathbb{R}^{u \times 74} ARRu×74​​ (原始听觉). 具有前向和后向状态连接的三个分离的双GRU层首先被应用于紧接着完全连接的密集层,产生 T ∈ R u × d ( T \in \mathbb{R}^{u \times d}( TRu×d(​​ 文本 ) , V ∈ R u × d ), V \in \mathbb{R}^{u \times d} ),VRu×d​​ (视觉) and A ∈ R u × d A \in \mathbb{R}^{u \times d} ARu×d​​ (听觉), 其中“d”是密集层中的神经元数量。最后,在三种模态的不同组合 ( V , T ) , ( T , A ) & ( A , (V, T),(T, A) \&(A, (V,T),(T,A)&(A,​​, V V V​​ ). 上计算成对注意 。特别地, V V V​和 T T T​之间的关注度计算如下:

    • 双模态注意: V & T V \& T V&T的情态表征来自Bi-GRU网络,因此包含了每个情态下话语的语境信息。首先,计算一对匹配矩阵 M 1 , M 2 ∈ R u × u M_{1}, M_{2} \in \mathbb{R}^{u \times u} M1,M2Ru×u上的两个表示来解释交叉模态信息。
      M 1 = V ⋅ T T & M 2 = T . V T M_{1}=V \cdot T^{T} \quad \& \quad M_{2}=T . V^{T} M1=VTT&M2=T.VT

    • 多话语注意:如前所述,在提出的模型中,旨在利用每个话语的上下文信息进行预测。使用SoftMax函数计算双模注意矩阵 M 1 M_{1} M1 & M 2 M_{2} M2每句话的概率分布分数 ( N 1 ∈ R u × u & N 2 ∈ R u × u ) \left(N_{1} \in \mathbb{R}^{u \times u} \& N_{2} \in \mathbb{R}^{u \times u}\right) (N1Ru×u&N2Ru×u) 。这 实质上是计算上下文句子的注意力权重。最后,在多模态多话语注意矩阵上应用软注意来计算模态注意表示(即 O 1 & O 2 O_{1} \& O_{2} O1&O2)。
      N 1 ( i , j ) = e M 1 ( i , j ) ∑ k = 1 u e M 1 ( i , k )  for  i , j = 1 , . . , u N 2 ( i , j ) = e M 2 ( i , j ) ∑ k = 1 u e M 2 ( i , k )  for  i , j = 1 , . . , u . O 1 = N 1 ⋅ T & O 2 = N 2 ⋅ V \begin{aligned} N_{1}(i, j) &=\frac{e^{M_{1}(i, j)}}{\sum_{k=1}^{u} e^{M_{1}(i, k)}} \text { for } i, j=1, . ., u \\ N_{2}(i, j) &=\frac{e^{M_{2}(i, j)}}{\sum_{k=1}^{u} e^{M_{2}(i, k)}} \text { for } i, j=1, . ., u . \\ O_{1} &=N_{1} \cdot T \quad \& \quad O_{2}=N_{2} \cdot V \end{aligned} N1(i,j)N2(i,j)O1=k=1ueM1(i,k)eM1(i,j) for i,j=1,..,u=k=1ueM2(i,k)eM2(i,j) for i,j=1,..,u.=N1T&O2=N2V

    • 乘法门控&连接:最后,在每个单独模态和其他模态的多模态话语具体表征之间计算乘法门控函数。这种元素矩阵乘法有助于注意多种形式和话语的重要组成部分。
      A 1 = O 1 ⊙ V & A 2 = O 2 ⊙ T A_{1}=O_{1} \odot V \quad \& \quad A_{2}=O_{2} \odot T A1=O1V&A2=O2T
      然后将注意矩阵 A 1 & A 2 A_{1} \& A_{2} A1&A2连接起来,得到 V V V T T T之间的 M M M U − B A V T ∈ R u × 2 d M M M U-B A_{V T} \in \mathbb{R}^{u \times 2 d} MMMUBAVTRu×2d
      M M M U − B A V T = concat ⁡ [ A 1 , A 2 ] M M M U-B A_{V T}=\operatorname{concat}\left[A_{1}, A_{2}\right] MMMUBAVT=concat[A1,A2]

    M M M U − B A A V & M M M U − B A T A M M M U-B A_{A V} \& M M M U-B A_{T A} MMMUBAAV&MMMUBATA 计算:

    计算类似于 M M M U − B A V T M M M U-B A_{V T} MMMUBAVT。对于由原始视觉 ( V R ) \left(V_{R}\right) (VR),声学 ( A R ) & \left(A_{R}\right) \& (AR)&和文本 ( T R ) \left(T_{R}\right) (TR) 构成的数据源,首先,计算每个组合的双模态注意对,即 M M M U − B A V T , M M M U − M M M U-B A_{V T}, M M M U_{-} MMMUBAVT,MMMU B A A V B A_{A V} BAAV & M M M U − B A T A M M M U-B A_{T A} MMMUBATA. 最后,受残差跳跃连接网络(residual skip connection network)的激励,将双模态注意力对与单个模态(即, V , A & T V, A \& T V,A&T)连接起来,以增强到较低层的梯度流。然后,该串联特征用于最终分类。

    MMUU-SA框架

    M M U U − s A M M U U- s A MMUUsA框架并没有在注意水平上解释来自其他话语的信息,而是利用单个话语的多模态信息来预测情绪。对于一个有“ q q q”话语的视频,需要“ q q q”单独的注意块,每个块计算单个话语的多模态信息的自我注意。设 X u p ∈ R 3 × d X_{u_{p}} \in \mathbb{R}^{3 \times d} XupR3×d p t p^{t} pt话语的信息矩阵,其中三个’ d d d​ '维行是三种模式的稠密层的输出。

    将注意矩阵 A u p ∈ R 3 × d A_{u_{p}} \in \mathbb{R}^{3 \times d} AupR3×d分别计算为: p = 1 st  , 2 nd  , … q t h \mathrm{p}=1^{\text {st }}, 2^{\text {nd }}, \ldots q^{t h} p=1st ,2nd ,qth utterances。最后,对于每个语句 p , A u p p, A_{u_{p}} p,Aup X u p X_{u_{p}} Xup​​被连接并传递到输出层进行分类。

    MU-SA框架

    M U − S A M U-S A MUSA 框架中,分别将自我注意应用于每个模态的话语中,并以此进行分类。相对于 M M U U − S A M M U U-S A MMUUSA 框架, M U − S A M U-S A MUSA 在注意水平上利用了话语的语境信息。为密集层的输出。对于三种模式,需要三个独立的注意块,每个块获取单个模态的多话语信息,并计算自我注意矩阵。分别计算了文本、视觉和听觉的注意矩阵 A t 、 A v A_{t}、A_{v} AtAv A a A_{a} Aa 。最后将 A v , A t , A a A_{v}, A_{t}, A_{a} AvAtAa v , t & a v, t \& a v,t&a 连接到输出层进行分类。

    MTMM-ES:多任务多模态emotion识别与sentiment分析

    相关任务通常相互依赖,在联合框架中解决时会表现得更好。多任务学习框架,共同执行情感和情感分析。视频的多模态输入(即文本、声音和视觉框架)传达了多样化和独特的信息,通常在决策中没有同等的贡献。使用上下文层面的跨模态注意框架,用于同时预测话语的情绪和表达的情绪。

    如前所述,一个视频由一系列的话语组成,它们的语义往往是相互依赖的。

    • 如算法1MTMM-ES:使用三个双向门控循环单元(biGRU)网络来捕获上下文信息(即每个模态一个)。
    • 随后,引入双模态间注意机制(visual-text, text-acousticacoustic-visual )来学习多种模态与话语之间的联合联系。目的是通过更多地关注各自的话语和相邻的话语来突出其主要特征
    • 在残差 skip connection 的推动下,成对注意的输出以及单个模态的表征被连接起来。
    • 最后,在网络的两个分支中共享连接表示——对应于两个任务,即用于预测的sentiment和emotion分类(在多任务框架中,每个任务一个)。sentiment分类分支包含一个用于最终分类的softmax层(即正面分类),而对于emotion分类,使用sigmoid层。

    共享表示将从两个分支接收误差梯度(sentiment & emotion),并相应地调整模型的权重。因此,共享表示不会偏向任何特定的任务,它将帮助模型实现对多个任务的泛化。

    上下文多模态(CIM)注意框架

    上下文多模态注意框架适用于一对模态

    image-20210822203911267
    算 法 1 算法1 1
    分别在图10和算法1中说明和总结了CIM的方法。

    首先,通过计算一对匹配矩阵 M 1 , M 2 ∈ R u × u M_{1}, M_{2} \in \mathbb{R}^{u \times u} M1M2Ru×u来获取跨模态信息,其中 u u u为视频中的话语数。此外,为了获取上下文相关性,使用softmax函数计算跨模态矩阵 M 1 , M 2 M_{1}, M_{2} M1M2中每句话的概率分布分数 ( N 1 , N 2 ∈ R u × u ) \left(N_{1}, N_{2} \in \mathbb{R}^{u \times u}\right) (N1,N2Ru×u)。这基本上是计算上下文话语的注意力权重。随后,对上下文多模态矩阵应用软注意,计算模态注意表示 ( O 1 & O 2 ) \left(O_{1} \& O_{2}\right) (O1&O2)。最后,引入了一种乘数门控机制 ( A 1 & A 2 ) \left(A_{1} \& A_{2}\right) (A1&A2),以参与多种形态和话语的重要组成部分。然后, A 1 & A 2 A_{1} \& A_{2} A1&A2的连接注意矩阵作为语境间模态注意框架的输出。整个过程对每一种成对的模态重复,即visual-text, text-acousticacoustic-visual

    image-20210822204123261
    图 9 : 总 体 架 构 。 视 觉 模 态 与 文 本 模 态 之 间 的 语 境 间 模 态 ( C I M ) 注 意 计 算 。 图9:总体架构。视觉模态与文本模态之间的语境间模态(CIM)注意计算。 9(CIM)

    参考

    一种基于多任务学习的多模态情感识别方法

    基于注意力神经网络的多模态情感分析

    Contextual Inter-modal Attention for Multi-modal Sentiment Analysis

    Multi-task Multi-modal Emotion Recognition and Sentiment Analysis


    1. Tensor fusion net-work for multimodal sentiment analysis ↩︎

    2. Memory fusion network for multi-view sequential learning ↩︎

    3. Multi-attention recurrent network for human communication compre-hension ↩︎ ↩︎

    4. Akhtar M S, Chauhan D S, Ghosal D, et al. Multi-task learning for multi-modal emotion recognition and sentiment analysis ↩︎

    5. M-BERT: injecting multimodal information in the BERT struc-ture ↩︎

    6. Words can shift: dynamically adjusting word representations using nonverbal behaviors ↩︎

    7. Learning sparse sharing architectures for multiple tasks ↩︎

    展开全文
  • 行业分类-作业装置-多模态情感识别方法.7z
  • 基于深度模态融合网络的多模态情感识别,陈坤,夏海轮,情感识别在情感计算领域是一个具有挑战性的课题,因为从音视频多模态数据中提取出具有判别性的特征来识别人类情感中的细微差距仍
  • 多模态情感分析研究综述》 引言: 多模态情感分析现已成为自然语言处理领域的核心研究课题之一,分为两类子课题: 1、叙述式多模态情感分析 2、交互式多模态情感分析 论文学术结构(顺序): 1、从情感分析这个大...

    论文标题

    《多模态情感分析研究综述》

    引言

    多模态情感分析现已成为自然语言处理领域的核心研究课题之一,分为两类子课题:
    1、叙述式多模态情感分析
    2、交互式多模态情感分析

    论文学术结构

    1、总体介绍

    从情感分析这个大方面出发,结合现代社会人们利用多媒体的趋向性(趋向多种媒体形式),引出两个多模态情感分析的子课题,由此展开叙述。

    2、介绍叙述式多模态情感分析

    1)提出3种多模态融合方法:特征级融合、决策级融合、包含两者的混合融合。

    a.特征级融合:每种模态的特征向量通过特征融合单元融合为一个多模态特征向量,然后对组合特征进行决策分析。(多到一先融合再分析)
    优点:可抓取多模态特征间的相关性,帮助更好地完成情感分析。
    缺点:各模态特征来自不同语义空间,在时间、语义维度上存在较大差异,不能直接合并,需要将各模态特征映射进共享空间。

    b.决策级融合:每种模态特征被独立地抽取和分类,得到局部决策结果后,融合各个结果为决策向量以获得最终决策。(逐个分析后融合再分析)
    优点:相比特征级融合更简单自由,可以自由选择最适合的特征提取器和分类器,产生更优的局部决策结果。
    缺点:多模态分析过程的时间成本迅速提升。

    c.混合融合。融合上面两种方法,扬长避短。

    2)静态多模态情感分析(图片、文字)。

    a.基于机器学习的方法。(统计学+机器学习算法)
    这种方法将图文情感分析视为一个监督性的分类任务,通常涉及大规模标注数据集训练分类模型。由于标注和训练数据的规模大,机器会形成一定规律,有较高的识别率。但是该方法特别依赖前期的特征工程(数据集+模型,亲测很费人力和时间……)

    b.基于深度学习的方法。
    这种方法性能较高,若有同等的数据量,胜于机器学习,而且不需要繁琐的特征工程,适应性极强。但是该方法也需要海量数据支撑,在小数据集上经常过拟合(为了得到一致假设而使假设变得过度严格,数据量不够多),调参难以实现,训练时间长。

    总之,二者都有缺点,但是深度学习>机器学习。

    3)动态多模态情感分析(语音、音频、视频)

    a.基于机器学习的方法。
    与静态类似,同样需要特征工程,受限于多模态文档表征的效率问题,但是识别性能好,学习时间短,需要数据量较小。

    b.基于深度学习的方法。
    与静态类似,避免了繁琐的特征工程,但仍有不足,有待提高。

    3、介绍交互式多模态情感分析

    1)交互式多模态情感分析是叙述式多模态情感分析的继承,又有别于它,更具有挑战性。(人们之间相互影响、思维跳跃性和不定性)
    2)多模态(交互式)会话情感数据集。
    多名学者自主提供数据,建立数据集,国内外皆有,可以互相借鉴和使用。
    3)多模态会话情感分析模型。
    多名学者自主建立情感分析模型,早期两个典型模型:HMM、影响力模型。学者在建立模型时不断改进,考虑周全,重视话语间的交互影响,以得到更好的模型。

    4、多模态情感分析存在的交互建模科学问题

    1)多模态情感分析在交互方面存在弊端,学者基于基础概率论的研究方法存在局限性。
    2)模态内的词项交互问题。
    单词/词语之间关系复杂,有时会有一词多义的情况,因此需要解决此问题。相比文本情感,图像情感涉及更深奥的抽象性和主观性。
    3)模态间的多模态交互问题。
    多模态交互旨在整合多个模态信息,建立模态间的关联与交互,包含多种媒体数据间的交互、特征间的交互和决策间的交互。

    a.数据级交互——通过多模态学习它们潜在的共享信息。

    b.特征级交互——学习一个共享空间以至于能将不同模态的特征分别映射至该空间内完成融合。

    c.决策级交互——目前已有的方法忽略了模态之间的相互干涉,可能导致不同的结果,未来趋向如何建模并形式化该问题。

    4)模态外的话语流交互问题。
    话语是人们交流的媒介和手段,与词语类似,话语也有不同的内涵和交互性,因此该问题也是未来一个重要课题。

    5、结束语

    多模态情感分析越来越重要, 多模态情感挖掘值得进一步研究,叙述式多模态情感分析和交互式多模态情感分析发展较成熟但仍有不足。多模态词项、话语间的交互成为未来重要的课题,发展多模态决策交互模型以及提出更一般性的交互理论体系与形式化建模思路亟待研究。

    阅读论文初体验

    1、拿到这篇论文初次浏览之后,我大概了解了本篇论文的核心思想,与实验室的研究方向一致。总体而言这是一篇并不晦涩难懂的论文,文中的每个观点都很清晰,而且列举了很多前人的研究(previous research),偏向介绍型,没有深奥的数学知识的列举和运用,不像我之前看的R-CNN目标检测那篇,几乎全程懵逼 ,硬着头皮才看完。

    2、这篇论文的主要目的是揭示和点明时下比较受关注的课题——多模态情感分析,阐述了先前众多学者投入大量时间研究此项目,以及该课题未来的发展趋势,作者的介绍中规中矩,留有很大的想象空间给读者,让读者思考延伸性的问题。

    3、文中介绍的多模态情感分析也是我比较感兴趣的课题,这篇论文让我初步了解情感分析相关的知识和发展趋势,以及研究所使用的方法(机器学习、深度学习)。人与人之间的情感交互是当下比较热门的话题和切入点,通过对人们使用的文字、图像、音频、视频、词语、话语等进行分析,便可研究和探索人们的心理和交流的复杂性,因此,多模态情感分析的作用不可小觑,此项研究的前景很广阔。

    思维导图

    在这里插入图片描述

    展开全文
  • 不完全的多模态情感数据的半监督深度生成建模
  • 本文重点关注于脑电和表情两种模态入手,那么总体来说模态总共有情感行为识别(面部表情、语音、姿态等)和生理模式识别(皮肤电反应、心率、呼吸、体温、脑电)。...2020多模态情感识别综述_贾俊佳 ...

    本文重点关注于脑电和表情两种模态入手,那么总体来说模态总共有情感行为识别(面部表情、语音、姿态等)和生理模式识别(皮肤电反应、心率、呼吸、体温、脑电)。

    其过程大概是情感计算主要分为四个阶段信号源获取、情感识别、情感理解、与反馈以及情感抒发

     

    1.1   面部表情提取

    分为全局特征提取、局部特征提取、和混合特征提取。

     

     

     

    2 脑电信号特征提取

    2.1 频带能量特征

    2.2 微分熵特征

    2.3 非对称特征

     

    参考:

     

    2020多模态情感识别综述_贾俊佳

    展开全文
  • 深度学习情感分析 多模态情感分析的深度学习
  • 基于面部表情和语音的多模态情感识别研究,张寅,周丽君,本文对基于面部表情和语音的多模态情感识别进行研究。首先采集特定人面部表情样本建立面部表情数据库,采集特定人语音样本建立语
  • CMU-MOSEI的多模态情感分析体系结构。 描述 该信息库包含四种多模式体系结构以及用于CMU-MOSEI的情感分析的相关培训和测试功能。 在数据文件夹中,提供了转录和标签,以用于的标准培训,验证和测试语句。 可以通过...
  • 基于交互注意力机制的多模态情感识别算法 研究问题 多模态机制下的情感识别,在多模态下,需要提取大量的特征。但特征数量多,造成一是训练参数增大。二是产生噪声,关键信息被遗漏。在模型融合时,要关注主要特征,...

    基于交互注意力机制的多模态情感识别算法

    论文介绍

    原著:
    《基于交互注意力机制的多模态情感识别算法》
    2021 Application Research of Computers

    研究问题

    多模态机制下的情感识别,在多模态下,需要提取大量的特征。但特征数量多,造成一是训练参数增大。二是产生噪声,关键信息被遗漏。在模型融合时,要关注主要特征,因此需引入注意力机制

    研究方法

    文章研究文本+语音的多模态。提出的多交互注意力机制网络:GATASA(Global Acoustic-to-text and Acoustic-to-Self Acoustic to Text) 。两(互补)部分组成:1、GATA :强调所有的信息。2、ASATA:强调局部信息。这两部分由两种不同的注意力机制在文本和音频特征之间交互计算注意力分数。

    深度学习中的文本数据处理:去掉不需要的停止词(stop word) -> 对单词做词嵌入(embedding)。词嵌入通常基于现有的词向量(word vector)、基于预训练的Glove 、BERT 。对于多个数据源的特征,可加入注意力机制。

    注意力机制

    处理思路:通过对特征向量计算权重分数并加权求和。通过不同的权重分数体现特征的重要性。

    组成:

    • Query:单个输入向量
    • Key :多个特征向量

    注意力机制分数:过点积或可学习参数投影等方法计算出来的Key 和 Query 的相互关系。

    • Value:注意力机制分数对 Key 加权求和。

      在这里插入图片描述

    数据处理:

    • 文本数据

      特征提取:循环神经网络

    • 音频数据

      特征选择:频谱图:可以同时得到时域和频域信息。

      特征提取:卷积-循环神经网络,先卷积提取各区域的特征再将其作为LSTM的输入。

    实现过程:
    在这里插入图片描述

    技术介绍

    训练图:

    在这里插入图片描述

    技术栈:

    LSTM(解决梯度消失问题):提取文本、经卷积处理后的音频特征。

    CNN:提取音频特征

    输出

    1. 情感识别中,如何定义、量化人类的情感
    2. 引入视频、图像信息、人体生理信号信息(EEG、EOG、EMG)
    3. 融合方式(特征层、决策层、模型层)
    展开全文
  • 多模态情感分析

    2021-05-11 14:54:08
    多模态分析数据集(Multimodal Dataset) 不只情感分析 《Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis》 阅读笔记
  • 多模态学习入门国内外研究现状文本情感分析图像情感分析多模态情感分析多模态研究架构相关理论及技术 国内外研究现状 文本情感分析 文本情感分析主要有三种方法:基于语料库的文本情感分析, 基于机器学习的文本情感...
  • 行业分类-物理装置-基于注意力融合的在线短视频多模态情感识别方法.zip
  • 会议笔记(七):多模态情感计算的前沿讨论会议日程:情感计算多模态情感表达——宋睿华(中国人民大学高瓴人工智能学院长聘副教授)多模态表达情感计算模型的比较论文:What if Bots Feel Mood?对话系统中的情绪...
  • 使用音频和视觉模态的特征级融合在视频中进行多模态情感识别。 使用过的具有不同情绪的SAVEE数据集由1000多个不同主体扮演。 数据集包含六种主要情绪-愤怒,厌恶,恐惧,快乐,悲伤,惊奇。 我正在使用Chehra ...
  • 多模态情感分析简述

    千次阅读 2020-09-17 17:47:50
    如何分析多模态数据(本文指声音,图像和文字,不涉及传感器数据)中的情感,是当前情感分析领域面临的机遇和挑战。 一方面,以往情感分析聚焦于单个模态。如文本情感分析着眼于分析,挖掘和推理文本中蕴含的情感。...
  • 这一篇是讲 多模态情感分类的。 模型结构 Low Rank Fusion 借用了 ACL2018 Efficient Low-rank Multimodal Fusion with Modality-Specific Factors论文中的Low Rank Fusion ACL2018的模型如下
  • 全局观下局部约束的多模态情感计算网络的论文学习(利用张量融合和LSTM) Locally Confined Modality Fusion Network with a Global Perspective for Multimodal Human Affective Computing (2019 IEEE ...
  • 相关工作2.1 多模态情感分析2.2 Transformer and BERT2.3 多任务学习3. 方法论3.1 任务设定 文献信息: 标题:用自我监督的多任务学习学习特定模式的表征,用于多模态情感分析 作者:Wenmeng Yu, Hua Xu, Z
  • 相关工作2.1 多模态数据集2.2 多模态情感分析2.3 多任务学习3. CH-SIMS 数据集3.1 数据获取3.2 标注3.3 特征提取4. 多模式多任务学习框架4.1 单模态子网4.2 特征融合网络4.3 优化目标5. 实验5.1 基准5.2 实验的细节...
  • 文章目录1. 脑电图赛道第一名:kKYhwik1W1.1 团队介绍1.2 算法方案解析1.2.1 数据分析1.2.2 基于窗口特征的分类模型1.2.3 基于... 音频赛道第一名:赛博菜鸡(基于ResNet-Transformer的语音情感分类模型)3.1 团队介绍3.2
  • 通过采集与分析语音信号和心电信号,研究了相应的情感特征与融合算法。...实验结果表明:在相同测试条件下,基于心电信号和基于语音信号的单模态情感分类器获得的平均识别率分别为71%和80%;通过特征层
  • 关于模型 VistaNet 的原理,我已在之前的文章 基于多模态数据的情感分析 中进行了详细介绍。本文是其姊妹篇,主要以搭建模型的代码为主,对算法原理不清楚的小伙伴建议先熟悉一下原理。 鉴于有很多小伙伴评论和私信...
  • 作者创造了一个组件MAG, 用于使BERT 或者 XLNet这种 预训练的模型能对 多模态的信息进行 Fine-tune 组件的结构如下: MAG的主要思想在于: 非语言模态(其它两个模态)会影响词汇的意义,进而影响向量在语义空间中...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,437
精华内容 974
关键字:

多模态情感