admin 管理员组

文章数量: 887006

【论文泛读】Joint Visual

论文题目:Joint Visual-Textual Sentiment Analysis Based on Cross-Modality Attention Mechanism
时间:2019
来源:MMM
论文链接:点击跳转
这篇论文没有公开代码
这篇论文没有公开代码
这篇论文没有公开代码

1.介绍

  联合视觉文本情感分析具有挑战性,因为图像和文本可能会传递不一致的情感。图 1 显示了从 Flickr1 和 Getty2 抓取的图像文本对的几个示例。在示例(a)中,文本带有积极的情绪,而相应的图像是中性的;相反,在示例(b)中,图像表达了积极的情绪,而文本是中性的;在示例(c)中更麻烦的是,图像似乎根据人们的微笑表达了积极的情绪,而相应的文本则带有强烈的消极情绪。
  受这些示例的启发,我们认为视觉和文本信息对情感分析的贡献应该有所不同。换句话说,对于给定的图像-文本对,我们的模型专注于通过根据视觉和文本信息对情感极性的贡献为视觉和文本信息分配不同的权重来学习联合视觉-文本表示。

  1. 我们表明 BiRNN 能够进行语义嵌入学习并弥合图像信息和文本信息之间的语义差距。
  2. 提出了一种跨模态注意力机制,自动为视觉和文本信息分配权重,然后可以计算联合视觉-文本语义表示,以进一步训练情感分类器。
  3. 大量的实验结果表明,我们的模型更加鲁棒,取得了最好的分类性能,尤其是在图像和文本携带相反情绪的情况下。

4.拟议计划

总体框架:

BiRNN 作为编码器
注意力模型为视觉和文本信息分配权重并生成联合视觉-文本语义表示
最后是一个多层感知器专为情感分类而构建
总体架构如图所示

4.1 用于语义嵌入的双向 RNN

  用 CNN 提取视觉特征,特征通过全连接层将特征投影到特定维度作为 BiRNN 的输入。

W m W_m Wm​ 和 b m b_m bm​ 是全连接层的权重和偏差
σ(·) 非线性激活函数(例如,Sigmoid 或 ReLU)

这几句没明白什么意思,是别人论文中提出的吗
  直观地说,视觉语义嵌入使前向 RNN 能够在计算文本隐藏状态时考虑视觉信息,而后向 RNN 能够将文本信息分解为计算视觉隐藏状态。因此 BiRNN 可以为图像和文本计算更合理的隐藏状态。
在真实数据集上的实验结果表明,视觉语义嵌入可以显着提高所提出模型的性能。

4.2 跨模态注意力机制

  以前注意力模型通常用于衡量单词序列表示之间的相关性。在本节中,我们提出了一种跨模态注意力机制,能够自动区分图像信息文本信息情感分析的重要性
  我们模型的直觉是视觉信息和几个关键的情感词依次主要决定了图像-文本对的情感极性。因此,我们提出了情感上下文向量 u c u_c uc​来发现它们与情感极性的相关性。请注意,情感上下文向量 u c u_c uc​不仅用于按顺序提取这些关键情感词,还可以自动为视觉和文本信息分配权重。因此,视觉和文本信息可以聚合以形成联合的视觉-文本语义表示。
  对于前面提到的 BiRNN 生成的隐藏状态 (h0,h1,…,hT),通过一层感知器计算出一个隐藏表示 u i u_i ui​。

W w W_w Ww​ 负责感知器的参数。然后,利用 u i u_i ui​与情感上下文向量 u c u_c uc​的相似度来衡量词序和视觉信息的贡献,以及通过 s o f t m a x softmax softmax 函数获得的归一化权重 α i α_i αi​。

之后,联合视觉文本语义表示 s 被计算为隐藏状态的加权和。

最后,构建了一个用于情感分类的两层感知器。

其中 Ws,Wh,bh,bs 是感知器的参数,σ 是激活函数 tanh(·)。情感上下文向量 u c u_c uc​ 随机初始化,我们将注意力模型参数化为前馈神经网络,该网络与所提出方案的所有其他组件联合训练。

5.实验

  在本节中,我们在两个真实数据集上评估所提出的模型。具体来说,我们将我们的模型与几种高级模型的性能进行了比较,包括早期融合 [6]、后期融合 [6]、CCR [6]、T-LSTM 嵌入 [5] 和深度融合 [4]。此外,我们还添加了我们模型的两个变体,并分析了跨模态注意机制和语义嵌入学习的效果。表 1 简要说明了我们的模型及其变体。

5.1 数据集

5.2 实验设置

5.3 结果分析

相关工作

  图文情感分析已经做了很多年,早期融合和后期融合是早期研究的主流策略。早期融合使用特征融合技术来学习联合视觉文本语义表示,然后进行情感分析。后期融合 通过利用不同的特定领域技术分别处理图像和文本信息,然后利用所有模态的情感标签来获得最终结果。最近,You等人提出了一种用于图文情感分析的跨模态一致回归(CCR)方案,并实现了优于先前融合模型的最佳性能。然而,由于视觉和文本信息之间的语义鸿沟,早期融合和后期融合的性能有限。
  自动图像字幕和图像和句子之间的多模态匹配显示了深度神经网络在理解和联合建模视觉和文本内容方面的进步。值得注意的是,注意力机制在视觉和文本任务中都得到了广泛的研究。Bahdanau等人引入了一种新的注意力机制,允许神经网络关注其输入的不同部分。Yang等人表明训练有素的上下文向量能够区分关键字和文本以进行文档分类。You等人提出视觉注意力来共同发现相关的局部区域,并在这些局部区域的顶部建立一个情感分类器。
这篇论文灵感的主要来源
1.You等人提出了一个双线性注意模型来学习给定图像对的单词和图像区域之间的相关性。然而,实际结果表明,该模型未能推广到各种数据集,因为真实社交网络中单词和图像区域之间的相关性要小得多。
2.陈等人利用 CNN 提取图像和文本特征,然后将它们连接成联合表示以供进一步训练。然而,当图像-文本对携带相反的情绪时,这种简单的特征融合的性能会落后。
  据我们所知,很少有研究认为视觉和文本信息对情感分析的贡献应该有所不同。在本文中,对于给定的图像-文本对,我们专注于发现单词序列和视觉特征如何与该对的情感极性相关,并提出情感上下文来为其分配合理的权重,然后计算合理的表示为用于训练情感分类器的文本和视觉信息的加权和。同时,视觉语义嵌入被提出来弥合图像信息和文本信息之间的语义鸿沟,并导致更好的跨模态注意机制。

本文标签: 论文泛读Joint Visual