admin 管理员组

文章数量: 887007

《Unsupervised Visual–Textual Correlation Learning With Fine

Abstract
this article proposes an unsupervised visual–textual correlation learning (UVCL) approach to construct correlations without any manual annotation.
1)提出了一种无监督语义引导的跨媒体关联挖掘方法,以弥合可视化数据和文本数据之间的异构鸿沟。我们测量图像和句子之间的语义匹配程度,并根据图像中提取的概念生成描述性句子,进一步以非监督的方式增加训练数据。因此,该方法可以利用可视化数据和文本数据中的语义知识来减少它们之间的差距,以便进一步进行关联学习
2)提出了非监督视觉-文本细粒度语义对齐方法,通过将细粒度视觉局部补丁和文本关键词与细粒度软注意和语义引导硬注意进行对齐,学习跨媒体相关性。结果表明,该方法能够有效地突出图像和句子中的细粒度语义信息,提高视觉-文本对齐效果。
Introduction
The main contributions of this article are summarized as follows.
1.提出了一种无监督语义引导的跨媒体关联挖掘方法来弥补视觉数据与文本数据之间的异质差异,该方法利用语义概念的指导来挖掘跨媒体关联,而不是利用标注的图像-句子对和类别标注。我们测量图像和句子之间的语义匹配程度,并通过概念-句子模型以无监督的方式扩充训练数据,该模型根据从图像中提取的概念生成文本描述。因此,无论是视觉数据还是文本数据,都可以通过概念的桥梁进行关联学习,充分利用语义知识。
2.为了进一步挖掘增强数据之间的相关性,提出了一种无监督视觉-文本细粒度语义对齐方法,在语义概念的指导下,将细粒度视觉局部补丁和文本关键词精确对齐。在此基础上,提出了细粒度软注意和语义引导硬注意两种注意机制,旨在有效突出细粒度语义信息,在无需人工标注的情况下促进视觉-文本对齐。
OUR UVCL APPROACH
1)根据图像和句子之间语义概念的匹配程度,对未标注的训练数据进行正样本和负样本选择。
2)我们利用从文本训练数据中提取的
概念-句子对训练出一个概念-句子翻译模型
。然后,将图像的概念输入到翻译模型中,生成描述性句子,形成假图像-句子对。最后,我们提出了语义引导的硬注意和细粒度的软注意来突出用于视觉-文本语义对齐的显著细粒度补丁,旨在进一步挖掘区分性细粒度语义信息之间的关联,促进视觉-文本关联学习。

概述我们提出的UVCL方法,该方法提出了无监督语义引导的跨媒体相关挖掘来构建相关性,并提出了无监督视觉文本细粒度语义校准来进一步进行跨媒体相关学习
A. Unsupervised Semantic-Guided Cross-Media Correlation Mining
因为成对注释和类别注释是不可用的是,我们通过语义引导的跨媒体关联挖掘来构建未标注的多媒体数据之间的关联,并采用以下两种策略进行跨媒体检索。
1)语义引导的无注释训练数据选择:
为了充分利用大规模的未标注训练数据,我们通过测量图像和未标注句子之间的概念匹配度来构建正、负对。我们提出了基于并集的概念交集(IoU)来确定无注释训练集中图像和句子的两两关系。


2) Translation-Based Image–Sentence Pair Generation:

本文标签: 《Unsupervised Visual–Textual Correlation Learning With Fine