多模态模型‌ 【文献阅读】MUTAN——多模态塔克融合VQA模型（Hedi Ben-younes等人，ArXiv，2017，有代码）

4,505 0 0

先放上文章摘要：

an for and in (VQA) tasks. They help to learn high level and in the image, but they from huge .

We MUTAN, a -based to and . to the , we a low-rank -based to the rank. With MUTAN, we the of the while nice . We show how our MUTAN model some of the VQA , state-of- .

在VQA任务中，双线性模型提供了一个可以将不同模态信息融合的框架。双线性模型能够帮助学习问题语义和视觉内容的联合高级信息，但是却带来了维度爆炸的问题。

因此作者引入了MUTAN，一个多模态的基于张量的塔克分解方法，用于参数化视觉和文本表示之间的双线性交互。此外对于塔克分解，作者设计了一种低秩矩阵分解来限制交互的秩。使用MUTAN，我们可以控制融合过程的复杂度，同时保持较好的可解释的融合关系。

三、文章详细介绍

双线性模型能够很好的适用于VQA，是因为它能够编码完整的二次交互。而它最大的问题就是涉及到很多参数，这与输入和输出的维度有关，且慢慢变成了一个非常棘手的问题。因此，简化模型或者近似取代变成了关键所在。

因此这篇工作，作者介绍了一种新的模型MUTAN，该模型基于张量的塔克（）分解，其能够完整的表示双线性交互的同时使得模型的大小可控。

1.相关工作

在视觉和文本多模态的工作里，一个重要任务是将两个模态对齐，即映射到同一个空间下。

注意力（）：目前的注意力主要是以下几种思路（分别对应以下5篇参考文献）：（1）是SAN的思路，即使用- ，来查找图像中的相关区域；（2）是根据文本特征，来用 boxes提取图像中的特征并评分；（3）是协同注意力框架（co- ），分别提取两组注意力，然后连接再求和池化；（4）还有一种将全局和局部结合起来的策略。这篇文章中，使用的注意力为（5）中所介绍的：

融合策略（）：早期主要对多模态之间的进行一阶交互（first order ）。例如IMG+BOW模型将全局图像特征和问题特征进行了连接。还有利用注意力对三元组进行评分的，然后将视觉特征和文本特征进行连接，在根据评分来加权计算。对于协同网络来说，计算完了两组特征，然后连接求和。

二次模型（ order model）则表现更好一些。双线性交互在精细分类和多模态语言模型里面表现出了巨大的成功。在VQA中，最简单的就是采用点积的形式。为了获得更深层次的双线性交互，后面还提出了MCB（）方法，即对两个模态的特征使用了矢量积（outer ），然后再用count- 将矢量积投影在一个低维度的空间中，然而，在MCB中，通过count-投影修正的交互参数，限制了它对复杂交互建模的表示能力。

在近期的工作MLB（ Low-rank ）中，为了减少无效参数，它将张量限制为了低秩，并且在VQA数据集上表现出色。它先将视觉特征和问题特征表示在了同一个低维的空间中，然后在这个空间中进行简单的点积进行交互。因此MLB能够很好的提取单模态特征，却只用了简单的点积来融合两种特征。

而本文提出的MUTAN，是基于多模态的双线性交互，主要贡献包括以下几点：

– New for VQA on a -based , in a into three and a core . We show that the MUTAN the , i.e. MCB and MLB , while more power.（一种基于塔克分解的新的可用于VQA的融合机制，其将张量分解为三个矩阵和一个核心张量。）

– the core to the of model . This acts as a and , us more to the input/ .（结构化的稀疏性约束了核心张量，并进一步控制了模型参数。它在训练的过程中扮演了一个正则化器的角色，并防止过拟合，使我们能够更灵活的调整输入和数据的映射。）

– State-of-the-art on the most used for QA . We also show that MUTAN MCB and MLB in the same , and that can be when with MLB, the the two . （MUTAN目前的效果最好，且能够很好的与MLB结合）

2.MUTAN模型

MUTAN的模型结构如下图所示：

多模态模型‌ 【文献阅读】MUTAN——多模态塔克融合VQA模型（Hedi Ben-younes等人，ArXiv，2017，有代码）

首先将图像v和问题q嵌入为两个向量，最后再表示为一个用于分类的向量y。而本文的主要工作中，使用-152来处理图像，使用GRU来处理问题，然后将操作T来融合两个特征，以生成最终的向量y，最后再通过输出正确答案。另外还将全局注意力机制融入到了MUTAN中。

融合与双向性模型（ and ）：在VQA中，融合视觉和语言特征是非常重要的。双线性模型是一种很适合于多模态融合的框架结构，典型的模型如MLB和MCB，因为它们能够对向量q和v之间的全参数化双线性交互进行编码。即：

尽管有着很强的建模能力，但是全参数的双线性交互却在VQA的应用中变得非常棘手，因为全张量的大小对于文本，视觉和输出空间而言，使用相同大小是不现实的。比如q和v的维度都是2048，答案数量约为2000的条件下，这个张量的大小约为10^10，其带来的计算量消耗是巨大的，因此MUTAN考虑引入全张量的塔克分解，以减少参数。

（1）塔克分解

一个三维的张量，可以表示为3个矩阵的乘积和一个核心张量的乘积：

张量中的权重是约束下的参数数量的函数：

（2）多模态塔克融合

如果我们将塔克分解引入到双线性模型中，即将（3）式引入（2）式：

这类似于将q和v投影的完全双线性交互编码为一个隐对表示z（ pair ），并使用该隐编码来预测正确答案。为了将z投影在预测空间y上：

使用塔克分解，我们将张量T分成了4个部分，每个部分都有各自的含义。Wq和Wv将问题和图像向量投影在各自维度的空间中，这些维度控制了模型的复杂度，维度越高，模型的复杂度就越高；分解出的张量Tc是用于两个模态的交互，它学习了所有的qv到向量z的映射关系，其维度控制了模态交互的复杂度；最后Wo是一对嵌入z对于A中每一类的刻画。

（3）张量稀疏

为了进一步的平衡交互建模的复杂性和表达性，作者对张量Tc中每一个矩阵的秩引入结构化稀疏约束。z中的每一个维度都可以写作：

如果我们再加上秩约束的话：

带入到z中的每一维：

多模态模型‌ 【文献阅读】MUTAN——多模态塔克融合VQA模型（Hedi Ben-younes等人，ArXiv，2017，有代码）