多模态模型‌ 量子启发的多模态融合模型

默认分类6天前发布 admin
4,491 0
ChatGPT国内版

©作者 | 刘耀琛、李秋池、张亚洲、宋大为

单位 | 北京理工大学、帕多瓦大学、郑州轻工业大学

研究方向 | 多模态建模

简介

多模态情感分类任务是当下深度学习领域最热门的话题之一,它涉及到跨领域的知识使用,有效解决该任务的核心是如何将多模态的信息输入有效地融合。当在多模态情感分析任务中加入对话上文信息后,任务的难度更高,除了要建模多模态信息的交互,还需要建模对话上下文的交互。

已有的工作很少同时聚焦于建模这两种交互动态。并且,已有的基于神经组件的模型是类似黑盒的,可解释性较弱。除了以上两个核心的问题之外,多模态(对话)情感分析任务的关键问题还包括如何进行多模态表示学习,多种模态的决策怎样融合,在多任务框架下如何解决多任务决策等。

无论是多模态信息处理的问题,还是情感分析任务,它们归根结底都是人类认知的问题。从人类认知的角度出发建模模态间和上下文动态交互,基于经典概率理论的方法往往无法有效捕获这些动态交互,然而量子理论已被证明可以解决经典概率论在人类认知建模中的悖论,而且基于量子理论的模型在获得与 SOTA 相媲美的效果的同时具有更好的可解释性。

复值表示作为量子理论的基本内容,可以很自然地作为带有先验知识的多模态信息的基础;通过使用量子纠缠和量子干涉的概念,多模态信息可以以非线性的方式进行有效融合;量子演化和量子复合系统的概念可以用来建模对话上下文的交互;量子测量可以为融合后的量子系统做出情感决策。

基于这些概念,近期,来自北京理工大学、英国开放大学、意大利帕多瓦大学和郑州轻工业大学的研究人员在会议 AAAI、IJCAI、EMNLP 和期刊 上发表了五篇量子启发的多模态(对话)情感(情绪)分类模型。每篇文章的问题设定有所不同,从多模态情感分析,到多模态对话情感分析,再到多模态多任务对话情感分析。

文章列表:

D, Li Q, S, et al. for Video [C]// of the AAAI on . 2021, 35(1): 827-835. D, Li Q, Yu Y, et al. An – for video [C]// of the Joint on . Joint on , 2021: 1736-1742.Zhang Y, Song D, Li X, et al. A -like for in [J]. , 2020, 62: 14-31.

Liu Y, Zhang Y, Li Q, et al. What Does Your Smile Mean? Multi-Modal and Using [C]// of the for : EMNLP 2021. 2021: 871-880.

图1 每篇文章中主要应的量子理论概念,以及所聚焦的关键问题

来自 等人的两篇文章聚焦于视频情感分析。在 的工作中,他们假设单模态情感判断不是独立的,受其他模态的影响,其他模态作为当前模态下情感判断的上下文,进而假设单模态的情感判断是不兼容的(即,不同模态的决策的顺序是会对其他模态的决策产生影响的,并且不同的决策不可以同时被测量来产生最终决策)。他们通过 POVM(- ) 解决不兼容问题,进行多模态决策融合。所提出的模型在 CMU-MOSI 和 CMU-MOSEI 两个数据集上与最好的对比模型效果相比,在 F1 指标上分别实现了 6.8% 和 3.0% 的提升。

在 的工作中,针对现有量子理论驱动模型简单地将量子态视为经典的状态混合或跨模态的可分离张量的生成物,而没有将它们以相关或不可分离(即纠缠)的方式建模它们之间相互作用的问题。进而提出使用量子纠缠的概念,来捕获跨模态对表示之间的相关性。该模型在 CMU-MOSI 和 CMU-MOSEI 两个数据集上相对于 SOTA 模型分别有 2.7% 和 2.6% 的提升。

在 的工作中,张亚洲等人也同样将量子测量的概念的引入模型中,设计了量子测量启发的强弱影响模型,并将其与 LSTM 模型结合,来更好地推断说话者之间的交互影响。除此之外,他们还引入了量子干涉效应的概念,提出了一种受量子干涉启发的多模态决策融合方法来模拟不同模态之间的决策相关性。在 MELD 数据集上相对于 h-LSTM 模型实现了 6.7% 的正确率提升,在 数据集上相对于 h-LSTM 实现了 4.2% 的正确率提升。

接下来分别对每篇文章进行介绍。

量子理论预备知识

2.1 量子叠加态和密度矩阵

量子概率理论的数学基础是建立在希尔伯特复值空间上的,将该空间记为 。一个量子状态向量 表示为一个 ket ,它的共轭转置向量表示为 bra 。向量 和向量 的内积和外积记为 和 。

量子叠加态表示量子状态可以以一定的概率分布同时处于多个互斥基态,直到它被测量,任意量子系统的纯态向量 都可以表示为叠加态,即 个基态的加权和,纯态向量 可以表示为以一定概率分布的概率振幅的形式: ,这里 表示复值概率振幅, 是非负标量,满足 , 表示虚数, 表示相位。量子混合态使用密度矩阵来表示,密度矩阵 ,这里 表示组成混合态的每一个纯态向量的概率分布。

2.2 量子复合系统

量子复合系统描述了一个由多个单独的量子系统组合成的复合体系。对于 和 维的两个空间,一个状态向量 表示为乘积空间的任意基 的线性组合,表示为: ,这里 表示概率振幅,满足 。

当复合量子系统在包含各个子系统之间相互作用的哈密顿量下演化时,复合系统的结果状态不再是可分离的,也就是处于纠缠态。二分冯诺依曼纠缠熵是对复合纯态的量子纠缠程度的度量。

2.3 量子干涉

在双缝干涉实验中,两条路径相互干扰彼此,导致在粒子抵达探测屏上的位置的概率分布受到干扰。可以使用波函数 来建模这一行为。波函数使用概率振幅来表示粒子处于位置 的概率,并且波函数的平方可以表示概率。用公式 来表示粒子处于路径 1 和路径 2 的量子叠加态的状态,这里 和 是路径 1 和路径 2 的波函数表示, 和 是复数。概率可以通过下式来计算:

上式中 表示干涉角度。 是干涉项,它描述了两条路径的交互。

2.4 不兼容性

不兼容的概念仅适用于希尔伯特空间。每个定义概率事件的基态都有一个投影 来评估事件。两个事件不一定是可交换的。假设 和 分别是 和 事件的两个连续测量。在量子认知中,两个事件的联合概率分布等于两个投影 和 的乘积,对应于基态 。

如果 ,则称这两个事件是相容的,否则是不兼容的。不兼容意味着不能在不相互干扰的情况下联合访问这两个测量。经典概率假设测量总是兼容的,因而无法捕捉到这种干扰。然而,量子概率的数学形式是经典概率论的推广,它允许兼容和不兼容的测量。

AAAI 21:用于视频情感分析的量子认知驱动决策融合

论文标题:

for Video

收录会议:

AAAI 2021

论文链接:

3.1 简介

假设单模态情感判断不是独立发生的,它们在信息上存在交互,因此受到作为当前模态上下文的其他模态的影响。例如,存在的不同决策视角的顺序可能导致有争议的情绪判断的情况(首先关注语言然后关注视觉图像,反之亦然)。在这种情况下这两种决策视角是不兼容的。这种不兼容意味着不能联合测量对不同模态的判断,作为经典概率理论的泛化,量子理论可以解释并解决该现象。

本文介绍了一种受量子认知启发的新型决策级融合策略。目标是预测与语言、视觉和声音信息相关的视频中话语的情绪。首先将话语表述为积极和消极情绪的量子叠加状态(即,它可以同时是积极和消极的,直到在特定上下文下进行判断),并将单模态分类器建模为由不同的单模态情感基向量张成的复值 空间 上的互不相容的可观察量。使用 POVM 测量近似单模态分类器的情绪结果。

作者从训练数据中估计复值希尔伯特空间和单模态可观察量,然后从学习到的单模态可观察量中建立测试话语的最终多模态情感状态。本工作是第一个探索和建模视频情感分析中情感判断不兼容性的量子认知理论启发的方法。

3.2 量子测量

多模态模型‌ 量子启发的多模态融合模型

测量是量子认知中计算量子概率的基本概念。在量子测量中,- (PVM)通过将状态投影到其特定相应的基态,将系统状态从不确定性状态转移为精确事件。在没有测量的情况下,状态存在不确定性,因为它同时处于所有可能的测量值上。

测量后,状态会坍缩到某个基态。然而,更大系统的子系统上的 PVM 不能通过作用于系统本身的 PVM 来描述。- (POVM)克服了这一限制,通过为每个测量结果关联一个正概率,忽略测量后的状态。也就是说,POVM 是 PVM 的泛化,为整个集成的子系统提供状态的混合信息。

POVM 测量 是一组半正定的赫尔米特算子 ,并且有 。对于一个纯态向量 ,它的密度矩阵为 。测量得到状态 的概率为: ,并且 。

3.3 任务定义

本文的任务聚焦于视频情感二分类任务。每一个语句 都与语言的,视觉的,音频的特征 ,还有标签 相关联。目标是建立将话语 映射到其相应的情感标签的函数。

图1 情感希尔伯特空间。话语被表示为属于布洛赫球体表面的纯态向量,两个相对的单位向量代表正面和负向情感判断。相关的三种单模态可观察量 L,V,A 和三模态可观察量 F 是不兼容的。带阴影的基向量表示 S 在相应基上的投影,即事件的概率。

3.4 量子认知启发的融合网络

3.4.1 情感希尔伯特空间

该模型定义在由基态 张成的二维情感希尔伯特空间 上,两个基态 和 对应于正向的和负向的情感状态。将一个话语 定义为 上的一个纯态向量 (可以缩写为 )。单模态情感分类器被公式化为不兼容的可观察量(表示为 ),话语可以在不同的基态集合下表示。因为模态不是独立的,所以可观察量之间彼此不正交。

3.4.2 话语表示

一个话语表示为由正负情感基向量张成的 2- 维希尔伯特空间 上的一个纯态向量:

依据波恩定理,话语处于正向和负向状态的概率分别为 和 ,并且 。相对相位 在捕获不兼容的可观测值之间的相关性,和产生与经典情况根本不同的结果方面起着至关重要的作用。

3.4.3 情感判断

作者将单模态的情感判定结果表示为在 上相互不兼容的可观察量( )。对于情感二分类任务,每一个可观察量都与两个特征值( )和两个特征状态(相对应的负向情感和正向情感)相关联。在这种情况下,不兼容性由属于单模态基向量的不同特征状态触发 。依据话语表示的公式,可以将特征态表示为:

特征状态组成了一组正交基, 并且 。

在量子理论中,一般的可观测量可以被正交的特征状态分解为: ,特征状态 表示测量后可能表现的状态。单模态可观测量表示如下: 。类似的,最后的情感决策 为: ,它张成了 并且与单模态可观测量不兼容。

遵循投影几何结构,特征状态上的测量概率等于系统状态在其上的投影,即向量的平方内积:对于单模态正向情感为 对于多模态正向情感为 。 下的测量概率代表语言模态下话语的情感,其他模态也是如此。最后,它的多模态情感极性由可观察量 决定。

3.5 模型操作

本节介绍了一种用于操作所提出的融合模型的方法。一般的,在物理学中,数学问题的研究涉及利用近似技术的建模方法。在本工作中作者利用数据中的统计信息来学习上一节中描述的情感希尔伯特空间,从而利用不兼容的可观察量来确定话语的情感极性。作者提出了一个由三个步骤组成的 :(1)首先从训练数据中估计通用单模态可观察量 ;(2)然后根据学习到的单模态可观察量和单模态情感预测结果为每个测试话语 构建情感状态;(3)最后,用多模态可观察量 判断情感。

3.5.1 可观测量估计

单模态可观测值是根据训练数据的整体统计数据构建的。这些值被映射到它们的量子表达式以估计单模态可观测值的参数。单模态可观察量和纯态应符合以下性质:I)纯态应符合数据集的统计量,II)单模态情感测量结果应符合训练子集中正负样本比值 ,III)可观测值之间的量子相关性应与从训练数据导出的每个样本预测结果的经典相关性对齐。

为了促进单模态可观察量的构建,作者引入纯态的计算: 。它描述了数据集对于正标签和负标签的不平衡程度。依据波恩定理,正向判断的概率为:

其中 是训练集中是积极话语的数量, 是训练集的大小。这也意味着: 因为量子概率等于振幅的平方。根据第二个性质,每种模态的积极情绪判断概率由下式给出: 。 表示训练集中每种模态的正向话语的数量。那么每种模态的积极情绪判断概率为:

然后研究成对模态可观测值之间的相关性,其中相对相位起着关键作用。从量子测量的角度出发,两个可观测量 的量子和经典相关性的关系可以由下式给出:

表示经典相关性。通过求解方程组,可以计算每个单模态可观测量 的参数。

3.5.2 话语状态估计

由于观测量 互不兼容,因此无法同时访问测量结果。为此,作者利用 同时获得所有不兼容测量的结果。构造运算符:

在测试话语上应用单模态 来衡量其在每种模态上的情绪: , 表示是积极情绪判断的单模态概率。该公式给出了一个具有三个方程的系统,每个方程对应一个不同的模态,以及三个未知变量 , 求解该系统可以构造状态 。

3.5.3 多模态情感测量

测试话语 的情感可以通过 来测量。结果是 , 。如果 那么 的情感极性判定为正向,否则为负向。

3.6 实验

在两个数据集 CMU-MOSI,CMU-MOSEI 上验证了模型的有效性。

3.6.1 对比实验结果分析

总的来说,加权投票是基于投票的聚合、逻辑回归和堆叠方法中表现最好的方法。对于这两个任务, 和 是最有效的基线决策级融合策略。在 CMU-MOSI 上,与 的 78.4% 相比,所提出的模型的准确率提高到 84.6%,显着提高了 6.2%。对于 CMU-MOSEI,与 的 82.2% 相比,该模型的准确率提高到 84.9%,即显着提高了 2.7%。

表1 决策级别对比实验结果

对于 CMU-MOSEI,RAVEN 在基线中取得了最高的准确率。与 RAVEN 的 80.2% 相比,所提出的模型的准确率提高到 84.9%,提升了了 4.7%。

表2 内容级别对比实验结果

3.6.2 消融实验

表 3 显示了消融实验的结果。前三行列出了当没有对跨模态交互建模时单模态分类器的性能。由于使用在大型语料库上训练的词嵌入,语言模态是最具预测性的。对于 CMU-MOSEI,语言分类器甚至优于所有基于内容级别和基于投票的融合方法。

表3 消融实验结果

作为第二组消融实验,作者在仅使用双模态时测试了所提出的模型。在表 4 中给出了结果,它表明语言和音频模态是最有用的。然而,三模态模型优于所有可能的双模态组合,CMU-MOSI 的准确率提高了 5.0%,CMU-MOSEI 的准确率提高了 2.2%。

表4 变种模型试验结果

3.7 结论

多模态模型‌ 量子启发的多模态融合模型

本文引入了一种受量子认知启发的融合策略。将话语表述为量子状态,将单模态决策表述为复值情感希尔伯特空间中互不相容的可观察量。不兼容性捕获了决策融合过程中的认知偏差。所提出的模型已被证明能够处理所有组合模式,包括所有单模态分类器给出错误情绪判断的情况。与内容级和决策级 SOTA 模态融合方法相比,所提出的方法实现了更高的性能。将来,作者将研究对话视频情感识别任务的模型。

:用于视频情感分析的纠缠驱动融合神经网络

论文标题:

An – for Video

收录会议:

IJCAI 2021

论文链接:

4.1 简介

视频情感分析是多媒体信息处理中一个新兴的跨学科领域,汇集了人工智能(AI)和认知科学。它研究说话者通过语言(即语言)和非语言(即视觉、声音)内容表达情感。该研究领域的核心是对不同模态之间的交互进行建模。当前的模型忽略了如模型透明度、事后可解释性以及人们如何理解和推理情绪状态等问题。用于情感分析的不同模态的建模是一个具有挑战性的问题。

这是由于话语可能出现的情绪极性(例如,积极的、中性的或消极的)受到单个模态的上下文的影响。这意味着不能孤立地考虑不同的模态。必须以不可分离的方式建模多模态信息,也可以称为纠缠的方式。量子理论(QT)是唯一模拟不可分离性的理论。因此,可以使用 QT 理论来捕捉跨模态相关性,以及这些相关性如何影响关于话语情绪的最终产生。

本文提出了一个量子概率神经网络,它捕获不同模态的非经典相关性。作者将不同模态的实值输入特征转换为复值的纯量子态。模态状态相互交互的特定方式允许在统一框架中对模态之间的经典相关性和不可分离性(纠缠)进行建模。该工作与之前的概率神经网络方法的不同在于解决了上下文问题。所提出的模型在用于视频情感分析的两个基准数据集上进行了评估。实验结果表明,该模型的表现达到了 SOTA。结果还表明,纠缠态的不可分离程度可用于提高事后可解释性。

4.2 任务定义

模型的目标是预测视频话语的情感。数据集中包含 个标记的视频话语 。每一个话语 都与语言的、视觉的、音频的特征相关联,表示为 。每条话语相对应的标签表示为 。目标是建立函数,将每一个视频话语 正确映射到它对应的标签 上。

4.3 纠缠驱动的融合神经网络

本文提出的量子概率神经模型叫做纠缠驱动的融合神经网络 EFNN。EFNN 首先获取多模态信息,即语言、视觉和声学信息,并将其输入三个独立的神经网络分支。多模态信息首先被投影到一个共维空间,然后通过准备步骤将信息转换为其量子模拟,即量子态。

之后通过任意一对双模态信息之间的张量积操作,生成成对模态融合。权重向量可以捕获基于双模态张量的表示中的相关性。一组参数化的测量通过量子测量假设,将复值表示映射到实值高级表示。然后,应用 row-max 池化算子,将全连接层传递给 函数进行分类。

图1-EFNN 模型图

4.3.1 量子态的准备阶段

每个话语都被建模为模态特定的希尔伯特空间 上的单模态纯量子态,其中 。与之前的工作一致,作者考虑复数的指数形式来表示量子态: ,其中振幅 是非负实值系数,相位 , 是虚数。

话语的模态特定的纯态向量 通常可以用以下形式表示:

表示各模态向量的维度, 表示逐元素向量积。在模数-参数形式中,对复数的任何运算都将生成模数和参数的非线性组合。

对应于振幅。假设词级别输入特征为 , 表示向量维度, 表示序列长度。

通过卷积神经网络将输入特征从各个输入特征投影到相同维度 中,并在最后一个隐藏层中使用修正线性单元(ReLU)作为激活函数 。尽管将模态投影到公共维空间中,卷积神经网络 仍能捕获话语中单词的局部结构。然后,作者对输出进行归一化以创建单位长度的向量: 。

第二个向量 也是实值向量,取值范围为 。相位 的分配是一个开放的研究问题。在这项工作中,为了使每个话语都能携带时间信息,将句子中单词的位置分配给相位部分。通过这种方式能够捕获话语中单词的全局结构: , 表示由 的离散索引到实值向量的映射。

4.3.2 纠缠驱动的模态融合

作者设计了一个融合模块,它采用成对模态的话语状态,即语言-视觉、语言-声学、视觉-声学。对于每一对状态,通过计算它们的张量积来创建一个复合但可分离的状态。复合可分离状态定义在 维空间 上,公式为: ,其中 和 表示任意两种模态, 表示外积操作。

然后使用复值神经层 来计算成对模态的模态间交互: , 属于 是权重向量, 表示逐元素的向量乘积。结果 被正则化为 中的一个单位向量。

从表示的角度来看,张量积的操作可以被认为是一个加权的线性变换层。从量子的角度来看, 可以实现为酉算子 。在整个二元模态交互过程中, 作为对不同希尔伯特空间 的量子哈密顿控制,变换后产生纠缠。这意味着转换后的输出不能以可分解的形式写入,从而有可能捕获跨成对模态的非经典相关性。

4.3.3 量子测量

测量组件作用于三个不可分离的成对模态的集合。一组参数化测量 在一组不可分离的成对模态上执行,为每对模态生成一系列正标量: ,其中 是任意一对模态,每个 代表一个抽象的情感概念。输出是由测量产生的正实数值的 矩阵。

然后进行逐行最大池化,将三个抽象概念序列并联成一个高级话语表示。最后,高级表示被传递到一个全连接层,通过一个 分类器获得分类结果。

4.4 实验

4.4.1 性能分析

表1-EFNN 在 CMU-MOSI 上与基线模型效果对比

表 1 显示了 EFNN 在 CMU-MOSI 上与 SOTA 基线方法之间的比较结果。与其他基线相比,应用注意力机制来对齐成对模态的 c-GRU 和 MulT,表现出最高的二分类正确率。

表2-EFNN 在 CMU-MOSEI 上与基线模型效果对比

表 2 显示了在 CMU-MOSEI 上的实验结果。与 c-GRU 的 80.7% 相比,EFNN 的二分类正确率提高到 82.8%,显着提高了 2.6%(t-检验

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...