多模态模型‌ SmolVLM:资源受限环境下的高效多模态模型研究

默认分类15小时前发布 admin
2 0
ChatGPT国内版

来源:Deephub Imba

本文共5000字,建议阅读5分钟

本文介绍了模型在资源受限环境下的高效多模态模型研究。

是专为资源受限设备设计的一系列小型高效多模态模型。尽管模型规模较小,但通过精心设计的架构和训练策略,在图像和视频处理任务上均表现出接近大型模型的性能水平,为实时、设备端应用提供了强大的视觉理解能力。

架构设计

该研究系统性地探索了小型多模态模型的设计选择与权衡。在的架构中,图像首先通过视觉编码器进行处理,编码后的视觉特征经过池化和维度投影后输入到语言骨干网络中进行多模态理解与生成。

根据不同的计算资源需求构建了三种主要变体:

视觉与语言模型间的计算资源分配策略

研究团队将三种变体(参数量分别为135M、360M和1.7B)与两种视觉编码器进行配对:紧凑型93M参数的-B/16和更大的428M参数的-。研究发现,与大型多模态模型不同,小型模型中视觉与语言组件间的参数分配比例需要特别考量。

实验结果显示:

高效视觉信息传递机制设计

采用自注意力架构,将视觉编码器生成的视觉标记与文本标记连接后由语言模型共同处理。这种设计需要比原有2k标记限制更长的上下文处理能力,因为单张512×512分辨率图像经由-B/16编码后就需要1024个标记。为解决这一挑战,研究者通过将RoPE基数从10k增加到273k以扩展模型的上下文处理能力,并在混合数据集上进行微调,这些数据包括长上下文数据(Dolma、The Stack)、短上下文源(-Edu、DCLM)以及来自的数学内容。

研究结果表明:

最新的视觉-语言模型通常结合自注意力架构与标记压缩技术,以高效处理长序列并降低计算开销。像素重排(Pixel ,从空间到深度的重新排列)是一种特别有效的视觉压缩方法,最初为超分辨率任务提出,近期被等模型采用。这种技术将空间特征重新排列到额外的通道维度,减少空间分辨率同时提高表示密度。

像素重排可将视觉标记总数减少r²倍(r为重排比例因子)。然而,过高的重排比例会将较大的空间区域压缩到单个标记中,从而损害需要精确空间定位的任务,如光学字符识别(OCR)。

不同模型规模下最佳像素重排因子对比(PS=2 vs. PS=4)。

研究发现:

多模态模型‌ SmolVLM:资源受限环境下的高效多模态模型研究

图像与视频的高效编码策略

在图像和视频处理中合理分配标记资源对高效多模态建模至关重要。图像通常需要较高分辨率和更多标记以保持视觉细节,而视频则需要在每帧使用较少标记以高效处理更长的时间序列。为此,研究者采用了图像分割策略,将高分辨率图像分成多个子图像,并结合原始图像的缩小版本。实验证明,这种方法能在不产生过多计算开销的前提下有效保持图像质量。然而,对于视频处理,实验发现诸如帧平均等压缩策略会显著降低模型性能。

实验结果显示:

学习型标记与字符串表示的效能比较

设计中的一个关键考量点是如何有效编码分割子图像的位置信息。初期实现中使用了简单的字符串标记(如),但这导致了训练过程中出现”OCR损失瘟疫”现象——表现为损失函数突然下降但OCR任务性能没有相应提升。

为解决训练不稳定性问题,研究团队引入了可学习的位置标记,这显著改善了训练收敛性并减少了性能停滞。实验表明,虽然较大规模模型对使用原始字符串位置编码相对稳健,但较小规模模型从可学习位置标记中获益显著,在OCR准确率和跨任务泛化能力方面均取得了明显优势。

研究结果表明:

结构化文本提示与媒体分割技术

研究团队系统评估了系统提示和显式媒体引入/结束标记如何逐步提升在图像和视频基准测试中的性能。

不同训练策略对性能的累积影响。

系统提示增强:通过在任务开始前添加简明指令以明确化任务目标并减少零样本推理过程中的歧义。这一策略导致了各项任务性能的明显提升,特别是在以图像为中心的任务中效果更为显著。

媒体引入/结束标记:为清晰标记视觉内容边界,研究者在图像和视频段落周围引入了特定的文本标记(如”这是一张图像…”和”这是从视频中采样的N帧…”),并使用结束标记过渡回文本指令(如”给定这张图像/视频…”)。这种结构化标记策略大幅提升了视频任务性能——多帧内容混淆风险更高的场景——同时在图像任务上也产生了可测量的改进。

用户提示屏蔽策略:为减少过拟合风险,研究者在监督微调阶段探索了用户提示屏蔽技术。与未屏蔽基线相比,屏蔽用户查询策略在图像和视频任务中均产生了更好的性能表现。这种效果在多模态问答场景中尤为显著,其中问题模式往往高度重复且模型容易记忆表面特征。通过屏蔽策略,模型被迫依赖于与任务真正相关的内容而非表面重复模式,从而促进了更好的泛化能力。

LLM-SFT文本数据重用对模型性能的影响

直观上,重用大型语言模型最终监督微调阶段的文本数据似乎是合理的,因为这可能提供分布内提示和更高质量的语言输入。然而,实验结果表明:

针对紧凑型模型优化的思维链集成

思维链(Chain-of-,CoT)提示技术,即在训练过程中向模型展示明确的推理步骤,通常能显著增强大型模型的推理能力。然而,这一技术对较小规模多模态架构的影响尚未得到充分研究。为探索这一问题,研究者在数据集中系统调整了CoT示例的比例,涵盖文本、图像和视频多种任务类型。

实验结果表明:

多模态模型‌ SmolVLM:资源受限环境下的高效多模态模型研究

视频序列长度对模型性能的影响分析

增加训练阶段的视频时长能提供更丰富的时间上下文信息,但同时也增加了计算资源需求。为确定最佳视频时长,研究团队在平均视频长度从1.5分钟到3.5分钟不等的条件下训练了多个变体。

研究发现:

训练数据构成

的训练分为两个关键阶段:视觉基础训练阶段和视频增强阶段。

视觉训练阶段利用了模型使用的数据集的优化组合,并增补了等专业数据集。这一阶段包含多样化的视觉处理任务,如文档理解、图像描述和视觉问答(其中2%专门用于多图像推理能力培养)。此外,还包括图表理解、表格分析和视觉推理等高级任务。

为保持模型在纯文本任务中的性能水平,研究者保留了适量的通用知识问答和基于文本的推理与逻辑问题,包括数学计算和编程挑战等。

视频微调阶段维持了14%的文本数据比例和33%的视频内容以实现最优性能平衡。视频数据方面,视觉描述和字幕内容取样自LLaVA-video-178k、Video-STAR、Vript和等数据集。时间理解任务数据来自Vista-400k,叙事理解能力则主要通过和数据集培养。多图像处理数据从M4-和数据集中采样获得。

模型评估结果

主要性能表现

各变体在视觉-语言任务上的性能比较。

与其他先进小型VLM模型的性能对比。

研究评估表明:

设备端部署性能分析

各模型版本的每秒标记处理吞吐量对比。

展现出适合设备端和边缘计算环境部署的关键特性:

下游应用场景

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...