-free for 3D Test-time
研究背景
随着3D传感器技术的不断发展,3D点云处理在自动驾驶、机器人视觉、医疗影像等领域得到了广泛应用。然而,现实世界中的系统经常会遇到新的数据分布,导致目标域偏移。传统的训练方法在这种动态变化的环境中表现不佳,因为它们通常假设训练数据和测试数据来自相同的分布。为了解决这一问题,测试时自适应(Test-Time , TTA)方法应运而生,旨在在测试时利用未标记的测试数据快速调整模型,以适应新的目标域。
研究意义
传统的TTA方法往往依赖于计算密集且内存占用大的反向传播过程,这限制了它们在实时应用中的性能。此外,这些方法还可能引入伪标签噪声和累积误差。因此,研究一种无需反向传播的TTA方法对于提高3D点云处理系统的实时性和鲁棒性具有重要意义。本研究提出了一种无需反向传播的3D TTA方法(),该方法通过非参数网络和子空间学习来适应新的目标域,有效避免了反向传播的复杂性和伪标签噪声问题。
文献综述
点云域适应
点云域适应旨在减小源域和目标域之间的分布差异,以提高模型在目标域上的性能。现有方法主要分为两大类:有监督域适应和无监督域适应。有监督域适应方法需要源域标签信息,而无监督域适应方法则不依赖源域标签。然而,这些方法在处理动态变化的环境时仍存在局限性。
测试时域适应
测试时域适应是一种在测试时利用未标记测试数据来适应新目标域的方法。它不需要访问源域数据,而是通过最小化目标域上的损失函数来更新模型参数。现有方法如TENT、SHOT等通过熵最小化或伪标签自训练来实现域适应,但这些方法在3D点云处理中可能面临性能挑战。
3D点云测试时域适应
针对3D点云的TTA方法需要专门设计以适应3D数据的特性。现有方法如MM-TTA、MATE等通过多模态融合或自监督学习来提高模型的域适应能力,但仍存在伪标签噪声和计算复杂度高的问题。
具体方法
本研究提出了一种无需反向传播的3D TTA方法(),该方法包括以下几个关键步骤:
非参数网络:利用非参数网络(如FPS、k-NN和池化操作)从测试点云数据中提取目标域特定的特征表示。
子空间学习:通过最大均值差异(MMD)距离和传输成分分析(TCA)将源域原型特征和测试样本特征映射到共享子空间,以减小域差异。
自适应融合模块:基于熵信息动态融合源域模型和目标域特定的对数,以输出最终的预测结果。整个框架在适应过程中不引入需要反向传播的参数。
图1
标题:-free Test-time 3D Model ()
解释:
图2
标题:框架
解释:
公式1用于计算点云中每个点的通道嵌入。对于每个坐标(X, Y, Z),使用三角函数(正弦或余弦)根据波长(α)和尺度(β)超参数进行编码。
公式2将每个点的X、Y、Z坐标的通道嵌入连接起来,形成原始点嵌入。
公式3通过连接中心点的特征与其邻居点的特征来扩展中心点的特征。
公式4通过中心点和其邻居点的相对位置编码对扩展的中心点特征进行重加权,以考虑邻居点的空间分布。
公式5使用最大池化和平均池化来聚合重加权后的特征信息,以获得更具代表性的中心点特征。这个过程会重复四次,最后应用全局池化操作得到样本特征。
公式6用于选择原型特征。对于每个类别c,选择距离该类别的平均特征f‾cfc最近的特征f加入原型记忆McMc,以确保选出的特征能够代表该类别的关键信息。
公式7计算测试样本特征FtFt与原型记忆M之间的相似度矩阵J。F~tF~t和M~M~分别是FtFt和M的归一化向量。
公式8通过相似度矩阵J和原型记忆标签LmLm计算目标特定的逻辑值lbf,tlbf,t。φ(x)=exp(−γ(1−x))φ(x)=exp(−γ(1−x))是激活函数,用于预测,其中γ是缩放超参数。
公式9,两个公式表示将源域原型特征f和目标域测试样本特征ftft通过投影函数ψψ映射到共享子空间,得到f∗f∗和ft∗ft∗,以减小两个域之间的分布差异。
公式10使用最大均值差异(MMD)距离来衡量源域QsQs和目标域QtQt在共享子空间中的统计差异。其中,nsns和ntnt分别是源域和目标域的特征数量,fi∗fi∗和ft,j∗ft,j∗是映射到共享子空间后的特征。
公式11定义了源域和目标域样本在共享子空间中的核矩阵K。其中,ψ(xi)ψ(xi)和ψ(xj)ψ(xj)是将样本xixi和xjxj映射到共享子空间的函数,⟨⋅,⋅⟩⟨⋅,⋅⟩表示内积,nsns和ntnt分别是源域和目标域的特征数量。
公式12定义了核矩阵K的缩放矩阵L,用于在核学习问题中平衡源域和目标域样本的重要性。
公式13表示核学习问题的优化目标,旨在找到最佳变换矩阵W,以最小化源域和目标域在共享子空间中的MMD距离。其中,tr(⋅)tr(⋅)表示矩阵的迹,μμ是正则化参数,用于控制W的复杂度,H是中心化矩阵。
公式14给出了优化问题(公式13)的解,即变换矩阵W。W由(KLK+μI)−1KHK(KLK+μI)−1KHK的前m个最大特征值对应的特征向量组成。
公式15表示最终逻辑值ltlt的计算方法,它是通过加权融合目标特定逻辑值lbf,tlbf,t和源域特定逻辑值ls,tls,t得到的。权重p根据熵比动态计算,用于平衡两个逻辑值对最终预测的贡献。
公式16用于计算加权融合中的权重p,它基于源域特定逻辑值ls,tls,t和目标特定逻辑值lbf,tlbf,t的熵值比。熵值反映了模型对测试点云样本的不确定性,低熵值表示高置信度。通过此公式,当目标域与源域分布相似时,p值较小,反之较大,从而动态调整两个逻辑值对最终预测的贡献。
表1解释:-40C数据集上的实验结果
表1展示了在-40C数据集上,不同方法使用不同骨干网络时的分类错误率。-40C是一个包含15种常见类型损坏的测试集,用于模拟现实世界中的分布偏移。
表2解释:-C数据集上的实验结果
表2展示了在-C数据集上,不同方法的分类错误率。-C是一个从真实世界中收集的点云分类数据集,包含15个类别。
表3解释:消融研究:原型数量
表3探究了用于构建相似度矩阵的原型数量对模型性能的影响。
表4解释:消融研究:子空间学习方法
表4比较了不同子空间学习方法对模型性能的影响。
表5解释:消融研究:自适应比例
表5评估了自适应融合模块中使用的自适应比例p的有效性。
图3
标题:非参数网络
解释:
323AI导航网发布