【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化-技术圈

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

共 1580字，需浏览 4分钟

2024-10-26 17:00

   
    
     
      
       来源：专知
      
     
    
   
   
    
     
      
       
        本文约1000字，建议阅读5分钟
        我们提出了双原型演化 (Dual Prototype Evolving, DPE)，这是一种新的VLMs测试时自适应方法，可以有效地从多模态中累积任务特定知识。

测试时自适应 (Test-time adaptation) 使模型能够在无标签测试样本下对多样化数据进行泛化，在现实应用中具有重要价值。近期，研究人员将这种设置应用于高级预训练视觉-语言模型 (Vision-Language Models, VLMs)，提出了如测试时提示调优（test-time prompt tuning）等方法，以进一步扩展其实际适用性。然而，这些方法通常仅关注单模态的VLMs适应性，且在处理更多样本时，未能累积任务特定知识。为了解决这一问题，我们提出了双原型演化 (Dual Prototype Evolving, DPE)，这是一种新的VLMs测试时自适应方法，可以有效地从多模态中累积任务特定知识。具体来说，我们创建并不断演化两组原型——文本和视觉原型——以在测试时逐步捕捉目标类别的更准确的多模态表示。此外，为了促进多模态表示的一致性，我们为每个测试样本引入并优化可学习残差，以对齐来自不同模态的原型。在15个基准数据集上的广泛实验结果表明，我们提出的DPE方法不仅在性能上持续优于当前最先进的方法，同时在计算效率上也具备竞争力。代码可在 https://github.com/zhangce01/DPE-CLIP 获取。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU