【ICML2024】揭示大脑中视觉-语言整合的多模态网络数据派THU关注共 760字,需浏览 2分钟 ·2024-07-01 17:00 来源:专知 本文为论文介绍,建议阅读5分钟 我们发现,在我们评估的多模态训练技术变体中,CLIP风格的训练最适合下游神经活动预测。 我们使用(多)模态深度神经网络(DNNs)来探测人类大脑中多模态整合的部位,通过预测人类受试者在观看电影时进行的立体脑电图(SEEG)记录来实现这一目标。我们将多模态整合的部位操作化为多模态视觉-语言模型比单模态语言、单模态视觉或线性整合的语言-视觉模型更好地预测记录的区域。我们的目标DNN模型涵盖不同的架构(如卷积网络和Transformer)和多模态训练技术(如交叉注意力和对比学习)。作为关键的启用步骤,我们首先证明了训练过的视觉和语言模型在预测SEEG信号的能力上系统地优于其随机初始化的对应模型。然后,我们将单模态和多模态模型进行比较。由于我们的目标DNN模型通常具有不同的架构、参数数量和训练集(可能掩盖因整合而产生的差异),我们对两个模型(SLIP和SimCLR)进行了受控比较,这两个模型除了输入模态外,其余属性保持相同。通过这种方法,我们确定了大量的神经部位(平均1090个总部位中的141个或12.94%)和大脑区域,在这些区域似乎发生了多模态整合。此外,我们发现,在我们评估的多模态训练技术变体中,CLIP风格的训练最适合下游神经活动预测。 浏览 19点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 多模态视觉语言模型 Mini-Gemini大家好,又见面了,我是 GitHub 精选君!背景介绍随着大数据和人工智能技术的快速发展,多模态视觉语言模型(Multi-modality Vision Language Models)已成为近年来研究的热点。这类模型通过融合图像和文本信息,能够更好地理解和生成复杂的视觉语言内容,广泛应用于图像标注VLE视觉-语言多模态预训练模型VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力VLE视觉-语言多模态预训练模型VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-Macaw-LLM多模态语言建模Macaw-LLM:具有图像、视频、音频和文本集成的多模态语言建模Macaw-LLM是一项探索性的尝试,它通过无缝结合图像、视频、音频和文本数据开创了多模式语言建模,建立在CLIP、Whisper和LMacaw-LLM多模态语言建模Macaw-LLM:具有图像、视频、音频和文本集成的多模态语言建模Macaw-LLM 是一项探索性的[读论文]语言视觉多模态预训练模型 ViLBERTDeep Learning深度学习笔记0VisualGLM-6B多模态对话语言模型VisualGLM-6B是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥mPLUG-Owl多模态大语言模型阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。VisualGLM-6B多模态对话语言模型VisualGLM-6B多模态对话语言模型0mPLUG-Owl多模态大语言模型阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。论文:https://点赞 评论 收藏 分享 手机扫一扫分享分享 举报