从OpenAI VPT,看视频预训练

共 2382字,需浏览 5分钟

 ·

2023-08-14 07:26


大数据文摘授权转载自李rumor
视频预训练一直是我很期待的方向,毕竟文本的表达是有限的,如果让大模型建立起对世界的多模态认知,可能很多常识知识问题、world model就迎刃而解了。另外互联网的文本数据也逐渐无法跟上Scaling law,下一步必然会走向多模态。
然而直到现在好像也没看到能很好利用视频数据来做Foundation模型的方法,恰好最近又看了OpenAI去年发布的VPT[1]这篇工作,没想到隔一年再回看,跟第一次调研EmbodiedAI时看到的感觉完全不一样。
视频预训练如何做

在介绍VPT之前,我们先看一下英伟达同期的工作MineDojo[2]是如何做的。这两篇工作都是以Minecraft游戏为背景,希望利用视频数据训练出一个能完成各种任务的agent,输入是图像(+文本),输出agent要执行的动作。
MineDojo采取了传统RL的思路,先定义任务的reward,再用RL算法一把梭,就学会了。但作者一盘发现,其实有两类任务:
  1. 程序化任务,比如存活多少天、打败多少敌人,这种目标模拟器里很好计算结果,直接作为奖励即可。

  2. 创造性任务,比如骑着猪跑,这类就很不容易了,没法一个个用规则去写奖励函数。

于是难点就来了,如何找到合适的reward呢?作者灵机一动,利用Youtube上的各种视频,抽出其中的图像和字幕,训练一个类似CLIP的模型MINECLIP。在RL训练阶段,直接用MINECLIP计算当前游戏界面和prompt的相似度,作为奖励。
由于RL收敛比较慢,作者也采用了不少方法加速训练,其中很重要的一点是Self-Imitation Learning,直接把拿到高奖励的动作序列保存下来去学习,就像SFT一样去学习,效果提升很明显(红色线):
看了MineDojo利用视频预训练改进传统RL之后,再看OpenAI的VPT就很不一样,两者完全是不同的思路,可以说MineDojo是用RL的范式,而VPT是用LLM的范式,即Pretrain+SFT+RL。另外值得注意的一点是,VPT发表于22年6月,同时文中还注明这个工作已经进行了一年之久。也就是说OpenAI从21年中就已经开始研究agent、视频预训练这些topic了。
我特意查了一下VPT作者,并没有人参与InstructGPT,不知道两个项目是否有交流,但不少VPT的作者在简介里都说了自己正在参与语言大模型的工作。
只能说OpenAI把这套范式玩明白了,训什么都用这个思路。但其中有个难点,就是预训练的时候视频数据没有自监督信号,因为模型要输出的是动作,而不是下一个画面。
于是他们想了一个简单粗暴的解决办法,就是先让标注人员去玩游戏,记录他们的游戏画面和对应的动作(键盘、鼠标),再用这批数据训练一个模型(Inverse Dynamics Model),去给所有的视频数据预测出标签。这样就可以进行自回归视频预训练了。预训练的数据量是70k小时的视频,大概5B的token,模型参数量在0.5B。
得到视频预训练模型之后,对于特定的任务,可以直接利用人工标注数据进行精调,同时可以再进行RL,作者发现Pretrain+SFT+RL三步之后效果奇佳,模型可以完成非常复杂的任务(人类需要20分钟才能完成)。
同时,VPT也尝试了加入字幕、音频转文字后的数据进行多模态训练,但由于数据太少,只展现了微弱的可控性,不过当下再来看文本可控并不是难点,已经有很多成功的工作了。
看完VPT,再来对比一下MineDojo,可以发现LLM范式一个明显的优点,即提升了训练效率和效果天花板,因为纯RL要靠自己探索,其实收敛的很慢,而且有些复杂的任务需要很长的链路,纯RL可能根本探索不到。
通用视频预训练?
虽然VPT证明了LLM的范式在视频预训练同样可行,但个人认为还有两个比较关键的问题:
  1. 图像与文本的预训练数据不兼容:目前互联网的语料都是图像或者文字一方占主导,所以后续大概率是和现在一样,两种模态分别预训练,再通过少量数据融合。

  2. VPT的方法不够通用:像NLP一样进行通用领域的视频预训练还有很长的路要走。首先VPT在准备训练语料时,需要定义标签的动作空间,目前只局限在鼠标和键盘,但真实世界中的动作太多了;另外很多领域的监督数据也不一定好获取,比如需要真人出镜的视频成本会很高。

VPT这篇工作在去年推出时并没有引起太大火花,如今想一想,虽然存在上述问题,但在一些垂类场景上已经有落地的可能了,比如在excel上做数据分析、做PPT、操作photoshop等。
再一想,OpenAI居然前年就开始做这些事儿了,真可怕。

参考资料

[1]Video-Pre-Training: https://cdn.openai.com/vpt/Paper.pdf

[2]MineDojo: https://minedojo.org/


点「在看」的人都变好看了哦!
浏览 651
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报