LeCun怒斥Sora是世界模型,自回归LLM太简化了
人工智能与算法学习
共 2014字,需浏览 5分钟
· 2024-04-11
来源:机器之心
LeCun 对「世界模型」给出了最新定义。
最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。Sora 如此出圈,不仅在于它能输出高质量的视频,更在于 OpenAI 将其定义为一个「世界模拟器」(world simulators)。
英伟达高级研究科学家 Jim Fan 甚至断言:「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。
「Sora 是世界模型」这种观点,让一直将「世界模型」作为研究重心的图灵奖得主 Yann LeCun 有些坐不住了。在 LeCun 看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。
图源:https://twitter.com/ylecun/status/1758740106955952191
虽然 Sora 的发布让整个 AI 界为之疯狂,但 LeCun 并不看好。他不止一次的公开表达过对自回归和 LLM 的批评,而自回归模型是包括 Sora 等在内的 GPT 系列 LLM 模型所依赖的学习范式,也就是说,从 ChatGPT 到 Sora,OpenAI 都是采用的自回归生成式路线。
然而 LeCun 多次唱衰这种技术路线,他曾表达过一些不满,比如「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」「自回归生成模型弱爆了!(Auto-Regressive Generative Models suck!)」「LLM 对世界的理解非常肤浅。」等言论。
世界模型和自回归 LLM 到底该如何定义?身为全球知名的 AI 研究学者,LeCun 自然不是一位全然的批评家,最近,他给出了世界模型的新定义。在他看来,自回归生成模型仅仅是世界模型的一种简化的特殊情况。与大家在互联网上看到的动不动就是长篇大论的科普不同,LeCun 以一种简单直白的方式给出了世界模型的定义。
图源:https://twitter.com/ylecun/status/1759933365241921817
对于给定的:
- 观察值 x (t);
- 对世界状态的先前估计 s (t);
- 动作建议 a (t);
- 潜在变量建议 z (t)。
世界模型需要计算出:
- 表征:h (t) = Enc (x (t));
- 给出预测:s (t+1) = Pred ( h (t), s (t), z (t), a (t) )。
其中,
- Enc () 是一个编码器(我们可以理解为一个可训练的确定性函数,例如神经网络);
- Pred () 是一个隐藏状态预测器(也是一个可训练的确定性函数);
- 潜在变量 z (t) 代表未知信息,可以准确预测将来会发生什么。z (t) 变量必须从一个分布中进行采样,或者在一组中变化。它参数化了(或分布)一系列可能的预测。换句话说,变量 z (t) 定义了一个可能性空间,我们根据这个空间来预测未来可能发生的情况。
诀窍是通过观察三元组 (x (t),a (t),x (t+1)) 来训练整个模型,同时防止 Encoder 坍缩。
自回归生成模型(例如 LLM,Sora 就是这种路线)是一种简化的特殊情况,原因在于:
1. Encoder 是恒等函数:h (t) = x (t); 2. 状态是过去输入的窗口; 3. 没有动作变量 a (t); 4. x (t) 是离散的; 5. 预测器计算 x (t+1) 结果的分布,并使用潜在 z (t) 从该分布中选择一个值。
方程简化为:
s (t) = [x (t),x (t-1),...x (t-k)] x (t+1) = Pred ( s (t), z (t), a (t) )
在这种情况下不存在坍缩问题。
这可能就是 LeCun 极力反对 Sora 是世界模型这种说法的一个重要原因 —— 它只是世界模型中一种简化的特殊情况。
不过话说回来,Jim Fan 又在 LeCun 的这条推文下方留言,他坚持道:「Sora 本质上是一种无操作(no-op)的世界模型。你可以设置世界的初始状态,在潜在空间中运行模拟,并被动地观察会发生什么。现在没有办法进行积极干预。」
至于 Sora 到底是不是世界模型我们暂且不议,混淆大家多时的「世界模型」的定义,现在终于被 LeCun 讲明白了。
——The End——
分享
收藏
点赞
在看
评论
如何给模型加入先验知识
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达转载自 | 极市平台来源丨https://zhuanlan.zhihu.com/p/188572028端到端的深度神经网络虽然能够自动学习到一些可区分度好的特征,但是往往会拟合到一些非重要特征,导致模型会局部坍塌到一些不好的特征上
小白学视觉
1
太敢穿了!透视纱裙!性感火辣的身材
绝了呀今天的厂花:吴宣仪1995年1月26日,吴宣仪出生于海南省海口市,中国内地流行乐女歌手、影视演员。2016年2月,吴宣仪随宇宙少女发行首张迷你专辑正式出道。2018年4月,她参加《创造101》综艺选秀,获得第二名,成功加入火箭少女101组合。吴宣仪的颜值一直备受称赞,她的五官立体精致,皮肤白皙
逆锋起笔
0
CVPR 2024|大视觉模型的开山之作!无需任何语言数据即可打造大视觉模型
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达作者丨科技猛兽编辑丨极市平台极市导读 本文提出一种序列建模 (sequential modeling) 的方法,不使用任何语言数据,训练大视觉模型。本文目录1 序列建模打造大视觉模型(来自 UCB,Johns Hopki
小白学视觉
0
美女诱惑趴床上性感写真全身照片,太撩人!
美女诱惑图片|美女趴床上照片,床上性感写真,女生全身照片可爱,文末阅读原文有私房写真集哦!不要到处宣扬自己的内心,这世上不止你一个人有故事,也不要到处宣泄自己的痛苦,没有人会感同身受。心中装满着自己的看法与想法的人,永远听不见别人的心声。网红台妹 | 咪啦,甜美又性感的顶级美女模特好甜!这颜值身材,
逆锋起笔
0
CVPR 2024|大视觉模型的开山之作!无需任何语言数据即可打造大视觉模型
↑ 点击蓝字 关注极市平台作者丨科技猛兽编辑丨极市平台极市导读 本文提出一种序列建模 (sequential modeling) 的方法,不使用任何语言数据,训练大视觉模型。>>加入极市CV技术交流群,走在计算机视觉的最前沿本文目录1 序列建模打造大视觉模型(来自 U
极市平台
1
词向量(更新) | 使用MD&A2001-2022语料训练Word2Vec模型
buTips: 公众号推送后内容只能更改一次,且只能改20字符。 如果内容出问题,或者想更新内容, 只能重复推送。 为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2023-03-24-load-w2v-and-expand-your-concpe
大邓和他的Python
0
周鸿祎是真牛逼
最近在各个视频平台,我的推荐信息流上一定会出现红衣教主周鸿祎的身影,俨然是新一代的顶流IP网红,还是自己贼有钱的那种。不得不说,周鸿祎是真牛逼,他是懂得学习的。年初的时候,他就发文:“如今已是网红时代,我现在已经拜了俞敏洪为师,在学习如何当网红,每天勤奋的发短视频”。“有时候也在劝很多亚布力大哥级
公子龙
1
人工智能周刊#18:微软发布手机端大模型、Llama 3 中文模型列表、苹果开源新项目、
主打尊重隐私的搜索引擎 duckduckgo,也推出了 ai chat 服务,可以使用 chatgpt 或者 claude机器学习周刊:关注 Python、机器学习、深度学习、大模型等硬核技术本期目录:1、Qwen1.5-110B:Qwen1.5 系列的首个千亿参数开源模型2、苹果开源
机器学习算法与Python实战
0