何恺明新工作!加入MIT的首篇论文!打破自回归图像生成瓶颈,奥赛金牌得主参与!

小白学视觉

共 2915字,需浏览 6分钟

 ·

2024-06-26 10:05

点击上方小白学视觉”,选择加"星标"或“置顶

    
重磅干货,第一时间送达
作者丨21#
来源丨夕小瑶科技说
编辑丨极市平台

极市导读

 

巧妙地借鉴了扩散模型的思想,成功地将自回归模型从矢量量化的束缚中解放出来,实现了连续值生成图像的突破。

近日,深度学习领域的杰出研究者何恺明及其团队又放了个大招,推出其团队最新研究工作,在AI研究领域引起了广泛关注。

何恺明2024年加入麻省理工学院(MIT),在电气工程与计算机科学系担任教职。

何恺明团队联合Google DeepMind和清华大学,首次提出了一种无需矢量量化的自回归图像生成方法,彻底颠覆了人们对自回归生成技术的认知。

在传统的自回归图像生成中,矢量量化一直是不可或缺的一环。然而,这种方法的局限性在于,它依赖于离散的tokenizer,这在一定程度上限制了生成图像的灵活性和多样性。

而今,何恺明团队巧妙地借鉴了扩散模型的思想,成功地将自回归模型从矢量量化的束缚中解放出来,实现了连续值生成图像的突破。

一起看看这一创新是如何提高自回归图像生成的质量和多样性的,以及是如何改变AI领域的未来走向!

论文题目:
Autoregressive Image Generation without Vector Quantization

论文链接:
https://arxiv.org/abs/2406.11838

扩散损失引入自回归图像生成

自回归模型在自然语言处理中非常成功,人们普遍认为它们需要离散表示。因此,在将自回归模型应用于图像生成等连续值领域时,研究主要集中在如何将图像数据离散化,而不是直接在连续空间上建模。

但自回归的本质在于基于前面的token作为输入来预测序列中的下一个token,不禁疑惑:难道连续的token值就不能实现上述过程了吗?

何凯明团队将扩散过程中的损失函数引入到自回归图像生成过程,引入了扩散损失(Diffusion Loss)

自回归模型学习不同token间的关联性,而扩散过程通过损失函数学习单个token的概率分布。具体来讲,自回归模型会根据前面的token预测一个向量z作为小型去噪网络(如MLP)的条件,通过损失函数不断学习连续值x的潜在分布 并从中采样。

统一自回归和掩码生成模型的创新框架

何恺明团队还提出了一种统一标准自回归模型(AR)和掩码生成模型(MG)的广义自回归框架,具体表现为掩码自回归(MAR)模型。该模型利用双向注意力机制,在随机顺序下同时预测多个输出标记,同时保持自回归的特性。这一方法显著提高了生成速度。

传统的因果注意力机制,它通过限制每个标记只关注之前的标记来实现自回归。而双向注意力机制,它允许每个标记在序列中看到所有其他标记。掩码标记在中间层添加了位置嵌入,这种设置只在未知标记上计算损失,但允许序列中的标记之间进行全面的交流,从而在推理时能够逐个生成标记。同时,它还允许我们同时预测多个标记。

自回归+扩散  vs 自回归 vs 扩散

作为自回归模型和扩散模型的融合,其方法极具有创新性,那与传统自回归生成和扩散生成相比,性能如何呢?

生成快且效果精

相比于传统的自回归(AR)模型和扩散Transformer(DiT)模型,MAR模型在使用扩散损失后,能够更快速且更准确地生成图像。具体来说,MAR模型的生成速度小于0.3秒每张图像,且在ImageNet 256×256数据集上的FID得分小于2.0,体现了其高效性和高质量。

与领先模型相较毫不逊色

不同模型规模下,经过800个周期的训练,此方案展示了良好的扩展性。与当前的领先模型相比,此方法也毫不逊色。在不使用CFG的情况下,MAR模型的FID为2.35,显著优于其他基于标记的方法。最佳条目的FID为1.55,与领先模型相比具有竞争力。

总结

何恺明团队在图像生成领域的强有力结果表明,自回归模型或其拓展版本不仅仅是语言建模的有力工具,它们在其他领域也有很大的潜力。这些模型不必受限于向量量化表示,这意味着它们可以更有效地处理连续值表示的数据。

    
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


浏览 41
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报