AI视频年大爆发!Gen-2/Pika成时代爆款,2023年AI视频生成领域的现...
新智元报道
编辑:桃子【新智元导读】2023年,也是AI视频元年。过去一年究竟有哪些爆款应用诞生,未来视频生成领域面临的难题还有哪些?
过去一年,AI视频领域我们见证了,Gen-2、Pika等爆款产品的诞生。 来自a16z的Justine Moore,详细盘点了人工智能视频生成领域的现状、不同模型比较,以及还未解决的技术挑战。
接下来,一起看看这篇文章都讲了什么?
AI视频生成大爆发
今天,你可以在哪里生成AI视频?
21个视频生成产品
今年到目前为止,a16z已经跟踪了21种公开产品。 虽然你可能听说过Runway、Pika、Genmo和Stable Video Diffusion,但还有许多其他的东西需要探索。
这些产品大多来自初创公司,其中许多都是从Discord bots,有以下几个优势: - 不需要构建自己面向消费者的界面,只需专注于模型质量 - 可以利用Discord每月1.5亿活跃用户的基础进行分发 - 公共渠道为新用户提供了一种简便的方式,让他们获得创作灵感(通过查看他人的创作) 然而,随着技术成熟,我们开始看到越来越多的AI视频产品建立自己的网站,甚至是App。 随着Discord提供了一个很好的平台,但在纯生成之上添加的工作流而言,却是有限的,并且团队对消费者体验的控制很少。 值得注意的是,还有很大一部分人不使用Discord,因其觉得界面混乱让人困惑。
研究和技术
谷歌、Meta和其他公司在哪里? 在公开的产品列表中,他们显然没有出现--尽管你可能已经看到了他们发布的关于Emu Video、VideoPoet 和 Lumiere等模型的帖子。 到目前为止,大型科技公司基本上都不选择公开自家的AI视频产品。 取而代之的是,他们发表了各种相关的视频生成的论文,而没有选择视频演示。 比如,谷歌文本生成视频的模型Lumiere
这些公司有着巨大的分销优势,其产品拥有数十亿用户。 那么,他们为什么不放弃发布视频模型,而在这一新兴类别市场中夺取巨大份额。 最主要的原因还是,法律、安全和版权方面的担忧,往往使这些大公司很难将研究转化为产品,并推迟推出。如此一来,让新来者有机会获得先发优势。
AI视频的下一步是什么?
时间一致性:如何让角色、对象和背景在帧之间保持一致,而不会变形为其他东西或扭曲? 在所有公开提供的模型中,这是一个非常常见的问题。 如果你今天看到一段时间连贯的视频,时长超过几秒,很可能是视频到视频,通过拍摄一段视频,然后用AnimateDiff prompt travel之类的工具来改变风格。
- 长度——制作长时间的短片与时间连贯性高度相关。 许多公司会限制生成视频的长度,因为他们不能确保几分钟后依然视频保持一致性。 如果当你看到一个超长的AI视频,要知道它们是由一堆短片段组成的。
尚未解决的问题




评论

