啊啊啊!我没想到打脸来得如此迅猛...

why技术

共 3522字,需浏览 8分钟

 ·

2024-04-10 22:47

转自:量子位

你好呀,我是还在老家躺着的歪歪。

昨天下午和家里人坐在一起聊天的时候,我们还聊到了 OpenAI。他们只是知道这个概念,但是具体不清楚是个什么东西。

说真的,我也一两句话解释不清楚,但是我直接搜了四张 AI 生成的图片,但是我告诉他们,这里面有一张不是 AI 生成的,你们可以试着找一下。

然后他们都反复翻看,仔细确认都找到了一张自己认为不是 AI 生产的图片,并解释的有板有眼的。

最后我告诉他们这四张全是 AI 生产的,并且这些画是基于“提示词 Prompt”画出来的,掌握了提示词,就掌握了 AI 绘画的能力,那一瞬间给到他们还是有一点点小小的震撼的。

顺便用手机给他们体验了一下最“原始”的 ChatGPT 对话,告诉他们这就是对话式 AI 天花板。

看了文字和图片能力之后,他们问到了视频领域。

我是这样回答的:它现在能做视频出来,比如最常见的虚拟人物形象,但是在视频领域它还是很容易让人产生“一眼 AI”的感觉,所以这方面它还是不行,还得需要点时间,再发展发展。

在结束这个话题的时候,我还发表了一个总结性的言论:AI 现在在文字领域和图片绘画领域已经占据了一席之地了,到了一定程度上的以假乱真。但是在视频制作领域还是有很多需要去突破的点,让人不再产生“一眼 AI ”的感觉的时候,那种视频带给你的感觉,是文字和图片带来的震撼感无法比拟的。但是它还需要时间。ff24cfd4b1029d70b300c0adfabf49f6.webp

在上面的这个场景发生了不到 24 小时之后。今天早上,我看到了量子位发布的这篇文章:

26f9a79d7be62638fbf25a53be40da38.webp

我承认,这是打脸了,我没想到它来的这么迅猛,直接用一段一段视频,给我看懵了。虽然还是能看到 AI 的影子在里面,但是有几个视频中间的几秒,比如已经完全突破了“一眼 AI”这个评价,需要仔细的去分辨了。

我看完之后产生了一种“技术大爆炸”的错感。

我还无聊的脑补了一个更可怕的点:有没有可能是 AI 在每个视频里面故意卖几个破绽,来让人类进行识别?(又在脑补科幻动作大片了...

这是一种让人兴奋又可怕的感觉。

以下是量子位文章正文,分享给你。



刚刚,奥特曼发布OpenAI首个视频生成模型Sora。

完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。

地址:

https://openai.com/sora

1a018bd9b9ff1c320161f6bec4688be5.webp

AI想象中的龙年春节,红旗招展人山人海。

有紧跟舞龙队伍抬头好奇官网的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。

5b81048ce2e848ef6ff4a1112ee18196.webp

雨后东京街头,潮湿地面反射霓虹灯光影效果堪比RTX ON。

96a3ce3d5813e4222ef95c84c8029f97.webp

行驶中的列车窗外偶遇遮挡,车内人物倒影短暂出现非常惊艳。

0369e17df16fa9e02412dbb455f05375.webp

也可以来一段好莱坞大片质感的电影预告片:

240941f3cdecf83268f451c3965f95f6.webp

竖屏超近景视角下,这只蜥蜴细节拉满:

96f7a6863891fa0c6c476d8ee577d086.webp

网友直呼game over,工作要丢了:

1bb952a1f4482c5a162e6883b5004073.webp

甚至有人已经开始“悼念”一整个行业:

82b50209e57c7d444b93e3c3fd046d64.webp

文生视频,只是整个计划之一

OpenAI表示,正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题

根据文本提示生成视频,仅仅是整个计划其中的一步。

7105ab7e6e837c7590150825e636971a.webp

目前Sora已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。

比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。

一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。

Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

美丽、白雪皑皑的东京熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。

对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。

b2633382bd0a987c5ae740c7832f44a6.webp

该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。

26928a08cb621a0cf9bd92da0a5663ec.webp

技术方面,目前OpenAI透露的不多,简单介绍如下:

Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,

关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。

与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。

在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。

通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。

Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术,为视觉训练数据生成高度描述性的标注,因此能够更忠实地遵循用户的文本指令。

除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地让图像内容动起来并关注小细节。

该模型还可以获取现有视频并对其进行扩展或填充缺失的帧,请参阅技术论文了解更多信息(晚些时候发布)。

Sora 是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。

首批权限开放艺术家、设计师和电影制作人

目前已有一些视觉艺术家、设计师和电影制作人(以及OpenAI员工)获得了Sora访问权限。

他们开始不断po出新的作品,奥特曼也开始了在线接单模式。

带上你的提示词@sama,就有可能收到生成好的视频回复。

ef20ba98463940a386ea5609ef9a00f3.webp

下面是更多精彩视频欣赏。

a wizard wearing a pointed hat and a blue robe with white stars casting a spell that shoots lightning from his hand and holding an old tome in his other hand

A street-level tour through a futuristic city which in harmony with nature and also simultaneously cyperpunk / high-tech.

The city should be clean, with advanced futuristic trams, beautiful fountains, giant holograms everywhere, and robots all over.

Two golden retrievers podcasting on top of a mountain

A instructional cooking session for homemade gnocchi hosted by a grandmother social media influencer set in a rustic Tuscan country kitchen with cinematic lighting

A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view


··············  END  ··············


0f990f09e3839ac486e38fe81df30661.webp

推荐👍线程池参数千万不要这样设置

推荐👍从一道关于定时任务的面试题说起

推荐👍Spring解决泛型擦除的思路不错,现在它是我的了。

推荐👍一个烂分页,踩了三个坑!

推荐👍一个普通程序员磕磕绊绊,又闪闪发光的十年。

你好呀,我是歪歪。我没进过一线大厂,没创过业,也没写过书,更不是技术专家,所以也没有什么亮眼的title。

当年高考,随缘调剂到了某二本院校计算机专业。纯属误打误撞,进入程序员的行列,之后开始了运气爆棚的程序员之路。

说起程序员之路还是有点意思,可以点击蓝字,查看我的程序员之路


浏览 10
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报