啊啊啊!我没想到打脸来得如此迅猛...-技术圈

转自：量子位

你好呀，我是还在老家躺着的歪歪。

昨天下午和家里人坐在一起聊天的时候，我们还聊到了 OpenAI。他们只是知道这个概念，但是具体不清楚是个什么东西。

说真的，我也一两句话解释不清楚，但是我直接搜了四张 AI 生成的图片，但是我告诉他们，这里面有一张不是 AI 生成的，你们可以试着找一下。

然后他们都反复翻看，仔细确认都找到了一张自己认为不是 AI 生产的图片，并解释的有板有眼的。

最后我告诉他们这四张全是 AI 生产的，并且这些画是基于“提示词 Prompt”画出来的，掌握了提示词，就掌握了 AI 绘画的能力，那一瞬间给到他们还是有一点点小小的震撼的。

顺便用手机给他们体验了一下最“原始”的 ChatGPT 对话，告诉他们这就是对话式 AI 天花板。

看了文字和图片能力之后，他们问到了视频领域。

我是这样回答的：它现在能做视频出来，比如最常见的虚拟人物形象，但是在视频领域它还是很容易让人产生“一眼 AI”的感觉，所以这方面它还是不行，还得需要点时间，再发展发展。

在结束这个话题的时候，我还发表了一个总结性的言论：AI 现在在文字领域和图片绘画领域已经占据了一席之地了，到了一定程度上的以假乱真。但是在视频制作领域还是有很多需要去突破的点，让人不再产生“一眼 AI ”的感觉的时候，那种视频带给你的感觉，是文字和图片带来的震撼感无法比拟的。但是它还需要时间。

在上面的这个场景发生了不到 24 小时之后。今天早上，我看到了量子位发布的这篇文章：

我承认，这是打脸了，我没想到它来的这么迅猛，直接用一段一段视频，给我看懵了。虽然还是能看到 AI 的影子在里面，但是有几个视频中间的几秒，比如已经完全突破了“一眼 AI”这个评价，需要仔细的去分辨了。

我看完之后产生了一种“技术大爆炸”的错感。

我还无聊的脑补了一个更可怕的点：有没有可能是 AI 在每个视频里面故意卖几个破绽，来让人类进行识别？（又在脑补科幻动作大片了...

这是一种让人兴奋又可怕的感觉。

以下是量子位文章正文，分享给你。

刚刚，奥特曼发布OpenAI首个视频生成模型Sora。

完美继承DALL·E 3的画质和遵循指令能力，能生成长达1分钟的高清视频。

地址：

https://openai.com/sora

AI想象中的龙年春节，红旗招展人山人海。

有紧跟舞龙队伍抬头好奇官网的儿童，还有不少人掏出手机边跟边拍，海量人物角色各有各的行为。

雨后东京街头，潮湿地面反射霓虹灯光影效果堪比RTX ON。

行驶中的列车窗外偶遇遮挡，车内人物倒影短暂出现非常惊艳。

也可以来一段好莱坞大片质感的电影预告片：

竖屏超近景视角下，这只蜥蜴细节拉满：

网友直呼game over，工作要丢了：

甚至有人已经开始“悼念”一整个行业：

文生视频，只是整个计划之一

OpenAI表示，正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题

根据文本提示生成视频，仅仅是整个计划其中的一步。

目前Sora已经能生成具有多个角色、包含特定运动的复杂场景，不仅能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。

比如一大群纸飞机在树林中飞过，Sora知道碰撞后会发生什么，并表现其中的光影变化。

一群纸飞机在茂密的丛林中翩翩起舞，在树林中穿梭，就像候鸟一样。

Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

美丽、白雪皑皑的东京熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。

对于Sora当前存在的弱点，OpenAI也不避讳，指出它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

技术方面，目前OpenAI透露的不多，简单介绍如下：

Sora是一种扩散模型，从噪声开始，能够一次生成整个视频或扩展视频的长度，

关键之处在于一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。

与GPT模型类似，Sora使用了Transformer架构，有很强的扩展性。

在数据方面，OpenAI将视频和图像表示为patch，类似于GPT中的token。

通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和纵横比。

Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术，为视觉训练数据生成高度描述性的标注，因此能够更忠实地遵循用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地让图像内容动起来并关注小细节。

该模型还可以获取现有视频并对其进行扩展或填充缺失的帧，请参阅技术论文了解更多信息（晚些时候发布）。

Sora 是能够理解和模拟现实世界的模型的基础，OpenAI相信这一功能将成为实现AGI的重要里程碑。

首批权限开放艺术家、设计师和电影制作人

目前已有一些视觉艺术家、设计师和电影制作人（以及OpenAI员工）获得了Sora访问权限。

他们开始不断po出新的作品，奥特曼也开始了在线接单模式。

带上你的提示词@sama，就有可能收到生成好的视频回复。

下面是更多精彩视频欣赏。

a wizard wearing a pointed hat and a blue robe with white stars casting a spell that shoots lightning from his hand and holding an old tome in his other hand

A street-level tour through a futuristic city which in harmony with nature and also simultaneously cyperpunk / high-tech.

The city should be clean, with advanced futuristic trams, beautiful fountains, giant holograms everywhere, and robots all over.

Two golden retrievers podcasting on top of a mountain

A instructional cooking session for homemade gnocchi hosted by a grandmother social media influencer set in a rustic Tuscan country kitchen with cinematic lighting

A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view

·············· END ··············

推荐👍：线程池参数千万不要这样设置

推荐👍：从一道关于定时任务的面试题说起

推荐👍：Spring解决泛型擦除的思路不错，现在它是我的了。

推荐👍：一个烂分页，踩了三个坑！

推荐👍：一个普通程序员磕磕绊绊，又闪闪发光的十年。

你好呀，我是歪歪。我没进过一线大厂，没创过业，也没写过书，更不是技术专家，所以也没有什么亮眼的title。

当年高考，随缘调剂到了某二本院校计算机专业。纯属误打误撞，进入程序员的行列，之后开始了运气爆棚的程序员之路。

说起程序员之路还是有点意思，可以点击蓝字，查看我的程序员之路。