科技春晚！OpenAI发布GPT-4o，完全免费，真人语气对话，响应仅需320毫秒

Python测试开发

共 2756字，需浏览 6分钟

·

2024-05-14 18:32

5月14日凌晨，OpenAI在其官方网站上正式推出了其最新旗舰模型GPT-4o，该模型能够在视频、音频和文本之间进行实时推理，这无疑在全球生成式AI领域中标志着一个历史性的时刻。

OpenAI利用GPT-4o打造的语音版ChatGPT助手，能够与用户在音频和视频中进行实时交互。例如，GPT-4o可以进行实时翻译、歌唱、解答数学题目、讲述笑话等。简单地说，未来的家庭教师、翻译员、秘书等职业可能会面临巨大的挑战。

2013年，曾获奥斯卡最佳原创剧本奖的电影《Her》向我们展示了一段人与AI的深情“恋爱”，其中Her的无所不能展示了AI的强大力量和可能带来的恐怖。

然而，仅仅11年后，GPT-4o就将这部电影的情节变为了现实，每个人都有可能拥有一个自己的Her。

当各家科技公司还在追赶大模型多模态能力，把总结文本、P 图等功能放进手机里的时候，遥遥领先的 OpenAI 直接开了大招，发布的产品连自家 CEO 奥特曼都惊叹：就像电影里一样。

11年后，GPT-4o将这部电影变成了现实，人人都可以拥有一个Her。

ChatGPT 的这次更新以后，大模型可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。

GPT-4o功能展示

OpenAI已经对GPT-4o的功能进行了大量的演示，我们在此挑选几个具有代表性的例子。比如，通过手机与GPT-4o进行视频交流，让其解读你的想法。

首先，OpenAI的一名员工使用手机拍摄了周围的环境，GPT-4o很快就给出了对周围环境的详细描述。紧接着，当员工让GPT-4o猜测他今天的计划时，GPT-4o推测可能会涉及到OpenAI的相关工作，比如举行一个新产品发布会等。

当员工说出这个发布会与“你”有关时，它的回答有点让人觉得恐怖，居然会像人一样表现出惊讶和停顿，这是以往任何语音助手都不具备的技术特征。

OpenAI总裁兼联合创始人Greg Brockman让两个GPT-4o语音助手互相对话并唱歌。

一位父亲希望GPT-4o能够帮助他的儿子解答一道复杂的数学题。GPT-4o并没有像之前的ChatGPT那样直接给出所有答案，而是像一位家庭教师一样，逐步引导他，告诉他应该如何去解答这道题。

看到这里时也为那些辅导老师捏了一把汗，估计在进化几次连家教的饭碗也不保了。

和GPT-4o相处久了，应该向它介绍点朋友吧。这不OpenAI展示了GPT-4o社牛的一面，直接解读了一条宠物狗。

当你需要与法国人、塞尔维亚人或匈牙利人交谈时，怎么办？传统的翻译软件可能太慢，不适合实时交流。但现在，通过GPT-4o，你可以实现实时翻译。当你说完一句话时，GPT-4o已经帮你翻译好了，并且是以语音的形式输出。这无疑大大提升了跨语言交流的效率。

此外，GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多，此前很多不可能的任务都变得「易如反掌」。

比如，你可以让它帮忙把 OpenAI 的 logo 印到杯垫上：

经过这段时间的技术攻关，OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。

同时，GPT-4o 还拥有 3D 视觉内容生成的能力，能够从 6 个生成的图像进行 3D 重建：

这是一首诗，GPT-4o 可以将其排版为手写样式：

更复杂的排版样式也能搞定：

与 GPT-4o 合作，你只需要输入几段文字，就能得到一组连续的漫画分镜：

与 GPT-4o 合作，你只需要输入几段文字，就能得到一组连续的漫画分镜：

而下面这些玩法，应该会让很多设计师有点惊讶：

这是一张由两张生活照演变而来的风格化海报：

还有一些小众的功能，比如「文本转艺术字」：

怎么样，看完这几个案例对GPT-4o有何感受，是不是和电影中的Her几乎差不多了？

GPT-4o测试数据

GPT-4o是一个多模态模型，可以在一个神经网络中输入和输出文本、视频、音频3种数据格式。

根据OpenAI给出的官网评测显示，GPT-4o的语音响应可以短至232毫秒，平均响应为320 毫秒。GPT-4o的英语文本和代码能力和 GPT-4 Turbo 的性能差不多。

GPT-4o在MMLU的评测中创下了88.7% 的新高分，超过了Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0等目前市面上著名大模型。

GPT-4o的音频ASR性能比 Whisper-v3 显着提高了对所有语言的语音识别能力，特别是对于那些非常稀少的小语种，并且音频的翻译能力超过了谷歌的Gemini。

推理提升：GPT-4o 在 5-shot MMLU（常识问题）上创下了 87.2% 的新高分。（注：Llama3 400b 还在训练中）

音频 ASR 性能：GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

GPT-4o 在语音翻译方面取得了新的 SOTA 水平，并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam 基准测试既是多语言评估基准也是视觉评估基准，由来自多个国家 / 地区的标准化测试多项选择题组成，并包括图形、图表。在所有语言基准测试中，GPT-4o 都比 GPT-4 更强。

未来，模型能力的提升将实现更自然、实时的语音对话，并能够通过实时视频与 ChatGPT 进行对话。例如，用户可以向 ChatGPT 展示一场现场体育比赛，并要求它解释规则。

目前，GPT-4o的文本和图像功能已经在ChatGPT中开放使用，GPT-4o API已支持国内网络直接使用。

本文素材来源OpenAI官网

浏览 79

点赞

收藏

分享

举报

评论

图片

表情

BERT-Large推理仅需1.2毫秒！NV发布最新TensorRT 8推理加速器

OpenAI凉了？超过GPT-4o的Claude 3.5 Sonnet发布了！

点蓝色字关注“机器学习算法工程师”设为星标，干货直达！OpenAI最大的对手公司AnthropicAI发布了最新模型Claude 3.5 Sonnet，它在各方面评测集上超过之前最大的模型Claude 3 Opus，但速度却提升了两倍，而且成本也只有后者的五分之一。特别地，Claude 3.5 So

重磅消息：GPT-4o发布！！！

国民程序员

GPT-4o：大模型风向，OpenAI大更新

智能计算芯世界

《Her》电影，讲述了一个关于现代世界中亲密关系的演变和风险的爱情故事。故事设定在稍有未来感的洛杉矶，主角Theodore Twombly是一个富有复杂感情的男人，靠为他人写感人的私人信件谋生。在一段感情结束后，他对一种新型的先进操作系统产生了兴趣。通过这个系统，他与一个名为"Samantha"的聪

【行业资讯】仅需1秒，人工智能“摸清”地震“脾气”

水木人工智能学堂

仅需四步，写一个 Spring Boot Starter

1.3 万亿条数据查询，如何做到毫秒级响应？

Java技术江湖

1.3 万亿条数据查询，如何做到毫秒级响应？

1.3 万亿条数据查询，如何做到毫秒级响应？

开发者全社区

点赞

收藏

分享

举报