GPT-4o：大模型风向，OpenAI大更新-技术圈

本文来自“GPT-4o：大模型风向标，OpenAI重大更新”。美国时间 5 月 13 日，OpenAI 迎来两项重大更新。具体包括：1）发布桌面版 APP 及更新 UI 后的 ChatGPT，用户使用更加简单与自然；2）发布新的全能模型 GPT-4o，实现跨模态即时响应，相比 GPT-4 Turbo，性价比显著提升的同时向用户免费开放。

下载链接：

GPT-4o：大模型风向标，OpenAI重大更新

2024海内外智能硬件行业创新趋势调研报告

《2024年GOPS全球运维大会：大模型合集》

1、CMDB大模型赋能下的证券行业持续部署实践 2、大模型时代研发运营领域的场景应用趋势展望 3、大规模平台工程实践血泪史 4、大语言模型在 IT 运维领域的建设落地实践 5、大模型Agent在AIOps运维场景的实践

《2024年GOPS全球运维大会：大模型专题合集》

1、大模型：无处不在的模型之简要质量度量 2、大模型：LLM 在操作系统运维场景的现状、挑战和实践 3、大模型：蚂蚁集团 OpsGPT 落地实践和技术开源 4、大模型：迈向更高层次智能化的生成式软件开发 5、大模型：那些潜藏的大模型评估乐趣

《2024年GOPS全球运维大会：AI专题合集》

1、AI：趣丸科技在运维 AI Agent 的探索与实践 2、AI：漫谈人工智能的一道重要门坎：系统思维 3、AI：企业应用新范式，基于云智能平台实现 AI 应用开发

1. 桌面版及新 UI ChatGPT

ChatGPT 发布桌面版 APP，支持与计算机语音对话，提升用户与模型交互体验。对于免费和付费用户，OpenAI 推出了适用于 macOS 的新 ChatGPT 桌面应用程序，该应用程序旨在无缝集成到用户的计算机上执行的任何操作。通过简单的键盘快捷键（Option + Space），用户便可向 ChatGPT 提问，并支持直接在应用程序中截取屏幕截图进行讨论。与此同时，ChatGPT 支持与计算机直接语音对话，并在未来将推出新音频和视频功能。

OpenAI 首先向 Plus 用户推出 macOS 应用程序，并将在未来几周内更广泛地提供该应用程序，同时计划在今年晚些时候推出 Windows 版本。

此外，OpenAI 还全面改版了 UI 界面，旨在提供更加友好和更具有对话性的外观，让它和用户的互动也变得更自然与简单。

2. GPT-4o 实现毫秒级视觉音频理解

GPT-4o（“o”代表“omni”）为 OpenAI 最新的旗舰型号，不仅提供与 GPT-4 同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力。此次发布会，GPT-4o 具有如下亮点：

1）毫秒级响应，实现即时语音对话。GPT-4o 能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT 对话当中，GPT-3.5 与 GPT-4 平均延迟分别为 2.8s、5.4s，而 GPT-4o对音频输入的响应时间最短为 232 毫秒，平均为 320 毫秒，这与人类在对话中的响应时间相似。GPT-4o 运行速度大大提升，迈向了更自然的人机交互。

2）更先进的视觉与音频理解能力，智能感知语气与语态。与现有模型相比，GPT-4o 展现了出色的视觉和音频理解能力：首先，用户可在对话中随时打断；其次，可根据场景生成多种音调，带有人类般的情绪和情感；直接通过和 AI 视频通话让它在线解答各种问题。

3）API 性价比显著提升。与 GPT-4 Turbo 相比，GPT-4o 速度提升 2 倍、成本却降低了 50%，且速率限制提升 5 倍。

3. 端到端多模态 GPT-4o，刷新 SOTA 性能飞跃

传统语音 AI 通常经过三步法实现对话功能，在这过程中会丢失很多信息且不能判断情绪变化。三步法具体为：1）语音识别或 ASR：音频到文本，类似 Whisper；2）LLM 计划下一步要说什么：文本 1 到文本 2；3）语音合成或 TTS：文本 2 到音频，类似 ElevenLabs 或 VALL-E。GPT-4 便采用该模式，在这过程中不仅响应速度更慢而且丢失了大量信息，无法直接观察语调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感等。

GPT-4o 为跨模态端到端训练新模型，意味着所有输入和输出都由同一神经网络处理，成为真正的多模态统一模型，带来性能的飞跃提升。除了响应速度更快之外，在传统基准测试中，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上达到了新的高水位线。

文本推理：GPT-4o 在 0-shot COT MMLU（常识问题）上创下了 88.7%的新高分。此外，在传统的 5-shot no-CoT MMLU 上，GPT-4o 创下了 87.2%的新高分。相较于 GPT-4 Turbo 而言，GPT-4o 文本推理能力有一定提升。

多语言识别：与 Whisper-v3 相比，GPT-4o 在多种语言的识别中表现优异，尤其是资源匮乏的语言。

音频翻译：GPT-4o 在音频翻译表现上达到新的高水准，且在 MLS 基准测试中优于 Whisper-v3。

M3Exam 测试：M3Exam 基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。

视觉理解：GPT-4o 在视觉感知基准上实现了最先进的性能。具体来看，GPT-4o 在 MMMU 测试中分数达到 69.1，而 GPT-4 Turbo、Gemini 1.0 Ultra、Gemini1.5 Pro、Claude Opus 分别为 63.1、59.4、58.5、59.4。

此外，在端到端多模态架构支持下，GPT-4o 多模态能力范围显著拓展。除了文本、图像等常用功能，GPT-4o 还支持 3D 物品合成、文本转字体等多样化功能。

下载链接：

《大模型技术在行业应用实践合集（1）》

1、基于多模态智能引擎大模型知识库技术应用 2、饿了么垂域大模型EGPT训练与C端应用实践 3、金山云：大模型推动知识工作领域的创新与变革 4、超大规模集群下大语言模型训练的最佳实践 5、蚂蚁大模型存储加速实践

《大模型技术在行业应用实践合集（2）》

1、大模型数据安全：从测评到实时检测的全流程实践 2、大模型原生应用产品设计的前沿探索 3、海天瑞声在大模型数据的探索与实践 4、类 Sora 开源架构模型训练实践 5、大模型 AI 训练的数据存储加速

《大模型技术在行业应用实践合集（3）》

1、基于 AI 大模型生成微信小程序的探索与实践 2、教育大模型，说你行你才行 3、大模型赋能的数据资产平台构建实践 4、大规模微服务破局之道：合并编译 5、大规模工程及领域架构治理与服务架构合理性的度量

《大模型技术在行业应用实践合集（4）》

1、MoonBit 月兔：大语言模型时代的软件开发起点 2、AI 大模型技术在数据库 DevOps 的实践 3、大模型应用开发新范式 4、大模型赋能 DevOps，研发全环节提速 5、大模型技术在快手搜索的应用 6、快意大模型在短视频互动场景的应用探索

《超大模型训练技术合集》

1、超大规模多模态预训练模型M6的关键技术突破及产业应用 2、高效训练百万亿参数预训练模型的系统挑战和对策

量子科技专题系列一：逐梦量子，星辰大海（2024）

《半导体行业深度报告合集（2024）》

大模型时代：生成式AI发展与科技创新范式

OpenAI的飞轮：AI新产品、巨量融资、需求和算力

大语言模型：LLM技术报告

《先进计算技术专题》

1、先进计算应用创新白皮书（2023） 2、算力时代：先进计算十大趋势 3、先进计算技术路线图（2023年）

AI系列：光是通信的必由之路，OCS成功应用

人形机器人报告：AI超预期产业落地，核心零部件配套星辰大海

AI的内存瓶颈，高壁垒高增速（2024）

500+份重磅ChatGPT专业报告

2023年AIGC移动市场洞察报告

虚拟数字人研究报告：溯源、应用、发展（2024）

AI服务器催化HBM需求爆发，核心工艺变化带来供给端增量（2024）

《AI算力芯片产业链及全景图》

1、AI算力产业链梳理（2023） 2、国产AI算力芯片全景图

智能时代的计算架构发展趋势

《半导体行业系列报告合集》

1、半导体行业系列报告（一）：道阻且长，行则将至 2、半导体行业系列报告（二）碳化硅：衬底产能持续扩充，渗透加速国产化 3、半导体行业系列报告（三）先进封装：先进封装大有可为，上下游产业链将受益

芯片未来可期：数据中心、国产化浪潮和先进封装（精华）

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。