Her ? GPT-4o-技术圈

《Her》电影，讲述了一个关于现代世界中亲密关系的演变和风险的爱情故事。故事设定在稍有未来感的洛杉矶，主角Theodore Twombly是一个富有复杂感情的男人，靠为他人写感人的私人信件谋生。在一段感情结束后，他对一种新型的先进操作系统产生了兴趣。通过这个系统，他与一个名为"Samantha"的聪明、敏感且有趣的女声相遇并建立了友谊，随着他们的需求和欲望的发展，他们的友谊逐渐深化为一段非传统的爱情。

昨天，OpenAI发布了GPT-4o，可以理解为更为强大的GPT4模型的发布。多模态的输入和输出，响应时间与人类相似。多模态意味着，Her电影里的AI我们很快就能体验到了。

1倍速的语音聊天是什么体验？

↓

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，与人类的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

端到端全新模型

在 GPT-4o 之前，ChatGPT的语音模式对话，最低延迟为 2.8 秒。这个版本的语音模式是由三个独立模型组成的：一个模型将音频转录为文本，GPT接收文本并输出文本，第三个模型将该文本转换回音频。这个过程意味着GPT丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

借助 GPT-4o，一个全新的模型，跨文本、视觉和音频端到端完成训练，这意味着所有输入和输出都由同一神经网络处理。—— 相应速度更快，理解更准确。