科技春晚!OpenAI发布GPT-4o,完全免费,真人语气对话,响应仅需320毫秒
共 2756字,需浏览 6分钟
·
2024-05-14 18:32
5月14日凌晨,OpenAI在其官方网站上正式推出了其最新旗舰模型GPT-4o,该模型能够在视频、音频和文本之间进行实时推理,这无疑在全球生成式AI领域中标志着一个历史性的时刻。
当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。
11年后,GPT-4o将这部电影变成了现实,人人都可以拥有一个Her。
ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。
GPT-4o功能展示
当员工说出这个发布会与“你”有关时,它的回答有点让人觉得恐怖,居然会像人一样表现出惊讶和停顿,这是以往任何语音助手都不具备的技术特征。
OpenAI总裁兼联合创始人Greg Brockman让两个GPT-4o语音助手互相对话并唱歌。
一位父亲希望GPT-4o能够帮助他的儿子解答一道复杂的数学题。GPT-4o并没有像之前的ChatGPT那样直接给出所有答案,而是像一位家庭教师一样,逐步引导他,告诉他应该如何去解答这道题。
看到这里时也为那些辅导老师捏了一把汗,估计在进化几次连家教的饭碗也不保了。
和GPT-4o相处久了,应该向它介绍点朋友吧。这不OpenAI展示了GPT-4o社牛的一面,直接解读了一条宠物狗。
当你需要与法国人、塞尔维亚人或匈牙利人交谈时,怎么办?传统的翻译软件可能太慢,不适合实时交流。但现在,通过GPT-4o,你可以实现实时翻译。当你说完一句话时,GPT-4o已经帮你翻译好了,并且是以语音的形式输出。这无疑大大提升了跨语言交流的效率。
此外,GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多,此前很多不可能的任务都变得「易如反掌」。
比如,你可以让它帮忙把 OpenAI 的 logo 印到杯垫上:
经过这段时间的技术攻关,OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。
同时,GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:
这是一首诗,GPT-4o 可以将其排版为手写样式:
更复杂的排版样式也能搞定:
与 GPT-4o 合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:
怎么样,看完这几个案例对GPT-4o有何感受,是不是和电影中的Her几乎差不多了?
GPT-4o测试数据
GPT-4o是一个多模态模型,可以在一个神经网络中输入和输出文本、视频、音频3种数据格式。
根据OpenAI给出的官网评测显示,GPT-4o的语音响应可以短至232毫秒,平均响应为320 毫秒。GPT-4o的英语文本和代码能力和 GPT-4 Turbo 的性能差不多。
GPT-4o在MMLU的评测中创下了88.7% 的新高分,超过了Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0等目前市面上著名大模型。
GPT-4o的音频ASR性能比 Whisper-v3 显着提高了对所有语言的语音识别能力,特别是对于那些非常稀少的小语种,并且音频的翻译能力超过了谷歌的Gemini。
推理提升:GPT-4o 在 5-shot MMLU(常识问题)上创下了 87.2% 的新高分。(注:Llama3 400b 还在训练中)
音频 ASR 性能:GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
GPT-4o 在语音翻译方面取得了新的 SOTA 水平,并且在 MLS 基准测试中优于 Whisper-v3。
M3Exam 基准测试既是多语言评估基准也是视觉评估基准,由来自多个国家 / 地区的标准化测试多项选择题组成,并包括图形、图表。在所有语言基准测试中,GPT-4o 都比 GPT-4 更强。
未来,模型能力的提升将实现更自然、实时的语音对话,并能够通过实时视频与 ChatGPT 进行对话。例如,用户可以向 ChatGPT 展示一场现场体育比赛,并要求它解释规则。
目前,GPT-4o的文本和图像功能已经在ChatGPT中开放使用,GPT-4o API已支持国内网络直接使用。
本文素材来源OpenAI官网