OpenAI凉了？超过GPT-4o的Claude 3.5 Sonnet发布了！

机器学习算法工程师

共 1345字，需浏览 3分钟

·

2024-06-22 10:00

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

OpenAI最大的对手公司AnthropicAI发布了最新模型Claude 3.5 Sonnet，它在各方面评测集上超过之前最大的模型Claude 3 Opus，但速度却提升了两倍，而且成本也只有后者的五分之一。

特别地，Claude 3.5 Sonnet在三个核心评测集GPQA、MMLU以及HumanEval上达到了新的SOTA，超过OpenAI的GPT-4o和GPT-4T，以及谷Google的Gemini 1.5 Pro。

Claude 3.5 Sonnet在编程能力上表现突出。在一次内部的代理编码评估中，Claude 3.5 Sonnet 解决了64%的问题，表现优于解决了38%问题的Claude 3 Opus。这个评估测试了模型在给定自然语言描述所需的改进后，修复错误或向开源代码库添加功能的能力。当被指导并提供相关工具时，Claude 3.5 Sonnet 能够独立地编写、编辑和执行代码，具有复杂的推理和故障排除能力。它轻松处理代码翻译，使其特别适用于更新遗留应用程序和迁移代码库。

Claude 3.5 Sonnet 还在视觉理解上有比较大的提升，它在标准视觉基准测试中超越了 Claude 3 Opus。这些突破性的进步在需要视觉推理的任务中最为明显，比如解释图表和图形。Claude 3.5 Sonnet 还能够从不完美的图像中准确转录文本——这是零售、物流和金融服务的核心能力，在这些领域，AI可能从图像、图表或插图中获得的洞察比单独的文本更多。

Claude 3.5 Sonnet支持200K的上下文窗口，在“大海捞针”测试上也可以得到更好的召回。

除此之外，AnthropicAI还采用人工评测来和之前的模型进行对比，Claude 3.5 Sonnet相比之前的模型在各个方便如编程以及创作上均有明显提升。

添加图片注释，不超过 140 字（可选）

AnthropicAI已经出了新招，接下来看OpenAI怎么接了。

推荐阅读

使用PyTorch 2.0加速Transformer：训练推理均拿下！

硬核解读Stable Diffusion（系列三）

硬核解读Stable Diffusion（系列二）

硬核解读Stable Diffusion（系列一）

带你入门扩散模型：DDPM

机器学习算法工程师

一个用心的公众号

浏览 68

点赞

收藏

分享

举报

评论

图片

表情

重磅消息：GPT-4o发布！！！

国民程序员

GPT-4o：大模型风向，OpenAI大更新

智能计算芯世界

OpenAI的GPT-3说话了，请听！

超越GPT-4o，Claude 3.5一夜封王！10倍编码速度逆天，全网最全实测来了

新智元报道编辑：编辑部【新智元导读】昨夜上线的Claude 3.5 Sonnet，性能直接吊打了GPT-4o，甚至价格还更便宜。网友们纷纷展开实测，有人表示自己一半的工作已经可以由它替代了！而最让人惊喜的新功能，莫过于Artifacts了。就在昨天，A

OpenAI新老员工对决！「叛徒」团队发布Claude模型：ChatGPT的RLHF过时啦！

OpenAI新老员工对决！「叛徒」团队发布Claude模型：ChatGPT的RLHF过时啦！

科技春晚！OpenAI发布GPT-4o，完全免费，真人语气对话，响应仅需320毫秒

Python测试开发

《Her》电影，讲述了一个关于现代世界中亲密关系的演变和风险的爱情故事。故事设定在稍有未来感的洛杉矶，主角Theodore Twombly是一个富有复杂感情的男人，靠为他人写感人的私人信件谋生。在一段感情结束后，他对一种新型的先进操作系统产生了兴趣。通过这个系统，他与一个名为"Samantha"的聪

腾讯出手了，你的羞羞聊天记录凉了！

JDK16发布了！

点赞

收藏

分享

举报