OpenAI凉了?超过GPT-4o的Claude 3.5 Sonnet发布了!

共 1345字,需浏览 3分钟

 ·

2024-06-22 10:00

点蓝色字关注“机器学习算法工程师

设为星标,干货直达!


OpenAI最大的对手公司AnthropicAI发布了最新模型Claude 3.5 Sonnet,它在各方面评测集上超过之前最大的模型Claude 3 Opus,但速度却提升了两倍,而且成本也只有后者的五分之一。

特别地,Claude 3.5 Sonnet在三个核心评测集GPQA、MMLU以及HumanEval上达到了新的SOTA,超过OpenAI的GPT-4o和GPT-4T,以及谷Google的Gemini 1.5 Pro。

Claude 3.5 Sonnet在编程能力上表现突出。在一次内部的代理编码评估中,Claude 3.5 Sonnet 解决了64%的问题,表现优于解决了38%问题的Claude 3 Opus。这个评估测试了模型在给定自然语言描述所需的改进后,修复错误或向开源代码库添加功能的能力。当被指导并提供相关工具时,Claude 3.5 Sonnet 能够独立地编写、编辑和执行代码,具有复杂的推理和故障排除能力。它轻松处理代码翻译,使其特别适用于更新遗留应用程序和迁移代码库。

Claude 3.5 Sonnet 还在视觉理解上有比较大的提升,它在标准视觉基准测试中超越了 Claude 3 Opus。这些突破性的进步在需要视觉推理的任务中最为明显,比如解释图表和图形。Claude 3.5 Sonnet 还能够从不完美的图像中准确转录文本——这是零售、物流和金融服务的核心能力,在这些领域,AI可能从图像、图表或插图中获得的洞察比单独的文本更多。

Claude 3.5 Sonnet支持200K的上下文窗口,在“大海捞针”测试上也可以得到更好的召回。

除此之外,AnthropicAI还采用人工评测来和之前的模型进行对比,Claude 3.5 Sonnet相比之前的模型在各个方便如编程以及创作上均有明显提升。


添加图片注释,不超过 140 字(可选)



AnthropicAI已经出了新招,接下来看OpenAI怎么接了。






推荐阅读

使用PyTorch 2.0加速Transformer:训练推理均拿下!

硬核解读Stable Diffusion(系列三)

硬核解读Stable Diffusion(系列二)

硬核解读Stable Diffusion(系列一)

带你入门扩散模型:DDPM


机器学习算法工程师


                                    一个用心的公众号


浏览 44
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报