Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o-技术圈

本测评结果仅用于学术研究。

Meta于7月23日发布Meta Llama 3.1 405B，并认为这是世界上最大、功能最强大的开源基础模型。顶级开源模型Llama 3.1 405B的上下文长度扩展到了 128K、支持八种语言，在常识、可操纵性、数学、工具使用和多语言翻译等方面可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美。

针对公众关注的Llama 3.1 405B的中文性能问题，作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说，我们采用了中文数学多步推理测评基准（SuperCLUE-Math6，含2024题）和中文等级化代码单元测试基准（SuperCLUE-Code3，包含1560个测试用例），对Llama 3.1 405B在数学和编程方面的能力进行了全面评估。

先说结论

结论1：在完成SuperCLUE推理任务时，Llama 3.1 405B的整体得分为88.44，超过GPT-4 Turbo，仅次于GPT-4o，暂据排行榜第二。

结论2：Llama 3.1 405B在SC-Math6数学基准上得分91.19分，判定为推理等级5，与GPT-4o相比仅有0.58分的差距，领先其他模型。

结论3：Llama 3.1 405B在SC-Code3代码基准上得分69.68分，接近70分，较GPT-4 Turbo略高（0.11分），与GPT-4o有一定差距（2分）。

测评结果

SuperCLUE-Math6

SuperCLUE-Code3

更多模型测评信息，可加入SuperCLUE Llama 3.1 405B交流群。

Math6数据集申请方式：

请使用单位邮箱，将数据研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱，并承诺不向第三方提供。

邮箱: contact@superclue.ai，标题是：SuperCLUE-Math6测试集申请

Code3测评申请方式：

请使用单位邮箱发送邮件至contact@superclue.ai，标题：SuperCLUE-Code3测评

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] Math6地址：www.cluebenchmarks.com/superclue_math6.html

[5] Code3地址：www.cluebenchmarks.com/superclue_code3.html

点击阅读原文，查看SuperCLUE排行榜



        

         


        


        

         

          

            

             

              

               

                

                 

                  

                   

                    往期精彩回顾

                   


                  


                 


                


               


               

                

                 

                  

                   


                  


                  

                   

                    


                   


                   

                    


                   


                  


                  

                   


                  


                 


                


                

                 

                  

                   适合初学者入门人工智能的路线及资料下载

                  


                 

                  

                   (图文+视频)机器学习入门系列下载

                  


                 

                  

                   机器学习及深度学习笔记等资料打印

                  


                 

                  

                   《统计学习方法》的代码复现专辑

```
交流群
```

欢迎加入机器学习爱好者微信群一起和同行交流，目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群，请扫描下面的微信号加群，备注：”昵称-学校/公司-研究方向“，例如：”张小明-浙大-CV“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~（也可以加入机器学习交流qq群772479961）