CodeFuse-13B代码大语言模型
CodeFuse-13B是基于GPT-NeoX框架训练的13B参数代码生成模型,能够处理4096个字符的代码序列。
该模型在1000B Token的代码、中文、英文数据数据集上进行预训练,覆盖超过40种编程语言。
为了进一步提升生成代码的效果和质量,该模型还在CodeFuse-Evol-instruction-66k数据集上进行了微调,使得该模型能够生成更加准确、高效、符合要求的代码。在HumanEval评测集上Pass@1达到37.1%(采用BeamSearch解码,其中BeamSize=3)。
要求
- python 3.8及以上版本
- pytorch 1.12及以上版本,推荐2.0及以上版本
- transformers 4.24.0及以上版本
- 建议使用CUDA 11.4及以上(GPU用户、flash-attention用户等需考虑此选
评论