CodeFuse-13B代码大语言模型
CodeFuse-13B是基于GPT-NeoX框架训练的13B参数代码生成模型,能够处理4096个字符的代码序列。
该模型在1000B Token的代码、中文、英文数据数据集上进行预训练,覆盖超过40种编程语言。
为了进一步提升生成代码的效果和质量,该模型还在CodeFuse-Evol-instruction-66k数据集上进行了微调,使得该模型能够生成更加准确、高效、符合要求的代码。在HumanEval评测集上Pass@1达到37.1%(采用BeamSearch解码,其中BeamSize=3)。
要求
- python 3.8及以上版本
- pytorch 1.12及以上版本,推荐2.0及以上版本
- transformers 4.24.0及以上版本
- 建议使用CUDA 11.4及以上(GPU用户、flash-attention用户等需考虑此选
评论
StarCoder代码生成语言模型
StarCoder(150亿参数)是HuggingFace联合ServiceNow发布的免费大型语言模型,该模型经过训练主要用途是可以生成代码,目的是为了对抗GitHubCopilot和亚马逊Code
StarCoder代码生成语言模型
0
RedPajama大语言模型
RedPajama项目旨在创建一套领先的全开源大语言模型。目前,该项目已完成了第一步,成功复制了LLaMA训练数据集超过1.2万亿个数据token。该项目由Together、Ontocord.ai、E
RedPajama大语言模型
0
LLaMA大语言模型
LLaMA语言模型全称为"LargeLanguageModelMetaAI",是Meta的全新大型语言模型(LLM),这是一个模型系列,根据参数规模进行了划分(分为70亿、130亿、330亿和650亿
LLaMA大语言模型
0
OPT-175B大语言模型
OPT-175B是Meta开源的大语言模型,拥有超过1750亿个参数——和GPT-3相当。相比GPT-3,OPT-175B的优势在于它完全免费。Meta还公布了代码库、开发过程日志、数据、研究论文和其
OPT-175B大语言模型
0