从零训练1B以下小模型,梳理汇总
共 3709字,需浏览 8分钟
·
2024-07-10 21:23
以下文章来源于微信公众号:Angry Bugs
作者:Angry Bugs
链接:https://zhuanlan.zhihu.com/p/693252663
本文仅用于学术分享,如有侵权,请联系后台作删文处理
- 
      
https://www.kaggle.com/code/pritishmishra/gpt-training-on-wikipedia-dataset-from-scratch  - 
      
https://zhuanlan.zhihu.com/p/79714797  - 
      
https://zhuanlan.zhihu.com/p/606339093  - 
      
https://finisky.github.io/2020/05/01/pretrainchinesegpt/  - 
      
https://zhuanlan.zhihu.com/p/656758138  - 
      
https://github.com/minimalist-nlp/gpt2-text-generation  
OpenELM
- 
      
https://github.com/charent/ChatLM-mini-Chinese 从零开始训练的一个 0.2B 中文模型,用的 T5,可能比较早了。  - 
      
https://github.com/jiahe7ay/MINI_LLM 从零开始训练的一个 1.4B 中文模型,基于 Qwen。可以参考作者的知乎文章:https://zhuanlan.zhihu.com/p/684946331  - 
      
https://github.com/DLLXW/baby-llama2-chinese 基于 llama2 的中文模型,作者目标是 0.5B,但是貌似受硬件限制,只训练到了 0.2B 的模型。  - 
      
https://github.com/OpenBMB/MiniCPM 2.7B 的参数,号称能跟 Mistral-7B 不相上下,感觉有点吹得过了……  - 
      
https://github.com/Chinese-Tiny-LLM/Chinese-Tiny-LLM 一个 2B 的模型,貌似还没训练完。  - 
      
https://github.com/keeeeenw/MicroLlama 又一个 0.3B 版 llama,相当于 TinyLlama 的再缩小版  - 
      
https://github.com/zhanshijinwat/Steel-LLM 网友的又一个预训练计划,貌似还没开始  
- 
      
一本书《Build a LLM from scrath》,还没写完,但是 GitHub 上已经有 13k star 了,可能是不错吧。  - 
      
这个 Awesome Chinese LLM 罗列了一些数据集,也值得参考。  - 
      
还有一篇叫做 MobileLLM 的 paper,介绍了一些训练小模型的 trick。  - 
      
Llama from scratch,这篇文章介绍了 Llama 中一些关键的组件的影响。  - 
      
Rethinking Optimization and Architecture for Tiny Language Models,解读:https://zhuanlan.zhihu.com/p/681614203  - 
      
MNBVC:Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集  - 
      
RedPajama,Llama 的 dataset 重现  
评论
