一天star量破千,300行代码,特斯拉AI总监Karpathy写了个GPT的Pytorch训练库
共 4778字,需浏览 10分钟
· 2020-08-28
来源:机器之心
如果说 GPT 模型是所向披靡的战舰,那么 minGPT 大概算是个头虽小但仍能乘风破浪的游艇了吧。
目前,该项目在 GitHub 上亮相还没满 24 小时,但 star 量已经破千。
play_math.ipynb 训练一个专注于加法的 GPT;
play_char.ipynb 将 GPT 训练成一个可基于任意文本使用的字符级语言模型,类似于之前的 char-rnn,但用 transformer 代替了 RNN;
play_words.ipynb 是 BPE(Byte-Pair Encoding)版本,目前尚未完成。
OpenAI gpt-2 项目提供了模型,但没有提供训练代码(https://github.com/openai/gpt-2);
OpenAI 的 image-gpt 库在其代码中进行了一些类似于 GPT-3 的更改,是一份不错的参考(https://github.com/openai/image-gpt);
Huggingface 的 transformers 项目提供了一个语言建模示例。它功能齐全,但跟踪起来有点困难。(https://github.com/huggingface/transformers/tree/master/examples/language-modeling)
论文地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
论文地址:https://arxiv.org/pdf/2005.14165.pdf
参考链接:https://news.ycombinator.com/item?id=24189497
推荐: