老板:来人啊,给我整一个20万亿参数Transformer的GPT-4?!
内存
基础数据并行(DP)并不能减少每张GPU卡上占的内存,而现有32GB内存GPU上,基本参数超过14亿就放不下了。
ZeRO-100B可以不用模型并行,就在128个GPU上训练高达130亿参数的模型,平均每个GPU的吞吐量超过40TFlops。而相比之下,不用ZeRO,仅用基础数据并行的话,可训练模型单个最大可含只有14亿参数,而每个GPU的吞吐量不到20 TFlops。
算力
按以petaFLOP/s-day的算力(C)计算就是:
L = (C/2.3*10^8)^-0.05 ⇔ L = 2.62 * C^-0.05
而 GPT-3能用2.57 * C^-0.048来拟合这个公式 ,之后反过来解出 C 的话,会得到:
C = 2.89407×10^-14 N^(19/12)
接下来如果你按GPT-2到GPT-3的参数增幅来计算GPT-4的话,那么你就能得到:
C≈3.43×10^7对20万亿参数(GPT-4)
以及18300对1750亿参数(GPT-3)
而GPT-3好像用的10^4.25 PetaFLOP/s-days,当然论文里说的是几千,而不是两万,稍微偏离了论文里图的趋势线,所以如果在更大算力上训练可能还有提升。
除了算力,数据方面还要有16万亿左右的token,GPT-3在大约3000亿token上进行的训练(虽然根据函数最好是3700亿)。英文维基百科只有30亿,570GB的webcrawl数据有4000亿个tokens,其实数据方面23TB的tokens相比起算力来说更好提供。
于是乎,如果GPT-3的算力成本约为460万美元,那么训练 "GPT-4 "的算力成本就应该为86亿美元了。老板说过资源管够的,嗯,就是这样,阿伦又想。
当然86亿美元还是有点贵了,一个优秀的工程师是会优化降低成本的。根据之前黄教主的发布会,如果你有(ke)幸(jin)通过用A100卡替代V100卡的话,就能获得3-6倍的算力增幅,但即使这样,还是会产生高达14亿美元的算力费用。
一下就给老板省了72亿美金,省到就是赚到,一下赚个72亿美金王健林也没我这么厉害,我真是老板的贴心员工。
拿着这份资源估算表,于是阿伦去找了老板。
第二天,阿伦收到了一张船票。
一张通往非洲的船票。
友情对比提示:
根据Nvidia在2020年第一季度公布了来自 "数据中心"的营收是11.5亿美元,所以按照上面的计算,训练一个"GPT-4",就几乎需要全世界将近1季度(3个月)的显卡供应,可能不准确但至少是这个数量级。
美国能源部正在向AMD支付6亿美元,用于建造两台Exaflop El Capitan超级计算机。这台超级计算器要完成GPT-4计算需要47年。
评论:
原作者点评:不过,为了极大地改善谷歌搜索,或其他一些能用到的应用,在未来1-3年里花14亿美元甚至100亿美元可能也并不是真的很糟。
好事者点评:
好事者一号 Tornado28:如果有86亿美元训练这玩意儿,还不如花50亿美元当科研经费。可能你就能获得三万多篇关于语言模型的新研究论文,之后再用剩下36亿训练一个非常好的模型就行。
好事者二号 bohreffect:首先先不说内存需求吧,这里有没有16万亿个token(词)都是个问题,更不用说5千亿有用的token. 某种意义上这个假设的 GPT-4的VC维已经超过了英语本身的复杂性,很有可能直接过拟合了。
好事者三号 Iwakan:在这数十亿美金的计算成本里面,现有的GPU是不是最佳选择呢?我感觉有这样的预算,早都能够用更快的速度和效率生产出定制的ASIC芯片了,这个芯片只用于该模型的运算。可以用比特币专用矿机作为参考,它比普通的GPU在挖矿任务上高效一万倍以上。
相关报道:
实习/全职编辑记者招聘ing
加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn