不用1750亿!OpenAI CEO放话:GPT-4参数量不增反减

新智元

共 2849字,需浏览 6分钟

 ·

2021-09-22 17:06



  新智元报道  

来源:AIM

编辑:好困

【新智元导读】不要100万亿!也不要10万亿!更不要1750亿!GPT-4参数量竟然比GPT-3还少!


GPT-4官宣?


近日,OpenAI的首席执行官Sam Altman出席了「the AC10 online meetup」的线上QA,并透露了关于GPT-4的最新消息。
 
 
去年,OpenAI在一篇题为「语言模型是小样本学习者」的论文中介绍了当时最大的神经网络GPT-3。
 
作为最先进的语言模型,GPT-3包括1750亿个参数,而其前身GPT-2的参数为15亿,并且击败了之前保持「有史以来最大」记录的图灵NLG模型(170亿)。
 
由于OpenAI几乎是每间隔一年就发布一个GPT模型:2018年发布了GPT-1,2019年发布了GPT-2,2020年发布了GPT-3。
 
到了2021年,网络上对于测GPT-4的猜测就如雨后春笋一般层出不穷。
 
例如7月份的一篇报道预测GPT-4或许会有10万亿的参数量。
 
也有文章表示GPT-4的参数量将与大脑的突触一样多,达到100万亿个。

甚至连OpenAI的「自己人」也觉得这怎么也得有个100亿吧。



然而,谁也没有想到,GPT-4的参数竟然比GPT-3还少!


GPT-4的期待


Altman在采访中表示:与流行的看法相反,GPT-4不会比GPT-3大,但会使用更多的计算资源。
 
实现这一点,GPT-4将使用与之前GPT模型不同的方法,包括数据算法和微调,这其中的重点显然是在较小的模型中获得最大的收益。
 
通常认为,一个模型的参数越多,它能实现的任务就越复杂。
 
不过,有越来越多的研究指出,一个模型的有效性可能不一定像人们认为的那样与它的大小相关。
 
例如,最近一项来自谷歌的的研究表明,比GPT-3小得多的模型:微调语言网(FLAN),在一些具有挑战性的基准上比前者提供了更好的结果。
 
https://arxiv.org/pdf/2109.01652.pdf
 
篇标题为「微调语言模型是零样本学习者」的论文,似乎是直指OpenAI的那篇GPT-3论文,火药味十足。
 
言归正传,从Altman的发言中可以看出,OpenAI也一直在摸索如何通过训练较小的模型来完成一些任务,并达到更好的效果。
 
Altman还表示,GPT-4将更加关注代码的生成,也就是更接近OpenAI通过API在私人测试中发布的Codex模型。
 
Codex是GPT-3的衍生版本,也是GitHub Copilot的基础。
 
它能理解十几种语言,还能用自然语言解释简单的命令,并代表用户执行这些命令,允许为现有的应用程序建立自然语言界面。

只要对Codex发号施令,它就会将英语翻译成代码。
 
比如:「add this image of a rocketship」
 
随后,这张火箭照片就被添加进来了:
 

Codex不仅能够收到指令后自行编程,还能够开发个小游戏。
 
 
此外,Codex还能接受语音指令。
 
「啪,每行开头的空格消失了!」
 
除了GPT-4之外,Altman还表示,之后的GPT-5或许能够通过图灵测试。
 
不过,这可能并不值得付出努力去做。
 

DALL.E将开源


DALL.E要开源了!
 
DALL.E与GPT-3一样,也是一个Transformer语言模型。
 
作为GPT-3的120亿参数衍生版本,它将文本和图像作为单一的数据流接收,其中包含多达1280个词元,并使用最大似然法进行训练。
 
自然语言输入是一个完全开放的沙盒,如果能按照模型的喜好使用文字,你几乎可以创造任何东西。
 
DALL-E文本到图像的端到端生成
 
由于OpenAI一直没有开源DALL.E,因此之前的创作都是基于图像标注模型CLIP。
 
 
在概念上,这种从文本描述生成图像的想法与DALL.E模型惊人地相似,但实际上却完全不同。
 
DALL.E是直接从语言中产生高质量的图像而进行的端到端训练,而CLIP则是使用语言来引导现有的无条件图像生成模型。
 
而这些基于CLIP的方法要相对拙略一些,所以输出的结果并不像DALL.E那样具有很高质量和精确度。相反,这些生成的图像是怪异、迷幻和抽象的。
 
正是这种怪异使这些基于CLIP的作品如此独特,让人在熟悉的事物上看到完全不同的结果。
 
「牛油果形状的扶手椅」:上图由DALL.E生成,下图由CLIP生成的
 

AGI:算法、数据和计算机


对于AGI,UCLA的计算机科学教授、人工智能先驱Stuart Russell表示深度学习是不足实现的。
 
「关注原始计算能力完全没有抓住重点。我们不知道如何让一台机器真正智能化,即使它有宇宙那么大。」
 
相比之下,OpenAI相信,在大型数据集上输入大型神经网络并在巨大的计算机上进行训练是实现AGI的最佳途径。
 
OpenAI的首席技术官Greg Brockman表示:「谁拥有最大的计算机,谁就能获得最大的好处。」
 
此外,OpenAI相信缩放假说:给定一个可扩展的算法,如GPT系列背后的基本架构Transformer,就可能有一条通向AGI的直接路径,包括基于该算法训练越来越大的模型。
 
但大型模型只是AGI难题的一个部分,训练它们需要大型数据集和大量的计算能力。
 
当机器学习界开始揭示无监督学习的潜力时,数据不再是一个瓶颈。
 
再加上生成性语言模型,以及少量的任务转移,也就解决了「大型数据集」问题。
 
OpenAI只需要巨大的计算资源来训练和部署他们的模型就可以了。
 
这或许就是在2019年决定与微软合作的原因,这样就通过授权微软在商业上使用OpenAI的模型,以换取使用其云计算基础设施和所需的强大GPU。



参考资料:

https://analyticsindiamag.com/gpt-4-sam-altman-confirms-the-rumours/

https://towardsdatascience.com/gpt-4-will-have-100-trillion-parameters-500x-the-size-of-gpt-3-582b98d82253




浏览 32
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报