GPT-3论文解读(视频)-技术圈

转载自油管：

https://www.youtube.com/watch?v=SY5PvZrJhLE&t=458s&ab_channel=YannicKilcher

B站链接：

https://www.bilibili.com/video/BV1aK4y1f7Nm/

点击小程序观看视频，时长1小时05分

视频太长不看版：

总的来说讲者对于 GPT-3 的看法是：

GPT-3 在模型结构上就是 transformer 的多层堆叠，并没有提出什么新的结构。

且 GPT-3 因为模型足够大，所以讲者猜测它是以某种方式记住了所有的训练数据。

而训练数据是用了互联网上和维基百科等的超大量文本数据。

在训练数据上完成训练之后是直接用去做下游任务的，并没有 finetuning 的过程。

对于下游任务，比如问题回答。

GPT-3 就是单纯从它记住的训练数据中，筛选出与输入问题类似的训练样本，

然后通过插值（原文 interpolate）融合生成答案而已。GPT-3 其实并不具备推理能力。

最后讲者提到，GPT-3 的一个可能应用是可以做模糊搜索

比如可以给 GPT-3 输入一个研究的 idea，作为开头然后让它生成文章的摘要。

还有更多有趣的实验结果可以阅读文章或者视频解读。