GPT-3论文解读(视频)
GiantPandaCV
共 647字,需浏览 2分钟
·
2020-11-29 04:26
转载自油管:
https://www.youtube.com/watch?v=SY5PvZrJhLE&t=458s&ab_channel=YannicKilcher
B站链接:
https://www.bilibili.com/video/BV1aK4y1f7Nm/
点击小程序观看视频,时长1小时05分
视频太长不看版:
总的来说讲者对于 GPT-3 的看法是:
GPT-3 在模型结构上就是 transformer 的多层堆叠,并没有提出什么新的结构。
且 GPT-3 因为模型足够大,所以讲者猜测它是以某种方式记住了所有的训练数据。
而训练数据是用了互联网上和维基百科等的超大量文本数据。
在训练数据上完成训练之后是直接用去做下游任务的,并没有 finetuning 的过程。
对于下游任务,比如问题回答。
GPT-3 就是单纯从它记住的训练数据中,筛选出与输入问题类似的训练样本,
然后通过插值(原文 interpolate)融合生成答案而已。GPT-3 其实并不具备推理能力。
最后讲者提到,GPT-3 的一个可能应用是可以做模糊搜索
比如可以给 GPT-3 输入一个研究的 idea,作为开头然后让它生成文章的摘要。
还有更多有趣的实验结果可以阅读文章或者视频解读。
评论