GPT-3论文解读(视频)

GiantPandaCV

共 647字,需浏览 2分钟

 ·

2020-11-29 04:26

转载自油管:

https://www.youtube.com/watch?v=SY5PvZrJhLE&t=458s&ab_channel=YannicKilcher

B站链接:

https://www.bilibili.com/video/BV1aK4y1f7Nm/

点击小程序观看视频,时长1小时05分

视频太长不看版:


总的来说讲者对于 GPT-3 的看法是:


GPT-3 在模型结构上就是 transformer 的多层堆叠,并没有提出什么新的结构。


且 GPT-3 因为模型足够大,所以讲者猜测它是以某种方式记住了所有的训练数据。


而训练数据是用了互联网上和维基百科等的超大量文本数据。


在训练数据上完成训练之后是直接用去下游任务的并没有 finetuning 的过程


对于下游任务,比如问题回


GPT-3 就是单纯从它记住的训练数据中,筛选出与输入问题类似的训练样本,


然后通过插值(原文 interpolate)融合生成答案而已。GPT-3 其实并不具备推理能力


最后讲者提到,GPT-3 的一个可能应用是可以做模糊搜索


比如可以给 GPT-3 输入一个研究的 idea,作为开头然后让它生成文章的摘要。


还有更多有趣的实验结果可以阅读文章或者视频解读。

浏览 65
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报