GPT-3真是人工智能「核武器」吗?花1200万美元训练却没能通过图灵...-技术圈

新智元报道

编辑：白峰

【新智元导读】从GPT系列的预训练语言模型一直是大力出奇迹的典型代表，今年五月份OpenAI又耗资1200万训练出了GPT-3，新模型能算数还能写代码，在多个任务中表现出色，GPT-3是否具有了超越人类的智能，来一次图灵测试吧！

GPT-3太大玩不起？OpenAI开放了一个 API，现在你也可以轻松访问GPT3模型了。

与大多数人工智能系统的复杂设计不同，现在的 API只需要你输入一个文本，就能返回相应的输出。

我们先来看下GPT-2的效果。

GPT-2已经十分惊艳了，可以像上图演示的那样在开放领域对答如流。那GPT-3到底有哪些进化呢？离真正的人类还有多远，它能通过图灵测试吗？

图灵测试是图灵于1950年提出的一个关于判断机器是否能够思考的著名思想实验，测试某机器是否能表现出与人等价或无法区分的智能。

GPT-3 基于 CommonCrawl (从2016年到2019年收集了近1万亿个单词)、网络文本、书籍、维基百科等相关的数据集进行训练。参数量高达1750亿，相比之下，GPT-2的最大版本也只有15亿个参数。

常识难不住这个「维基百科」

作为一个通用的语言模型，它不拘泥于语言任务的类型和领域，你可以问它红烧排骨怎么做，也可以让它解释物理定律。坦白点说，它做的事相当粗暴，你给出一些文本，它猜测接下来会发生什么。我们来看看GPT3在问答任务上的表现。

问：美国人的预期寿命是多少，答：78岁之前的语言模型在这种常识问答中，通常会宕机，但是GPT-3却表现很好，好似把维基百科的知识都吃透了，能快速了解你的问答意图。

多轮对话也是手到擒来，放到十年前，上面的对话会不会让你以为是个真人？看到这样的结果，可能会有些疑问，GPT-3怎么知道长颈鹿有两只眼睛？我们也不确定，只能推测，在它的训练数据中，一定有一些网页，讨论了长颈鹿有多少只眼睛。
击败GPT-3，你只需要一个「天马行空」的问题

GPT-3「见识」了上亿的网页，可能你这辈子都看不完。。那有没有问题能难倒 GPT-3？

五个里面答对了四个，我好像发现了什么，网络上没出现过的，GPT3就失灵了！因为正常人不会去比较铅笔和烤箱的重量。

那我们再来几个「超越现实」的问题，GPT-3可以进行正常的交谈。它却不会说「等一下... ... 你的问题是胡说八道。」它也不知道怎么说「我不知道」，你问一些天马行空的问题，它就开启「尬聊」模式，图灵测试fail了。所以，如果你想对一个人工智能系统进行图灵测试，一定要问一些无意义的问题，然后看看受访者是否会以人类的方式做出回应。逻辑运算能力有，还会写代码

除了这些正常的问答，GPT3有没有逻辑运算能力呢？

测试结果显示，GPT-3的通用性远超我们想象。然而，它也是神经网络本身的结构，没有一个神经网络能够基于训练数据而不是硬编码在大量数字上做加法和乘法等基本算术运算，所以复杂的数学运算也会失败。对于一个程序来说，有些数学操作很简单，编写个递归就行了。但是，某些递归逻辑通常不能很好地映射到神经网络结构上。但有趣的是，GPT-3通过编写代码可以解决很多编程型的问题，你如果用代码作为提示，它就会试着写代码来回答。

可以看到，GPT-3模型的行为会随着不同的提示而发生巨大的变化。所以它是很容易迁移的，你只需要少量的提示，就能改善 GPT-3的在具体的任务上的性能。 GPT-3在某些方面令人印象深刻，但在其他方面仍然和人类有很大差距。只有更好地理解它的优点和缺点，才能更高效地在实际产品中使用GPT-3这个「核武器」。