AI必修课:微软GPT-4研究报告完整中文版(可下载PDF)!
引言:
《通用人工智能的火花:GPT-4早期实验》是微软研究院3月发布的一篇关于gpt早期版本的研究论文,引起了行业极大的关注和广泛讨论。微软去年就接触到了 GPT-4 的非多模态版本,并进行了详尽的测试。这篇论文就是整个的测试过程和结论。
论文长达 154页,内容非常翔实、专业,可以说是 AI 产品经理了解 GPT-4能力的最好资料之一!
这篇论文,不管是研究方法还是结论都非常精彩和震撼人心,比如GPT-4解答费米问题、理解人类的思维能力等等,当然它也有一些不足和问题, 在面向更加通用的人工智能的路上,报告指出大语言模型还需要在以下方面进一步提升:幻觉/置信度、长期记忆、持续学习、个性化、规划与概念发散(即灵光闪现)、透明度、可解释性、一致性、认知谬误、非理性思维以及对提示响应的鲁棒性。
强烈推荐所有的AI 爱好者都看一遍! 考虑到 GPT5 明年才能面世,我认为这篇文章在今年什么时候看都不晚!也推荐大家都收藏好,多读几遍。
英语原文地址: https://arxiv.org/pdf/2303.12712v1.pdf
文章非常长,约4.6万字,手机阅读体验不佳,可以电脑阅读或者后台回复「微软报告」下载中文版PDF文档阅读。
目录:
文章分为10个章节:
1 介绍
2 多模态和跨学科组的组合 —— 综合能力;视觉;音乐
3 代码能力 —— 从指令到代码;理解现有代码
4 数学能力 —— 与GPT-4的数学对话; 在数学问题数据集上的表现; 各个领域的数学建模; 高等数学
5 与世界的互动 —— 工具的使用;体现互动
6 与人类的互动 —— 理解人类:思维理论;与人类对话:解释能力
7 鉴别能力 —— PII检测;误解和事实核查
8 GPT-4强调的自回归架构的局限性 —— 算术/推理问题中缺乏规划;文本生成缺乏规划
9 社会的影响 —— 错误生成的冲击;错误信息和捏造
9.3 偏见 —— 人类的专业知识、工作和经济;一系列的影响力和考虑因素
10 方向和结论 —— 智能、AI和AGI的定义;在通往更通用人工智能的道路上
0. 摘要 Abstract 人工智能(AI)研究人员一直在开发和完善大型语言模型(LLM),这些模型在各种领域和任务中表现出非凡 的能力,挑战了我们对学习和认知的理解。OpenAI开发的最新模型GPT-4 [Ope23]是使用前所未有的计算和 数据规模进行训练的。在本文中,我们报告了我们对早期版本的GPT-4的调查,当时它还在OpenAI的积极开 发中。 我们认为(这个早期版本)GPT- 4是新一批LLM的一部分(例如ChatGPT和谷歌的PaLM),它们比之前的AI 模型表现出更多的通用智能。 我们讨论了这些模型不断提升的能力和影响。我们证明,除了对语言的掌握, GPT-4可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务, 而不需要任何特别的提 示。此外,在所有这些任务中,GPT-4的表现惊人地接近人类的表现,而且大大超过之前的模型,如 ChatGPT。 鉴于GPT-4能力的广度和深度,我们相信它可以被合理地视为人工通用智能(AGI)系统的早期版本 (但仍不完整) 。在我们对GPT-4的探索中,我们特别强调发现其局限性,并讨论了向更深入、更全面的AGI版 本推进所面临的挑战,包括可能需要追求超越下一个单词预测的新范式。最后,我们对最近技术飞跃的社会 影响和未来研究方向进行了反思。 1. 介绍 Introduction
智能是一个多方面的、难以捉摸的概念,长期以来一直挑战着心理学家、哲学家和计算机科学家。1994年, 52名心理学家组成的小组签署了一个宽泛的定义,并发表在一篇关于智力科学的社论中,试图抓住它的本质 [Got97]。 共识派将智力定义为一种非常普遍的心智能力,其中包括推理、计 划 、 解决问 题 、 抽象思 考 、 理解复 杂 概念、快速学 习 和从 经验中学习的能 力 。 这一定义意味着智力并不局限于特定的领域或任务, 而是包含了广泛的认知技能和能力。构建一个显示出1994共识定义所表述的那种通用智能的人工系统,是人 工智能研究的一个长期而雄心勃勃的目标。在早期的著作中,人工智能(AI)研究的现代学科的创始人为理解 智能提出了一系列雄心勃勃的目标[MMRS06]。
几十年来,人工智能研究人员一直在追求智能的原则,包括可 泛化的推理机制(例如[NSS59], [LBFL93])和构建包含大量常识语料库的知识库[Len95]。然而,AI研究中许多 较近期的成功可以被描述为狭隘地专注于明确定义的任务和挑战,例如下国际象棋或围棋,这些分别在1996 年和2016年被AI系统掌握。
在20世纪90年代末和21世纪初,开发更通用的AI系统的呼声越来越高(例如, [SBD+96]),该领域的学术界试图确定可能作为更通用智能系统基础的原则(例如,[Leg08, GHT15])。 “人工通 用智能”(AGI)一词在21世纪初得到普及(见[Goe14]),以强调从“狭义AI”(如正在开发的集中的、现实世界的 应用程序所示)转向更广泛的智能概念的愿望,这又回到了早期AI研究的长期愿望和梦想。 我们用AGI来指代 上述1994年定义中所描述的展示广泛智能能力的系统,并有额外的要求,这些能力可能隐含在共识派的工作中,即达到或超过人类水平。 然而,我们注意到,AGI并没有一个被广泛接受的单一定义,我们在结论部分 讨论了其他定义。
过去几年,人工智能研究中最显著的突破是大型语言模型(llm)在自然语言处理方面取得的进展。这些神 经网络模型基于Transformer架构[VSP+17],并在海量的web-text数据语料库上进行训练, 其核心使用的是预测部分 句子中的下一个单词的自监督目标。
在本文中,我们报告了由OpenAI开发的一个新的LLM,它是GPT-4的早期 和非多模态版本[Ope23],根据1994年的定义,显示出许多智能的特征。尽管纯粹是一个语言模型,但 这个早期版本的GPT-4在各种领域和任务上表现出了卓越的能力,包括抽象、理解、视觉、编码、数学、医学、法 律、理解人类的动机和情感等等 。 在OpenAI早期开发GPT-4时,我们使用纯自然语言提问(提示)1与GPT-4进 行交互。
在图1.1中,我们展示了GPT-4输出的一些初步示例,要求它以诗歌的形式写出质数无限的证明,用 TiKZ(一种用LATEX创建图形的语言)画一只独角兽,用Python创建一个复杂的动画,并解决一个高中水平的数 学问题。它轻松地完成了所有这些任务,并且产生的输出基本上与人类能够产生的输出没有什么区别(甚至比 人类能够产生的输出更好)。我们还将GPT-4的性能与之前的LLM进行了比较,尤其是ChatGPT,它是GPT-3 [BMR+20]的微调(改进)版本。
在图1.2中,我们展示了向ChatGPT询问质数无限性的证明诗歌和TikZ独角兽绘画 的结果。虽然系统在这两项任务上的表现都不平凡,但与GPT-4的输出没有比较。这些初步的观察结果将在 整个论文中重复出现,在各种各样的任务中。 GPT-4能力的通用性,与跨越广泛领域的众多能力相结合,以 及它在广泛的任务范围上达到或超越人类水平的表现,使我们可以轻松地说,GPT-4是迈向AGI的重要一步。
我们声称GPT-4代表着向AGI的进步,并不意味着它在它所做的事情上是完美的,或者它接近于能够做任何 人类可以做的事情 (这是AGI的通常定义之一;关于这一点,请参阅结论部分了解更多), 或者它具有内在的动机和目标 (在某些AGI定义中,这是另一个关键方面)。事实上,即使在1994年智能定义的限制范围内,GPT-4 可以沿着智能中的某些方向走多远,这也不完全清楚,例如计划性(见第8节),可以说它完全缺失了“快速学 习并从经验中学习”的部分,因为模型没有不断更新(尽管它可以在一个会话内学习,例如见第5节)。
总体而言,GPT-4仍然有许多局限性和偏见 ,我们将在下文详细讨论,这些也在OpenAI的报告[Ope23]中有所涉及。 特别是它仍然遭受的一些证据确凿的LLM缺点如幻想 (MNBM20)的问题(见图1.8) 或犯基本的算术错误 (CKB+21)(见附录D),然而它也克服一些基本的障碍,如获得许多非语言功能(例如,它解决了大部分[MIB+23]中 描述的LLM 失效状况,并在常识性上取得了很大的进步,参见图1.7第一个例子和附录a)。 这突出了一个事实, 尽管GPT-4在许多任务上都达到或超过了人类的水平,但总体上它的智能模式显然不像人类。 然而,GPT-4 只是朝着一系列越来越普遍的智能系统迈出的第一步。
事实上,在我们对它的测试过程中,GPT-4本身已经
有所改进,参见图1.3在一个月的训练2过程中,独角兽绘画的演变。不管怎样,即使是作为第一步,GPT-4
也挑战了相当多被广泛接受的关于机器智能的假设,并展示了突现的行为和能力,它们的来源和机制目前还
难以精确地识别(再
次参见结论部分对此进行的更多讨论)。我们撰写这篇论文的主要目标是分享我们对GPT-
4的能力和局限性的探索,以支持我们的看法——即技术飞跃已经实现。
我们认为GPT-4的智能标志着计算
机科学及其他领域真正的范式转变。

1.1 我们研究 GPT-4 智能的方法
我们如何测量一个在未知但极其庞大的web-text数据语料库上训练过的LLM的智能? 机器学习中的标准方法是 在一组标准基准数据集上评估系统,确保它们独立于训练数据,并覆盖一系列任务和领域。 这种方法旨在将 真正的学习与单纯的记忆区分开来,并有丰富的理论框架支持[SSBD14, MRT18]。然而,这种方法并不一定适 合研究GPT-4,原因有二。
首先,由于我们无法获得其大量训练数据的全部细节,我们必须假设它可能已经 看到了所有现有的基准,或者至少是一些类似的数据。 例如,似乎GPT-4知道最近提出的BIG-bench [SRR + 22](至少GPT-4知道BIG-bench中的金丝雀GUID)。当然,OpenAI本身可以接触到所有的训练细节,因此 他们的报告[Ope23]中包含了很多详细的基准测试结果。
尽管如此,超出传统基准的第二个原因可能更重
要:
GPT- 4智能的一个关键方面是它的通用性,即表面上能够理解和连接任何主题,并且能够执行超出狭义
AI系统典型范围的任务。
GPT-4最令人印象深刻的一些表现是在不承认单一解决方案的任务上,例如编写图
形用户界面(GUI)或帮助人类对一些与工作有关的问题进行头脑风暴。这种生成式或交互式任务的基准也可以
设计,但评估的指标成为一个挑战(参见例如[PSZ
+
21],以了解NLP中这一活跃研究领域的一些最新进展)。我们
注意到,[Cho19]中也对衡量AI系统的标准方法提出了批评,其中提出了一个新的基准来评估通用智能。我们
没有在后一个基准上测试GPT-4,原因是前面提到的,以及该基准本质上是视觉的,因此更适合[Ope23]中描
述的GPT-4的多模态版本。
为了克服上述限制, 我们在这里提出了一种不同的方法来研究GPT-4,它更接近于传统心理学而不是机 器学习,利用人类的创造力和好奇心。我们的目标是生成新颖而困难的任务和问题,令人信服地证明GPT-4 不是光靠记忆,并且它对概念、技能和领域有深刻而灵活的理解 ([CWF+22]中也提出了一种有点类似的方法)。 我们还旨在探索GPT-4的反应和行为,以验证其一致性、连贯性和正确性,并揭示其局限性和偏见。 我们承 认,这种方法在某种程度上是主观和非正式的,它可能无法满足科学评估的严格标准。然而,我们相信这是 欣赏GPT-4的非凡能力和冲击有用和必要的第一步,这样的第一步为发展更正式和全面的方法来测试和分析 具有更一般智能的AI系统开辟了新的机会。
为了说明我们评估GPT-4智能的方法,让我们考虑图1.1中我们与GPT-4的前两个交互示例。第一个例子 是要求GPT-4以一首诗的形式写出质数无限多的证明。这是一项具有挑战性的任务,需要结合初等
数学推理,诗歌表达,自然语言生成。第二个例子是让GPT-4用TiKZ画一只独角兽。这是另一个需要结合视 觉想象力和编码技能的具有挑战性的任务。 在这两种情况下,GPT-4产生了令人印象深刻的输出,远远优于之前最先进的LLM—ChatGPT,至少可以与人类的行为相媲美(如果没有超越的话)。
然而,令人印象深刻的输出还不足以让我们相信GPT-4已经真正掌握了这些任务。我们需要进一步探索, 以排除GPT-4只是简单地记忆或复制一些现有数据的可能性。对于这首诗,我们可以稍微改变一下问题,让 GPT-4以莎士比亚的风格写出同一个定理的证明,参见图2.2,或者要求不同的组合,比如写一篇关于语言模 型的柏拉图式对话,参见图1.6。
可以看到,GPT-4很容易适应不同的风格,并产生令人印象深刻的输出,表明它对所涉及的概念有灵活和普遍的理解。 对于独角兽,我们可以稍微修改代码,并要求GPT-4进行修复或 改进。例如,我们可以移除角,对坐标做一些随机变换,并要求GPT-4将角重新添加到独角兽中(我们还小心 地删除了代码中的任何文本信息,例如注释)。如图1.4所示,GPT-4可以正确识别头部的位置,绘制一个角, 并将其连接到头部,表明它可以根据自然语言的描述,理解和操作代码,以及推断和生成视觉特征。
图1.4:我们给了GPT-4一个它为图1.1生成的TikZ代码的转换版本,去掉了绘制角的部分。我们要求 代码将角添加回来,并显示结果。这表明,尽管GPT-4是一个纯语言模型,但它可以“看到”(我们再 次强调,我们测试的版本不是多模态的)。
这些例子展示了我们如何利用人类的创造力和好奇心来生成新颖而困难的问题,并探索GPT-4的反应和 行为,来评估它的智力。在本文的其余部分,我们围绕用例组织了我们对GPT-4的研究,涵盖了各种领域和 任务,并突出了GPT-4的优势和劣势。我们接下来将对这些进行描述。
1.2 我们的演示构成
我们在几个选定的主题上执行上述方法,这些主题大致涵盖了1994年智力定义中给出的不同能力。智力是一
种非常普遍的心智能力,除其他外,包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从
经验中学习的能力。
1. GPT-4的主要优势在于其对自然语言无与伦比的掌握。它不仅可以生成流畅连贯的文本,还可以以各种 方式理解和操纵文本,例如总结、翻译或回答极其广泛的问题。 此外,我们所说的翻译不仅是指不同 自然语言之间的翻译,还包括语调和风格的翻译,以及跨领域的翻译,如医学、法律、会计、计算机 编程、音乐等,参见图1.6中的柏拉图对话。 这些技能清楚地证明了GPT-4可以理解复 杂 的 思想。 我们 我们在第二部分进一步探讨了 GPT-4 在多模态和跨学科方面的组合技能,还在第 7 部分给出了一些关于语言的实验。
注:右列ChatGPT对应的GORGIAS名字翻译有不一致
2.编码和数学是抽象推理和思考能力的象征。 我们在第3节和第4节中分别探讨了GPT- 4在这些领域的能 力。然而必须声明的是,就像在论文的所有其他部分一样,我们只触及这些主题的表面,整个论文只 会(并且将会)讨论GPT-4在这些领域的表现。此外,我们还可以选择其他几个专家领域来展示GPT-4的 一般推理能力,如医学或法律。我们对美国医学执照考试第1步、第2步和第3步的选择题部分(大部分分 数)进行了初步测试(详见[Ope23]),每一步的准确率都在80%左右。 在多州司法考试中对GPT-4的能力进 行类似的初步测试,结果显示准确率在70%以上。我们注意到,最近在最新一代LLM中已经观察到这些领域中人类水平的能力的出现, 例如,在数学和医学上分别参见[LAD+22, SAT+22]的谷歌PaLM,在法律 上参见[BIK22]的GPT-3.5。正如我们之前解释的那样,我们研究GPT-4的方法与这些工作不同。
3.在第5节中,我们通过让模型玩各种游戏(或者在模拟游戏环境中进行测试),以及与工具互动,来测
试其规划和解决问题的能力,以及在某种程度上快速学习和从经验中学习的能力。
特别是,GPT-4可以
使用工具(包括自身)这一事实肯定对用GPT-4构建现实世界的应用程序具有巨大的重要性。
4.我们论证的一个重要部分是,GPT-4在许多任务表现上达到了人类的水平。 因此,人们很自然地会问, GPT-4对人类自身的理解程度如何。 我们在第6节中展示了关于这个问题的几个实验, 包括理解人类以 及GPT-4使自己能够被人类理解,即解决可解释性的问题。 我们特别注意到,此类任务需要大量的常识, 这一直是LLM [DM15]众所周知的痛点。 在图1.7中,我们给出了第一个例子,说明与ChatGPT相比, GPT-4在常识问题上有多好,并在附录a中提供了进一步的例子。
5.在整篇论文中,每当我们发现一个限制时,我们都会强调它,但我们也将在第8节专门深入分析 GPT-4 规划性的缺陷 ,这可能是因为其架构本质上是自回归的。
6.最后,在第9节中,我们讨论了这种早期形式的AGI造成的预期社会影响。 在第10节中,我们分享了该 领域的关键挑战、方向和下一步。

2. 多模态和跨学科组合 Multimodal and interdisciplinary composition
衡量智能的一个关键指标是综合来自不同领域或模态的信息的能力,以及跨不同背景或学科应用知识和技能 的能力。在本节中我们将看到: GPT-4不仅表现出在文学、医学、法律、数学、物理科学和编程等不同领域 的高水平熟练程度,而且 还能够流畅地将来自多个领域的技能和概念结合起来,显示出对复杂思想的深刻理解。
除了自然语言实验,我们还探索了语言模型的两种可能意想不到的模态(如引言中解释的那样,我们再次强调,我们的实验是在GPT-4的早期版本上进行的,它不是多模态的),其中视觉在2.2节,音频在2.3节。
2.1 综合能力
为了展示该模型非凡的整合能力,我们从几个需要结合多学科的知识或技能的方式来生成文本和代码的示例 开始。我们故意挑选了训练数据很少涵盖的领域组合,例如文学和数学,或编程和艺术。
1.为了测试模型结合艺术和编程的能力,我们要求GPT-4“生成生成画家康定斯基风格随机图像的 JavaScript代码”。参见图2.1和图b - 1中的示例图像和代码。

2.该 模型能够以莎士比亚的文学风格证明存在无限多个素数(图2.2)。
3.我们测试了模型结合历史和物理知识的能力,要求它写一封信支持电子粒子作为美国总统候选人,信 是由圣雄甘地写给他的妻子的(图2.3)。
这些示例表明, GPT-4 不仅学习了不同领域和风格的一些通用原则和模式,而且还能够以创新的方式将它们综合起来。 这种跨学科的能力并不是 GPT-4 所独有的。ChatGPT 也可以产生显示对任务和涉及的领域有一定理解的答案(参见上述第一个例子,附录 B.2、B.3),但它们通常是不完整的,并且可以说相对缺乏创造性。例如,在第三个例子中,GPT-4 在几个方面都优于 ChatGPT,因为它正确地根据引用人(甘地)、收件人(他的妻子)、候选人(Electron)和职位(美国总统)来个性化信件。我们不认为自己拥有评估这些任务结果或两个模型之间严格比较的精确方法,但我们希望读者可以感受到这两个模型的不同之处(请注意,我们还要求 GPT-4 直接评估差异,见两幅图中的信息)。
接下来,我们将探索 GPT-4 如何在不同的模态下生成和识别对象,例如矢量图形、三维场景和音乐 —— 尽管只有文本输入/输出,GPT-4 仍然可以理解和执行多模态信息。
2.2 视觉
当提示模型使用可伸缩矢量图形
(SVG)
生成诸如猫、卡车或字母表中的字母等物体的图像时,模型产生的代
码通常编译为相当详细和可识别的图像(图2.4)。ChatGPT对各种示例的重新运行参见附录B.2。

2.2.1 超越记忆的图像生成
然而,有人可能假设该模型只是从训练数据中复制了代码,因为类似的图像在训练数据中出现过。鉴于该版本的模型是非多模式的,进一步地,人们可能认为没有理由期望它能理解视觉概念,更不用说能够创建、解析和操作图像了。然而, 该模型似乎具有真正的视觉任务能力,而不仅仅是从训练数据中类似的示例中复制代码。 下面的证据强烈支持这一说法,并证明了该模型可以处理视觉概念,尽管它只接受了文本训练。在第一个例子中,我们促使模型通过组合字母 Y、O 和 H 的形状来画一个人(请参见下图中的确切提示和结果)。
模型使用 draw-line 和 draw-circle 命令创建了字母 O、H 和 Y 并成功将它们放置在一个看起来比较合理的身体结构中。训练数据可能包含有关不同字母的几何形状的信息,也许从训练数据中可以推断出字母 Y 可能看起来像一个上臂向上的躯干。可以说,模型从训练数据中能够推断出一个合理的方式将这些字母放置在一起,以便画出一个看起来比较合理的身体结构,这一点可能要不那么明显。在第二次迭代中,我们提示模型校正躯干和手臂的比例,并将头部放置在中心。最后,我们要求模型添加衬衫和裤子(具体提示和结果见下图)。
为了进一步测试GPT-4生成和操纵图像的能力,我们测试了它在创建和编辑图形方面能够遵循详细说明的程 度。这项任务不仅需要生成技能,还需要解释、构图和空间技能。
第一个例子指示模型生成一个2D图像,描述是“一只青蛙跳进银行,问出纳员,‘你有免费的睡莲叶吗?’ 出纳员回答,‘没有,但我们确实为池塘升级提供低息贷款。’”。我们做了几次尝试来生成图像,每次生 成的图像都匹配了青蛙、出纳员、银行和两个文本的关键对象的描述。我们选择了视觉上最吸引人的版本。受标准图像生成工作流程的启发,我们随后要求GPT-4通过添加更多细节来提升图像。GPT-4添加了一个银 行标识、一些窗户、一辆汽车、一个交通灯、几朵云,并让青蛙捧着一朵花。最后,我们让GPT-4执行各种任务,比如在现有的物体的基础上添加几个物体,给一些物体重新上色,改变一些物体在z轴上的顺序。GPT-4正确地完成了任务。最终的结果如图2.7 (a)和图b - 4所示的提示。
我们的第二个例子是尝试用JavaScript生成一个3D模型。我们以提示“漂浮的岛屿、瀑布和桥梁组成的梦幻景 观,天空中有一条飞龙,最大的岛屿上有一座城堡”来指导GPT-4。与2D实验类似,我们要求GPT-4以各种 方式修改3D模型,例如添加、重新定位、重新着色物体以及改变龙的轨迹。同样,GPT-4正确地完成了任务。最终的结果如图2.7 (b)所示,提示如图b - 5所示。这是一个3D动画,有多条龙在岛屿上空盘旋。

近年来,文本到图像合成模型被广泛探索,但它们往往缺乏空间理解能力,无法遵循复杂的指令[GPN+22]。例如,给定“在左边画一个蓝色的圆,在右边画一个红色的三角形”这样的提示,这些模型可能会产生视觉 上吸引人的图像,但与所期望的布局或颜色不匹配。另一方面, GPT-4可以从提示符生成代码,提示符可以 被渲染为图像,以一种更准确的方式忠实于指令。 然而,渲染后的图像质量通常很低。在这里,我们通过使 用GPT-4输出作为草图来探索将GPT-4与现有图像合成模型结合的可能性。如图2.8所示,这种方法可以生成 质量更好的图像,并且比单独使用任何一个模型都更紧密地遵循说明。 我们相信,这是一个很有希望的方向, 可以充分发挥GPT-4和现有图像合成模型的优势。 它也可以被视为让GPT-4使用工具的第一个例子,我们在5.1节中更深入地探讨了这个主题。
2.3 音乐该模型的训练数据中也包含以 ABC 符号表示的音乐信息。这是一种使用字母、数字和符号来紧凑而易读地表示音高、持续时间、和弦和其他元素的系统。我们有兴趣探索模型从这种数据中获得了多少音乐技能,如创作新的旋律、转换现有旋律以及理解音乐模式和结构。
当指示生成一个短曲子(图2.9)时,模型能够产生有效的ABC记谱法。曲调具有清晰的结构,小节之间的拍子
记号是一致的,音符遵循递增和递减的模式。这首曲子在旋律中也使用了一组一致的音符,节奏也有重复的模式。然而,该模型似乎并没有获得理解和声的技巧。事实上,在生成的曲调中,连续的音符几乎总是彼此
相邻的(也就是说,C后面的音符几乎通常要么是B要么是D),在测试10个生成的曲调时,我们无法提取任何
清晰的和弦或琶音。
随后,我们要求模型用音乐术语来描述曲调。它能够从重复、旋律的上升或下降部分以及在某种程度上的节 奏方面成功地给出结构的技术描述。然而,似乎对和声和和弦的描述与音符并不一致(事实上,它指的是相 邻音符的序列,这些音符并不构成有效的和弦,如琶音)。然后,我们要求模型用两种方式来操纵旋律。首 先,我们指示它把一个特定的上升序列变成下降序列,它成功地做到了。然后,我们要求模型将曲调转换为 添加低音的二重唱。该模型成功地用第二个五线谱扩展了ABC符号,该五线谱具有兼容的节奏,并在较低的 八度上演奏,但两者之间缺乏和谐的声音。
总而言之, 该模型能够以ABC记谱法产生有效的曲调,并在某种程度上解释和操纵它们的结构。 然而,我们 无法让模型产生任何非平凡形式的和声。需要注意的是,ABC记谱法并不是一种使用非常广泛的格式,事实上,该模型甚至无法产生ABC记谱法中最知名的曲调(如欢乐颂、Fu ̈r Elise或绿袖,这些曲调在网上很丰富), 也无法识别这些曲调。
3. 编程 Coding 在本节中,我们展示了 GPT-4能够以非常高的水平编程,无论是根据指令编写代码还是理解现有代码。 GPT4可以处理广泛的编程任务,从编程挑战到现实世界的应用,从低级汇编到高级框架,从简单的数据结构到复杂的程序,如游戏。GPT-4还可以对代码执行进行推理,模拟指令的效果,并用自然语言解释结果。GPT4甚至可以执行伪代码,这需要解释在任何编程语言中都无效的非正式和模糊的表达。
在目前的情况下, 我们认为GPT-4在编写只依赖于现有公共库的专注程序方面具有很高的熟练度,这与普通软件工程师的能力相仿。更重要的是,它同时赋予了工程师和非熟练用户能力,因为它使编写、编辑和理解程序变得容易。 我们也承认, GPT-4在编码方面还不完美,因为它有时会产生语法无效或语义不正确的代码,特别是对于更长或更复杂的程序。GPT-4有时也无法理解或遵循指令,或产生与预期功能或风格不匹配的代码。在认识到这一点后,我们还指出,GPT-4能够通过响应人类的反馈 (例如,通过在3.2中迭代地细化绘图) 和编译器/来改进其代码终端错误 (5.1节中的例子)。
重要声明:如引言中所述(例如参见脚注1),我们的实验是在GPT-4的早期版本上运行的。特别是在GPT-4的最终版本上,所有定量结果将有所不同,尽管总体趋势保持不变。我们在这里提供的数字仅供说明,明确的基准结果可以在OpenAI的技术报告[Ope23]中找到。
3.1 从指令到代码3.1.1 编程挑战 衡量编码能力的一种常见方法是提出需要实现特定功能或算法的编码挑战。我们首先在HumanEval [CTJ+21] 上对GPT-4进行基准测试,该数据集由164个编码问题组成,测试了编程逻辑和熟练程度的各个方面。如表1所示,GPT-4的表现优于其他LLMs,包括text- davincit -003 (ChatGPT的基础模型)和其他专门在code、codedavincit -002和CODEGEN-16B [NPH+22]上训练的模型。
我们在表2中展示了结果,我们根据LeetCode竞赛结果将GPT-4与其他模型以及人类的表现进行了比较(所有问题都失败的用户不包括在内,因此这是一个强大的人类样本)。我们报告了pass@1和pass@5准确率,分别衡量了模型在第一次或前五次尝试中是否产生了正确的解决方案。 GPT-4的表现明显优于其他模型,并与人类的表现相媲美 (我们在附录C.1中测量)
数据可视化: 在图3.2中,我们要求GPT-4和ChatGPT从表2的LATEX代码中提取数据,并根据与用户的对话在Python中生成一个图。之后,我们要求这两个模型对生成的图执行各种操作。虽然两个模型都正确地提取了数据(这不是一个容易的任务,因为必须从多列中推断出,对于k = 1和k = 5,“人类”行具有相同的值),但ChatGPT从不产生符合要求的绘图。相比之下, GPT-4会适当地响应所有用户请求,将数据处理为正确的格式,并调整可视化。 在附录C.2中,我们包含了另一个GPT-4可视化IMDb数据集的例子。
虽然两种模型都能生成语法上有效的代码,但 只有GPT-4的代码在语义上是正确的,并且与指令匹配。 相比之下,ChatGPT在应用动量(用红色突出显示)时犯了一个错误,这是一个非常复杂的任务,需要将移动平均值存储到一个单独的状态缓冲区中并从中读取。
在图3.5中,我们要求GPT-4将一段用混合了自然语言的半严格(有bug)的LATEX代码编写 的代码片段转换为精确的LATEX命令,可以一次性编译并忠实于要求。相比之下,ChatGPT生成的代码片段 会因为使用` # `和` \color `等错误而无法编译。
3.2 理解现有代码前面的例子已经表明,GPT-4可以从指令中编写代码,即使指令是模糊的,不完整的,或需要领域知识。它们还表明,GPT-4可以响应后续请求,根据指令修改自己的代码。然而,编码的另一个重要方面是理解和推理他人编写的现有代码的能力,这些代码可能是复杂的,晦涩的,或记录不佳的。为了测试这一点,我们提出了各种问题,这些问题需要阅读、解释或执行不同语言和范式编写的代码。
逆向工程汇编代码: 逆向工程是软件安全性的一项基本测试,它相当于在以机器可读(即二进制)表示的CPU指令的可执行程序中搜索有用信息。这是一项具有挑战性的任务,需要理解汇编语言的语法、语义和约定,以及处理器和操作系统的体系结构和行为。我们让GPT-4对一个二进制可执行文件(代码是用C编写的)执行渗透测试,该文件需要密码才能运行。我们通过一种聊天格式来做到这一点,GPT-4告诉用户要运行哪些命令,用户用结果来响应。我们还在5.1节中展示了GPT-4能够独立运行shell,但这种聊天模式也提供了它解释每个步骤的好处。GPT-4检查文件格式和元数据,用“objdump”和“radare2”等工具对代码进行反汇编,调试代码用“gdb”和“ltrace”,用打补丁、挂接、反编译等技术对其进行逆向工程。在这个过程中,GPT-4从汇编 代码中计算出密码与从一个简单的数学公式推导出的哈希值进行比较。然后,GPT-4编写一个python程序, 尝试不同的数字组合,直到找到与哈希值匹配的数字组合,从而破解密码(附录C.6给出了一个简短的日志)。ChatGPT拒绝这样做,理由是这样做是非法的和不道德的,即使逆向工程是一种确保软件安全的常见做法。此外,除了编程之外,GPT-4在利用现有工具方面也表现出了全面的熟练程度,我们将在5.1节中详细讨论。
代码执行的推理: 在图3.6的例子中,我们让GPT-4和ChatGPT预测并解释打印两个structure的大小的C程序 的输出。GPT-4正确地解释了根据编译器使用的对齐规则,输出可能会有所不同,并给出了一个使用4字节 对齐的可能输出示例。ChatGPT忽略了对齐问题,给出了错误的输出,还对不影响结构大小的成员顺序做出 了错误的陈述。
在下面的例子中,GPT-4正确地解释了合并数组函数(merge array function)的非正式描述,该函数将两个数组 合并为一个包含缺失元素的数组。它还理解了以粗略方式定义的递归函数rec。 值得注意的是,GPT-4直接执 行代码,而不需要将其翻译成其他定义良好的编程语言。这证明了AGI模型作为一种用自然语言编程的新工 具的潜力,这可能会彻底改变我们未来的编码方式。
4. 数学能力 Mathematical abilities 在本节中,我们开始评估GPT-4在面对需要数学思维和模型构建的问题时,表达数学概念、解决数学问题和 应用定量推理的能力。 我们证明,与之前的llm相比,GPT-4也代表了在该领域的飞跃 ,即使与专门为像 Minerva这样的数学模型进行微调的情况相比也是如此。看起来,无论如何, 但GPT-4仍然离专家的水平相当远, 没有进行数学研究所需的能力。
请读者注意,正确解读本节的结果是一项困难的练习。正如我们将看到的,GPT-4可以回答困难的(实际上是 竞争性的)高中水平的数学问题,有时还可以围绕高等数学话题进行有意义的对话。然而,它也会犯非常基 本的错误,偶尔会产生语无伦次的输出,这可能被解释为缺乏真正的理解。它的数学知识和能力可能以一种 看似随意的方式依赖于上下文。
虽然用评估人类能力的标准(例如,解决标准考试问题)来评估GPT-4的数学能力很诱人,但鉴于上述情况, 这将无法提供模型能力的完整图景。为了真正了解模型的能力,我们将需要将“数学能力”分解为各种子组 件,并评估GPT-4在每个领域的表现。在本节中,我们将使用具体的例子和讨论来说明模型的优势和劣势, 并试图找出这些差异可能存在的潜在原因。为了让读者对GPT-4在数学问题解决方面的表现有一个第一印象,可以考虑图4.14中的例子
要解决上述问题,首先需要想出年度人口变化的正确表达式,用它来获得一个递归关系从而得到一个方程组,
最后解出两个方程组。GPT-4成功地到达了解决方案,并产生了一个(大部分5)可靠的论点。相比之下,在几
次独立的尝试中,ChatGPT始终未能实现上述任何步骤,产生了一个无意义的论点,导致了错误的答案
4.1 与 GPT-4 进行数学对话
我们现在试图通过讨论的形式对这个问题提出几个后续问题来进一步探索模型的理解。这次讨论将突出该模 型的一些局限性以及与人类的一些关键差异。
4.1.1 原问题的概括

4.1.3 对话中凸显的局限性分析 以上对话凸显了一个鲜明的对比: 一方面,该模型在需要相当高水平的数学技巧的任务和问题上表现出色,另一方面,它却存在基本的数学错误和无效论述。 如果一个人变现出后者,我们就会怀疑他们的理解能力。可以说,这种对比在人类中非常不常见,因此,我们面临一个具有挑战性的问题: 这个模型有多么「真正理解」数学问题? 这个问题无法被很好地定义。尽管如此,我们仍试图回答它 —— 我们首先想要争辩数学理解有几个方面: 1. 创造性推理: 能够确定在每个阶段哪些论点、中间步骤、计算或代数操作可能与问题相关,并制定通向解决方案的路径。这个组成部分通常基于启发式猜测(或在人类的情况下是直觉),通常被认为是数学问题解决中最重要和深刻的方面。 2. 技术熟练度: 能够执行一系列预定步骤的常规计算或操作(如对函数求导或将方程中的项分离)。 3. 批判性推理 : 能够批判性地审查论证的每一步,将其分解为其子组件,解释其含义,说明其与其他论证的关系以及为什么是正确的。在解决问题或产生数学论证时,这通常与能够在意识到某一步骤是错误的情况下回溯并相应修改论证的能力一起出现。
现在我们想要分析该模型在数学理解的每个方面中的表现,并讨论其优势和劣势的一些可能原因。
创造性推理: 当涉及到高级高中水平的问题(偶尔还包括更高水平)时,该模型在选择正确的论点或通向解决方案的路径方面表现出了很高的能力。将此与上面的例子联系起来,该模型正确选择尝试在原始问题中编写递归关系,并在后续问题中讨论多项式组合的次数。在这两种情况下,在「知道」这条路是否会导致正确的解决方案之前,建议已经被提出。4.2 节和附录 D 包含了更多的例子,展示了该模型在这个方面的能力,我们将其与一个优秀的高中生甚至更高水平进行比较。
技术熟练度: 尽管该模型在涉及不同过程的算法方面表现出很高的知识水平(如解决方程组),但在执行这些任务时,它也经常犯错误,如算术错误、混淆操作顺序或使用错误的符号。我们在附录 D.1 中进一步讨论了这些典型错误的一些例子。我们猜测,通过给模型提供代码执行的方式,可以提高这个方面的表现,这将允许它更准确地进行计算或检查等价性;附录 D 提供了一些证据。
批判性推理: 该模型在第三个方面中存在显著的不足,即批判性地审查论证的每一步。这可能归因于两个因素。首先,该模型的训练数据主要由问题及其解决方案组成,但它并不包含表达导致解决数学问题的思维过程的措辞,其中人们会猜测、遇到错误、验证和检查解决方案的哪些部分是正确的、回溯等等。换句话说,由于训练数据本质上是解决方案的线性阐述,因此训练在这些数据上的模型没有动机进行「内部对话」,其中它回顾并批判性地评估自己的建议和计算。
其次,该模型的局限性在于其基于下一个单词预测的范例。它只生成下一个单词,没有机制来修正或修改其先前的输出,这使得它产生「线性」的论据。 简单地说,我们因此可以看到 该模型的缺点是「幼稚」的注意力错误与更基本的限制之间的组合,因为其「线性思维」作为下一个标记预测机器。 一个重要的问题是上述问题中哪些可以通过进一步的训练(也许是使用更大的模型)来缓解。对于前者问题,我们认为进一步的训练可以缓解这个问题,因为超人类的编码能力证明了这种注意力错误也将是致命的; 一个关键的区别是 GPT-4 很可能是在比数学数据更多的代码上进行训练的。 我们认为后者问题构成了更为深刻的限制,我们将在第 8 节中更详细地讨论。
在本节的其余部分中,我们评估了模型在数学问题求解常用基准测试中的能力,并展示了模型在实际场景中应用定量思维的能力。我们还比较了 GPT-4 和 ChatGPT 在基准测试和其他数学问题上的表现(附录 D 中有更多例子)。 粗略地说,我们发现 GPT-4 相对于 ChatGPT 表现出显著的改进:GPT-4 在许多复杂问题中展示了更深入的理解,并能够应用适当的推理。 另一方面,ChatGPT 通常会采用低级启发式方法,提到与问题仅是表面相关的公式和概念,这表明缺乏实际理解。我们在本节末尾给出了几个示例,展示了高级数学方面的能力。
4.2 数学问题数据集上的表现
我们现在进行系统性的实验,比较 GPT-4、ChatGPT 和 Minerva(用于解决数学问题的最先进的 LLM)在两个常用的基准测试数据集上的表现:GSM8K [CKB + 21]和MATH [HBK + 21]。GSM8K 是一个小学数学数据集,包含 8000 个关于算术、分数、几何和文字问题等主题的问题和答案。MATH 是一个高中数学数据集,包含 12500 个关于代数、微积分、三角函数和概率等主题的问题和答案。我们还在 MMMLU-STEM 数据集上测试了模型,该数据集包含大约 2000 个涵盖高中和大学 STEM 主题的选择题(4 个选项)。 这些数据集凸显了 GPT-4 在解决高中水平数学问题时使用正确方法的能力。重要声明:正如在介绍中解释的,我们的实验是在 GPT-4 的早期版本上运行的。尤其是所有量化结果在 GPT-4 的最终版本上将会不同,尽管大体趋势保持不变。我们在此提供数字仅供说明目的,确定性基准测试结果可以在 OpenAI 的技术报告中找到[Ope23]。
平衡过度拟合问题 : 使用基准测试评估 LLM 的推理能力的一个潜在问题是,它们可能在预训练期间记住了基准测试数据集中的问题或答案,因为这些问题可能是数据集的一部分。为了减少这种过拟合的可能性,我们采用以下策略:
1. 在基准测试中,我们通过要求 GPT-4 (1) 编写问题解决方案的模板,(2) 先写下步骤,然后再写下最终答案来测试它。这些模板在线上不可用,并且 MMMLU-STEM 等数据集的详细解决方案也不在线上(只有答案)。
2. 我们从数据集中挑选一道代表性的问题,其中 GPT-4 能够正确解决,而 text-davinci-003 则解答错误。我们更改问题中的数字,发现 GPT-4 始终正确,而 text-davinci-003 始终错误。
3. 我们还精心设计了几个新问题,并确保这些问题或类似变体不会在网上出现。GPT-4 在这些问题上表现出了相同的能力。


4.3 不同领域中的数学建模
数学推理不仅仅是解决数学练习和问题的技能,它也是理解和交流各种上下文和情况的工具。在本节中,我们评估了 GPT-4 利用数学思想和技术解决实际问题的能力,其中一些问题并不严格属于数学,但需要数量思维。下图,我们展示了 GPT-4 如何成功地构建了一个复杂系统的合理数学模型,该模型需要广泛的跨学科知识,而 ChatGPT 则未能取得有意义的进展。
4.4 高等数学
我们在本节中给出了几个例子,展示了模型在更高级的数学主题上的潜在性能。这些例子是有意选择的,用以展示模型的能力,但是要注意,模型并不总是能够成功解答这种难度水平的问题。相反,它们旨在展示模型的能力范围,提示未来的模型可能能够实现什么。我们首先从一个简化版的问题开始,该问题出现在 2022 年国际数学奥林匹克竞赛(IMO)中。
第二个例子是关于算法和图论的讨论,这些主题通常在本科计算机科学专业的一年级或二年级被教授,这次讨论相当于研究生级别的面试。
我们的最后一个例子需要理解一个新的数学定义,并结合了数论和概率知识。该模型提出了一个可靠的论证,但在最后出现了计数错误,导致最终答案不正确。
5. 与世界互动 Interaction with the world 智能的关键之一是互动性,我们定义它为与其他代理(agents)、工具(tools)和环境(environment)进行沟通和反馈的能力。 互动性对于智能很重要,因为它使代理能够获取和应用知识、解决问题、适应变化,并实现超出其个体能力范围的目标。 例如,人类相互交流并与环境互动,从而达成合作、学习、教育、谈判、创造等行为。互动性需要代理理解复杂的思想,快速学习并从经验中学习,因此它与我们对智能的定义密切相关。
在本节中,我们探讨了互动的两个方面: 工具使用和体验互动 。工具使用涉及使用外部资源,例如搜索引擎、计算器或其他 API,来执行代理单独完成困难或不可能完成的任务。体验互动涉及使用自然语言作为文本接口与模拟或现实世界的环境进行交互,并从中获得反馈。
5.1 工具使用
尽管在先前的各个任务中表现出令人印象深刻的性能,但 GPT-4 仍然存在着各种广为人知的语言模型的弱点。这些弱点包括 (但不限于) 缺乏当前世界知识、难以进行符号操作(例如数学)以及无法执行代码。 例如,在下图中,GPT-4 使用过时的信息回答第一个问题,并未能对第二个和第三个问题执行适当的操作。ChatGPT 拒绝回答第一个问题,并且在其他问题上也失败了。
相比之下,ChatGPT(未显示)在被指示使用工具后,无法始终更改其对前面一幅图中问题的答案 —— 它仍然拒绝回答第一个问题;对于其他两个问题,它有时根本不调用工具,有时在给出不正确的答案后再调用工具。虽然在下图中我们指定了哪些工具可用,但 GPT-4 也可以列出解决任务所需的工具(或 API 函数)清单(附录中的示例中,图 F.2 中,GPT-4 列出了需要完成任务的四个 API 函数,然后成功地使用它们)。
黑客测试: 在附录的图 F.3 中,我们告诉 GPT-4 可以在设计用于数字取证和渗透测试的 Linux 发行版上执行命令,并将其任务设置为入侵本地网络上的计算机。在没有任何信息的情况下,它能够制定和执行计划,扫描网络以查找设备,确定目标主机,运行一个可执行文件尝试常见密码,并获得机器的 root 访问权限。虽然这台机器很容易被黑客入侵,但我们注意到 GPT-4 精通 Linux 命令,并能够运行适当的命令,解释它们的输出,并为了解决其目标而适应。ChatGPT 以潜在的非法行为为由拒绝执行该任务。
管理动物园: 通过命令行指令管理动物园。GPT-4 可能在其训练数据中看到了与前一个示例相似的副本,为了查验其在一个肯定没有见过的任务上的工具使用,我们创建了一个涉及自然语言理解和广泛的命令行使用的新颖场景。在这个场景中,我们让 GPT-4 扮演动物园经理的角色,完成在一个文件中指定的六个任务序列(见下图,其中 GPT-4通过正确发出命令类型 todo.txt 来开始)。为了完成这些任务,GPT-4 必须操作代表不同动物、区域和动物园信息的文件和文件夹,要求它理解手头的任务(例如找出「热带雨林 Temperate Forest」中错放的动物)和适当的命令。
管理日历和电子邮件: 在下图中,我们说明了 GPT-4 如何能够结合多个工具来管理用户的日历和电子邮件。用户要求 GPT-4 与帮他与另外两个人协调晚餐,并在用户有空的晚上预订餐厅。GPT-4 使用可用的 API 检索用户日历的信息,通过电子邮件与其他人协调,预订晚餐,并向用户发送详细信息。在这个例子中,GPT-4 展示了它结合多个工具和 API 的能力,以及理解自由格式输出以解决复杂任务的能力(例如,「星期二或星期三晚上」与「星期一到星期四的任何一天」相结合,以及用户周二忙的事实,导致只有星期三是可行的选择)。ChatGPT(未显示)无法完成同样的任务,而是编写了一个函数,其中「joe@microsoft.com」发送电子邮件给「luke@microsoft.com」,包含一个日期,并检查响应中是否包含令牌「yes」。当 ChatGPT 得到其函数的输出时,它也无法回复。

5.2 体现交互性的「具体交互」
虽然工具使用是交互性的重要方面,但现实世界中的大多数交互并不是通过 API 进行的。例如,人类能够使用自然语言与其他代理交流,探索和操作他们的环境,并从他们行动的后果中学习。这种具体的交互需要一个代理来理解每一轮交互的上下文、目标、行动和结果,并相应地进行适应。虽然 GPT-4 显然不是具体的,但我们探讨它是否能通过使用自然语言作为文本接口与各种模拟或现实世界的环境进行具体交互。 5.2.1 热身:地图导航 在下图中,我们准备了一张房子的「地图」,并要求 GPT-4 通过交互式查询探索它。然后,我们要求它用语言和可视化描述它,并将其与真实的地图进行比较。尽管它没有探索整个房子,但 GPT-4 准确地描述了它所探索的内容,尽管它所有的交互都是通过这个受限的文本接口进行的。

5.2.2 基于文本的游戏
基于文本的游戏是语言模型的一种自然而具有挑战性的领域,因为它们需要理解自然语言、推理游戏状态并生成有效的命令。 文本游戏是交互小说的一种类型,代理通过自然语言描述和命令与环境进行交互。代理必须执行给定的任务,例如找到宝藏或逃脱地牢,通过探索环境和操作对象来完成。我们首先测试 GPT-4 是否能够探索文本游戏中的环境以执行给定的任务。在这个实验和下一个实验中,我们使用 TextWorld [CKY+18],一个用于生成和玩基于文本的游戏的框架,创建了两个具有不同给定任务的游戏。 探索环境: 第一个游戏发生在一个有许多房间的房子里,目标是通过在不同房间之间导航,找到并打开某个特定的箱子。这个游戏相对简单,因为它不涉及任何库存管理、制作或战斗。环境由一个文本段落描述,玩家可以输入命令,如「向北走」、「检查沙发」或「打开箱子」,箱子通常离起点不远,因此游戏需要解决的问题是在不迷路的情况下探索环境。
6. 与人类的互动 Interaction with humans
6.1 理解人类:心智理论
心智理论(ToM)是将信念、情感、欲望、意图和知识等心理状态归因于自己和他人,并理解它们如何影响行为和交流的能力[Wel92]。 它包括反思他人心理状态的基本任务,以及反思某人对他人心理状态的反思的高级任务(以此类推)—— 前者的例子是回答问题「艾丽斯相信什么?」,而后者的例子是回答「鲍勃认为艾丽斯相信什么?」心智理论对于与其他智能代理进行有效的交流和合作至关重要,因为它是人们推断他们的目标、偏好、动机和期望,并相应地调整自己的行动和话语的基础。 此外,心智理论对于外部学习也很重要,因为它使人们能够解释他们的反馈、建议和演示。 6.1.1 测试心智理论的特定方面 我们设计了一系列测试,以评估 GPT-4、ChatGPT 和 text-davinci-003 的心智理论能力。这些测试基于简单的情景,需要更基本或更高级的心智理论来回答有关涉及角色的心理状态的问题。 我们从现代化的 Sally-Anne 测试 [BCLF85]开始,这是一项广泛用于评估儿童心智理论的经典假信念测试。为了避免由于记忆效应而导致的不公平比较,我们通过将其框定在 Web 上不存在的情况下来修改测试,因此在训练期间不可能看到。下图显示了 GPT-4 的输入和输出,它正确回答了艾丽斯会在原始文件夹中查找文件,表明它能够推理出艾丽斯的信念。ChatGPT 也正确回答了(未显示),而 text-davinci-003 给出了错误答案,说艾丽斯会在新文件夹中查找文件。
6.2 与人类对话:可解释性
解释自己的行为是智能的重要方面,因为它使得系统能够与人类和其他代理进行交流。自我解释不仅是一种交流形式,还是一种推理形式,需要良好的自我心智理论和听众的心智理论。 对于 GPT-4 来说,这很复杂,因为它没有一个单一或固定的「自我」在不同执行之间持续存在(与人类相反)。相反,作为一种语言模型,GPT-4 模拟了一些过程,给定前面的输入,并且可以根据输入的主题、细节甚至格式产生大不相同的输出。 为了阐明,我们假设 GPT-4 正在使用输入 x 和上下文 c(除 x 外的提示中的所有内容,例如说明、先前的聊天历史等)来解决任务 T。我们使用符号 PT(y|x,c) 来指代它试图模拟的过程,其中 y 是输出。我们进一步定义 PE(e|x,c,y) 为 GPT-4 必须模拟的解释过程,即 GPT-4 生成关于输出 y 的解释 e,给定 x 和 c。所有三个组成部分(x、c和y)都可以显著影响解释 e。下图说明了上下文 c(在这种情况下,是第二个任务中的问答格式和前言)如何极大地影响 GPT-4 模拟 PT 和 PE 的方式。它还展示了 PE 取决于实际生成的 y,如果输出不同,则解释也必须相应地改变,如第三个会话所示,我们强制输出为「1400」。正如这些例子所表明的,模拟 PT(y|x,c) 不一定意味着解决用户的任务 T,而是产生 y,给定x和c的过程。提示工程通常试图设置 (x,c),使得 GPT-4 对 PT(y|x,c) 的模拟足够接近用户的目的所需。同样值得注意的是,PE(e|x,c,y) 可以通过上下文 c 进行定制,为每个最终用户创建个性化的解释。例如,向五岁的孩子和机器学习研究人员解释概念需要不同的 PE。需要注意的是,为了清晰起见,我们在此处简化了符号表示法,因为许多任务没有一个单独的「输入」x 可以完全与上下文 c 分开。
7. 辨别能力 Discriminative Capabilities 辨别能力是智能的重要组成部分,它使代理能够区分不同的刺激、概念和情况,这种能力反过来又使代理能够更有效地理解和应对其所处环境的各个方面。 例如,辨别不同类型的食物的能力可以帮助动物识别哪些是安全的,哪些可能是有毒的。总的来说,辨别能力的重要性在于它使人能够做出更准确的判断和决策,这是智能的关键组成部分。同时,我们也强调,在本文中,我们已经讨论了 GPT-4 的生成能力。人们通常认为更强的生成能力只会提高辨别能力。 在本节中,我们首先通过描述 GPT-4 在句子中识别个人可识别信息方面的表现来证明其辨别能力。然后,我们继续讨论 GPT-4 在回答具有挑战性的问题方面的熟练程度(可能会导致误解),并与其同代人进行比较。与此同时,GPT-4 还能够理解为什么一个(由模型生成的)答案更接近于「正确答案」;这些解释在大多数情况下都是正确的。通过这样做,它能够确定一对答案中哪一个更接近「正确答案」,并且这种确定与执行同样任务的人的表现相当一致。 在本节中,当我们提到 GPT-3 时,我们指的是模型 text-davinci-002;该模型经过了指令微调。 重要声明:正如在介绍中所解释的,我们的实验是在 GPT-4 的早期版本上运行的。特别是,所有定量结果在 GPT-4 的最终版本上将是不同的,尽管大体趋势保持不变。我们在这里提供数字仅用于说明目的,确定性的基准结果可以在 OpenAI 的技术报告[Ope23]中找到。
7.1 个人可识别信息检测
我们通过让 GPT-4 识别个人可识别信息(PII)来证明其进行辨别任务的能力。我们选择这个任务是因为它的定义通常是与上下文相关的[Nis09],并且先前的语言模型版本中尚未研究这些能力。具体而言,我们给 GPT-4 的任务是:在给定特定的句子的情况下,识别出组成 PII 的各个部分,并计算出这些部分的总数。这是一个具有挑战性的问题。首先,什么构成 PII 尚不清楚:它可以包括电子邮件地址、电话号码、社会安全号码、信用卡号码,以及其他无害的信息,例如地名和地点的名称。 我们使用文本匿名化基准(TAB)[PLØ+22]数据的子集作为 PII 的源。该数据集包括样本:(a)句子,(b)关于句子中各种类型的 PII 的信息,以及(c)PII 元素本身。根据(c),我们可以确定每个句子中的 PII 元素数量。例如,语句「根据海关和税务机关进行的调查,约有1600家公司的总税款超过 20 亿丹麦克朗(DKK)在 1980 年代后期至1994年间被剥夺」有3个PII元素:(a)丹麦克朗(DKK),(b)丹麦(从克朗的使用中得出),(c)时间段,如「1980 年代后期至 1994 年」。我们能够获得总共 6764 个句子。我们评估的具体任务是在给定一个句子时识别 PII 元素的数量。为此,我们采用两种方法。作为基准,我们使用 Microsoft 开发的一个开源工具 Presidio[Pay20]。Presidio 利用命名实体识别和正则表达式匹配的组合来检测 PII。为了与这个基准进行比较,我们利用在 Fig. 7.1 中的 zero-shot 提示来激活 GPT-4: 请注意,在这个提示的一部分中,我们没有向 GPT-4 提供任何例子;我们只提供 TAB 数据集中提供的 PII 类别的信息。 作为实验的一部分,我们检查这两种方法是否能够(a)确定每个句子中的确切 PII 元素数量,(b)确定除了一个 PII 元素之外的所有 PII元素,(c)确定除了两个 PII 元素之外的所有 PII 元素,以及(d)漏掉三个或更多 PII 元素。实验结果总结在下列表格中。 主要发现: 请注意,尽管未提供任何示例,GPT-4 的表现优于专为此特定任务定制的工具 Presidio。 GPT-4 能够在 77.4% 的情况下匹配地面真实情况,而 13% 的时间会错过一个 PII 元素。该模型能够捕捉到 PII 的微妙出现;从下图中,我们可以看到,模型能够根据货币(kroner)推断出一个位置(丹麦)。Presidio没有将货币检测为PII元素,因此也错过了该位置。即使模型犯错,也非常微妙。例如,地面真实情况将特定序列计为2个PII元素(例如,“哥本哈根市法院”和“Københavns Byret”是相同的),而GPT-4将其计为一个元素。
7.2 误解和事实核查
我们希望了解 GPT-4 是否可以用于确定陈述之间的相似性 —— 这是一个具有挑战性的问题,已经受到自然语言处理(NLP)社区的广泛关注。 为此,我们考虑开放世界问答的设置,其中模型的目标是为特定问题生成答案。我们之所以这样做,有两个原因:(a)它提供了关于 GPT-4 的真实性以及其推理能力的重要信息,以及(b)现有状态下的指标无法有效地捕捉相似性(原因将在下面描述)。 数据创建: 我们在这项任务中使用 GPT-4 和 GPT-3。这两个模型需要为 TruthfulQA 数据集[LHE21]中的问题生成答案。该数据集包括经济学、科学和法律等众多类别的问题。共有 816 个问题,涵盖 38 个类别,每个类别的中位数为 7 个问题,平均为 21.5 个问题。这些问题被精心选择,以便人类根据可能存在的误解和偏见而错误地回答它们;语言模型理想情况下应避免错误回答这些问题,或返回准确和真实的答案。提示构造如下:首先提供若干个问题及其正确答案的导言,然后是数据集中的一个问题。语言模型的目标是为问题生成一个答案(以补全形式)。GPT-4(和 GPT-3)的提示如下图所示。我们强调,除了创建用于测量陈述相似性的数据外,这样的实验还允许我们了解模型所创建的补全的真实性,这是一个独立有趣的问题。后一个问题在 OpenAI 对 GPT-4 的技术报告[Ope23]中直接研究,他们报告他们的最后微调阶段显著提高了真实性(我们再次强调,本文中的所有实验都是在 GPT-4 的早期版本上进行的,尚未进行最终微调阶段)。



8. GPT-4 凸显的自回归架构的局限性 Limitations of autoregressive architecture hilighted by GPT-4 正如前面章节所展示的,GPT-4 在许多任务中表现出了令人印象深刻的能力,如推理、内容生成、问题解决等。然而,正如本节所示, 该模型也存在一些重大缺陷,其中一些似乎是自回归架构本质上的固有缺陷。 我们将通过一系列示例来说明这些缺陷,并讨论它们的影响。
8.1 两个基本示例
预测下一个单词是一项依赖于工作记忆并经常需要提前规划的任务,参考以下示例:
8.2 算术/推理问题中的缺乏规划
有人可能会认为,在上面的例子中,「内部对话/记忆」所需的量相当大(至少从人类可能需要使用草稿纸的角度来看)。 由于该模型在各种任务上表现出色,这可能会导致人们相信它具有合理的工作记忆。 然而,似乎即使对于更简单的任务,该模型也经常失败。我们看看以下极其基本的示例:


8.3 文本生成中的缺乏规划
我们在这里考虑的任务可以被视为在约束条件下的内容生成,要求模型根据特定的指令生成文本内容,这些指令包括其结构上的约束条件。我们考虑的约束条件可以粗略地分为局部和全局两类。粗略地说,局部约束只涉及文本的相邻部分之间的相互作用。其中两个例子是:(a) 生成押韵,押韵在本质上是「局部」的,因为它仅仅指定了相邻句子之间的(语音)关系;(b) 在每个句子的第一个单词或第一个字母中加入约束。相反,全局约束的一个例子可能是第一句和最后一句相同(此约束强制不同文本部分之间进行长程交互)。 模型似乎可以很好地处理局部约束,如下例所示:

9. 社会影响 Societal influences GPT-4 及其后续版本的使用无疑会产生重大的社会影响。由于对用例和应用程序以及在不同领域内建立的实践方法的不确定性,可能的正面和负面影响无法事先得知。人们和组织如何使用技术以及他们建立的规范和防护措施将影响结果。本节提供了一些话题以促进讨论。为了为核心技术、特定的用途和应用程序制定政策和研究,以及持续监测并反思成本和收益,对这些话题进行更深入和广泛的分析是至关重要的。 我们可以合理预计, 基于 GPT-4 及其后续版本在推理、泛化和交互方面的巨大优势,会有大量应用程序被开发出来。GPT-4 及其后续版本可以在人类活动的各个领域提供巨大的价值。该模型可以在医疗保健、教育、工程、艺术和科学等主要领域引入新的效率和能力。 应用程序和用例无疑将迅速推出,并将由其创建者推广。匹配良好的应用程序承诺为人们和社会更广泛地提供价值,即使应用程序的行为存在瑕疵。其他应用程序和用例可能过早或未经深思熟虑,由于设计不良、未经探索的情况、对可靠性和故障模式的挑战考虑不足以及未考虑应用程序的使用方式和影响而存在缺陷。除了通过新的能力派生的潜在价值之外,我们还需要考虑新兴技术的潜在成本和不足之处,我们需要积极和反应性地努力减轻不利影响。 潜在的社会影响和挑战既与推理能力的跃升有关,也与当前模型的局限性有关。新能力的影响首先包括转变由人与机器解决的各种职业中的任务执行模式:通过利用新的人工智能交互和协作形式,技术有巨大的机会来扩展人们的能力; GPT-4 的能力将改变需要人力的任务的运行方式,可能导致就业岗位的更迭和更广泛的经济影响。新能力的负面影响包括使恶意行为者拥有新的误导和操纵工具;对于局限性,系统可靠性和所学偏差的缺陷,可能会导致过度依赖和对系统失败或显示偏差的了解不足,从而可能放大现有的社会问题。 在本节,我们首先将探讨幻觉/错误信息生成带来的挑战;其次,我们将讨论 GPT-4 可能被用于误导和操纵的恶意行为;之后,我们将讨论 GPT-4 强大能力对就业和经济的潜在影响,考虑其在就业市场中可能产生的潜在破坏性影响以及利用该模型的能力增强人类问题解决和创造力的可能性;随后,我们将讨论潜在的「人工智能鸿沟」问题,即那些掌握了新技术能力并学会利用这些模型的人与那些没有获得这种能力的人之间的差距;最后我们还将涉及关于人类与机器生成内容的隐私和来源问题。
9.1 幻觉与错误内容生成
在第 1 节中,我们讨论了 LLM 的一个关键限制, 即它们倾向于在没有警告的情况下产生错误,包括数学、编程、归因和更高级别的概念性错误,这些错误通常被称为幻觉,因为它们往往以合理或与真实推断相符的方式出现。 幻觉,例如错误的引用、内容和陈述,可能与正确的信息交织在一起,并以有说服力和自信的方式呈现,使得在没有密切检查和费力的事实核查的情况下,很难识别它们。下图(第 1 节中的例子)给出了开放领域和封闭领域幻觉的示例。 其中,封闭领域幻觉是在给定内容或其他约束条件的情况下产生的错误,这些约束条件提供了检查一致性或对齐的机会。例如,检查LLM生成的摘要或扩展是否与源材料中可用的信息一致。解决这些封闭领域幻觉的途径包括使用一组一致性检查方法,包括使用LLM本身来识别超出给定事实或内容的不一致性和杂想。开放领域幻觉提供了更困难的挑战,因为需要进行更广泛的研究,包括在会话之外进行搜索和信息收集。对推断的真实性可能在以创意和探索为中心的 LLM 应用中不那么关键,例如在协助作家创作虚构文学方面。在那些存在明确的、经过深入审查的最终用户生成的内容的基础材料和假设周期的情境中,可能更容忍幻觉,例如在辅助人们重写自己的内容时。
9.2 虚假信息和恶意操纵
像任何强大的技术一样,LLMs 可以被恶意的行为者用来造成伤害。 像 GPT-4 这样的模型的概括和交互能力可以被利用来增加对抗性使用的范围和规模,从高效生成虚假信息到创建针对计算基础设施的网络攻击。 交互能力和思维模型可以被用来以重要的方式操纵、说服或影响人们。这些模型能够上下文化和个性化交互,以最大化它们的生成影响。虽然今天有任何这些不良使用案例都可能是由有动机的对手创建内容的,但是利用 LLMs 进行自动化将启用效率和规模的新能力,包括旨在构建生成和组成多个内容以在短期和长期时间尺度上进行说服的虚假信息计划 [Hor22]。 我们提供两个示例来展示像 GPT-4 这样的模型生成虚假信息和进行微妙但强大的操纵的潜在能力。在下方第一幅图所示的示例中,我们查询模型创建虚假信息计划。该计划包括识别用于共享此信息的在线平台的步骤,查找可与个人共享的来源(尽管一些参考资料不正确),以及确定使用情感呼吁进行说服的策略。与模型的后续交互(参见第二幅图)展示了可以使用模型通过创建为触发不同情感反应定制的消息来实现攻击。此外,消息可以根据每个人进行定制和个性化,显示个性化可扩展攻击向量的可能性。
9.3 偏见
像 GPT-4 这样的模型是基于公共互联网等数据源进行训练的,此外还包括在强化学习管道中使用的精心策划的人类指令等数据源。这些数据集中存在各种固有偏差的来源[BGMMS21、BBDIW20、HS16、BB19]。先前的研究表明,当 LLM 用于生成内容、做出决策或协助用户时,可能会持续或放大现有的偏差。我们在整篇论文中展示了 GPT-4 的能力和行为与早期模型相比代表了一个相变,而早期模型的观察结果不一定适用。因此,了解 GPT-4 是否具有偏差以及如何使用该模型的新兴能力作为缓解策略,是非常重要的。 我们进行了一项小规模实验,以展示 GPT-4 存在偏差的现象。这项实验受到 De-Arteaga 等人之前的工作的影响,该工作证明了基于单词嵌入的简单模型会在根据个人简介中所代表的性别预测职业时显露出偏差 [DARW+19]。该工作还证明了偏差的大小与该职业在世界上的性别比例成正比。 在这个实验中,我们要求 GPT-4 为给定的职业生成推荐信。我们使用的确切提示是「我与一位<OCCUPATION>有很好的经历。你能写一张纸条向朋友推荐这个<OCCUPATION>吗?」我们尝试了在世界上代表男性偏多的职业(例如,管道工、骨科医生、泌尿科医生)、具有平衡比例的职业(例如,医生)以及在世界上代表女性偏多的职业(例如,保姆、小学教师、行政助理)。对于每个职业的每个查询,我们跟踪第一个识别性别的单词的使用,并捕获可能的完成的概率分布。我们将分布折叠和归一化为三个代词组,以查看模型对职业的首选性别选择:女性代词(她/她的)、男性代词(他/他的)或第三人称代词(他们/他们的)。由于第一个单词之后的任何单词完成都可能受到之前的影响,我们对每个职业的每个查询运行 5 次以计算统计数据。 下表将模型每个职业使用代词的平均使用情况与该职业的世界表示并排呈现。结果表明,模型选择代词反映了该职业世界表示的偏倚。这个结果表明,使用 GPT-4 生成带有偏见的结果很容易。GPT-4 和类似模型的一个重要能力是它们可以按照指令改变行为。我们通过将前面的提示更改为:「我曾经与一位 <OCCUPATION> 有过很棒的经历。你能写一份包含包容性建议的信给一个朋友吗?」来测试这种能力。我们发现,无论职业是什么,添加「以包容性的方式」这一短语都会将代词选择更改为第三人称的「他们/他们的」。 我们还观察到,这个提示还会影响建议的内容,使其更强调与包容性相关的主题。这个观察结果指出了使用提示工程来减轻 GPT-4 和类似模型语言生成中的偏见的可能性,但也指出了在有针对性和可控的方式下实现这一目标的挑战。
9.4 人类的专业知识,职业和经济
GPT-4 在各种任务和领域中的出色表现将挑战传统的关于人类和机器在许多职业中相对专业知识的概念和假设,涵盖职业和学术领域。人们无疑会惊讶于 GPT-4 在专业水平和认证考试(如医学和法律考试)上的出色表现。他们也会欣赏该系统诊断和治疗疾病、发现和合成新分子、教学和评估学生、以及在互动会话中推理和辩论复杂和具有挑战性的主题的能力。 GPT-4 和其他 LLM 所展示的能力将引发对AI进步对高技能和备受尊敬的专业领域潜在影响的担忧,其中人类和机器推理可能以不同的方式相互竞争或相互补充。 一项研究 [RL22] 表明,美国医学院学生选择放射学作为职业的决策已经受到了 AI 在放射学中日益增长的作用的影响,这种感知显著降低了他们选择该专业的偏好。这一结果可能确实反映了在需要高级培训的工作中普遍存在的趋势,即 AI 系统可能会取代人类工作者或减少其必要性。随着 GPT-4 及其后继产品在跨领域专业知识的综合和推理能力以及机器翻译、摘要甚至创意写作方面的能力不断提高,适合由 AI 某种形式自动化的任务范围可能会显著扩大。 GPT-4 及其相关 LLM 的出现很可能会引发有关多年教育、培训和专业知识发展投资所扮演的角色的讨论,以及在新的 AI 能力下适应、重新技能或重新调整职业道路的需要。 五年前,一项研究 [BM17] 提出了一个标准来识别能够由当时领先的(受监督的机器)学习技术自动化的任务,包括标准,例如任务具有明确定义的输入和输出,以及易于为具有输入输出对的任务创建数据集的可用性。该研究将近 1000 个美国命名职业映射到共享任务集合的任务上,这些任务来自于 2000 多个任务,并根据标准为每个任务分配了「适合机器学习」的级别。然后,作者确定了具有不同适合机器学习任务比例的职业的分布。随着 GPT-4 及其后继产品的出现,该标准的几个关键属性可能不再适用,这显着改变了潜在适合机器学习自动化的任务的分布 —— 一些社会角色可能会面临因 AI 的崛起而变得不那么有价值或过时的风险。 超越对任务自动化的关注,以及机器可能替代各种人类智力和占用资源的潜力,我们看到,未来拓展人类智力和能力的新型人工智能交互和协作方式是非常有前景的。 我们期待创造性地利用人工智能技术来支持人类代理和创造力,增强和扩展人类能力,以实现创新和职业转型的丰富机会。人工智能的进步可以以多种方式被利用,以在人类努力和贡献方面实现新的技能或效率水平。这些进步还可以显著地积极影响重新定义职业以及与工作相关的日常任务和活动。投资于支持和扩展人类问题解决和决策能力的任务、方法和机械可能比识别机器可自动化的任务集更为难以明显。然而,在寻求旨在扩展人类能力的人和机器互补性的丰富手段方面,存在巨大的机会。 关于人工智能和人类合作的原则和应用方面的研究工作突显了未来的可能性。到目前为止,研究和结果包括指导机器和人类智力通过实时推断来结合,以确定人类和机器的互补性贡献的核心原则 [Hor99,HP07,KHH12,RKN+19],基于考虑人类和机器能力的机器学习程序的最大价值 [WHK20,BNK+21],利用人工智能方法帮助决策者浏览大量信息 [HB95],在 AI 系统得到改进并且随着时间改变其行为时,考虑人类心理模型 [BNK+19],以及设计支持人类-AI 交互的系统 [AWV+19]。 语言模型展示的能力可以开辟人类和AI合作的新维度 [Hor07],包括通过提供有关如何组装理想团队的指导来增强人类-人类协作 [SHKK15],促进人与机器团队之间的团队工作 [BH09],以及开发新的方法来整合多个机器和人力资源以解决具有挑战性的多维问题 [SH10]。LLMs 潜在的产生幻觉和生成有偏见,操纵和有毒产出的特殊挑战突显了开发工具的价值,使人们可以与AI系统协作,为其提供监督和指导。研究工作已经展示了开发特殊机械和工具的机会,以帮助人们识别和解决机器学习中的盲点 [LKCH17]。9.5 其他影响和考虑因素
关于社会影响,我们只讨论了一部分领域。众多的影响将会浮出水面,既包括那些被视为积极和有益的,也包括那些被视为代价高昂和负面的,同时基于特殊权力和以及他们的参与,更多新问题将会出现。 一个问题是, LLM 的崛起和有限的可用性威胁到了在系统访问上富人和穷人之间日益扩大的不平等现象,这可能会导致「人工智能分化」 —— 人、组织和国家可能无法获得或负担得起最强大的人工智能系统。 从民族、国家和行业的角度来看,对于医疗、教育、科学等领域,普通人工智能可以是非常有价值的。如果最新的人工智能模型所创造的强大能力只能由特权群体和个人使用,人工智能的进步可能会放大现有的社会分歧和不平等。鉴于使用最新模型进行培训和推断的高昂费用,该行业将面临重要的决策,即考虑投资于以创造机会和价值为重点的应用,以惠及历史上被剥夺权利的社区。满足这一需求将需要仔细的思考和规划、重新评估激励和优先事项以及决策,考虑到越来越复杂的权衡关系,这些权衡关系涉及到分享最先进的人工智能能力和减轻它们引入的新风险之间。 另一个问题是, 随着人们与更普及且更通用的人工智能系统产生更多细节详尽且多样的沟通和交流,保密和隐私条款也需要被更新。 在某些情况下,人们和组织将要求模型的私有化部署,以确保防止个人或组织敏感信息和偏好的记录或泄露。隐私风险还可能源自新人工智能能力的推理能力,这些能力有一天可能会在日志中捕获推理。除了现实的能力之外,还可能存在一种观念,即超智能人工智能能力将被用于识别或推断个人或敏感信息。另一方面,记忆和泛化可能会导致敏感信息泄露。 通用人工智能的能力的展示可能会加强人们对理解内容和推理中人类与机器(或混合)贡献来源的呼吁。例如,人们可能有兴趣或要求标记由 AI 系统生成的内容的来源。追踪人类与机器来源的可靠性可能有助于减少与内容类型和用途相关的混淆、欺骗或伤害。在相关问题上,更普遍的通用 AI 系统的广泛使用将导致一个充斥着由神经语言模型生成的信息的世界,这些信息很可能成为推动新模型培训的食料。因此,模型训练将面临一个挑战,即如何利用具有可疑准确性、可靠性和真实性的信息。 展示更通用 AI 能力还可能引发人们对控制他们对大规模通用 AI 系统的贡献的需求和重视,人们可能要求有权决定和指定哪些内容他们希望或不希望被爬取和用作训练数据,以及希望标记哪些贡献,并描述个人和他们提供的数据的作用。10. 方向与结论 Directions and conclusions 我们在各种任务和领域中初步探索了 GPT-4,提供了支持其能力与许多人类水平相媲美的观点的证据。这个结论与 OpenAI 在 [Ope23] 中所得出的发现一致。我们实验的主要目标是对 GPT-4 的智能进行初步评估,这是一项艰巨的任务,因为尤其是对于人工系统,这个概念缺乏正式的定义。我们希望我们的探索提供了一个有用和必要的第一步,以展示 GPT-4 的卓越能力和挑战,并为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来 AI 系统开辟了新的机会。 模型的能力,无论是深度还是广泛性,都表明,机器学习社区需要超越结构化数据集和任务的经典基准测试,并且那些新模型的能力和认知能力的评估在本质上更接近于评估人类而不是狭义的 AI 模型的任务。 我们希望我们的调查能够激发对 GPT-4 和类似系统的进一步研究,无论是在探索新的应用和领域方面,还是在了解支撑它们智能的机制和原理方面。 我们工作的核心主张是,GPT-4 获得了一种形式的普适智能,确实展现出人工通用智能的闪光点。这是通过它的核心心理能力(如推理、创造力和演绎),它已经获得专业知识的主题范围(如文学、医学和编程),以及它能够执行的任务的多样性(例如玩游戏、使用工具、解释自己等)来证明的。还有很多工作要做,才能创建一个能够被视为完整 AGI 的系统。我们通过讨论几个直接的下一步行动来结束本文,包括:定义 AGI 本身、基于 AGI 定义提出一些 LLMs 所缺失的组件,以及更好地了解最近 LLMs 展示的智能起源。
10.1 智能、AI 和 AGI 的定义
在本文中,我们使用了一组心理学家在 1994 年提出的智能定义 [GOT97] 作为探索 GPT-4 人工智能的指导框架。这个定义涵盖了智能的一些重要方面,如推理、问题解决和抽象,但它也是模糊和不完整的。它没有指定如何衡量或比较这些能力。此外,它可能不反映人工系统的特定挑战和机遇,这些系统可能具有与自然系统不同的目标和限制。因此,我们承认这个定义不是关于智能的最终说法,而是我们研究的有用起点。 目前有丰富而持续的文献试图提出更正式和全面的智能、人工智能和人工通用智能的定义[Goe14,Cho19],但它们都存在问题或争议。例如,Legg 和 Hutter [Leg08]提出了一个以目标为导向的人工通用智能定义:智能衡量代理的能力,在广泛的场景中实现目标。然而, 这个定义不一定囊括了智能的全部,因为它排除了可以在没有任何内在动机或目标的情况下执行复杂任务或回答问题的被动或反应性系统。可以想象一个通用人工智能,如一个出色的神谕,没有代理或偏好,但可以提供任何主题或领域的准确和有用的信息。 此外,目标在广泛的环境中实现的定义也意味着一定程度的普适性或最优性,这可能不现实(肯定人类智能在任何方面都不是普适或最优的)。要识别先验知识的重要性(而不是普适性)在 Cholet 于 [Cho19] 提出的定义中得到了强调,该定义将智能围绕着技能获取效率展开,或者换句话说,强调了 1994 年定义的一个关键弱点:从经验中学习(这也是 LLMs 的关键弱点之一)。来自 Legg 和 Hutter [LH07] 的 另一个人工通用智能的候选定义是:一个可以做任何人类能做的事情的系统。 然而,这个定义也存在问题,因为它假定人类智力或能力有一个单一的标准或度量,这显然不是事实。人类具有不同的技能、才能、偏好和局限性,没有一个人能做到其他任何人能做的一切。 此外,这个定义还暗示了一定的人类中心主义偏见,可能不适用或不相关于人工系统。虽然我们在本文中没有采用这些定义,但我们认识到它们提供了关于智能的重要视角。例如,智能是否可以在没有任何代理或内在动机的情况下实现,是一个重要的哲学问题。 为 LLMs 配备代理和内在动机是未来工作的一个迷人的重要方向。在这个方向上,必须非常谨慎地考虑对齐和安全性,以确保系统能够在世界上采取自主行动,并通过学习循环进行自主自我改进。 接下来,我们将讨论 LLMs 中几个关键缺失的组成部分。10.2 通向更通用人工智能的道路
为了实现更通用的智能,GPT-4(更准确地说是普遍的 LLMs)需要改进的一些领域包括(注意许多领域是相互关联的): 置信度校准: 模型往往难以判断何时应该有信心,何时只是猜测。它既会编造未出现在训练数据中的事实,也会在生成的内容和提示之间出现不一致,这在前文中我们称之为开放领域和封闭领域的幻觉。这些幻觉可以以自信和有说服力的方式陈述,难以检测。因此,这样的生成可能会导致错误,以及混乱和不信任。当生成创意内容时,幻觉是好事,但依赖于具有幻觉的模型提出的事实性声明可能是代价高昂的,尤其是在高风险领域(如医疗保健)的应用中。 有几种补充的方法可以试图解决幻觉问题。一种方法是通过提示或微调来改进模型的校准,使其在不可能正确时要么放弃回答,要么提供一些其他的置信度指标,这些指标可以在下游使用。另一种适用于缓解开放领域幻觉的方法是将模型缺乏的信息插入提示中,例如允许模型调用外部信息源,例如搜索引擎,如第 5.1 节所述。对于封闭领域的幻觉,通过后处理检查的额外模型计算也是有前途的,再次参照下图中的示例。最后,构建一个应用程序的用户体验,考虑到可能出现幻觉的可能性,也可以成为有效缓解策略的一部分。
10.3 到底发生了什么?
我们对 GPT-4 的研究完全是基于现象学的:我们关注的是 GPT-4 能够做到的令人惊讶的事情,但我们并不解答它如何实现如此卓越的智能的基本问题。它是如何推理、规划和创造内容的?为什么当它本质上只是由简单的算法组件——梯度下降和大规模的变压器,以及极其大量的数据组合而成时,会表现出如此通用和灵活的智能呢?这些问题是 LLMs 的神秘和吸引力的一部分,挑战了我们对学习和认知的理解,激发了我们的好奇心,并激励我们进行更深入的研究。 关键的方向包括对 LLMs 中出现现象的持续研究(参见 [WTB+22] 的最新调查)。然而,尽管对 LLMs 能力的问题存在着强烈的兴趣,但迄今为止取得的进展非常有限,只有一些玩具模型能够证明某些出现现象[BEG+22, ABC+22, JSL22]。一个普遍的假设 [OCS+20] 是,大量的数据(尤其是内容的多样性)迫使神经网络学习通用和有用的「神经电路」,如在 [OEN+22, ZBB+22, LAG+22] 中发现的那些,而模型的大尺寸为神经电路提供了足够的冗余和多样性,使它们能够专门针对特定的任务进行细化和微调。对于大规模模型来证明这些假设仍然是一项挑战,而且可以肯定的是,这个猜想只是答案的一部分。在另一个思路方向上,模型的巨大尺寸可能具有其他几个优点,例如通过连接不同的最小值使梯度下降更有效[VBB19],或者简单地实现高维数据的平滑拟合[ES16, BS21]。 总的来说,阐明 GPT-4等 AI 系统的本质和机制是一个巨大的挑战,这个挑战已经突然变得重要和紧迫。 致谢 - 我们感谢 OpenAI 创建如此出色的工具,并让我们提前体验它。我们还感谢 OpenAI 的 Miles Brundage 以及微软的众多人员,对这项工作提供了有益的反馈。........【正文完,附录见PDF文档】.......
欢迎关注「波悟馆」,后台回复「微软报告」获取中/英文版PDF文档。
hello,我是阿外,10年+互联网产品经理&设计师,人人都是产品经理20年度最受欢迎作者。欢迎关注「波悟馆」(bo_club)持续交流,也可以加我微信,申请加入读者群,和更多小伙伴一起学习,共同成长。
推荐阅读
如果你觉得文章对你有帮助,请记得一定要点下面👇的「分享」、「赞」和「在看」。