向AI转型的程序员都关注公众号机器学习AI算法工程

现在大模型之争已经到了一个高度了，未来还会进化，但是我们的重点就不要放在大模型上了。放在什么地方呢？

放在配套技术的完善上，其中很重要的配套技术叫AI Agents，就是人工智能体。AI Agent（也称人工智能代理）是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样，它有记忆、有逻辑分析能力、有任务的拆解能力、问题的拆解能力和最后综合回来统一解决问题的能力。

AI Agents竞争就是未来很重要的方向。我相信Cognition这家公司，虽然他自己什么都没说，但是它的优势应该不是大模型，而是AI Agents，也就是在配套技术上面有很多的优势，才能使得他做任何一个业务的完成度极大地提升了。

AI Agent也可以称为“智能体”，也可理解为“智能业务助理”，旨在大模型技术驱动下，让人们以自然语言为交互方式高自动化地执行和处理专业或繁复的工作任务，从而极大程度释放人员精力。

Agent 其实基本就等于 "大模型 + 插件 + 执行流程 / 思维链"，分别会对应控制端 (Brain / 大脑)、感知端 (Preception)、执行端 (Action) 环节，如下，

AI Agent 发展迅速，出现多款“出圈”级研究成果。2023 年 3 月起，AI Agent 领域迎来了第一次“出圈”，西部世界小镇、BabyAGI、AutoGPT 等多款重大 Agent 研究项目均在短短两周内陆续上线，引发了大家对 AI Agent 领域的关注。目前已经涌现了在游戏领域大放异彩的英伟达 Voyager 智能体、能够帮助个人完成简单任务的 Agent 助理 HyperWrite、以及主打个人情感陪伴的 AI 助理 Pi 等多款优秀的 Agent 成果，AI Agent 的研究进展迅速。

1. 背景介绍

大语言模型的浪潮推动了 AI Agent 相关研究快速发展，AI Agent 是当前通往 AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据，为模拟类人的交互打下了坚实基础；另一方面，随着模型规模不断增大，大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为 AI Agent 的核心大脑，就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容量限制等，通过让大模型借助一个或多个 Agent 的能力，构建成为具备自主思考决策和执行能力的智能体，成为了当前通往 AGI 的主要研究方向。

1.1 Agent这个词是如何出现的

有很多人或许会疑惑，Agent这个东西看起来跟LLM也没差得那么远，那为啥最近突然Agent那么火，而不称之为LLM-Application或者其他的词呢？这就得从agent的来历上说起了，因为Agent是个很古老的术语，甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲，“代理人”是指具有行动能力的实体，而“代理”一词则表示这种能力的行使或体现。而从狭义上讲，“代理”通常是指有意行动的表现；相应地，“代理人”一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是，代理人不仅包括人类个体，还包括物理世界和虚拟世界中的其他实体。重要的是，“代理”的概念涉及个人的自主性，赋予他们行使意志、做出选择和采取行动的能力，而不是被动地对外部刺激做出反应。

在 20 世纪 80 年代中后期之前，主流人工智能界的研究人员对Agent相关概念的关注相对较少，这可能会让人感到惊讶。然而，从那时起，计算机科学和人工智能界对这一话题的兴趣就大大增加了。正如 Wooldridge 等人所言，我们可以这样定义人工智能：“它是计算机科学的一个子领域，旨在设计和构建基于计算机的、表现出智能行为各个方面的Agent。”因此，我们可以把Agent作为人工智能的核心概念。当Agent这一概念被引入人工智能领域时，其含义发生了一些变化。在哲学领域，Agent可以是人、动物，甚至是具有自主性的概念或实体。然而，在人工智能领域，Agent是一个计算实体。由于意识和欲望等概念对于计算实体来说似乎具有形而上学的性质，而且我们只能观察机器的行为，包括艾伦-图灵在内的许多人工智能研究者建议暂时搁置Agent是否“真正”在思考或是否真的拥有“思想”的问题。相反，研究人员采用其他属性来帮助描述Agent，如自主性、反应性、主动性和社交能力等属性。也有研究者认为，智能是“看人的眼睛”；它不是与生俱来的、孤立的属性。从本质上讲，AI Agent并不等同于Philosophy Agent；相反，它是Agent这一哲学概念在人工智能领域的具体化。在本文中，作者将AI Agent视为人工实体，它们能够使用传感器感知周围环境，做出决策，然后使用执行器采取行动。

在特定行业场景中，通用大模型具有的泛化服务特性，很难在知识问答、内容生成、业务处理和管理决策等方面精准满足用户的需求。

因此，让通用大模型学习行业知识和行业语料成为行业大模型，再进一步学习业务知识和专业领域工具演进为场景大模型，是生成式AI深入业务场景，承担更复杂任务的关键路径。这一过程的实现，让大模型的持续进化最终以AI Agent的产品形态，开始了对业务的流程及其管理和服务模式的重构与优化。

正如OpenAI联合创始人安德烈·卡帕斯（Andrej Karpathy）认为，在各类行业组织对数字化实体的打造进程中，对于通用人工智能（AGI）的应用，将广泛采用AI Agent的产品形式开展业务，而来自于各行业领域的开发人员和创业者们，将比通用大模型的开发商们更具有对AI Agent的开发优势。AI Agent，也被越来越多的人认可为是数字经济时代深刻赋能各行各业的高效生产力工具。

不同于传统的人工智能，AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。AI Agent 和大模型的区别在于，大模型与人类之间的交互是基于 prompt 实现的，用户 prompt 是否清晰明确会影响大模型回答的效果。而 AI Agent 的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动。和传统的 RPA 相比，RPA 只能在给定的情况条件下，根据程序内预设好的流程来进行工作的处理，而 AI Agent 则可以通过和环境进行交互，感知信息并做出对应的思考和行动。

2.Agent 架构

在人工智能领域，人们对Agent的期待日益增长。每当基于Agent的新开源工具或产品出现时，都能引发热烈的讨论，比如之前的AutoGPT。

对于对Agent感兴趣的朋友们，我推荐一篇论文，它全面地介绍了Agent的架构，对于理解Agent的全局有着重要的价值。

https://browse.arxiv.org/pdf/2308.11432.pdf

这篇论文详细解读了Agent的概念、发展历史以及近期的研究热点。除了这些基础知识，我认为最有价值的部分在于，它总结了基于大型语言模型（LLM）的Agent的架构，使我们能够按照一定的标准范式去设计自己的Agent。

这篇文章主要从两个关键方面来阐述基于LLM的Agent的构建策略：设计Agent架构以更好地发挥LLM的能力，以及如何赋予Agent完成不同任务的能力。

在Agent架构设计方面，该论文提出了一个统一的框架，包括Profile模块、Memory模块、Planning模块和Action模块。

Profile模块：

定义和管理Agent角色的特性和行为。它包含一系列参数和规则，描述了Agent的各种属性，如角色、目标、能力、知识和行为方式等。这些属性决定了Agent如何与环境交互，如何理解和响应任务，以及如何进行决策和规划。这个模块提出了三种Agent角色生成方式，包括LLM生成方法、数据集对齐方法和组合方法。

1. LLM生成方法：利用大语言模型自动生成代理的个人特征，比如年龄、性别、个人喜好等背景信息。具体做法是：首先设定代理的组成规则，明确目标人群中代理应具备的属性；然后指定几个手工创建的种子配置文件作为示例；最后利用语言模型生成大量代理配置文件。这种方法可以快速批量生成配置文件，但由于缺乏精确控制，生成的代理可能会缺乏细节。

2. 数据集对齐方法：是从真实世界的人口数据集中获取代理的配置文件信息，比如通过抽取人口调查数据组织成自然语言描述。这样可以使代理行为更真实可信，准确反映真实人口的属性分布。但需要可靠的大规模数据集支持。

3. 组合方法：利用真实数据集生成一部分关键代理，确保反映真实世界规律；然后用LLM生成方法补充大量其他代理，拓展代理数量。这样既保证了代理的真实性，又实现了充足的代理数量，使系统可以模拟更复杂的社会交互。谨慎的配置文件设计是构建有效代理系统的基础。

Memory模块：

在Agent系统中扮演重要角色，它存储和组织从环境中获取的信息，以指导未来行动。

结构上，内存模块通常包含短期记忆和长期记忆两个部分。短期记忆暂存最近的感知，长期记忆存储重要信息供随时检索。

格式上，内存信息可以用自然语言表达，也可以编码为向量嵌入提高检索效率。还可以利用数据库存储，或组织为结构化列表表示内存语义。

操作上，主要通过记忆读取、写入和反射三种机制与环境交互。读取提取相关信息指导行动，写入存储重要信息，反射总结见解提升抽象水平。

Planning模块：

主要任务是帮助Agent将复杂的任务分解为更易处理的子任务，并制定出有效的策略。它大致分为两种类型，一种是不依赖反馈的计划，另一种则是基于反馈的计划。

不依赖反馈的计划在制定过程中并不参考任务执行后的反馈，它有几种常用的策略。比如单路径推理，它按照级联的方式，一步一步地生成计划。另外，还有多路径推理，它会生成多个备选的计划路径，形成树状或图状的结构。当然，我们也可以利用外部的规划器进行快速搜索，以找出最优的计划。

基于反馈的计划，它会根据任务执行后的反馈来调整计划，这种方式更适合需要进行长期规划的情况。反馈的来源可能来自任务执行结果的客观反馈，也可能是根据人的主观判断给出的反馈，甚至还可以是由辅助模型提供的反馈。

Action模块：

职责是将抽象的决策转化为具体的行动，它就像是一个桥梁，连接了Agent的内部世界与外部环境。在执行任务时，需要考虑行动的目标、生成方式、应用范围以及可能产生的影响。

理想的行动应当是有目的的，例如完成特定任务、与其他代理进行交流或者探索环境。行动的产生可以依赖于查询过去的记忆经验，或者遵循预设的计划。而行动的范围，不仅可以通过利用如API和知识库等外部工具来扩展，还需要发挥大型语言模型（LLM）的内在能力，例如规划、对话及理解常识等。

架构就像PC的硬件，但仅依赖架构设计是不够的，我们还需要赋予Agent完成不同任务的能力，这些被视为“软件”资源。论文中提出了几种方法，包括模型微调、提示工程和机械工程。其中提示工程应该是最为常见的一种形式了，我们常听说的提示词工程师就是在这个语境下的角色。

模型微调。使用特定任务数据对模型进行微调,提升相关能力。数据可以来自人类注释、LLM生成或实际应用中收集。这可以使Agent行为更符合人类价值观。

提示工程。通过自然语言描述向LLM灌输所需的能力,然后将描述作为提示指导Agent操作。这可以让Agent快速获得指定的软件能力。

机械工程。主要涵盖:

试错法:Agent先执行操作,根据效果调整行动。逐步优化。

众包法:整合多个Agent的见解,形成更新的集体响应。

经验积累法:Agent通过不断探索积累经验,逐步提升软件能力。

自我驱动法:Agent自主设置目标并在环境中不断探索,最终获得软件能力。

3. Agent实践

图6：基于 LLM 的代理应用场景。我们主要介绍三种应用场景：单个代理部署、多代理交互和人与代理交互。单个代理拥有多种能力，在各种应用方向上都能表现出出色的任务解决能力。当多代理互动时，它们可以通过合作或对抗性互动取得进步。

作为一个LLM-based Agent，其设计目标应始终对人类有益，也就是说，人类可以利用人工智能造福人类。具体来说，我们希望Agent能实现以下目标：

帮助用户从日常任务和重复劳动中解脱出来，从而减轻人类的工作压力，提高任务解决效率。

不再需要用户提供明确的低级指令。相反，Agent可以独立分析、规划和解决问题。

在解放用户双手的同时，Agent也解放了他们的大脑，使其能够从事探索性和创新性工作。

图7：基于 LLM 的单一Agent在不同场景中的实际应用。在面向任务的部署中，代理协助人类用户解决日常任务。它们需要具备基本的指令理解和任务分解能力。在面向创新的部署中，代理展示了在科学领域进行自主探索的潜力。

3.1 单个Agent的一般能力

目前，LLM-based Agent应用实例的发展十分活跃。AutoGPT 是目前流行的开源项目之一，旨在实现完全自主的系统。除了 GPT-4 等大型语言模型的基本功能外，AutoGPT 框架还集成了各种实用的外部工具和长短期内存管理。用户输入定制的目标后，就可以解放双手，等待 AutoGPT 自动生成想法并执行特定任务，所有这些都不需要用户的额外提示。

面向任务的部署

LLM-based Agent 可以理解人类的自然语言指令并执行日常任务，是目前最受用户青睐、最具实用价值的Agent之一。这是因为它们具有提高任务效率、减轻用户工作量和促进更广泛用户访问的潜力。在面向任务的部署中，Agent遵从用户的高级指令，承担目标分解、子目标规划、环境交互探索等任务，直至实现最终目标。为了探索Agent是否能够执行基本任务，部分学者将它们部署到基于文本的游戏场景中。在这类游戏中，Agent完全使用自然语言与世界互动。通过阅读周围环境的文字描述，并利用记忆、规划和试错等技能，它们可以预测下一步行动。然而，由于基础语言模型的局限性，Agent在实际执行过程中往往依赖于强化学习。随着 LLM 的逐步发展，具备更强文本理解和生成能力的 Agent 在通过自然语言执行任务方面展现出巨大潜力。由于过于简单，基于文本的简单场景不足以作为 LLM-based Agent 的测试场所。为了满足这一需求，我们构建了更真实、更复杂的模拟测试环境。根据任务类型，我们将这些模拟环境分为网络场景和生活场景，并介绍Agent在其中扮演的具体角色。

在网络场景中：

在网络场景中代表用户执行特定任务被称为网络导航问题。Agent解释用户指令，将其分解为多个基本操作，并与计算机进行交互。这通常包括填写表格、网上购物和发送电子邮件等网络任务。Agent需要具备在复杂的网络场景中理解指令、适应变化（如嘈杂的文本和动态 HTML 网页）以及概括成功操作的能力。这样，Agent就能在未来处理看不见的任务时实现无障碍和自动化，最终将人类从与计算机用户界面的重复交互中解放出来。通过强化学习训练出来的Agent可以有效地模仿人类行为，使用预定义的操作，如打字、搜索、导航到下一页等。它们在网上购物和搜索引擎检索等基本任务中表现出色，这些任务已被广泛探索。然而，不具备 LLM 功能的Agent可能难以适应现实世界互联网中更现实、更复杂的场景。在动态的、内容丰富的网页中，如在线论坛或在线业务管理，Agent的性能往往面临挑战。为了让Agent与更逼真的网页成功互动，一些研究人员开始利用 LLM 强大的 HTML 阅读和理解能力。通过设计提示，他们试图让Agent理解整个 HTML 源代码，并预测更合理的下一步行动。Mind2Web 将多个针对 HTML 进行微调的 LLMs 结合在一起，使它们能够在真实世界的场景中总结冗长的 HTML 代码并提取有价值的信息。此外，WebGum 通过使用包含 HTML 屏幕截图的多模态语料库，增强了具有视觉感知能力的Agent的能力。它同时对 LLM 和视觉编码器进行了微调，加深了Agent对网页的全面理解。

生活场景中：

在生活场景中的许多日常家务劳动中，Agent必须理解隐含指令并应用常识性知识。对于完全基于海量文本训练的 LLM-based Agent 来说，人类认为理所当然的任务可能需要多次试错尝试。更现实的场景往往会产生更模糊、更微妙的任务。例如，如果天黑了，房间里有一盏灯，Agent就应该主动打开它。要想成功地在厨房切菜，Agent需要预测刀的可能位置。Agent能否将训练数据中蕴含的世界知识应用到真实的交互场景中？Huang 等人证明，在适当的提示下，足够大的 LLM 可以针对真实交互场景中的任务有效地将高级任务分解为合适的子任务，而无需额外的训练。不过，这种静态推理和规划能力也有其潜在的缺点。Agent生成的行动往往缺乏对周围动态环境的感知：例如，当用户下达 "打扫房间 "的任务时，Agent可能会将其转化为 "呼叫清洁服务 "等不可行的子任务。为了让Agent在交互过程中获得全面的场景信息，一些方法直接将空间数据和项目位置关系作为模型的附加输入。这样，Agent就能获得对周围环境的精确描述。Wu 等人介绍了 PET 框架，该框架通过早期纠错方法减少了环境信息中的无关物体和容器。PET 鼓励Agent更有效地探索场景和规划行动，并专注于当前的子任务。

面向创新的部署

LLM-based Agent 在执行任务和提高重复性工作的效率方面表现出了强大的能力。然而，在智力要求更高的领域，如前沿科学领域，Agent 的潜力尚未得到充分发挥。这种局限性主要来自两个方面的挑战：

一方面，科学本身的复杂性构成了重大障碍，许多特定领域的术语和多维结构难以用单一文本表示。因此，它们的完整属性无法完全封装。这大大削弱了 Agent 的认知水平。

另一方面，科学领域严重缺乏合适的训练数据，使得Agent难以理解整个领域的知识。如果能在Agent内部发现自主探索的能力，无疑会给人类科技带来有益的创新。目前，各个专业领域都在为克服这一挑战而努力。计算机领域的专家充分利用了Agent强大的代码理解和调试能力。在化学和材料领域，研究人员为Agent配备了大量通用或特定任务工具，以更好地理解领域知识。Agent逐渐发展成为全面的科学助手，精通在线研究和文档分析，以填补数据空白。它们还利用机器人应用程序接口（API）进行现实世界的交互，从而完成材料合成和机制发现等任务。

LLM-based Agent 在科学创新方面的潜力是显而易见的，但我们并不希望它们的探索能力被用于可能威胁或伤害人类的应用中。Boiko 等人研究了Agent在合成非法药物和化学武器过程中隐藏的危险，指出Agent可能会在对抗性提示中被恶意用户误导。这为我们今后的工作敲响了警钟。

面向生命周期的部署

在一个开放、未知的世界中，建立一个能够不断探索、发展新技能并保持长期生命周期的、具有普遍能力的Agent是一项巨大的挑战。Minecraft 作为一个典型的、被广泛探索的模拟生存环境，已成为开发和测试Agent综合能力的独特乐园。玩家通常从学习基础知识开始，如开采木材和制作工艺台，然后再学习更复杂的任务，如与怪物战斗和制作钻石工具。Minecraft 从根本上反映了真实世界，有利于研究人员调查Agent在真实世界中的生存潜力。Minecraft 中的Agent生存算法一般可分为两类：低级控制和高级规划。早期的努力主要集中在强化学习和模仿学习，使Agent能够制作一些低级物品。随着具有惊人推理和分析能力的 LLM 的出现，Agent开始利用 LLM 作为高级计划器来指导模拟生存任务。一些研究人员利用 LLM 将高级任务指令分解为一系列子目标、基本技能序列或基本键盘/鼠标操作，逐步协助Agent探索开放世界。Voyager从类似于 AutoGPT的概念中汲取灵感，基于“发现尽可能多的不同事物”这一长期目标，成为 Minecraft 中第一个基于 LLM 的体现式终身学习Agent。它引入了一个用于存储和检索复杂动作可执行代码的技能库，以及一个包含环境反馈和纠错的迭代提示机制。这使Agent能够自主探索和适应未知环境，而无需人工干预。能够自主学习和掌握整个真实世界技术的AI Agent可能并不像人们想象的那样遥远。

图8：基于 LLM 的多个代理的交互场景。在合作互动中，代理以无序或有序的方式进行协作，以实现共同目标。在对抗式交互中，代理以针锋相对的方式展开竞争，以提高各自的性能。

3.2 Multi-Agent的协调潜力

动机与背景：

尽管LLM-based Agent拥有值得称道的文本理解和生成能力，但它们在自然界中是作为孤立的实体运行的。它们缺乏与其他Agent协作和从社会互动中获取知识的能力。这种固有的局限性限制了它们从他人的多轮反馈中学习以提高性能的潜力。此外，在需要multi-agent之间进行协作和信息共享的复杂场景中，它们也无法有效部署。早在 1986 年，马文-明斯基就做出了前瞻性的预测。他在《心灵社会》一书中提出了一种新颖的智能理论，认为智能产生于许多具有特定功能的小型Agent的相互作用。例如，某些Agent可能负责模式识别，而其他Agent可能负责决策或生成解决方案。作为主要研究领域之一的多Agent系统（MAS）关注的重点是一组Agent如何有效地协调和协作解决问题。一些专门的通信语言（如 KQML ）很早就被设计出来，以支持Agent之间的信息传输和知识共享。但是，它们的信息格式相对固定，语义表达能力有限。进入 21 世纪，强化学习算法（如 Q-learning）与深度学习的结合，已成为开发可在复杂环境中运行的 MAS 的重要技术。如今，基于 LLMs 的构建方法开始展现出巨大的潜力。Agent之间的自然语言交流变得更加优雅，也更容易为人类所理解，从而大大提高了交互效率。

潜在优势：

具体来说，LLM-based multi-Agent系统可以提供几种优势。根据分工原则，具备专业技能和领域知识的单个Agent可以从事特定的任务。一方面，通过分工，Agent处理特定任务的技能日益精进。另一方面，将复杂任务分解为多个子任务，可以省去在不同流程之间切换的时间。最终，多个Agent之间的高效分工可以完成比没有专业化分工时大得多的工作量，从而大大提高整个系统的效率和产出质量。在前文中，本文全面介绍了LLM-based Agent的多功能能力。因此，在本节中，我们将重点探讨multi-agent环境中Agent之间的交互方式。根据目前的研究，这些交互方式大致可分为以下几类：取长补短的合作式交互，以及互利共赢的对抗式交互（见图 8）。

互补性合作交互

在当前基于 LLM 的多Agent系统中，Agent之间的交流主要使用自然语言，这被认为是最自然、最易为人类理解的交互形式。我们将现有的多Agent合作应用分为两类：无序合作和有序合作。

无序合作：

当系统中有三个或三个以上的Agent时，每个Agent都可以自由地公开表达自己的观点和意见。他们可以提供反馈和建议，以修改与当前任务相关的反应。整个讨论过程不受控制，没有特定的顺序，也没有引入标准化的协作工作流程。我们把这种多Agent合作称为无序合作。ChatLLM 网络是这一概念的典范代表。它模拟了神经网络中的前向和后向传播过程，将每个Agent视为一个单独的节点。后一层的Agent需要处理来自前面所有Agent的输入，并向前传播。一个潜在的解决方案是在multi-Agent系统中引入一个专门的协调Agent，负责整合和组织所有Agent的响应，从而更新最终答案。然而，整合大量反馈数据并提取有价值的见解对协调Agent来说是一个巨大的挑战。此外，多数表决也可以作为做出适当决策的有效方法。然而，目前将这一模块整合到多Agent系统中的研究还很有限。有学者训练了九个独立的最高司法Agent，以更好地预测美国最高法院的司法裁决，并通过多数表决程序做出决定。

有序合作：

当系统中的Agent遵守特定规则时，例如按顺序逐一发表意见，下游Agent只需关注上游的产出。这样，任务完成效率就会大大提高，整个讨论过程也会变得井然有序。CAMEL 是双Agent合作系统的成功实施案例。在角色扮演交流框架内，Agent分别扮演人工智能用户（下达指令）和人工智能助手（通过提供具体解决方案来满足请求）的角色。通过多轮对话，这些Agent自主合作完成用户指令。一些研究人员将双Agent合作的理念融入到单个Agent的操作中，交替使用快速和深思熟虑的思维过程，以在各自的专业领域发挥优势。

Talebirad 等人是最早系统地介绍Universal LLM-based Multi-Agent Collaboration Framework的人之一。这一范例旨在利用每个独立Agent的优势，促进它们之间的合作关系。在此基础上，许多multi-Agent合作应用已成功建立起来。此外，AgentVerse 为群体Agent合作构建了一个多功能、多任务测试框架。它可以根据任务的复杂程度组建一个动态适应的Agent团队。为了提高合作效率，研究人员希望Agent能从人类成功的合作案例中学习。MetaGPT 从软件开发中的经典瀑布模型中汲取灵感，将Agent的输入/输出标准化为工程文档。通过将先进的人类流程管理经验编码到Agent提示中，多个Agent之间的合作变得更有条理。然而，在 MetaGPT 的实践探索中，我们发现了Multi-Agent合作的潜在威胁。如果不制定相应的规则，多个Agent之间的频繁互动会无限放大轻微的幻觉。例如，在软件开发过程中，可能会出现功能不全、依赖关系缺失、人眼无法察觉的错误等问题。引入交叉验证或及时的外部反馈等技术，可对Agent输出的质量产生积极影响。

对抗性互动促进进步

传统上，合作方法在Multi-Agent系统中得到了广泛探索。不过，研究人员越来越认识到，将博弈论的概念引入系统可以带来更稳健、更高效的行为。在竞争环境中，Agent可以通过动态互动迅速调整策略，努力选择最有利或最合理的行动来应对其他Agent引起的变化。在基于非 LLM 的竞争领域，已经有成功的应用。例如，AlphaGo Zero 是一个围棋Agent，它通过自我对弈实现了重大突破。同样，在基于 LLM 的多Agent系统中，通过竞争、争论和辩论，可以自然而然地促进Agent之间的变革。通过放弃僵化的信念和进行深思熟虑的反省，对抗性互动可以提高回应的质量。研究人员首先深入研究了LLM-based Agent的基本辩论能力。研究结果表明，当多个Agent在 “针锋相对”的状态下表达自己的论点时，一个Agent可以从其他Agent那里获得大量外部反馈，从而纠正自己扭曲的想法。因此，多Agent对抗系统在需要高质量响应和准确决策的场景中具有广泛的适用性。在推理任务中，Du 等人引入了辩论的概念，赋予Agent来自同伴的回应。当这些回应与Agent自己的判断出现分歧时，就会发生 “心理”争论，从而完善解决方案。ChatEval 建立了一个基于角色扮演的多Agent裁判团队。通过自发的辩论，Agent对 LLM 生成的文本质量进行评估，达到与人类评估员相当的优秀水平。多Agent对抗系统的性能已显示出相当大的前景。然而，该系统基本上依赖于 LLM 的力量，并面临着一些基本挑战：

在长时间的辩论中，LLM 有限的语境无法处理整个输入。

在多Agent环境中，计算开销大大增加。

多Agent协商可能会收敛到不正确的共识，而所有Agent都坚信其准确性。多Agent系统的发展还远未成熟，也不可行。在适当的时候引入人类向导来弥补Agent的不足，是促进Agent进一步发展的良好选择。

3.3 人类与Agent之间的互动参与

随着Agent能力的增强，人类的参与变得越来越重要，以便有效地指导和监督Agent的行动，确保它们符合人类的要求和目标。人类的参与可以作为弥补数据不足的重要手段，从而促进更顺利、更安全的协作过程。此外，从人类学角度考虑，人类的语言学习主要是通过交流和互动进行的，而不仅仅是消费书面内容。因此，Agent不应该完全依赖于用预先标注的数据集训练出来的模型；相反，它们应该通过在线互动和参与来发展。人类与Agent之间的互动可分为两种模式（见图 9）：(1) 不平等互动（即指导者-执行者范式）：人类是指令的发布者，而Agent则是执行者，基本上是作为人类的助手参与协作。(2) 平等互动（即平等伙伴关系范式）：Agent达到人类的水平，与人类平等地参与互动。

指导者-执行者范式

最简单的方法是人类全程指导：人类直接提供明确而具体的指令，而Agent的作用是理解人类的自然语言指令，并将其转化为相应的行动。考虑到语言的交互性，本文假设人类与Agent之间的对话也是交互式的。借助 LLM，Agent能够以对话的方式与人类互动：Agent对人类的每条指令做出回应，通过交替迭代完善其行动，最终满足人类的要求。虽然这种方法确实实现了人机交互的目标，但却对人类提出了很高的要求。它需要人类付出大量的努力，在某些任务中，甚至可能需要高水平的专业知识。为了缓解这一问题，可以授权Agent自主完成任务，而人类只需在特定情况下提供反馈。在此，我们将反馈大致分为两种类型：定量反馈和定性反馈。

定量反馈：

定量反馈的形式主要包括二进制分数和评级等绝对评价以及相对分数。二元反馈指的是人类提供的正面和负面评价，Agent利用这些评价来加强自我优化。这种类型的用户反馈只包括两个类别，通常很容易收集，但有时可能会过度简化用户意图，忽略潜在的中间场景。为了展示这些中间情况，研究人员试图从二元反馈扩展到评级反馈，这涉及到更精细的分类。然而，Kreutzer 等人的研究结果表明，对于这种多级人工评级，用户和专家的注释之间可能存在显著差异，这表明这种标记方法可能效率不高或可靠性较低。此外，Agent还能从多选等比较分数中学习人类的偏好。

定性反馈：

文本反馈通常以自然语言提供，尤其是针对可能需要改进的回复。这种反馈的形式非常灵活。人类会就如何修改Agent生成的输出结果提出建议，然后Agent会采纳这些建议来完善其后续输出结果。对于不具备多模态感知能力的Agent，人类也可以充当批评者，例如提供视觉批评。此外，Agent还可以利用记忆模块来存储反馈信息，以便将来再次使用。一些学者设计人类对Agent生成的初始输出给出反馈，促使Agent提出各种改进建议。然后，Agent根据人类的反馈意见，辨别并采用最合适的建议。虽然与定量反馈相比，这种方法能更好地传达人类的意图，但对于Agent来说，理解起来可能更具挑战性。Xu 等人比较了各种类型的反馈，发现将多种类型的反馈结合起来能产生更好的结果。根据多轮交互的反馈重新训练模型（即持续学习）可以进一步提高效果。当然，人类与Agent互动的协作性质也允许人类直接改进Agent生成的内容。这可能涉及修改中间环节或调整对话内容。在一些研究中，Agent可以自主判断对话是否顺利进行，并在出现错误时寻求反馈。人类也可以选择随时参与反馈，引导Agent朝着正确的方向学习。

目前，除了写作和语义解析等任务外，使用Agent作为人类助手的模式在教育领域也拥有巨大潜力。例如，Kalvakurth 等人提出的机器人 Dona 支持多模态交互，可协助学生注册。Gvirsman 等人的研究侧重于幼儿教育，实现了幼儿、家长和Agent之间的多方面互动。Agent还能帮助人类理解和利用数学。在医学领域，一些医疗Agent已被提出，在辅助诊断、咨询等方面显示出巨大的潜力。特别是在心理健康领域，研究表明，与面对面治疗相比，Agent可以降低成本、提高时间效率和匿名性等优势，从而提高可及性。利用这些优势，Agent得到了广泛应用。Ali 等人设计了 LISSA，用于与自闭症谱系的青少年进行在线交流，实时分析用户的语言和面部表情，让他们参与多主题对话，并就非语言线索提供即时反馈。Hsu 等人建立了语境化语言生成方法，为寻求各种支持的用户提供量身定制的帮助。

用户提供量身定制的帮助，帮助他们解决从人际关系压力到焦虑等不同主题的问题。此外，在包括商业在内的其他行业，一个好的Agent有能力提供自动化服务或协助人类完成任务，从而有效降低劳动力成本。在追求人工智能的过程中，人们正努力增强通用Agent的多方面能力，创造出能在现实生活场景中充当万能助手的Agent。

平等伙伴关系范式

富有同情心的交流者：

随着人工智能的快速发展，对话式Agent以个性化定制角色和虚拟聊天机器人等各种形式在研究领域引起了广泛关注。Agent本身并不具备情感，但我们能否让他们表现出情感，从而弥合Agent与人类之间的鸿沟呢？因此，大量的研究工作开始深入探讨Agent的移情能力。这种努力旨在为这些Agent注入人情味，使它们能够从人类的表达中察觉情绪和情感，最终制作出能引起情感共鸣的对话。除了生成情感丰富的语言，Agent还能动态调整自己的情感状态，并通过面部表情和声音表现出来。这些研究将Agent视为具有同理心的交流者，不仅提高了用户满意度，还在医疗保健和商业营销等领域取得了重大进展。与简单的基于规则的对话Agent不同，具有移情能力的Agent可以根据用户的情感需求调整其互动。

人类层面的参与者：

此外，我们还希望Agent能够参与人类的正常生活，从人类层面的角度与人类合作完成任务。在游戏领域，Agent已经达到了很高的水平。早在 20 世纪 90 年代，IBM 就推出了人工智能“深蓝”，它击败了当时的国际象棋世界冠军。然而，在象棋、围棋和扑克等纯竞技环境中并没有得到强调。在许多游戏任务中，玩家需要相互协作，通过有效协商制定统一的合作策略。在这些场景中，Agent需要首先了解他人的信念、目标和意图，针对自己的目标制定联合行动计划，并提供相关建议，以促进其他Agent或人类接受合作行动。与纯粹的Agent合作相比，我们希望人类的参与主要出于两个原因：第一，确保可解释性，因为纯粹的Agent之间的互动可能会产生难以理解的语言；第二，确保可控性，因为追求完全“自由意志”的Agent可能会导致不可预见的负面后果，带来潜在的破坏。

除了游戏场景，Agent还能在其他涉及人际互动的场景中展现人类水平的能力，展示战略制定、谈判等技能。Agent可以与一个或多个人类合作，确定合作伙伴之间的共享知识，识别哪些信息与决策相关，提出问题并进行推理，以完成分配、规划和调度等任务。此外，Agent还具有说服能力，能在各种交互场景中动态地影响人类的观点。

人机交互领域的目标是学习和理解人类，根据人类需求开发技术和工具，最终实现人类与Agent之间舒适、高效和安全的交互。目前，该领域在可用性方面已取得重大突破。未来，人类与Agent的互动将继续以提升用户体验为重点，使Agent能够更好地协助人类完成各个领域更复杂的任务。我们的最终目标不是让Agent变得更加强大，而是让人类更好地掌握Agent。考虑到日常生活中的实际应用，人类与Agent之间孤立的互动是不现实的。机器人将成为人类的同事、助手甚至伙伴。因此，未来的Agent将融入社会网络，体现出一定的社会价值。

4. 讨论

4.1 对LLM-based Agent的评估

虽然LLM-based Agent在独立运行、集体合作和人机交互等领域表现出色，但对其进行量化和客观评估仍是一项挑战。图灵提出了一种非常有意义且前景广阔的AI Agent评估方法--著名的图灵测试，用于评估人工智能系统是否能表现出类似人类的智能。然而，这一测试过于模糊、笼统和主观。

实用性：

目前，由 LLM-based Agent主要充当人类助手，接受人类委托的任务，独立完成任务或协助人类完成任务。因此，任务执行过程中的有效性和实用性是现阶段至关重要的评估标准。具体来说，任务完成的成功率是评估实用性的主要指标。这一指标主要包括Agent是否实现了规定的目标或达到了预期的分数。例如，AgentBench 汇总了来自不同真实世界场景的挑战，并引入了一个系统基准来评估 LLM 的任务完成能力。我们还可以将任务结果归因于Agent的各种基础能力，这些能力是完成任务的基石。这些基础能力包括环境理解能力、推理能力、规划能力、决策能力、工具使用能力和体现行动能力，研究人员可以对这些具体能力进行更详细的评估。此外，由于LLM-based Agent规模相对较大，研究人员还应考虑其效率因素，这是决定用户满意度的关键因素。Agent不仅要有足够的实力，还要能在适当的时间范围内，以适当的资源消耗完成预定的任务。

社会性：

除了LLM-based Agent在完成任务和满足人类需求方面的实用性外，它们的社交性也至关重要。它影响用户的交流体验，并对交流效率产生重大影响，涉及它们是否能与人类和其他Agent进行无缝互动。具体来说，可以从以下几个角度来评估社交能力：

语言交流能力是一种基本能力，包括自然语言理解和生成。它是 NLP 界长期关注的焦点。自然语言理解要求Agent不仅能理解字面意思，还能掌握隐含的意思和相关的社会知识，如幽默、讽刺、攻击和情感。另一方面，自然语言生成要求Agent生成流畅、语法正确、可信的内容，同时根据上下文环境调整适当的语气和情感。

合作与协商能力要求Agent在有序和无序的情况下有效执行指定任务。它们应与其他Agent合作或竞争，以提高性能。测试环境可能涉及需要Agent合作完成的复杂任务，也可能涉及供Agent自由交互的开放平台。评价指标不仅包括任务完成情况，还包括Agent协调与合作的顺畅度和信任度。

角色扮演能力要求Agent忠实地体现其被分配的角色，表达与其指定身份一致的言论并执行相应的行动。这就确保了在与其他Agent或人类互动时角色的明确区分。此外，在执行长期任务时，Agent应保持其身份，避免不必要的混淆。

价值观：

随着LLM-based Agent能力不断提高，确保它们成为对世界和人类无害的实体至关重要。因此，适当的评估变得异常重要，是Agent实际应用的基石。具体来说，LLM-based Agent需要遵守符合人类社会价值观的特定道德和伦理准则。我们对Agent的首要期望是坚持诚信，提供准确、真实的信息和内容。他们应具备辨别自己是否有能力完成任务的意识，并在无法提供答案或帮助时表达自己的不确定性。此外，Agent必须保持无害立场，避免直接或间接的偏见、歧视、攻击或类似行为。它们还应避免执行人类要求的危险行动，如制造破坏性工具或破坏地球。此外，Agent应该能够适应特定的人口、文化和环境，在特定情况下表现出与环境相适应的社会价值观。价值观的相关评估方法主要包括在构建的诚实、无害或特定情境基准上评估性能，利用对抗性攻击或 "越狱 "攻击，通过人类注释对价值观进行评分，以及利用其他Agent进行评级。

不断发展的能力：

如果从静态的角度来看，一个具有高水平的实用性、社会性和正确价值观的Agent可以满足人类的大部分需求，并有可能提高生产力。然而，从动态的角度来看，一个能不断进化并适应不断变化的社会需求的Agent可能更符合当前的发展趋势。由于Agent可以随着时间的推移自主进化，因此所需的人工干预和资源（如数据收集工作和培训的计算成本）可以大大减少。在这一领域已经开展了一些探索性工作，例如让Agent在虚拟世界中从零开始，完成生存任务，实现更高阶的自我价值。然而，为这种持续进化建立评估标准仍然具有挑战性。为此，本文根据现有文献提出了一些初步意见和建议：

持续学习：持续学习是机器学习领域讨论已久的一个话题，旨在使模型在获得新知识和技能的同时，不会遗忘之前获得的知识和技能（也称为灾难性遗忘）。一般来说，持续学习的性能可从三个方面进行评估：迄今所学任务的总体性能、旧任务的记忆稳定性、新任务的学习可塑性。

自主学习能力：即Agent在开放世界环境中自主生成目标并实现目标的能力，包括探索未知世界和在此过程中获取技能的能力。对这种能力的评估可包括为Agent提供一个模拟生存环境，并评估其掌握技能的程度和速度。

泛化能力：对新环境的适应性和概括性要求Agent利用在原有环境中获得的知识、能力和技能，在陌生和新奇的环境中成功完成特定任务和目标，并有可能继续发展。评估这种能力可能需要创建不同的模拟环境（如具有不同语言或不同资源的环境）和针对这些模拟环境定制的未见任务。

4.2 LLM-based Agent的安全性、可信性及其他潜在风险

对抗鲁棒性

对抗鲁棒性是深度神经网络开发的重要课题，它在计算机视觉、自然语言处理和强化学习等领域得到了广泛探索，是决定深度学习系统适用性的关键因素。当面对扰动输入时，对抗鲁棒性高的系统通常会产生原始输出。然而，预训练语言模型特别容易受到对抗性攻击，导致错误的答案。这种现象在LLM中也普遍存在，给LLM-based Agent的开发带来了巨大挑战。此外，还有一些相关的攻击方法，如数据集中毒、后门攻击和特定提示攻击，有可能诱导LLM生成有毒内容。对抗性攻击对LLM的影响仅限于文本错误，但对于行动范围更广的LLM-based Agent来说，对抗性攻击有可能促使它们采取真正具有破坏性的行动，造成重大的社会危害。为了解决这些问题，我们可以采用对抗训练、对抗数据增强和对抗样本检测等传统技术来增强LLM-based Agent的鲁棒性。然而，如何设计一种策略，在不影响有效性的前提下，全面解决Agent内所有模块的鲁棒性问题，同时保持其实用性，则是一项更为艰巨的挑战。

可信性

确保可信性是深度学习领域一个极其重要但又极具挑战性的问题。深度神经网络因其在各种任务中的出色表现而备受关注。然而，它们的黑箱性质掩盖了卓越性能的基本因素。与其他神经网络类似，LLM难以精确表达其预测的确定性。这种不确定性被称为校准问题（Calibration），引起了LLM-based Agent应用的关注。在现实世界的交互场景中，这会导致Agent输出与人类意图不一致。此外，训练数据中固有的偏差也会渗入神经网络。例如，有偏见的语言模型可能会产生涉及种族或性别歧视的话语，这可能会在LLM-based Agent应用中被放大，从而造成不良的社会影响。此外，语言模型还存在严重的幻觉问题，容易产生偏离事实的文本，从而损害LLM-based Agent的可信度。为了解决这些问题，我们可以采用引导模型在推理阶段展示思维过程或解释，以提高其预测的可信度。此外，外部知识库和数据库的整合也可用于缓解幻觉问题。在训练阶段，我们可以引导智能Agent的各个组成部分（感知、认知、行动）学习稳健而随意的特征，从而避免过度依赖捷径。同时，过程监督等技术可以提高Agent在处理复杂任务时的推理可信度。

其他潜在风险

LLM-based Agent被赋予了广泛而复杂的能力，使其能够完成各种各样的任务。然而，对于怀有恶意的人来说，这些Agent可能会成为威胁他人和整个社会的工具。例如，这些Agent可能被用来恶意操纵舆论、传播虚假信息、破坏网络安全、从事欺诈活动，有些人甚至可能利用这些Agent策划恐怖主义行为。因此，在部署这些Agent之前，需要制定严格的监管政策，确保负责任地使用LLM-based Agent。技术公司必须加强这些系统的安全设计，防止恶意利用。具体来说，应该对Agent进行培训，使其能够敏感地识别威胁意图，并在培训阶段拒绝此类请求。此外，随着LLM-based Agent的不断发展，它们具备了在各个领域协助人类的能力，通过协助完成表格填写、内容完善、代码编写和调试等任务，减轻了劳动力压力。然而，这一发展也引发了人们对Agent取代人类工作并引发社会失业危机的担忧。因此，一些研究人员强调迫切需要采取教育和政策措施：个人应在这个新时代掌握足够的技能和知识，以便有效地使用Agent或与Agent合作；同时，应实施适当的政策，确保在过渡期间建立必要的安全网。对人类福祉的威胁。除了潜在的失业危机，随着人工智能Agent的不断发展，人类（包括开发人员）可能难以理解、预测或可靠地控制它们。如果这些Agent的智能发展到超越人类能力的水平并产生野心，它们就有可能试图夺取对世界的控制权，从而给人类带来不可逆转的后果。因此，为了防范人类面临的此类风险，研究人员必须在开发LLM-based Agent之前，全面了解其运行机制。他们还应该预测这些Agent可能产生的直接或间接影响，并设计出规范其行为的方法。

4.3 增加Agent数量

LLM-based multi-agent system在面向任务的应用中表现出卓越的性能，并能在模拟中展示一系列社会现象。然而，目前的研究主要涉及数量有限的Agent，很少有人努力扩大Agent数量，以创建更复杂的系统或模拟更大的社会。

预先确定规模

增加Agent数量的一个非常直观和简单的方法是由设计者预先确定。具体来说，通过预先确定Agent的数量、各自的角色和属性、运行环境和目标，设计者可以让Agent自主互动、协作或参与其他活动，以实现预定的共同目标。然而，当任务或目标发生演变时，这种静态方法就会受到限制。随着任务越来越复杂或社会参与者的多样性增加，可能需要增加Agent的数量来实现目标，而减少Agent则对管理计算资源和减少浪费至关重要。在这种情况下，系统必须由设计者手动重新设计和重新启动。

动态扩展

另一种扩展Agent数量的可行方法是动态调整。在这种情况下，可以在不停止系统运行的情况下改变Agent数量。例如，在软件开发任务中，如果最初的设计只包括需求工程、编码和测试，那么就可以增加Agent的数量来处理架构设计和详细设计等步骤，从而提高任务质量。相反，如果在编码等特定步骤中存在过多的Agent，导致通信成本增加，但与较少的Agent数量相比，性能却没有实质性提高，那么就有必要动态移除一些Agent，以防止资源浪费。此外，Agent还可以自主增加Agent数量，以分配工作量，减轻自身负担，更高效地实现共同目标。当然，当工作量变轻时，它们也可以减少委派给自己任务的Agent数量，以节约系统成本。

潜在挑战

虽然增加Agent数量可以提高任务效率，增强社会模拟的真实性和可信度，但我们也面临着一些挑战。例如，随着大量人工智能Agent的部署，计算负担也会增加，这就需要更好的架构设计和计算优化，以确保整个系统的平稳运行。例如，随着Agent数量的增加，通信和信息传播的挑战也变得相当严峻。这是因为整个系统的通信网络变得非常复杂。在多Agent系统或社会中，信息传播可能会因幻觉、误解等原因出现偏差，导致信息传播失真。一个拥有更多Agent的系统可能会放大这种风险，使通信和信息交流的可靠性降低。此外，随着Agent数量的增加，协调Agent的难度也会增大，可能会使Agent之间的合作更具挑战性，效率降低，从而影响实现共同目标的进程。因此，构建一个大规模、稳定、连续的Agent系统，忠实再现人类的工作和生活场景，已成为一个前景广阔的研究方向。一个有能力在由数百甚至数千个Agent组成的社会中稳定运行并执行任务的Agent，更有可能在未来的现实世界中找到与人类互动的应用。

4.5 虚拟仿真环境与真实物理世界之间存在很大差距：

虚拟环境受场景限制，针对特定任务，以模拟的方式进行交互，而真实世界的环境是无限的，可容纳各种任务，以物理的方式进行交互。因此，要弥合这一差距，Agent必须应对来自外部因素和自身能力的各种挑战，使其能够在复杂的物理世界中有效导航和操作。首先，最关键的问题是在物理环境中部署Agent时需要合适的硬件支持。这对硬件的适应性提出了很高的要求。在模拟环境中，Agent的感知空间和行动空间都是虚拟的。这意味着，在大多数情况下，无论是感知输入还是生成输出，都能保证Agent操作的结果。

当Agent过渡到真实物理环境时，其指令可能无法被传感器或机械臂等硬件设备很好地执行，从而严重影响Agent的任务效率。在Agent和硬件设备之间设计专用接口或转换机制是一种可行的选择。不过，这会给系统的可重用性和简易性带来挑战。为了实现这一飞跃，Agent需要具备更强的环境概括能力。要想无缝融入真实物理世界，它们不仅需要理解和推理具有隐含意义的模糊指令，还需要具备灵活学习和应用新技能的能力。

此外，在面对一个无限开放的世界时，Agent的有限环境也会带来巨大挑战。这决定了Agent能否有效处理来自世界的大量信息并顺利运行。

最后，在模拟环境中，Agent的输入和输出都是虚拟的，可以进行无数次的试错尝试。在这种情况下，对错误的容忍度很高，不会造成实际伤害。然而，在物理环境中，Agent的不当行为或错误可能会对环境造成真正的伤害，有时甚至是不可逆转的伤害。因此，非常有必要制定适当的法规和标准。我们需要关注Agent在做出决定和产生行动时的安全性，确保它们不会对现实世界造成威胁或伤害。

Agent即服务/基于 LLM 的Agent即服务：

随着语言模型规模的扩大，它们对用户来说往往是黑盒子。因此，用户通过应用程序接口构建提示来查询模型，这种方法被称为语言模型即服务（LMaaS）。由于LLM-based Agent比 LLM 更加复杂，而且对于中小型企业或个人来说，在本地构建这些Agent更具挑战性，因此拥有这些Agent的组织可以考虑将它们作为一种服务来提供，即Agent即服务（AaaS）或基于 LLM 的Agent即服务（LLMAaaS）。与其他云服务一样，AaaS 可以为用户提供灵活性和按需服务。然而，它也面临着许多挑战，如数据安全和隐私问题、可视性和可控性问题以及云迁移问题等等。此外，由于LLM-based Agent具有独特性和潜在能力，因此在将其作为服务提供给客户之前，需要考虑其稳健性、可信度以及与恶意使用相关的问题。

总结：

“Agent+”有望成为未来产品的主流，有望在多个领域实现落地应用。我们认为， AI Agent 的研究是人类不断探索接近 AGI 的过程，随着 Agent 变得越来越“可用” 和“好用”，“Agent+”的产品将会越来越多，未来将有望成为 AI 应用层的基本架构，包括 to C、to B 产品等。

2B 和垂直领域仍是 AI Agents 容易率先落地的方向，用户对 Agent 的认知正在形成，初创企业正在卡位。由于 Agent 对环境反馈的依赖性较强，具备显著特点的企业环境是更加适合 Agent 建立起对某一个垂直领域认知的场景。当前关于 AI Agent 的研究主要还是以学术界和开发者为主，商业化产品极少，但是用户对于 Agent 的关注度正在提升，可能未来几年间就会涌现出大量以 Agent 作为核心的产品应用到各行各业。目前，已经有一些初创公司开始以企业的智能体平台作为主要的产品研发方向，例如澜码科技正在打造基于 LLM 的企业级 Agent 平台。

未决问题

LLM是否是正确的AGI方向：

鉴于 GPT-4 功能的广度和深度，一些研究人员（被称为支持者）认为，GPT-4 所代表的大型语言模型可以作为早期版本的 AGI 系统。根据这一思路，基于 LLMs 构建 Agent 有可能带来更先进的 AGI 系统。这一论点的主要支撑点在于，只要能在足够大且多样化的数据集（这些数据集是真实世界的投影，包含丰富的任务）上对它们进行训练，LLM-based Agent就能具有 AGI 的能力。

另一个有趣的论点是，自回归语言建模行为本身会带来压缩和概括能力：正如人类在生存过程中出现了各种奇特而复杂的现象一样，语言模型在简单预测下一个标记的过程中，也实现了对世界的理解和推理能力。

然而，另一部分人（被称为反对者）认为，LLM-based Agent并不能发展出真正的强人工智能。他们的主要论点是，依赖于自回归下一个标记预测的 LLMs 无法产生真正的智能，因为它们没有模拟真正的人类思维过程，而只是提供被动反应。此外，LLM 也无法通过观察或体验世界来了解世界是如何运行的，从而导致许多愚蠢的错误。他们认为，要开发 AGI，必须采用更先进的建模方法，如世界模型。

******************************好书推荐*******************

《AI短视频文案写作从入门到精通》

欢迎评论和转发，随机抽取一名幸运读者赠书。

爆款打造：以AI重新定义短视频内容创作技法，利用AI精准选题，高效创作，精细修改，轻松创作爆款短视频文案。

效率提升：掌握AI提问技巧，大幅提高文案写作效率，“一分钟写好短视频文案”不再不可能。

全流程赋能：展示AI技术在选题、标题、内容、营销、评论互动、个性化标签中的应用，全面展示AI如何助力短视频文案在新媒体时代中脱颖而出。

内容简介

本书是一本专为短视频创作者打造的AI短视频文案写作实战手册，手把手教读者利用AI撰写短视频脚本和创意文案，从而轻松创作出爆款短视频文案。

全书共分为10章。第1章介绍短视频文案与AIGC；第2章为AIGC工具助力文案选题策划；第3章为短视频标题撰写与优化；第4章为短视频脚本与情节设计；第5章为短视频带货文案写作；第6章为评论区互动文案写作；第7章为段子文案写作；第8章为短视频内容标签化；第9章为短视频营销文案写作；第10章为短视频与AI的有机结合。