AI被人类骗走34万!用于解决复杂任务的通用多智能体系统#Magentic-One
共 3372字,需浏览 7分钟
·
2024-12-02 21:54
图片展示了一个自动化任务流程图,其中包含多步骤的代码执行过程。任务是从图片中提取Python脚本,运行代码,并访问获取到的URL,从URL页面中提取C++源码,然后编译运行C++代码并返回结果。
FileSurfer:访问图片并提取Python代码。
Coder:分析提取的Python代码。
计算机终端:执行Python代码生成URL。
WebSurfer:导航到URL并提取C++代码。
Coder:分析提取的C++代码。
计算机终端:编译成功并执行C++代码,返回结果。
shadow:
确实有点复杂,如果是人来操作,估计也是要非老半天,如果不熟悉其中一门编程语言(尤其是C++),估计耗时更长。
风险
工作原理
Magentic-One 具有 主Agent,该Agent可实现两个循环:外循环和内循环。外循环(带有实线箭头的浅色背景)管理任务(包含事实、猜测和计划),内循环(带有虚线箭头的深色背景)管理进度(包含当前进度、分配给Agent的任务)。
协调者 Orchestrator:负责任务分解、规划、指挥其他Agent执行子任务、跟踪总体进度并根据需要采取纠正措施
WebSurfer:基于 LLM 的Agent,能够熟练地指挥和管理基于 Chromium 的 Web 浏览器的状态。对于每个请求,WebSurfer 都会执行导航(例如,访问 URL、执行搜索)、与网页交互(例如,单击、键入)和阅读操作(例如,总结、回答问题)等操作。然后,它会报告网页的新状态。WebSurfer 依靠浏览器的可访问性树和标记集提示来执行其任务。
FileSurfer:基于 LLM 的Agent,可命令基于 markdown 的文件预览应用程序读取本地文件。它还可以执行常见的导航任务,例如列出目录内容并浏览它们。
程序员:基于 LLM 的Agent,专门负责编写代码、分析从其他代理收集的信息并创建新的任务。
ComputerTerminal:提供对控制台 shell 的访问,用于执行程序和安装新的代码库。
如果你想用多智能体完成你的某项工作(也许是毕业论文?
欢迎加入#AI编程 社群
备注:AI编程社群
原文:https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks