大模型掌握16000+真实世界API了,清华等机构ToolLLM的工具使用能力不输ChatGPT
数据派THU
共 5084字,需浏览 11分钟
·
2023-08-09 03:15
来源:机器之心 本文约2800字,建议阅读5分钟
本文提出了一个新的框架 ToolLLM,其增强了大型语言模型对 API 的使用。在指令调优数据集 ToolBench 上对 LLaMA 进行微调,得到的 ToolLLaMA 与 ChatGPT 性能相当。
-
论文地址: -
https://arxiv.org/pdf/2307.16789.pdf -
项目地址: -
https://github.com/OpenBMB/ToolBench
-
ToolLLaMA 在通过率和获胜率方面都明显优于传统的工具使用方法 ChatGPT-ReACT,并表现出卓越的泛化能力。此外,当 ToolLLaMA 与 DFSDT 结合使用时,其表现也优于 Text-Dainci-003。 -
虽然研究团队对 prompt 工程进行了广泛研究,但 Vicuna 和 Alpaca 都未能通过任何指令,这意味着它们的指令遵循能力并未扩展到工具使用场景。这凸显了当前主要侧重于提高语言技能的指令调优方法的不足。
编辑:文婧
评论