
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎z O T F t Q 4投稿或者联系报道m ? e ^ H 8。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
-
评估问题通常是 ai 生成的,形式固定;
-
逻辑链简单,不涉及复杂多步推理;
-
输入是纯文本形式,模态单一;
-
没有w j H e s t } Z部署真实可执行的工具,无法端到端评测。1 0 =
-
真实的用户问题
-
真实部署的工具
-
多模态输入输出

-
论文标题:GTA: A Benchmark for General Tool Agents
-
论文链接:https://a4 . N = D wrxivT 4 H W.org/abs/2407.087@ ^ ( x @ n 313
-
代码和数据集链接: https://gi6 ` { 9 y & 3 /thub.` = r ? J ] Kcom/openX u K s G b ] h 8-compass/GTA
-
项目主页: https://open-x [ Ocompass.github.io/GTA
-
Hugging Face:https://huggingface.co/6 . & {datasets/Jize1/GTA


-
真实用! s 4户查询:包含 229 个人类撰写J ! c 9 d A | \的问题,问题具有简单的真实世界目标,但解决步骤是隐含的,工具也是隐含的,要求模型通过推理来选择合适的工具并规划操作步骤。
-
真实部署的工具:GTA 提供了工具部署平台,涵盖感知、操作、逻辑和创作四大类共 14 种工具,能够真实反映智能体实际的任务执行性能。
-
多模态输入输出:除了文本,GTA 还引入了空间场景、网页截图、表格、代码片段、手写 / 打印材料等多模态输入,要求模型处理这些丰富的上下文信息,并\ ? y 8给出文本或图像输出。这使得任务更加接近实际应用场景,进一步提升了评估的真实性和复杂性。





-
逐步模式n d + 7 (step-by-step mode)。该模式旨在细粒度地评估模型的工具使用能力。在该模式下# ; T 0 K + [ g t,ground truth 工具链的前 n 步作为 prompt,模型预测第 n + 1 步的操作。在逐步模式下,设计四个指标:InstAcc(指令遵循准确率)、ToolAcc(工具选择准确率)、ArgAcc(参W A ? $ + F = /数预测准确率)和 SummAcc(答案总结准确率)。
-
端到端模式 (end-to-end mode)。该模式旨在反映智能体实际执行任务时的表现。在这种模式下,模型会自主F } & V M $ 1调用工具并解决问题,而无外部引导R g 0。使用 AnsAcc(最终答案E ] i 5 ! \ L K准确率)来衡量执行结果的准确性。此外,还计算了工具d G G f v j选择方面的四个 F1 score:P、L7 ! R R y | g O、O、C,分别衡量感知 (Percep( O { l \tion)、4 / { X 2 6操作 (Operation)、逻辑 (Logic) 和创作 (Creativity) 类别的工具选择能力。


-
构建了通用L G K z [ Z h S工具智能体的评测数据集。问题由人类设计,是步骤隐含、工具隐含的,且立足于真实世界场景,并提供了多模态语境输入。每个问题都标注了可执行的工具链,以支持细粒度的工具使用能力评测。
-
提供了包含感知、操作、逻辑、创作类5 } P别工具的评测平台。针对工具调用设计了细粒度的评测指标,揭示工具增强的语言G f U模型在真实世界场Z W s ^ = (景中的推理和规划能力。
-
评测和分析了主流大语言模型。从多个维度评测了 16 个大语言模型,反映了目前的语言模型在真实世界场景下的工具调用能力瓶颈,为通用目标智能体的发展路径提供建议。
以上就是NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测的详细内容!