Claude Fable 5智能体评测封顶,最难档零分通关

admin AI新闻 10

Claude Fable 5, 最难档, 零分, 智能体, 最后考试, 来了。

Claude Fable 5智能体评测封顶,最难档零分通关-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

机器之心Pro优质科技领域创作者06.1221:39

Claude Fable 5智能体评测封顶,最难档零分通关-第2张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

这几日, Anthropic所推出的最新模型Claude Fable 5一经发布, 便在AI圈子里引发了相当程度的震动。

今晨时分, 大模型评测平台Arena公布了智能体基准测试Agent Arena的成绩, Fable 5(High)位列榜首, OpenAI的GPT-5.5(xHigh)位居次席。此外, 于「确认成功率」以及「可引导性」这两项指标方面, Fable 5(High)亦领先于GPT-5.5(xHigh)。

从 Agent Arena 的跑分情况来看, Fable 5 的性能, 其强悍程度, 由此可见一斑, 这个说法没错。那个基准, 是借助数百万个具有实际意义的长周期智能体任务, 以此来评估模型, 这里面存在诸多具体要求。它还需要调用网页搜索工具, 文件系统工具, 终端工具, 等等一系列工具。之后, 要完成写代码这一复杂工作流, 还要制作幻灯片工作流, 网页研究工作流, 构建应用工作流, 以及分析文档工作流。

不过, 就在这个时候, 于另外一个智能体基准测试里, Fable 5遭到了一个月多之前发布的GPT - 5.5击败了。

它是由加州大学伯克利分校宋晓东(Dawn Song)教授团队所开发的ALE, 其全称为Agents' Last Exam(智能体的最后考试), 它被用于衡量AI智能体是不是真的可以在广泛的真实世界领域里完成具备经济价值的工作。

ALE 测试所涵盖的是非体力职业共计 55 个, 里面包含任务数量在 1500 项再加一些的程度, 这些由来自机构数目是 100 和更多以上一共 300 位及要得多了的专家做出贡献, 其覆盖了好多领域诸如科学、工程、医学、法律、金融还有教育等等之类。除此之外, 该基准设定了完整的 GUI 加上 CLI 的环境情形, 并且是依据最终得出的结果来进行能够证实的评估。

在ALE当中, 团队针对Fable 5、GPT - 5.5、Composer 2.5以及别的前沿Agent系统展开了评测行动。最终呈现出的结果, 它既能够深刻地给人们以印象, 也足以致使人们在这种情况下去保持冷静:

现今的 Agent 已然能够处理相当一部分专业性任务了,然而当我们将目光投向最难的那一类型任务时;也就是那些需要进行持续推理的任务, 那些需要具备深厚领域知识的任务;以及那些需要长周期可靠执行的任务时、它们与人类水平依旧相距甚远, 「有用的 Agent 时代已然来临, 但是真正能够胜任工作的 Agent 时代、尚未到来。」。

团队怀有这样的期望, ALE可以变身为一个崭新型的参照系, 借助它助力行业去开发出那样的Agent, 这种Agent能够于广泛的诸多领域范围之内稳定地达成具备经济价值的工作。

相对 Fable 5, ALE 的如下几点的测试得出的情况, 是值得我们去予以留意关注注视的:

首先, 在整个榜单里, GPT - 5.5以多达24.0%的通过率占据首位, 它高于Fable 5的22.0%;然后剩下的顺序是, 依次为composer - 2.5、Gemini - 3.1 - pro - preview、Deepseek - v4 - pro以及Qwen - 3.7 - Max。

先是, 成本差异极大。尽管Fable 5、GPT - 5.5以及Composer 2.5的整体表现处于同一层级, 然而每一项任务的成本差异十分显著, 具体体现为: Fable 5在平均每题的花费大概是$15.70, GPT - 5.5所需费用仅仅为$3.80, Composer 2.5则为$1.33。

即是说, 于性能相近情形之中, 针对 Fable 5 来讲, 每当其完成一项任务时, 所产生的成本, 大概是其他模型的 4 至 12 倍。

三是, 最难的那一个档次, 所有都失败了。处于最高难度的「Last-Exam」这一档位, 涵盖了 Fable 5 的那所有前沿的 agent, 其通过率为百分之零。

此外, ALE当中存在着一个仅仅对命令行环境予以支持的子集, 该子集乃是ALE-CLI。

跟Terminal - Bench以及SWE - bench - Pro相比较而言, 它所具备的覆盖范围更为广泛, 处于其中的任务周期更为长久, 并且在难度方面显著很高。

这表明, Agent距离真正达成成熟, 仍存在着一段颇为长远的路途要去行进, 并且也具有极为可观的有待提升的空间。

当谈及ALE的结果与一些别的基准有所不同, 特别是Fable 5时, 宋晓东表达, 缘由很简单: 不存在一个于所有场景里都最强的Agent。包含Fable 5, 每个前沿模型都有自身擅长的领域, 也都有表现费劲的领域。

总分会将55个职业、1500多个任务的结果进行平均汇总, 所以很多模型的分数会处于相近区间。然而真正关键的并非平均分。具有实质价值的信号是: Agent什么地方成功, 什么地方失败, 以及这些成败模式怎么样随领域演化。同样的任务, 不同模型失败的缘由常常全然不同。

最为常见的那种失败模式, 依旧是一个为人熟知的问题, 即: Agent 在尚未切实验证自身工作的情况下, 就先行宣告任务完成。典型的完成回复常常是这般表述: 「已完成, 所有检查均已通过。」然而实际输出有可能欠缺必要文件, 统计数量存在差错, 遗漏关键信息字段, 又或者违背了任务说明清清楚楚写明的约束条件。

ALE 研究介绍

ALE 是一个基准测试, 它包含 1000 多个任务实例, 覆盖 55 个子领域以及 13 个行业集群, 此基准测试由来自 100 + 机构的 300 + 位专家贡献。

专家顾问委员会会梳理各个领域的工作流图景, 其目的在于确保行业覆盖足够广泛且具有代表性, 并且会基于O*NET / SOC 2018职业分类体系, 识别具有经济意义的工作流类型。

源于真实专业实践的 ALE 任务工作流, 并非凭空设计合成场景, 而是专家提供已完成的真实项目, 这些项目于被纳入基准往前, 需经过多轮质量控制, 涵盖初步审核, 涵盖工程师试运行, 涵盖专家委员会最终同行评审。

大部分任务都需要智能体运用计算机, 且在GUI交互与CLI操作之间辗转切换, GUI交互含有桌面应用、浏览器以及特定领域软件, CLI操作涵盖shell脚本、代码运行以及文件处理。

这代表着, ALE对智能体提出要求, 要其同时拥有多种多样的能力, 然而, 这些能力常见用于现有的基准里, 并且通常是被分开来进行测试的。

ALE 的目标评测对象, 是 GCUA(那所谓Generalist Computer-Use Agent)智能体, 像Claude Code呀, 或者Codex这样的。这类智能体具备一种能力, 那就是在同一个行动循环里, 把视觉感知、代码执行、工具使用以及长周期规划结合起来。按照其设计, ALE 的任务形态覆盖范围, 比仅仅测试GUI的基准, 比如OSWorld, 要大, 而且比仅仅测试CLI的基准, 像Terminal-Bench, 也要大。

对于任务收集之时而言, ALE并不是去随手收集某些任务以此来考验AI的, 而是规定任务定得要达成三个条件才行:

而且, ALE 之中的作业并非交由平常的众包工作者予以提供, 而是源于领域专业人士的实际日常勤务, 并且历经了严格的挑选, 以此来保证真实性、复杂性以及技术上的可执行性, 同时一共涵盖有五道关卡。

需要特别指出的是基准污染这一问题, 这种污染一方面有可能来源于预训练数据的重叠情况, 另一方面也有可能来源于针对具体任务所进行的优化方面。鉴于此, ALE仅仅公开了1490个任务实例当中的150个, 大概占到10%;而其余的任务则被保留在了私有池中。

于具体的评测流程当中, ALE 把一个基准实例划分成三个彼此解耦的组件, 这些组件借由定义清晰的接口来展开交互。

最后, 团队期望 Agents' Last Exam(ALE)形成为一个全新的路标, 成为一颗不同寻常的北极星, 以此来导向行业去着手开发出那类智能体, 这类智能体可以在宽广的领域范围之内, 扎实而切实地完成具备经济价值的工作。

标签: ClaudeFable5 智能体评测 AI模型 AgentArena ALE测试

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~