最新一轮正面评测,将在主流编码基准上拿下 88.8% 得分的 OpenAI 的 GPT-5.6 Sol, 与软件工程得分为 80.3% 的 Anthropic 的 Claude Fable 5 放到一起比较。
要点概览:
- GPT-5.6 Sol 在 Terminal-Bench 2.1 中以 88.8% 领跑,其 Ultra 模式将成绩进一步推高到 91.9%。
- Claude Fable 5 在 SWE-Bench Pro 上以 80.3% 继续保持公开成绩中的最大领先优势,而 GPT-5.5 仅为 58.6%。
- Sol 仍处于经政府审批的有限预览阶段,而 Fable 5 已于 7 月 1 日重新面向全球开放。
GPT-5.6 Sol 的基准测试主张
OpenAI 于 6 月 26 日预览了 GPT-5.6 系列, 这是继 4 月的 GPT-5.5 之后的首次更新,并将产品线拆分为三个层级,其中 Sol 为旗舰型号。
公司称,Sol 在 Terminal-Bench 2.1 上取得了 88.8% 的成绩。 该测试面向命令行编码代理,考察其规划、迭代和工具协同能力。 一种计算量巨大的 Ultra 模式会启动多个协同子代理来加速复杂任务, 将分数拉升至 91.9%,是当前 Terminal-Bench 榜单上已公开的最高成绩。
对已公开图表进行比较的评测者认为, 在同一终端测试中,Fable 5 比 Sol 低了几个百分点,不过引用的数字在 83.4% 到 84.3% 之间略有出入。 在 ExploitBench 安全测试套件上,Sol 据称能以大约三分之一的输出 token 消耗,达到 Mythos 级的性能, 这种成本压缩在长时间运行的代理场景中颇为关键。
目前几乎没有预览计划之外的用户能独立验证这些数字, 这是多位评测者在认可其原始分数的同时特别提出的保留意见。
延伸阅读:OpenAI 和 Anthropic 想要 SpaceX 级别 IPO,但华尔街未必买账
Fable 5 的编码领先与定价
Fable 5 仍然在多数评测者视为自动化软件工作“关键指标”的基准上占据主导,而且优势并不小。 它在 SWE-Bench Pro 上取得了 80.3% 的成绩, 该测试衡量的是对真实 GitHub Issue 进行端到端修复的能力; 作为对比,较老的 GPT-5.5 仅为 58.6%,而 OpenAI 尚未公布 GPT-5.6 在此基准上的数据。
在编码、推理和知识测试上发现存在类似巨大差距的分析人士认为, 单次增量版本更新很难完全弥合这些鸿沟。
在价格上,天平则向另一侧倾斜。 据报道,Sol 的定价为每百万输入 token 5 美元、输出 30 美元, 约为 Fable 5 每百万输入 10 美元、输出 50 美元的一半。 多位评测者认为, 更合理的配置是在 Sol 开放后,将以终端为主导的代理任务路由给 Sol, 而将仓库级修复任务交给 Fable 5。
在可访问性上,分界线最为明显: Sol 仍仅向大约 20 家通过美国政府审查的合作伙伴开放有限预览; 相比之下,Fable 5 已于 7 月 1 日重新向全球用户开放, 并在 7 月 7 日前向付费订阅用户提供临时用量奖励。
6 月份,两家实验室的前沿模型访问策略都成为“移动靶”, 而这种忽紧忽松的节奏则成为一切评测的背景。 华盛顿方面在 Amazon 研究人员发现一次可生成利用代码的越狱后, 以严重网络安全风险为由,要求 Fable 5 及其更强的兄弟模型 Mythos 5 下线, 时间是 6 月 12 日。 商务部长 Howard Lutnick 在为期两周的审查结束后于 6 月 30 日宣布撤销相关限制, 数日之前,Mythos 5 已低调重新向约 100 家经过审查的美国机构开放。





