多份最新对比测评将 OpenAI 的 GPT-5.6 Sol,这款在主流编程基准测试中拿到 88.8% 分数的模型,与拥有 80.3% 软件工程成绩的 Anthropic 的 Claude Fable 5 直接对标。
要点概要:
- GPT-5.6 Sol 在 Terminal-Bench 2.1 中拿到 88.8%,其 Ultra 模式将得分推高至 91.9%。
- Claude Fable 5 继续在 SWE-Bench Pro 上保持已公开结果中的最大领先优势,得分 80.3%,而 GPT-5.5 为 58.6%。
- Sol 仍处于受政府审批限制的封闭预览阶段,而 Fable 5 已于 7 月 1 日恢复全球可用。
GPT-5.6 Sol 的基准成绩与官方说法
OpenAI 于 6 月 26 日 预览 了 GPT-5.6 系列,这是继 4 月发布 GPT-5.5 之后的首次更新,并将产品线拆分为三个层级,其中 Sol 为旗舰型号。
公司称,Sol 在 Terminal-Bench 2.1 上取得 88.8% 成绩。该测试针对命令行编码智能体,评估其规划、迭代与工具协同能力。一个计算开销巨大的 Ultra 模式会启动多个协同子智能体以加速复杂任务,将成绩进一步提升至 91.9%,为当前 Terminal-Bench 排行榜的最高公开分数。
对发布的成绩表进行 对比 的评测者认为,在同一终端测试上,Fable 5 比 Sol 低几个百分点,引用的具体数值在 83.4% 到 84.3% 之间浮动。在 ExploitBench 安全测试套件中,据称 Sol 在消耗大约三分之一输出 Token 的前提下,达到了与 Mythos 级模型相当的性能,这种成本压缩对长时运行的智能体任务尤为关键。
不过,目前几乎没有预览计划之外的第三方可以独立验证这些数字,多位评测者在认可原始成绩的同时,也都强调了这一前提限制。
延伸阅读: OpenAI 和 Anthropic 想要 SpaceX 级别的 IPO,但华尔街可能“噎住”
Fable 5 的编程优势与定价
Fable 5 依然在多数评测者认为对自动化软件开发最关键的基准上占优,而且优势并不算小。它在 SWE-Bench Pro 上拿到 80.3% 的成绩,这一测试关注对真实 GitHub 问题的端到端修复;相比之下,老一代 GPT-5.5 仅为 58.6%,而 OpenAI 目前尚未公布 GPT-5.6 在该基准上的分数。
在编码、推理与知识测试上 发现 这类差距的分析师认为,单次的小幅版本更新很难完全抹平这样级别的差距。
但在价格上,优势则偏向 Sol:据报道,Sol 价格为每百万输入 Token 5 美元、输出 30 美元,只有 Fable 5 的一半——后者分别为 10 美元和 50 美元。多位评测者 指出,一个合理的部署方案是:当 Sol 广泛开放后,将终端驱动型智能体路由给 Sol,而将仓库级别的代码修复任务交给 Fable 5。
真正的分水岭在可访问性上。Sol 目前仍只对大约 20 家通过政府审查的合作伙伴开放受限预览,而 Fable 5 则在 7 月 1 日重返全球市场,并在 7 月 7 日前为付费订阅用户提供临时使用额度奖励。
6 月份,两家实验室的前沿模型可访问性都变成了移动靶,频繁变动的节奏也成了所有测评的背景。华盛顿方面在 Amazon 研究人员发现一种越狱方法可生成漏洞利用代码后,于 6 月 12 日以“严重网络安全风险”为由,要求 Fable 5 及其更强大的兄弟模型 Mythos 5 下线。在经过为期两周的复审后,商务部长 Howard Lutnick 于 6 月 30 日 确认 撤销相关限制;在此之前的几天,Mythos 5 已悄然恢复向大约 100 家经过审查的美国机构提供服务。





