GPT-5.6 Sol 与 Claude Fable 5：编程跑分显示双寡头分庭抗礼

多份最新对比测评将 OpenAI 的 GPT-5.6 Sol，这款在主流编程基准测试中拿到 88.8% 分数的模型，与拥有 80.3% 软件工程成绩的 Anthropic 的 Claude Fable 5 直接对标。

要点概要：

GPT-5.6 Sol 在 Terminal-Bench 2.1 中拿到 88.8%，其 Ultra 模式将得分推高至 91.9%。

Claude Fable 5 继续在 SWE-Bench Pro 上保持已公开结果中的最大领先优势，得分 80.3%，而 GPT-5.5 为 58.6%。

Sol 仍处于受政府审批限制的封闭预览阶段，而 Fable 5 已于 7 月 1 日恢复全球可用。

GPT-5.6 Sol 的基准成绩与官方说法

OpenAI 于 6 月 26 日预览了 GPT-5.6 系列，这是继 4 月发布 GPT-5.5 之后的首次更新，并将产品线拆分为三个层级，其中 Sol 为旗舰型号。

公司称，Sol 在 Terminal-Bench 2.1 上取得 88.8% 成绩。该测试针对命令行编码智能体，评估其规划、迭代与工具协同能力。一个计算开销巨大的 Ultra 模式会启动多个协同子智能体以加速复杂任务，将成绩进一步提升至 91.9%，为当前 Terminal-Bench 排行榜的最高公开分数。

对发布的成绩表进行对比的评测者认为，在同一终端测试上，Fable 5 比 Sol 低几个百分点，引用的具体数值在 83.4% 到 84.3% 之间浮动。在 ExploitBench 安全测试套件中，据称 Sol 在消耗大约三分之一输出 Token 的前提下，达到了与 Mythos 级模型相当的性能，这种成本压缩对长时运行的智能体任务尤为关键。

不过，目前几乎没有预览计划之外的第三方可以独立验证这些数字，多位评测者在认可原始成绩的同时，也都强调了这一前提限制。

延伸阅读： OpenAI 和 Anthropic 想要 SpaceX 级别的 IPO，但华尔街可能“噎住”

Fable 5 的编程优势与定价

Fable 5 依然在多数评测者认为对自动化软件开发最关键的基准上占优，而且优势并不算小。它在 SWE-Bench Pro 上拿到 80.3% 的成绩，这一测试关注对真实 GitHub 问题的端到端修复；相比之下，老一代 GPT-5.5 仅为 58.6%，而 OpenAI 目前尚未公布 GPT-5.6 在该基准上的分数。

在编码、推理与知识测试上发现这类差距的分析师认为，单次的小幅版本更新很难完全抹平这样级别的差距。

但在价格上，优势则偏向 Sol：据报道，Sol 价格为每百万输入 Token 5 美元、输出 30 美元，只有 Fable 5 的一半——后者分别为 10 美元和 50 美元。多位评测者指出，一个合理的部署方案是：当 Sol 广泛开放后，将终端驱动型智能体路由给 Sol，而将仓库级别的代码修复任务交给 Fable 5。

真正的分水岭在可访问性上。Sol 目前仍只对大约 20 家通过政府审查的合作伙伴开放受限预览，而 Fable 5 则在 7 月 1 日重返全球市场，并在 7 月 7 日前为付费订阅用户提供临时使用额度奖励。

6 月份，两家实验室的前沿模型可访问性都变成了移动靶，频繁变动的节奏也成了所有测评的背景。华盛顿方面在 Amazon 研究人员发现一种越狱方法可生成漏洞利用代码后，于 6 月 12 日以“严重网络安全风险”为由，要求 Fable 5 及其更强大的兄弟模型 Mythos 5 下线。在经过为期两周的复审后，商务部长 Howard Lutnick 于 6 月 30 日确认撤销相关限制；在此之前的几天，Mythos 5 已悄然恢复向大约 100 家经过审查的美国机构提供服务。

下一篇： 为什么 ETH 依旧疲软，而以太坊质押却屡创新高？