东京初创公司 Sakana AI 推出了 Fugu,这是一套可调度可替换语言模型池的系统,旨在对标 Anthropic 受限的 Fable 和 Mythos 模型。
关键要点:
- Sakana AI 的 Fugu 以“单一模型”形式运行,却在单一 API 背后协调一整个系统池。
- Fugu Ultra 在 SWE-Bench Pro 编码测试中拿到 73.7 分,超过多款前沿对手。
- 这一设计被定位为应对锁死 Fable 与 Mythos 的出口管制的对冲方案。
Sakana Fugu 如何编排模型
这家东京实验室于 6 月 22 日上线 Fugu 及更重型的 Fugu Ultra 阶梯,两者均可通过一个兼容 OpenAI 的端点访问, 该公司已予以证实。 根据请求不同,它要么单独完成任务,要么拉一队其他系统协同作业。
随后模型会自行完成检查与综合。
Fugu 本身就是一个语言模型。
它经过训练,可以从一池可替换代理中发起调用,甚至在单个任务需要“多于一个模型的双手”时,召唤自己的多个副本。 基础档位瞄准日常编码、聊天与 Codex 等工具的低时延场景,并允许团队剔除特定代理以满足隐私规则。 Fugu Ultra 则转而追求在论文复现、安全分析等长难题上的最高答案质量,近几周大约 500 名测试用户参与了试用。
延伸阅读:Anthropic 永续合约抛售是否在警示 Pre-IPO 加密押注?
Mollick 与 Levie 的评价
公司公布的 基准数据显示,Fugu Ultra 在 SWE-Bench Pro 编码测试中得分 73.7,跑在同轮测试的 Opus 4.8、Gemini 3.1 Pro 和 GPT-5.5 前面。
公司称,这一成绩与 Fable 5 和 Mythos Preview 处在同一水平,而其自家表格则显示,在已公布的 11 项指标中, 这款“指挥模型”有 10 项名列前茅。
但并非所有测试者都被说服。AI 研究者 Ethan Mollick 写道,Fugu Ultra 运行“极其缓慢”, 常规编码测试可以拖到 30 分钟,实际使用中的输出也落后于 Fable。Box CEO Aaron Levie 的态度则更积极, 称通过单一 API 将每个任务路由到最适配模型,是应用型 AI 构建方式向前迈出的一步。
也有人指出价格问题,因为编排过程会叠加多轮 token 成本,相比直接调用一款前沿模型完成类似任务,总费用可能高出数倍。 Sakana 则把这套池化设计包装为“应对任一供应商突然断供的保险”, 并强调 针对 Fable 和 Mythos 的最新出口限制正是一类可能一夜之间切断访问的冲击。
Sakana AI 的起源
Sakana AI 成立于 2023 年,创始人是论文《Attention Is All You Need》共同作者之一 Llion Jones。 曾任 Stability AI 研究负责人的 David Ha 以联合创始人身份加入。 该实验室凭借“进化式模型合并”与自动化研究线 AI Scientist 打出名号,并长期主张: 在最难、耗时最长的任务上,经协调的模型池可以胜过任何单一系统。





