東京新創 Sakana AI 推出 Fugu,一套可協調、替換語言模型池的系統,目標對標 Anthropic 受限制的 Fable 和 Mythos 模型。
重點摘要:
- Sakana AI 的 Fugu 以單一模型對外運作,實際上在一個 API 背後協調多個系統。
- Fugu Ultra 在 SWE-Bench Pro 程式測試中拿到 73.7 分,超越多款前沿對手。
- 此設計被定位為對沖風險,以應對讓 Fable 和 Mythos 被鎖死的出口管制。
Sakana Fugu 如何協調模型
這間位於東京的實驗室在 6 月 22 日推出 Fugu 以及更重型的 Fugu Ultra 方案,兩者都可透過一個與 OpenAI 相容的端點 存取,該公司已予以證實。 視乎請求內容,它會單獨回應任務,或召集一組其他系統共同處理。
隨後,模型會自行執行檢查與整合。
Fugu 本身就是一個語言模型。
它被訓練去從可替換的模型池中呼叫代理,甚至可以在單一工作需要「多雙手」時召喚自己的多個副本。基礎方案鎖定日常 程式開發、聊天與 Codex 類工具等低延遲場景,並允許團隊移除特定代理以符合隱私規範。Fugu Ultra 則追求在論文重現、 資安分析這類長程複雜任務上的最高答案品質,約 500 名測試用戶在最近數週內參與試用。
延伸閱讀:Anthropic 永續合約拋售,是否在警告 Pre-IPO 加密投資?
Mollick 與 Levie 的看法
該公司公佈的基準數據 顯示,Fugu Ultra 在 SWE-Bench Pro 程式測試中拿到 73.7 分,於同一測試中跑贏 Opus 4.8、Gemini 3.1 Pro 和 GPT-5.5。
公司表示,這些成績與 Fable 5 和 Mythos Preview 相當,而自家表格則顯示,這套協調器在已公佈的 11 項指標中有 10 項名列第一。
但並非所有測試者都買帳。AI 研究者 Ethan Mollick 寫道,Fugu Ultra「慢得驚人」,例行程式測試往往拖到 30 分鐘,實際表現也落後於 Fable。Box 執行長 Aaron Levie 則較為正面,他認為以單一 API 來將每個任務路由到 最適模型,是應用型 AI 開發方式的一大進展。
也有人對價格提出質疑,因為這種協調方式可能讓 Token 成本疊加到遠高於直接呼叫單一前沿模型來處理類似任務。Sakana 則將這種模型池設計包裝為一種保險機制,以防任何供應商突然無法提供服務,並點名 Fable 和 Mythos 新近遭遇的出口限制,視之為可能一夜之間切斷存取的典型衝擊。
Sakana AI 的起源
Sakana AI 於 2023 年成形,由 Llion Jones 創立,他是 Google 經典論文「Attention Is All You Need」 的共同作者之一。前 Stability AI 研究主管 David Ha 其後加入成為共同創辦人。這間實驗室以演化式模型合併、 以及 AI Scientist 自動化研究系列打響名號,並長期主張:在最困難、最長時間的任務上,協調運作的模型池能夠勝過任何單一 系統。





