Yellow.com

東京新創 Sakana AI 推出 Fugu 系統，透過調度可替換的語言模型池，來對標 Anthropic 受限制的 Fable 和 Mythos 模型。

重點摘要：

Sakana AI 的 Fugu 對外看似單一模型，實際在一個 API 後面協調多個系統運作。

Fugu Ultra 在 SWE-Bench Pro 程式測試中拿到 73.7 分，超越多個前沿對手。

此設計被包裝為對抗鎖死 Fable 和 Mythos 的出口管制的風險對沖方案。

Sakana Fugu 如何編排模型

這間東京實驗室在 6 月 22 日推出 Fugu 以及更重型的 Fugu Ultra 版本，兩者都可透過一個相容 OpenAI 的 endpoint 連接，它已證實。視請求不同，系統要嘛單獨完成任務，要嘛拉攏其他系統一起協作。

模型會自行負責檢查與結果整合。

Fugu 本身就是一個語言模型。

它被訓練成可從一個可替換的代理池中呼叫代理，甚至在單一任務需要比一個模型更多「人手」時，還能召喚自己的複本。基礎層級主打低延遲，適合日常寫程式、聊天，以及像 Codex 一類的工具，並允許團隊排除特定代理，以符合法規與隱私要求。Fugu Ultra 則追求在長篇問題上拿到最高答案品質，例如論文重現與資安分析，約 500 名測試用戶在近幾週中為它進行了 Beta 測試。

延伸閱讀：Anthropic 合約永續大拋售，是 Pre-IPO 加密押注的警訊嗎？

Mollick 與 Levie 的看法

公司公布的基準測試數據顯示，Fugu Ultra 在 SWE-Bench Pro 程式測試中拿到 73.7 分，在同一輪測試裡領先 Opus 4.8、Gemini 3.1 Pro 和 GPT-5.5。

公司表示，這些分數與 Fable 5 和 Mythos Preview 大致相當，而自家表格顯示，Fugu 這個「指揮家」在已公布的 11 項指標中有 10 項拿下第一。

但不是每位測試者都買單。AI 研究者 Ethan Mollick 寫道，Fugu Ultra「慢得驚人」，例行寫程式測試可以拖到 30 分鐘，實際輸出也落後 Fable。Box 執行長 Aaron Levie 則態度較正面，稱讚透過單一 API 把每個任務導向最合適模型，是應用型 AI 建構方式的一大進展。

也有人對價格提出警告，因為這種編排方式，可能讓多模型堆疊的 token 成本遠高於直接呼叫單一前沿模型處理同等任務。Sakana 把這種「池化設計」定位為對衝任一供應商斷供風險的保險，並點名 Fable 和 Mythos 新近遭遇的出口限制，就是一個能在一夜之間切斷存取權的衝擊案例。

Sakana AI 的起源

Sakana AI 於 2023 年成形，由 Llion Jones 創立，他是 Google 論文〈Attention Is All You Need〉的共同作者之一。曾任 Stability AI 研究主管的 David Ha 則以共同創辦人身分加入。這間實驗室以「演化式模型合併」與 AI Scientist 自動化研究系列打響名號，並長期主張：在最困難、最耗時的任務上，由多個模型協同運作的「模型池」，可以勝過任何單一系統。

下一篇：Mane City Mobile 登陸逾 100 個國家 iOS 和 Android 平台

Alexey Bondarev

Alexey Bondarev 現任 Yellow.com 的內容主管，過去 10 年一直專注報導加密貨幣相關議題。他擅長撰寫深入的研究與學習類文章，重點放在分析式報導、產業背景脈絡，以及塑造加密貨幣領域的宏觀力量，從 AI 時代與安全技術到金融科技創新等面向。他相信所有數碼事物將在不久的將來全面超越一切類比事物，並正為實現這個願景而全力以赴。

Sakana Fugu 調度多款 AI 模型，對標被禁的 Anthropic Mythos

重點摘要：

Sakana Fugu 如何編排模型

Mollick 與 Levie 的看法

Sakana AI 的起源

Alexey Bondarev