東京発のスタートアップ Sakana AI は、入れ替え可能な言語モデル群を指揮するシステム「Fugu(フグ)」を発表した。これは、規制で利用が制限されている Anthropic の「Fable」と「Mythos」モデルに対抗することを狙うものだ。
重要ポイント:
- サカナAIのフグは、表向きは1つのモデルとして動作しつつ、裏側では複数システムを単一APIの背後で連携させる。
- Fugu UltraはSWE-Bench Proのコーディングテストで73.7点を記録し、いくつかのフロンティアモデルを上回った。
- 設計思想として、FableとMythosを締め出した輸出規制へのヘッジ(保険)であると位置付けられている。
サカナ・フグはモデルをオーケストレーション
東京拠点の研究室は6月22日に、Fuguとより重いクラスの「Fugu Ultra」を同時にローンチした。両者はOpenAI互換の単一エンドポイント経由で利用できると同社は明かしている。リクエスト内容に応じて、自身だけでタスクに答える場合もあれば、他のシステムを束ねてチームとして対応する場合もある。
モデル自身がチェックと統合処理を実行する仕組みだ。
フグ自体も言語モデルである。
交換可能なプールからエージェントを呼び出すよう訓練されており、1つのジョブに1モデル以上の「手」が必要な場合には、自分自身のコピーを呼び出すことさえできる。ベースティアは、日常的なコーディングやチャット、Codexのようなツール向けに低レイテンシを重視しており、チームがプライバシー要件に応じて特定のエージェントを外すことも可能だ。一方のFugu Ultraは、論文再現やセキュリティ解析のような長尺の課題で回答品質のトップを狙っており、直近数週間でおよそ500人のベータユーザーがテストを行った。
関連記事: Anthropicパーペチュアル先物の急落は、プレIPOクリプト投資への警告か?
モリック氏とレヴィ氏の評価
同社が公開したベンチマークによると、Fugu UltraはSWE-Bench Proのコーディングテストで73.7点を記録し、同条件でのOpus 4.8、Gemini 3.1 Pro、GPT-5.5を上回った。
企業側は、このスコアがFable 5およびMythos Previewと同水準にあると説明しており、自社の表では公開された11項目中10項目でオーケストレーターがトップに立っている。
もっとも、すべてのテスターが納得したわけではない。AI研究者の Ethan Mollick 氏は、Fugu Ultraが「信じられないほど遅い」と評し、日常的なコーディングテストでも30分かかるケースがあったうえ、実運用ではFableよりアウトプットが劣ると指摘した。これに対し、Box のCEO Aaron Levie 氏はより好意的で、単一APIから各タスクを最適なモデルへルーティングできる設計は、応用AIの作り方を前進させる一歩だと評価した。
一方で、価格面への懸念も上がっている。オーケストレーションの結果としてトークンコストが積み上がり、同等のタスクを単一のフロンティアモデルに直接投げる場合と比べて、何倍にも膨らむ可能性があるからだ。サカナ側は、このプール型設計を「どこかのプロバイダーが突然落ちても耐えられる保険」と位置付けており、FableとMythosに新たに科された輸出規制を、アクセスが一夜で断たれうるショックの具体例として挙げている。
サカナAIのルーツ
サカナAIは、Google の論文「Attention Is All You Need」の共著者である Llion Jones 氏を中心に2023年に立ち上がった。かつて Stability AI のリサーチリードだった David Ha 氏が共同創業者として参加している。同ラボは、進化的モデルマージや自動研究システム「AI Scientist」シリーズで知られるようになり、「協調するモデル群は、最難関で長期的なタスクにおいて、単一の巨大システムを上回りうる」と長らく主張してきた。





