Sakana Fugu orchestre plusieurs modèles d’IA pour rivaliser avec le mythos interdit d’Anthropic

La startup tokyoïte Sakana AI a lancé Fugu, un système qui orchestre un pool échangeable de modèles de langage pour rivaliser avec les modèles restreints Fable et Mythos d’Anthropic Fable and Mythos models.

Points clés :

Fugu de Sakana AI fonctionne comme un seul modèle tout en coordonnant un pool d’autres systèmes derrière une API unique.

Fugu Ultra a obtenu un score de 73,7 au test de codage SWE-Bench Pro, dépassant plusieurs rivaux de pointe.

L’architecture est présentée comme une couverture face aux contrôles à l’exportation qui ont coupé l’accès à Fable et Mythos.

Sakana Fugu orchestre des modèles

Le laboratoire tokyoïte a déployé Fugu et une version plus lourde, Fugu Ultra, le 22 juin, toutes deux accessibles via un seul endpoint compatible OpenAI, a-t-il confirmé. Selon la requête, il répond seul à une tâche ou réunit une équipe d’autres systèmes.

Le modèle effectue ensuite lui-même les vérifications et la synthèse.

Fugu est lui-même un modèle de langage.

Entraîné à appeler des agents depuis un pool échangeable, il peut même invoquer des copies de lui-même lorsqu’une seule mission nécessite plus de ressources qu’un seul modèle ne peut en fournir. Le niveau de base vise une faible latence pour le codage quotidien, la conversation et des outils comme Codex, et permet aux équipes d’exclure certains agents pour respecter les règles de confidentialité. Fugu Ultra vise au contraire la meilleure qualité de réponse sur les problèmes longs comme la reproduction d’articles et l’analyse de sécurité, que quelque 500 utilisateurs bêta ont testés ces dernières semaines.

Mollick et Levie donnent leur avis

Les chiffres de benchmark que l’entreprise a publiés placent Fugu Ultra à 73,7 au test de codage SWE-Bench Pro, devant Opus 4.8, Gemini 3.1 Pro et GPT-5.5 sur la même série de tests.

L’entreprise affirme que ces scores sont au niveau de Fable 5 et Mythos Preview, et son propre tableau montre l’orchestrateur en tête sur 10 des 11 lignes publiées.

Tous les testeurs n’ont pas été convaincus. Le chercheur en IA Ethan Mollick a écrit que Fugu Ultra tournait « incroyablement lentement », avec des tests de codage de routine qui s’étiraient jusqu’à 30 minutes et une production qui restait derrière Fable en usage réel. Le patron de Box, Aaron Levie, s’est montré plus positif, qualifiant le routage via une API unique de chaque tâche vers le modèle le plus adapté d’avancée pour la manière dont l’IA appliquée est construite.

D’autres ont pointé le prix, puisque l’orchestration peut empiler des coûts de jetons plusieurs fois supérieurs à l’appel direct d’un seul modèle de pointe sur une tâche comparable. Sakana présente cette architecture de pool comme une assurance contre la défaillance de n’importe quel fournisseur, en soulignant les nouvelles restrictions à l’exportation sur Fable et Mythos comme le type de choc qui peut couper l’accès du jour au lendemain.

Les origines de Sakana AI

Sakana AI a pris forme en 2023 sous la direction de Llion Jones, co-auteur de l’article de Google « Attention Is All You Need ». David Ha, ancien responsable de recherche chez Stability AI, l’a rejoint comme cofondateur. Le laboratoire s’est fait connaître grâce à la fusion évolutive de modèles et à la gamme AI Scientist de recherche automatisée, et soutient depuis longtemps que des pools coordonnés de modèles peuvent surpasser n’importe quel système unique sur les travaux les plus difficiles et de longue durée.