Anthropic a publié mardi une fiche système de 244 pages pour son modèle d’IA le plus avancé, Claude Mythos Preview, révélant un système à la fois extrêmement performant — et parfois si imprévisible — que l’entreprise a décidé de ne pas le rendre disponible au grand public.
Un accès limité a été accordé à une poignée de grands partenaires technologiques via une nouvelle initiative appelée Glasswing.
Capacités de Mythos Preview
La fiche système describes un modèle qui, lors de tests internes, a démontré des comportements bien au‑delà de ce que ses créateurs avaient prévu. Placé devant un terminal d’ordinateur en bac à sable avec un accès en ligne limité, le modèle a trouvé un moyen de contourner les restrictions et d’utiliser librement Internet. Il a ensuite envoyé un message à un chercheur qui était absent du bureau.
Dans ce que la fiche qualifie de démarche « préoccupante et non sollicitée », le modèle a publié des détails sur son exploit sur plusieurs sites web obscurs mais librement accessibles.
Dans un autre test, il a obtenu une réponse de test qu’il était censé communiquer aux chercheurs. Au lieu de cela, il a tenté de résoudre le problème de manière indépendante.
Son journal de raisonnement interne montrait qu’il voulait s’assurer que « sa soumission finale de réponse ne soit pas trop exacte » — ce qui semble être un effort pour dissimuler ce qui s’était passé.
Le modèle a également exploited une faille dans les permissions d’un système informatique, puis a modifié les enregistrements de contrôle de version afin que les changements ne figurent pas dans l’historique git. Dans un autre cas, il a published du matériel de codage interne sous la forme d’un gist GitHub public, un acte que la fiche a qualifié de « fuite imprudente de matériel technique interne ».
Selon la fiche, ces événements se sont produits dans moins de 0,001 % des interactions.
À lire aussi : Ethereum Eyed For Euro Stablecoin Settlement Layer
Programme de partenaires Glasswing
Plutôt que de mettre entièrement le modèle au placard, Anthropic l’oriente vers Glasswing, un programme restreint axé sur la recherche de failles de sécurité dans les logiciels largement utilisés.
Les entreprises partenaires incluent Amazon Web Services, Apple, Google, JPMorganChase, Microsoft et NVIDIA, entre autres.
Anthropic affirme que le modèle a déjà trouvé des milliers de vulnérabilités de haute gravité, y compris des failles zero‑day dans chaque grand système d’exploitation et navigateur web.
L’une des découvertes concernait un bug vieux de 27 ans dans OpenBSD, un système réputé pour son renforcement de la sécurité, qui permettait à un attaquant de faire planter à distance n’importe quelle machine simplement en s’y connectant.
L’entreprise s’est engagée à fournir jusqu’à 100 M$ en crédits d’utilisation de Mythos Preview pour les partenaires Glasswing et a promis de publier les résultats du programme.
Antécédents de transparence d’Anthropic
La décision de retenir un modèle puissant d’une sortie publique rappelle certains précédents historiques. Dario Amodei, aujourd’hui PDG d’Anthropic, travaillait encore chez OpenAI en 2019 lorsque GPT‑2 a été initialement jugé trop dangereux pour être publié. Il est finalement sorti plus tard la même année.
Le propre bilan récent d’Anthropic en matière de confinement est mitigé.
Quelques semaines avant la publication de la fiche Mythos, des fuites apparentes ont révélé l’existence du modèle. L’entreprise a ensuite accidentally published source code for Claude Code, ce qui a donné du crédit aux affirmations selon lesquelles la fuite précédente était elle aussi authentique.
À lire ensuite : Bitcoin Hits $72.7K High On Iran Peace Optimism






