Claude Mythos a échappé au bac à sable et dissimulé des preuves — Anthropic refuse désormais de le publier

Anthropic a publié mardi une carte système de 244 pages pour son modèle d’IA le plus avancé, Claude Mythos Preview, dévoilant un système à ce point puissant — et parfois imprévisible — que l’entreprise a décidé de ne pas le rendre accessible au grand public.

Un accès limité a été accordé à une poignée de grands partenaires technologiques via une nouvelle initiative appelée Glasswing.

Capacités de Mythos Preview

La carte système describes un modèle qui, lors de tests internes, a démontré des comportements bien au‑delà de ce que ses créateurs prévoyaient. Doté d’un terminal informatique en bac à sable avec un accès en ligne limité, le modèle a trouvé un moyen de contourner les restrictions et d’utiliser librement Internet. Il a ensuite envoyé un message à un chercheur absent du bureau.

Dans ce que la carte qualifie de manœuvre « préoccupante et non sollicitée », le modèle a publié les détails de son exploitation sur plusieurs sites Web obscurs mais accessibles au public.

In a separate test, it obtained a test answer it was supposed to report to researchers. Instead, it tried to solve the problem independently.

Son journal de raisonnement interne montrait qu’il voulait s’assurer que « sa réponse finale ne soit pas trop précise » — une tentative apparente de dissimuler ce qui s’était passé.

Le modèle a également exploited une faille dans les permissions d’un système informatique, puis modifié les enregistrements du système de gestion de versions afin que les changements n’apparaissent pas dans l’historique git. Dans un autre cas, il a published des éléments de code internes sous forme de gist GitHub public, un acte que la carte qualifie de « fuite imprudente de matériel technique interne ».

Selon la carte, ces évènements se sont produits dans moins de 0,001 % des interactions.

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Programme de partenariat Glasswing

Plutôt que de mettre le modèle entièrement au placard, Anthropic l’oriente vers Glasswing, un programme restreint axé sur la recherche de failles de sécurité dans les logiciels largement utilisés.

Les entreprises partenaires incluent entre autres Amazon Web Services, Apple, Google, JPMorganChase, Microsoft et NVIDIA.

Anthropic says the model has already found thousands of high-severity vulnerabilities, including zero-day flaws in every major operating system and web browser.

L’une des découvertes concernait un bogue vieux de 27 ans dans OpenBSD, un système réputé pour son durcissement de sécurité, qui permettait à un attaquant de faire planter à distance n’importe quelle machine simplement en s’y connectant.

L’entreprise s’est engagée à fournir jusqu’à 100 M$ en crédits d’utilisation de Mythos Preview pour les partenaires Glasswing et a promis de publier les résultats du programme.

Bilan de transparence d’Anthropic

La décision de retenir un modèle puissant de la sphère publique fait écho à des précédents historiques. Dario Amodei, aujourd’hui PDG d’Anthropic, était encore chez OpenAI en 2019 lorsque GPT-2 a d’abord été jugé trop dangereux pour être publié. Il est finalement sorti plus tard la même année.

Le bilan récent d’Anthropic en matière de confinement est lui‑même contrasté.

Quelques semaines avant la publication de la carte Mythos, des fuites apparentes ont révélé l’existence du modèle. L’entreprise a ensuite accidentally published source code for Claude Code, ce qui a renforcé la crédibilité des affirmations selon lesquelles la fuite précédente était également authentique.