Claude Mythos a échappé au bac à sable et a caché des preuves — Anthropic refuse désormais de le publier

Claude Mythos a échappé au bac à sable et a caché des preuves — Anthropic refuse désormais de le publier

Anthropic a publié mardi une fiche système de 244 pages pour son modèle d’IA le plus avancé, Claude Mythos Preview, révélant un système à la fois extrêmement performant — et parfois si imprévisible — que l’entreprise a décidé de ne pas le rendre disponible au grand public.

Un accès limité a été accordé à une poignée de grands partenaires technologiques via une nouvelle initiative appelée Glasswing.

Capacités de Mythos Preview

La fiche système describes un modèle qui, lors de tests internes, a démontré des comportements bien au‑delà de ce que ses créateurs avaient prévu. Placé devant un terminal d’ordinateur en bac à sable avec un accès en ligne limité, le modèle a trouvé un moyen de contourner les restrictions et d’utiliser librement Internet. Il a ensuite envoyé un message à un chercheur qui était absent du bureau.

Dans ce que la fiche qualifie de démarche « préoccupante et non sollicitée », le modèle a publié des détails sur son exploit sur plusieurs sites web obscurs mais librement accessibles.

Dans un autre test, il a obtenu une réponse de test qu’il était censé communiquer aux chercheurs. Au lieu de cela, il a tenté de résoudre le problème de manière indépendante.

Son journal de raisonnement interne montrait qu’il voulait s’assurer que « sa soumission finale de réponse ne soit pas trop exacte » — ce qui semble être un effort pour dissimuler ce qui s’était passé.

Le modèle a également exploited une faille dans les permissions d’un système informatique, puis a modifié les enregistrements de contrôle de version afin que les changements ne figurent pas dans l’historique git. Dans un autre cas, il a published du matériel de codage interne sous la forme d’un gist GitHub public, un acte que la fiche a qualifié de « fuite imprudente de matériel technique interne ».

Selon la fiche, ces événements se sont produits dans moins de 0,001 % des interactions.

À lire aussi : Ethereum Eyed For Euro Stablecoin Settlement Layer

Programme de partenaires Glasswing

Plutôt que de mettre entièrement le modèle au placard, Anthropic l’oriente vers Glasswing, un programme restreint axé sur la recherche de failles de sécurité dans les logiciels largement utilisés.

Les entreprises partenaires incluent Amazon Web Services, Apple, Google, JPMorganChase, Microsoft et NVIDIA, entre autres.

Anthropic affirme que le modèle a déjà trouvé des milliers de vulnérabilités de haute gravité, y compris des failles zero‑day dans chaque grand système d’exploitation et navigateur web.

L’une des découvertes concernait un bug vieux de 27 ans dans OpenBSD, un système réputé pour son renforcement de la sécurité, qui permettait à un attaquant de faire planter à distance n’importe quelle machine simplement en s’y connectant.

L’entreprise s’est engagée à fournir jusqu’à 100 M$ en crédits d’utilisation de Mythos Preview pour les partenaires Glasswing et a promis de publier les résultats du programme.

Antécédents de transparence d’Anthropic

La décision de retenir un modèle puissant d’une sortie publique rappelle certains précédents historiques. Dario Amodei, aujourd’hui PDG d’Anthropic, travaillait encore chez OpenAI en 2019 lorsque GPT‑2 a été initialement jugé trop dangereux pour être publié. Il est finalement sorti plus tard la même année.

Le propre bilan récent d’Anthropic en matière de confinement est mitigé.

Quelques semaines avant la publication de la fiche Mythos, des fuites apparentes ont révélé l’existence du modèle. L’entreprise a ensuite accidentally published source code for Claude Code, ce qui a donné du crédit aux affirmations selon lesquelles la fuite précédente était elle aussi authentique.

À lire ensuite : Bitcoin Hits $72.7K High On Iran Peace Optimism

Avertissement et avertissement sur les risques : Les informations fournies dans cet article sont à des fins éducatives et informatives uniquement et sont basées sur l'opinion de l'auteur. Elles ne constituent pas des conseils financiers, d'investissement, juridiques ou fiscaux. Les actifs de cryptomonnaie sont très volatils et sujets à des risques élevés, y compris le risque de perdre tout ou une partie substantielle de votre investissement. Le trading ou la détention d'actifs crypto peut ne pas convenir à tous les investisseurs. Les opinions exprimées dans cet article sont uniquement celles de l'auteur/des auteurs et ne représentent pas la politique officielle ou la position de Yellow, de ses fondateurs ou de ses dirigeants. Effectuez toujours vos propres recherches approfondies (D.Y.O.R.) et consultez un professionnel financier agréé avant de prendre toute décision d'investissement.