Anthropic rendra Claude Mythos public une fois les garde-fous en place, peut-être d’ici 12 mois

Anthropic indique qu’elle a l’intention de donner au public l’accès à Mythos, its vulnerability-hunting AI, mais seulement une fois qu’elle aura mis en place des garde-fous qui n’existent pas encore.

Points clés :

Anthropic prévoit de diffuser largement les modèles de la classe Mythos après avoir d’abord étendu l’accès aux gouvernements américains et alliés.

L’entreprise reconnaît qu’aucun acteur, y compris elle-même, n’a construit de garde-fous suffisamment solides pour empêcher les abus.

Mythos a signalé plus de 23 000 problèmes dans 1 000 projets open source, dont 6 202 failles de gravité élevée ou critique.

Lancement d’Anthropic Mythos

Anthropic a confirmé ce plan dans une mise à jour de Project Glasswing, son programme de sécurité à accès limité, et un rapport séparé a souligné que le calendrier restait incertain.

L’entreprise a indiqué qu’elle travaillerait d’abord avec les gouvernements des États‑Unis et de leurs alliés pour élargir le programme. Une diffusion plus large de « modèles de la classe Mythos » suivrait dans un avenir proche.

Anthropic s’est montrée franche quant au risque. Elle a déclaré qu’aucune entreprise, y compris elle‑même, n’a bâti de garde-fous suffisamment robustes pour empêcher que le modèle soit détourné et ne cause de graves dommages.

Malgré cela, l’entreprise s’attend à ce que des outils similaires se répandent rapidement, prédisant que des modèles de niveau Mythos seront largement disponibles d’ici six à douze mois.

Mythos a fait ses débuts en avril. Anthropic a indiqué qu’il produisait des exploits fonctionnels dans 72,4 % des cas lors des tests, contre presque 0 % pour un précédent modèle Claude.

Résultats de Mythos en matière de vulnérabilités

Depuis son lancement, le modèle a analysé plus de 1 000 projets open source et mis au jour 23 019 problèmes, dont 6 202 ont été classés de gravité élevée ou critique.

Une découverte s’est distinguée. Mythos a révélé une faille dans la bibliothèque de chiffrement wolfSSL, utilisée par des milliards d’appareils, qui aurait pu permettre à des attaquants de forger des certificats et d’usurper l’identité de banques ou de fournisseurs de messagerie. La vulnérabilité a depuis été corrigée.

L’afflux de rapports a mis sous pression les personnes chargées de les résoudre. Les mainteneurs de l’open source ont demandé à Anthropic de ralentir les divulgations, estimant que le volume dépasse leur capacité.

Les chercheurs observent un déséquilibre plus profond. Anthropic soutient qu’il est désormais bien plus facile de trouver des bogues que de les corriger, et l’entreprise a noué un partenariat avec le projet Alpha-Omega de l’Open Source Security Foundation pour aider les mainteneurs à hiérarchiser les correctifs en retard.

La fiche système de Claude Mythos prévoit que l’IA finira par avantager les défenseurs, même si Anthropic reconnaît que les attaquants ont peut‑être l’avantage pour l’instant.

Lorsque Mythos a été révélé pour la première fois, Anthropic a donné à plus de 50 organisations, dont Apple, Microsoft et Google, un accès au modèle, accompagné d’environ 100 millions de dollars de crédits d’utilisation, tout en le maintenant hors de portée du grand public en raison de sa capacité à transformer des failles logicielles en armes.