Anthropic відкриє Claude Mythos для публіки, щойно створить належні запобіжники, можливо за 12 місяців

Anthropic заявляє, що має намір надати публічний доступ до Mythos, its vulnerability-hunting AI моделі, але лише після створення запобіжників, яких поки що не існує.

Ключові моменти:

Anthropic планує широко випустити моделі рівня Mythos після попереднього розширення доступу для урядів США та союзників.

Компанія визнає, що жодна фірма, включно з нею самою, ще не створила достатньо сильних запобіжників для припинення зловживань.

Mythos виявила понад 23 000 проблем у 1 000 проєктів з відкритим кодом, зокрема 6 202 вади високої або критичної серйозності.

Випуск Anthropic Mythos

Anthropic підтвердила цей план в оновленні до Project Glasswing, своєї програми з обмеженим доступом до засобів безпеки; окремий звіт наголосив, що часові рамки лишаються невизначеними.

Компанія заявила, що спершу працюватиме з урядами США та союзників, щоб розширити програму. Ширший випуск «моделей рівня Mythos» має відбутися в недалекому майбутньому.

Anthropic відверто попереджає про ризики. Вона заявила, що жодна компанія, включно з нею самою, ще не створила запобіжників, достатньо сильних, щоб не допустити зловживання моделлю й запобігти серйозній шкоді.

Попри це, компанія очікує, що подібні інструменти швидко поширяться, прогнозуючи, що моделі рівня Mythos стануть широко доступними протягом шести–дванадцяти місяців.

Mythos дебютувала у квітні. Anthropic заявила, що під час тестування модель генерувала робочі експлойти у 72,4 % випадків, тоді як попередня модель Claude майже ніколи цього не робила.

Також читайте: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Знахідки вразливостей Mythos

Від часу дебюту модель просканувала понад 1 000 проєктів з відкритим кодом і виявила 23 019 проблем, з яких 6 202 були класифіковані як високої або критичної серйозності.

Одна знахідка особливо вирізнилася. Mythos виявила ваду в криптобібліотеці wolfSSL, яку використовують мільярди пристроїв, і яка могла дозволити зловмисникам підробляти сертифікати та видавати себе за банки чи поштових провайдерів. Уразливість уже виправлено.

Потік звітів перевантажив людей, що мають їх усувати. Розробники з відкритим кодом попросили Anthropic сповільнити розкриття, стверджуючи, що обсяг звітів перевищує їхні можливості.

Дослідники бачать глибший дисбаланс. Anthropic стверджує, що знаходити помилки тепер набагато простіше, ніж їх виправляти, і компанія уклала партнерство з проєктом Alpha-Omega Фонду безпеки відкритого коду, щоб допомогти мейнтейнерам розбирати накопичену чергу проблем.

У системній картці Claude Mythos прогнозується, що з часом ШІ надасть перевагу захисникам, хоча Anthropic визнає, що наразі перевага може бути на боці зловмисників.

Коли Mythos було вперше представлено, Anthropic надала доступ понад 50 організаціям, зокрема Apple, Microsoft і Google, а також близько 100 млн доларів кредитів на використання, утримуючи модель від публічного випуску через її здатність перетворювати вразливості ПЗ на зброю.

Читайте далі: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High