Anthropic заявляє, що планує відкрити публічний доступ до Mythos, its vulnerability-hunting AI моделі, але лише після створення засобів безпеки, яких зараз ще не існує.
Ключові моменти:
- Anthropic планує широко випустити моделі класу Mythos після попереднього розширення доступу для урядів США та їхніх союзників.
- Компанія визнає, що жодна фірма, включно з нею самою, ще не створила достатньо сильних засобів захисту від зловживань.
- Mythos виявила понад 23 000 проблем у 1 000 проєктів з відкритим кодом, включно з 6 202 збоями високої чи критичної небезпеки.
Випуск Anthropic Mythos
Anthropic підтвердила план в оновленні до Project Glasswing, своєї програми з обмеженим доступом до засобів безпеки, а окремий звіт зазначив, що строки залишаються невизначеними.
Компанія заявила, що спершу працюватиме з урядами США та союзників, щоб розширити програму. Ширший реліз «моделей класу Mythos» має відбутися в недалекому майбутньому.
Anthropic відверто говорить про ризики. Вона заявила, що жодна компанія, включно з нею самою, не створила достатньо надійних запобіжників, щоб запобігти зловживанню моделлю та завданню серйозної шкоди.
Попри це, компанія очікує швидке поширення подібних інструментів, прогнозуючи, що моделі рівня Mythos стануть широко доступними протягом шести–дванацяти місяців.
Mythos дебютувала у квітні. Anthropic повідомила, що під час тестування вона генерувала робочі експлойти у 72,4 % випадків, тоді як попередня модель Claude майже ніколи не справлялась із цим.
Також читайте: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks
Результати пошуку вразливостей Mythos
Відтоді модель просканувала понад 1 000 проєктів із відкритим кодом і виявила 23 019 проблем, з яких 6 202 були класифіковані як високої або критичної небезпеки.
Одна з виявлених вразливостей особливо виділяється. Mythos знайшла помилку в криптобібліотеці wolfSSL, яку використовують мільярди пристроїв, і яка могла дозволити зловмисникам підробляти сертифікати та видавати себе за банки чи поштові сервіси. Проблему вже виправлено.
Потік звітів перевантажив людей, які мають їх виправляти. Мейнтейнері відкритого коду попросили Anthropic сповільнити розкриття інформації, стверджуючи, що обсяги звітів перевищують їхні можливості.
Дослідники бачать глибший дисбаланс. Anthropic стверджує, що знаходити баги тепер значно легше, ніж їх виправляти, і компанія уклала партнерство із проєктом Alpha-Omega Фонду безпеки відкритого коду, щоб допомогти мейнтейнерам розбиратися з накопиченою чергою проблем.
У системній картці Claude Mythos прогнозується, що з часом ШІ стане більше допомагати захисникам, хоча Anthropic визнає, що наразі перевага може бути на боці зловмисників.
Коли Mythos вперше представили, Anthropic надала доступ до моделі понад 50 організаціям, включно з Apple, Microsoft і Google, а також виділила приблизно 100 мільйонів доларів у вигляді кредитів на використання, утримуючи модель від публічного релізу через її здатність перетворювати вразливості ПЗ на зброю.
Читайте далі: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High





