Новий чекпоінт Anthropic's Claude Mythos Preview став першим AI-моделлю, яка розв’язала обидві урядові симуляції кібернападів Великої Британії, викликаючи нові запитання щодо автономного хакінгу.
AISI повідомляє про прорив Mythos
AI Security Institute Великої Британії reported у середу, що новіший чекпоінт Mythos завершив свій 32-кроковий діапазон атаки на корпоративну мережу, «The Last Ones», у 6 із 10 спроб. Попередня версія змогла лише 3 з 10.
Оновлена модель також зламала «Cooling Tower» — діапазон систем промислового керування, який жодна попередня модель не проходила, — у 3 із 10 спроб.
Конкурентна модель OpenAI GPT-5.5 тестувалася на тій самій вправі. Вона solved «The Last Ones» у 3 із 10 спроб, але не змогла завершити «Cooling Tower».
AISI запускала діапазони з обчислювальним бюджетом 100 мільйонів токенів на спробу, і агентство відзначило, що продуктивність продовжувала масштабуватися навіть на цій стелі, що натякає: вищі бюджети могли б ще більше підвищити частоту успіхів.
Also Read: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok
Час подвоєння продовжує скорочуватися
AISI відстежує прогрес у кіберсфері за допомогою орієнтирів часових горизонтів, вимірюючи, наскільки довге автономне завдання модель може виконати з надійністю 80%. У листопаді 2025 року агентство estimated час подвоєння у 8 місяців. До лютого 2026 року ця цифра скоротилася до 4,7 місяця, і відтоді як Mythos, так і GPT-5.5 перевищили навіть пришвидшений тренд.
Агентство визнало, що неясно, чи означають найновіші результати нове прискорення, чи одноразовий стрибок.
Некомерційна дослідницька організація METR, яка відстежує AI на програмних завданнях, а не на кібердіапазонах, отримала подібну оцінку — приблизно 4,2 місяця. AISI зазначив, що таке зближення показників посилює аргумент, що тренд відображає реальне зростання спроможностей, а не особливість однієї оцінювальної батареї.
Інститут наголосив, що у його діапазонах немає активних захисників, тож результати показують, що моделі можуть зробити проти слабко захищених мереж, а не проти загартованих корпоративних систем.
Чому стрибки спроможностей мають значення
Новіший чекпоінт Mythos не супроводжувався випуском нової моделі. AISI використовував ту ж версію, яку Anthropic розгорнула минулого місяця в межах Project Glasswing — своєї програми партнерства з безпеки — після отримання оновленої збірки тієї ж моделі.
«Помітні стрибки спроможностей не завжди вимагають випуску нових моделей», — написав інститут. Це суперечить припущенню, що захисники можуть узгоджувати свій темп із циклами релізів.
Anthropic introduced Mythos Preview 7 квітня, представивши модель як переломний момент для індустрії безпеки після того, як вона виявила zero-day вразливості в основних операційних системах і браузерах у внутрішніх тестах. Компанія заявила, що had withheld broader release через ці спроможності, а квітнева оцінка AISI раніше відзначила Mythos як очевидний крок уперед порівняно з попередніми фронтирними системами.
Read Next: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO





