Новая контрольная версия Anthropic's Claude Mythos Preview стала первой моделью ИИ, сумевшей пройти обе правительственные киберсимуляции Великобритании, что вновь поднимает вопросы об автономном хакерстве.
AISI сообщает о прорыве Mythos
Британский AI Security Institute сообщил в среду, что новая контрольная версия Mythos завершила свой 32‑шаговый полигон атаки на корпоративную сеть «The Last Ones» в 6 из 10 попыток. Более ранняя версия справлялась лишь в 3 из 10.
Обновлённая модель также взломала «Cooling Tower» — полигон для систем промышленного управления, который ранее не проходила ни одна модель, — в 3 из 10 попыток.
Конкурирующая модель OpenAI GPT‑5.5 тестировалась на тех же задачах. Она решила «The Last Ones» в 3 из 10 попыток, но не завершила «Cooling Tower».
AISI запускал полигоны с вычислительным бюджетом 100 миллионов токенов на попытку, и агентство отметило, что качество продолжало расти даже на этом потолке, что позволяет предположить: при более высоком бюджете показатели успеха могли бы ещё увеличиться.
Также читайте: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok
Время удвоения продолжает сокращаться
AISI отслеживает прогресс в киберсфере с помощью «горизонтных» бенчмарков, измеряя, насколько длительную автономную задачу модель может выполнять с надёжностью 80%. В ноябре 2025 года агентство оценивало время удвоения в 8 месяцев. К февралю 2026 года этот показатель сократился до 4,7 месяца, и с тех пор и Mythos, и GPT‑5.5 превзошли даже эту ускоренную траекторию.
Агентство признало, что неясно, свидетельствуют ли последние результаты о новом этапе ускорения или о разовом скачке.
Исследовательская некоммерческая организация METR, которая отслеживает ИИ по задачам разработки ПО, а не по кибер-полигонам, получила схожую оценку — около 4,2 месяца. AISI заявляет, что такое совпадение усиливает аргумент, что наблюдаемый тренд отражает реальные приросты возможностей, а не особенности одного набора тестов.
Институт подчеркнул, что на его полигонах нет активных защитников, поэтому результаты показывают, на что модели способны против слабо защищённых сетей, а не против полноценно укреплённых корпоративных систем.
Почему скачки возможностей имеют значение
Новая контрольная версия Mythos не сопровождалась релизом совершенно новой модели. AISI использовал ту же версию, что Anthropic развернула в прошлом месяце в рамках Project Glasswing — своей программы партнёрств по безопасности, — после получения обновлённой сборки той же модели.
«Заметные скачки в возможностях не всегда требуют выхода новых версий моделей», — написали в институте. Это идёт вразрез с представлением, что защитники могут подстраивать свой темп под циклы релизов.
Anthropic представила Mythos Preview 7 апреля, назвав модель поворотным моментом для отрасли кибербезопасности после того, как во внутренних тестах она выявила уязвимости нулевого дня в основных операционных системах и браузерах. Компания отложила более широкое развертывание именно из‑за этих возможностей, а апрельская оценка AISI уже тогда обозначила Mythos как заметный шаг вперёд по сравнению с предыдущими передовыми системами.
Читайте далее: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO





