Контрольная версия Claude Mythos взламывает 32‑шаговый полигон AISI в 6 из 10 попыток

Контрольная версия Claude Mythos взламывает 32‑шаговый полигон AISI в 6 из 10 попыток

Новая контрольная версия Anthropic's Claude Mythos Preview стала первой моделью ИИ, сумевшей пройти обе правительственные киберсимуляции Великобритании, что вновь поднимает вопросы об автономном хакерстве.

AISI сообщает о прорыве Mythos

Британский AI Security Institute сообщил в среду, что новая контрольная версия Mythos завершила свой 32‑шаговый полигон атаки на корпоративную сеть «The Last Ones» в 6 из 10 попыток. Более ранняя версия справлялась лишь в 3 из 10.

Обновлённая модель также взломала «Cooling Tower» — полигон для систем промышленного управления, который ранее не проходила ни одна модель, — в 3 из 10 попыток.

Конкурирующая модель OpenAI GPT‑5.5 тестировалась на тех же задачах. Она решила «The Last Ones» в 3 из 10 попыток, но не завершила «Cooling Tower».

AISI запускал полигоны с вычислительным бюджетом 100 миллионов токенов на попытку, и агентство отметило, что качество продолжало расти даже на этом потолке, что позволяет предположить: при более высоком бюджете показатели успеха могли бы ещё увеличиться.

Также читайте: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Время удвоения продолжает сокращаться

AISI отслеживает прогресс в киберсфере с помощью «горизонтных» бенчмарков, измеряя, насколько длительную автономную задачу модель может выполнять с надёжностью 80%. В ноябре 2025 года агентство оценивало время удвоения в 8 месяцев. К февралю 2026 года этот показатель сократился до 4,7 месяца, и с тех пор и Mythos, и GPT‑5.5 превзошли даже эту ускоренную траекторию.

Агентство признало, что неясно, свидетельствуют ли последние результаты о новом этапе ускорения или о разовом скачке.

Исследовательская некоммерческая организация METR, которая отслеживает ИИ по задачам разработки ПО, а не по кибер-полигонам, получила схожую оценку — около 4,2 месяца. AISI заявляет, что такое совпадение усиливает аргумент, что наблюдаемый тренд отражает реальные приросты возможностей, а не особенности одного набора тестов.

Институт подчеркнул, что на его полигонах нет активных защитников, поэтому результаты показывают, на что модели способны против слабо защищённых сетей, а не против полноценно укреплённых корпоративных систем.

Почему скачки возможностей имеют значение

Новая контрольная версия Mythos не сопровождалась релизом совершенно новой модели. AISI использовал ту же версию, что Anthropic развернула в прошлом месяце в рамках Project Glasswing — своей программы партнёрств по безопасности, — после получения обновлённой сборки той же модели.

«Заметные скачки в возможностях не всегда требуют выхода новых версий моделей», — написали в институте. Это идёт вразрез с представлением, что защитники могут подстраивать свой темп под циклы релизов.

Anthropic представила Mythos Preview 7 апреля, назвав модель поворотным моментом для отрасли кибербезопасности после того, как во внутренних тестах она выявила уязвимости нулевого дня в основных операционных системах и браузерах. Компания отложила более широкое развертывание именно из‑за этих возможностей, а апрельская оценка AISI уже тогда обозначила Mythos как заметный шаг вперёд по сравнению с предыдущими передовыми системами.

Читайте далее: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Последние новости
Показать все новости
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи