Claude Mythos AI обходит соперников в аудите кода, но проигрывает из‑за цены, завышенной в 5 раз

Anthropic's Mythos AI model опережает конкурирующие системы в поиске уязвимостей в программном обеспечении, но новые независимые бенчмарки выявили более слабое качество суждений и высокую стоимость использования.

Mythos Preview лидирует в аудите исходного кода

Оборонительная компания в сфере кибербезопасности XBOW подтвердила главный тезис. Фирма собрала команду из 10 экспертов для оценки модели по бенчмаркам, рабочим процессам и интеграциям.

XBOW заявила, что Mythos Preview «представляет собой значительный шаг вперёд по сравнению со всеми существующими моделями, независимо от провайдера». Тестировщики запускали модель на замороженных open‑source‑приложениях с известными уязвимостями.

Mythos сократил количество пропущенных уязвимостей (false negatives) на 42% по сравнению с Opus 4.6, а при предоставлении доступa к исходному коду снижение достигло 55%, как сообщило издание The Decoder. Модель особенно хорошо показала себя в комбинированном тестировании «live плюс исходный код». При работе только с исходным кодом результаты были менее стабильными.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Вопрос стоимости сдерживает преимущество Anthropic

Anthropic указала, что Mythos Preview будет примерно в 5 раз дороже модели Opus, которая и так относится к числу самых дорогих на рынке. Эта наценка подтолкнула XBOW проверить, сможет ли более дёшевый конкурент догнать Mythos при условии большего времени работы.

Ответ оказался утвердительным. При фиксированном токен‑бюджете на поиск веб‑уязвимостей Mythos обошёл Opus 4.6, но уступил OpenAI's GPT-5.5, для которого XBOW зафиксировала уровень пропуска в 10%. XBOW отметила, что модель «не слишком неэффективна», если приоритетом является точность, но уже не выглядит лучшей в классе после выравнивания по стоимости.

Теперь фирма рекомендует использовать комбинацию моделей, а не полагаться на одну.

Производительность Mythos AI в контексте

У Mythos продемонстрированы смешанные показатели качества суждений: модель лучше, чем предшественники, отсекает ложноположительные срабатывания, но иногда отклоняет и истинные, если доказательства не соответствуют её формальным критериям. Реверс‑инжиниринг и анализ нативного кода стали одними из сильнейших сторон, причём модель способна сортировать и приоритизировать выводы конкурирующих систем.

Anthropic впервые представила Mythos в начале апреля, ограничив доступ примерно 50 партнёрами и позиционируя релиз как качественный скачок в области кибервозможностей ИИ. Позже Британский институт безопасности ИИ заявил, что и Mythos, и GPT-5.5 «существенно превзошли» его ускоренный прогноз. Агентство теперь оценивает, что кибервозможности удваиваются каждые 4,7 месяца, тогда как ранее, в ноябре 2025 года, этот показатель составлял восемь месяцев.