Anthropic's Mythos AI model лидирует среди конкурирующих систем по поиску уязвимостей в программном обеспечении, но новые независимые бенчмарки выявляют более слабую способность к суждениям и высокую стоимость эксплуатации.
Mythos Preview лидирует в аудитах исходного кода
Офensive‑безопасностная компания XBOW подтвердила главный тезис. Компания собрала команду из 10 экспертов для оценки модели по бенчмаркам, рабочим процессам и интеграциям.
XBOW заявила, что Mythos Preview «представляет собой значительный шаг вперёд по сравнению со всеми существующими моделями, независимо от провайдера». Тестировщики запускали модель на зафиксированных open‑source‑приложениях с заранее известными уязвимостями.
Mythos сократил число ложных отрицаний на 42% по сравнению с Opus 4.6, а при предоставлении модели доступа к исходному коду снижение достигло 55%, как сообщил The Decoder reported. Модель особенно хорошо показала себя в тестах «live + source». При работе только с исходным кодом результаты были менее стабильными.
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Вопрос стоимости сдерживает преимущество Anthropic
Anthropic указала, что Mythos Preview будет примерно в 5 раз дороже модели Opus, которая и так входит в число самых дорогих вариантов на рынке. Эта наценка побудила XBOW проверить, сможет ли более дешёвый конкурент догнать Mythos при увеличенном времени работы.
Ответ оказался утвердительным. При фиксированном бюджетe токенов на поиск веб‑уязвимостей Mythos обошёл Opus 4.6, но проиграл OpenAI's GPT-5.5, который XBOW recorded с уровнем пропусков в 10%. XBOW отметила, что модель «нельзя назвать особенно неэффективной», если приоритетом является точность, но после нормализации по стоимости она уже не является лучшей в классе.
Сейчас компания рекомендует использовать комбинацию моделей, а не полагаться на одну.
Производительность Mythos AI в контексте
Mythos продемонстрировал смешанное качество суждений: он лучше предшественников отфильтровывал ложные срабатывания, но иногда отклонял и истинные, если доказательства не соответствовали его формальным критериям. Обратная разработка и анализ нативного кода стали одними из его сильнейших сторон, при этом модель способна сортировать и приоритизировать находки конкурирующих систем.
Anthropic first unveiled Mythos in early April, изначально ограничив доступ примерно 50 партнёрами и позиционируя релиз как качественный скачок в возможностях ИИ для кибербезопасности. Позднее Британский институт безопасности ИИ заявил, что и Mythos, и GPT‑5.5 «существенно превзошли» его ускоренный прогноз. Агентство теперь оценивает, что кибервозможности удваиваются каждые 4,7 месяца, тогда как в ноябре 2025 года этот показатель составлял восемь месяцев.
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





