Claude Mythos AI випереджає конкурентів в аудиті коду, але програє через ціну, що вища в 5 разів

Anthropic's Mythos AI model випереджає конкуруючі системи у виявленні вразливостей у програмному забезпеченні, але нові незалежні бенчмарки показують слабші здібності до суджень і дуже високу вартість запуску.

Mythos Preview лідирує в аудитах вихідного коду

Офensive security‑фірма XBOW підтвердила головну заяву. Компанія зібрала команду з 10 експертів, щоб оцінити модель за бенчмарками, робочими процесами та інтеграціями.

XBOW заявила, що Mythos Preview «є суттєвим кроком уперед порівняно з усіма наявними моделями, незалежно від провайдера». Тестувальники проганяли модель на заморожених open‑source‑застосунках із відомими вразливостями.

Mythos скоротив кількість хибних негативів на 42% порівняно з Opus 4.6, а після надання моделі доступу до вихідного коду це скорочення сягнуло 55%, повідомило видання The Decoder reported. Модель особливо добре показала себе в комбінованому режимі «live плюс вихідний код». Коли ж їй давали лише вихідний код, результати були менш надійними.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Питання вартості стримує перевагу Anthropic

Anthropic зазначає, що Mythos Preview буде приблизно в 5 разів дорожчою за модель Opus, яка вже належить до найдорожчих на ринку. Така націнка спонукала XBOW перевірити, чи може дешевший конкурент зрівнятися з Mythos за рахунок більш тривалого часу роботи.

Виявилося, що так. За фіксованого ліміту токенів для виявлення веб‑вразливостей Mythos обійшла Opus 4.6, але поступилася OpenAI's GPT-5.5, для якої XBOW зафіксувала рівень пропусків у 10%. XBOW зазначила, що модель «не надто неефективна», якщо головна мета — точність, але вона вже не є найкращою у класі, щойно до розрахунку додається вартість.

Тепер компанія рекомендує використовувати комбінацію моделей, а не покладатися лише на одну.

Продуктивність Mythos AI у контексті

Mythos продемонструвала змішані результати в судженнях: вона краще за попередні моделі відхиляла хибні спрацювання, але іноді відкидавала й справжні вразливості, якщо докази не відповідали її формальним критеріям. Реверс‑інжиніринг і аналіз нативного коду стали одними з її найсильніших сторін: модель здатна пріоритизувати знахідки конкуруючих систем.

Anthropic first unveiled Mythos in early April, спершу відкривши доступ приблизно 50 партнерам і позиціонуючи реліз як якісний стрибок у сфері кіберздібностей ШІ. Згодом Британський інститут безпеки ШІ заявив, що і Mythos, і GPT-5.5 «суттєво перевищили» його прискорений прогноз. Агентство тепер оцінює, що кіберздібності подвоюються кожні 4,7 місяця, тоді як раніше, у листопаді 2025 року, воно називало орієнтир у вісім місяців.