Anthropic's Mythos AI model випереджає конкуруючі системи у виявленні вразливостей ПЗ, але нові незалежні бенчмарки виявляють слабшу здатність до суджень і високу вартість запуску.
Mythos Preview лідирує в аудитах вихідного коду
Офензивна компанія з кібербезпеки XBOW підтвердила головну заяву. Компанія зібрала команду з 10 експертів, щоб оцінити модель за низкою бенчмарків, робочих процесів і інтеграцій.
XBOW заявила, що Mythos Preview «є суттєвим кроком уперед порівняно з усіма наявними моделями, незалежно від провайдера». Тестувальники запускали модель проти зафіксованих open-source застосунків із відомими вразливостями.
Mythos скоротив кількість пропущених вразливостей (false negatives) на 42% порівняно з Opus 4.6, а після надання доступу до вихідного коду цей показник сягнув 55%, як повідомило The Decoder. Модель особливо добре показала себе в поєднанні живого тестування з доступом до коду, але працювала менш надійно, коли отримувала лише вихідний код.
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Питання вартості обмежує перевагу Anthropic
Anthropic вказує, що Mythos Preview буде приблизно в 5 разів дорожчим за модель Opus, яка вже належить до найдорожчих на ринку. Ця надбавка підштовхнула XBOW перевірити, чи зможе дешевший конкурент наздогнати Mythos за рахунок більшого часу виконання.
Відповідь виявилася ствердною. За фіксованого бюджету токенів для виявлення вебвразливостей Mythos перевершив Opus 4.6, але програв OpenAI's GPT-5.5, який XBOW зафіксувала з рівнем пропусків у 10%. У XBOW зазначили, що модель «не є надто неефективною», якщо пріоритетом є точність, але вона вже не найкраща, коли враховувати вартість.
Компанія тепер радить використовувати комбінацію моделей замість покладання лише на одну.
Продуктивність Mythos AI в контексті
Mythos продемонстрував змішану якість суджень: він краще від попередників відкидав хибнопозитивні результати, але інколи відмовлявся від справжніх вразливостей, якщо докази не відповідали його формальним критеріям. Реверс-інжиніринг і аналіз нативного коду стали серед його найсильніших сторін, а модель змогла пріоритизувати знахідки, отримані від конкуруючих систем.
Anthropic вперше представила Mythos на початку квітня, обмеживши доступ приблизно 50 партнерами й подавши реліз як прорив у сфері кіберзахисту за допомогою ШІ. Згодом Британський інститут безпеки ШІ заявив, що і Mythos, і GPT-5.5 «суттєво перевищили» його прискорений прогноз. Агентство тепер оцінює, що кіберможливості подвоюються кожні 4,7 місяця, тоді як раніше, у листопаді 2025 року, вважалося, що це відбувається раз на вісім місяців.
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





