Claude Mythos AI випереджає конкурентів в аудиті коду, але програє через ціну, що у 5 разів вища

Claude Mythos AI випереджає конкурентів в аудиті коду, але програє через ціну, що у 5 разів вища

Anthropic's Mythos AI model випереджає конкуруючі системи у виявленні вразливостей ПЗ, але нові незалежні бенчмарки виявляють слабшу здатність до суджень і високу вартість запуску.

Mythos Preview лідирує в аудитах вихідного коду

Офензивна компанія з кібербезпеки XBOW підтвердила головну заяву. Компанія зібрала команду з 10 експертів, щоб оцінити модель за низкою бенчмарків, робочих процесів і інтеграцій.

XBOW заявила, що Mythos Preview «є суттєвим кроком уперед порівняно з усіма наявними моделями, незалежно від провайдера». Тестувальники запускали модель проти зафіксованих open-source застосунків із відомими вразливостями.

Mythos скоротив кількість пропущених вразливостей (false negatives) на 42% порівняно з Opus 4.6, а після надання доступу до вихідного коду цей показник сягнув 55%, як повідомило The Decoder. Модель особливо добре показала себе в поєднанні живого тестування з доступом до коду, але працювала менш надійно, коли отримувала лише вихідний код.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Питання вартості обмежує перевагу Anthropic

Anthropic вказує, що Mythos Preview буде приблизно в 5 разів дорожчим за модель Opus, яка вже належить до найдорожчих на ринку. Ця надбавка підштовхнула XBOW перевірити, чи зможе дешевший конкурент наздогнати Mythos за рахунок більшого часу виконання.

Відповідь виявилася ствердною. За фіксованого бюджету токенів для виявлення вебвразливостей Mythos перевершив Opus 4.6, але програв OpenAI's GPT-5.5, який XBOW зафіксувала з рівнем пропусків у 10%. У XBOW зазначили, що модель «не є надто неефективною», якщо пріоритетом є точність, але вона вже не найкраща, коли враховувати вартість.

Компанія тепер радить використовувати комбінацію моделей замість покладання лише на одну.

Продуктивність Mythos AI в контексті

Mythos продемонстрував змішану якість суджень: він краще від попередників відкидав хибнопозитивні результати, але інколи відмовлявся від справжніх вразливостей, якщо докази не відповідали його формальним критеріям. Реверс-інжиніринг і аналіз нативного коду стали серед його найсильніших сторін, а модель змогла пріоритизувати знахідки, отримані від конкуруючих систем.

Anthropic вперше представила Mythos на початку квітня, обмеживши доступ приблизно 50 партнерами й подавши реліз як прорив у сфері кіберзахисту за допомогою ШІ. Згодом Британський інститут безпеки ШІ заявив, що і Mythos, і GPT-5.5 «суттєво перевищили» його прискорений прогноз. Агентство тепер оцінює, що кіберможливості подвоюються кожні 4,7 місяця, тоді як раніше, у листопаді 2025 року, вважалося, що це відбувається раз на вісім місяців.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Останні новини
Показати всі новини
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
Claude Mythos AI випереджає конкурентів в аудиті коду, але програє через ціну, що у 5 разів вища | Yellow.com