Claude Mythos AI випереджає конкурентів в аудиті коду, але програє через ціну, що вища в 5 разів

Claude Mythos AI випереджає конкурентів в аудиті коду, але програє через ціну, що вища в 5 разів

Anthropic's Mythos AI model випереджає конкуруючі системи у виявленні вразливостей у програмному забезпеченні, але нові незалежні бенчмарки показують слабші здібності до суджень і дуже високу вартість запуску.

Mythos Preview лідирує в аудитах вихідного коду

Офensive security‑фірма XBOW підтвердила головну заяву. Компанія зібрала команду з 10 експертів, щоб оцінити модель за бенчмарками, робочими процесами та інтеграціями.

XBOW заявила, що Mythos Preview «є суттєвим кроком уперед порівняно з усіма наявними моделями, незалежно від провайдера». Тестувальники проганяли модель на заморожених open‑source‑застосунках із відомими вразливостями.

Mythos скоротив кількість хибних негативів на 42% порівняно з Opus 4.6, а після надання моделі доступу до вихідного коду це скорочення сягнуло 55%, повідомило видання The Decoder reported. Модель особливо добре показала себе в комбінованому режимі «live плюс вихідний код». Коли ж їй давали лише вихідний код, результати були менш надійними.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Питання вартості стримує перевагу Anthropic

Anthropic зазначає, що Mythos Preview буде приблизно в 5 разів дорожчою за модель Opus, яка вже належить до найдорожчих на ринку. Така націнка спонукала XBOW перевірити, чи може дешевший конкурент зрівнятися з Mythos за рахунок більш тривалого часу роботи.

Виявилося, що так. За фіксованого ліміту токенів для виявлення веб‑вразливостей Mythos обійшла Opus 4.6, але поступилася OpenAI's GPT-5.5, для якої XBOW зафіксувала рівень пропусків у 10%. XBOW зазначила, що модель «не надто неефективна», якщо головна мета — точність, але вона вже не є найкращою у класі, щойно до розрахунку додається вартість.

Тепер компанія рекомендує використовувати комбінацію моделей, а не покладатися лише на одну.

Продуктивність Mythos AI у контексті

Mythos продемонструвала змішані результати в судженнях: вона краще за попередні моделі відхиляла хибні спрацювання, але іноді відкидавала й справжні вразливості, якщо докази не відповідали її формальним критеріям. Реверс‑інжиніринг і аналіз нативного коду стали одними з її найсильніших сторін: модель здатна пріоритизувати знахідки конкуруючих систем.

Anthropic first unveiled Mythos in early April, спершу відкривши доступ приблизно 50 партнерам і позиціонуючи реліз як якісний стрибок у сфері кіберздібностей ШІ. Згодом Британський інститут безпеки ШІ заявив, що і Mythos, і GPT-5.5 «суттєво перевищили» його прискорений прогноз. Агентство тепер оцінює, що кіберздібності подвоюються кожні 4,7 місяця, тоді як раніше, у листопаді 2025 року, воно називало орієнтир у вісім місяців.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Останні новини
Показати всі новини
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
Claude Mythos AI випереджає конкурентів в аудиті коду, але програє через ціну, що вища в 5 разів | Yellow.com