Anthropic випустила свою нову модель Claude Opus 4.8 цього тижня з невеликою перевагою в інтелектуальному бенчмарку, однак вона поступається обмеженій системі Mythos у написанні програмних експлойтів.
Ключові моменти:
- Claude Opus 4.8 з невеликим відривом очолює Artificial Analysis Intelligence Index із 61,4 бала, трохи випереджаючи GPT-5.5 з 60,2.
- Внутрішні тести Anthropic показали, що Mythos створював робочі експлойти для Firefox у 70,8% випадків, проти 8,8% для Opus 4.8.
- Mythos залишається доступним лише перевіреним партнерам Project Glasswing, тоді як Opus 4.8 постачається за тією ж ціною, що й попередник.
Перевага Opus 4.8 у бенчмарках
Компанія запустила Opus 4.8 цього тижня та оцінила його в $5 за мільйон вхідних токенів і $25 за мільйон вихідних, зберігши тариф на рівні попередньої версії Opus 4.7.
Незалежні тестувальники повідомляють, що модель тепер очолює Artificial Analysis Intelligence Index з результатом 61,4 — це сукупний показник десяти оцінювань — трохи попереду GPT-5.5 із 60,2. Anthropic описує оновлення як помірний, інкрементальний крок, а не стрибок цілого покоління, який може випливати з назви.
У завданнях агентного кодування Opus 4.8 набирає 69,2% у тесті SWE-bench Pro — це бенчмарк, що вимагає від моделі виправити реальні баги в великих репозиторіях коду; GPT-5.5 досягає 58,6%.
Дві системи майже зрівнялися на запитаннях рівня магістратури з природничих наук — обидві наближаються до 94%, а Opus 4.8 з невеликим відривом лідирує в широкому іспиті на логічне мислення, де попередні моделі відставали.
Mythos стоїть вище за обидві моделі в найскладнішій інженерній роботі, показуючи 77,8% у тому ж бенчмарку з кодування і більшу перевагу в завданнях, що змішують код зі скриншотами. Anthropic обмежує доступ до Mythos перевіреним партнерам у межах програми Project Glasswing, а не продає модель відкрито. За попередній доступ вона стягує $25 і $125 за мільйон токенів, що у п’ять разів дорожче за Opus.
Також читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Кібердомінування Mythos
Найбільший розрив проявляється в наступальній безпеці.
При вимкнених запобіжниках Mythos згенерував повністю робочий експлойт для 70,8% цілей у Firefox у власних оцінках Anthropic, тоді як Opus 4.8 досяг лише 8,8%.
В окремому тесті на основі відкритого коду Opus 4.8 не зміг набрати балів на 61,5% цілей — більш ніж удвічі більше за частку пропусків у Mythos, що становила 23,3%.
Під час публічного міжмодельного випробування, проведеного Berkeley RDI, кожну систему поєднували з власним кодовим агентом для розв’язання 898 реальних вразливостей; Mythos написав 157 робочих експлойтів проти 120 у GPT-5.5.
GPT-5.5 однак зберіг перевагу в експлуатації на рівні ядра, випередивши Mythos із рахунком 22 проти 12 на цьому вузькому полі. UK AI Security Institute поставив його трохи вище за Mythos у завданнях з експертної кібербезпеки — 71,4% проти 68,6%.
Anthropic представила Mythos у квітні після того, як модель виявила тисячі раніше невідомих вразливостей у провідних операційних системах і в кожному з основних веббраузерів, з сотнями багів лише у Firefox. Після цього компанія відмовилася від відкритого релізу моделі, остерігаючись, що навички зі створення експлойтів можуть так само легко допомогти нападникам, як і захисникам, для яких вона створювалася.
Читайте далі: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





