Claude Opus 4.8 очолює індекс інтелекту, але Mythos домінує в зламі

Anthropic випустила свою нову модель Claude Opus 4.8 цього тижня з незначною перевагою в інтелектуальному бенчмарку, однак вона поступається обмеженій системі Mythos у написанні програмних експлойтів.

Ключові моменти:

Claude Opus 4.8 із невеликим відривом очолює Artificial Analysis Intelligence Index із результатом 61,4, трохи випереджаючи GPT-5.5 із 60,2.

У внутрішніх тестах Anthropic Mythos створював працездатні експлойти для Firefox у 70,8% цілей проти 8,8% у Opus 4.8.

Mythos залишається доступним лише перевіреним партнерам Project Glasswing, тоді як Opus 4.8 постачається за тією ж ціною, що і його попередник.

Перевага Opus 4.8 у бенчмарках

Компанія запустила Opus 4.8 цього тижня та оцінює його в 5 доларів за мільйон вхідних токенів і 25 доларів за мільйон вихідних, зберігаючи тариф на рівні попереднього Opus 4.7.

Незалежні тестувальники повідомляють, що модель тепер очолює Artificial Analysis Intelligence Index із результатом 61,4 — це сукупний показник десяти оцінювань — трохи попереду GPT-5.5 із 60,2. Anthropic подає оновлення як помірний, інкрементальний крок, а не поколінсний стрибок, який могла б припускати назва.

У сфері агентного програмування Opus 4.8 набирає 69,2% на SWE-bench Pro — бенчмарку, що вимагає від моделі виправляти реальні помилки в великих репозиторіях коду, тоді як GPT-5.5 досягає 58,6%.

Обидві системи показують майже однакові результати в питаннях з природничих наук на рівні магістратури, наближаючись до 94%, а Opus 4.8 з невеликим відривом лідирує в широкому іспиті на міркування, в якому його попередники відставали.

Mythos перевершує обидві моделі в найскладніших інженерних завданнях, демонструючи 77,8% на тому ж бенчмарку з програмування та ще більшу перевагу в завданнях, що поєднують код зі скриншотами. Anthropic обмежує Mythos перевіреним колом партнерів у межах програми Project Glasswing, а не продає його відкрито. За попередній доступ вона стягує 25 і 125 доларів за мільйон токенів — у п’ять разів більше, ніж тариф Opus.

Також читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Кібердомінування Mythos

Найбільший розрив проявляється в наступальній безпеці.

З вимкненими запобіжниками Mythos створював повністю працездатний експлойт для 70,8% цілей у Firefox у власних оцінюваннях Anthropic, тоді як Opus 4.8 впорався лише з 8,8%.

В окремому тесті, заснованому на відкритому коді, Opus 4.8 не зміг отримати бал на 61,5% цілей — більш ніж удвічі гірше за рівень пропусків Mythos у 23,3%.

Публічне кросмодельне випробування, проведене Berkeley RDI, поєднувало кожну систему з власним агентом програмування для розв’язання 898 реальних вразливостей, де Mythos написав 157 працездатних експлойтів проти 120 у GPT-5.5.

GPT-5.5 усе ще зберіг перевагу в експлуатації ядра, випереджаючи Mythos із рахунком 22 проти 12 у цьому вузькому сегменті. UK AI Security Institute поставив його трохи вище за Mythos у складних кіберзавданнях — 71,4% проти 68,6%.

Anthropic представила Mythos у квітні після того, як модель виявила тисячі раніше невідомих вразливостей у провідних операційних системах та в усіх популярних веббраузерах, причому сотні — лише у Firefox. Потім компанія відмовилася від публічного релізу, побоюючись, що ті самі навички створення експлойтів можуть однаково допомагати як нападникам, так і захисникам, для яких модель розроблялася.

Читайте далі: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears