Claude Opus 4.8 очолює індекс інтелекту, але Mythos домінує в хакінгу

Claude Opus 4.8 очолює індекс інтелекту, але Mythos домінує в хакінгу

Anthropic випустила свою нову модель Claude Opus 4.8 цього тижня з невеликою перевагою в інтелектуальному бенчмарку, однак вона поступається обмеженій системі Mythos у написанні програмних експлойтів.

Ключові моменти:

  • Claude Opus 4.8 з невеликим відривом очолює Artificial Analysis Intelligence Index із 61,4 бала, трохи випереджаючи GPT-5.5 з 60,2.
  • Внутрішні тести Anthropic показали, що Mythos створював робочі експлойти для Firefox у 70,8% випадків, проти 8,8% для Opus 4.8.
  • Mythos залишається доступним лише перевіреним партнерам Project Glasswing, тоді як Opus 4.8 постачається за тією ж ціною, що й попередник.

Перевага Opus 4.8 у бенчмарках

Компанія запустила Opus 4.8 цього тижня та оцінила його в $5 за мільйон вхідних токенів і $25 за мільйон вихідних, зберігши тариф на рівні попередньої версії Opus 4.7.

Незалежні тестувальники повідомляють, що модель тепер очолює Artificial Analysis Intelligence Index з результатом 61,4 — це сукупний показник десяти оцінювань — трохи попереду GPT-5.5 із 60,2. Anthropic описує оновлення як помірний, інкрементальний крок, а не стрибок цілого покоління, який може випливати з назви.

У завданнях агентного кодування Opus 4.8 набирає 69,2% у тесті SWE-bench Pro — це бенчмарк, що вимагає від моделі виправити реальні баги в великих репозиторіях коду; GPT-5.5 досягає 58,6%.

Дві системи майже зрівнялися на запитаннях рівня магістратури з природничих наук — обидві наближаються до 94%, а Opus 4.8 з невеликим відривом лідирує в широкому іспиті на логічне мислення, де попередні моделі відставали.

Mythos стоїть вище за обидві моделі в найскладнішій інженерній роботі, показуючи 77,8% у тому ж бенчмарку з кодування і більшу перевагу в завданнях, що змішують код зі скриншотами. Anthropic обмежує доступ до Mythos перевіреним партнерам у межах програми Project Glasswing, а не продає модель відкрито. За попередній доступ вона стягує $25 і $125 за мільйон токенів, що у п’ять разів дорожче за Opus.

Також читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Кібердомінування Mythos

Найбільший розрив проявляється в наступальній безпеці.

При вимкнених запобіжниках Mythos згенерував повністю робочий експлойт для 70,8% цілей у Firefox у власних оцінках Anthropic, тоді як Opus 4.8 досяг лише 8,8%.

В окремому тесті на основі відкритого коду Opus 4.8 не зміг набрати балів на 61,5% цілей — більш ніж удвічі більше за частку пропусків у Mythos, що становила 23,3%.

Під час публічного міжмодельного випробування, проведеного Berkeley RDI, кожну систему поєднували з власним кодовим агентом для розв’язання 898 реальних вразливостей; Mythos написав 157 робочих експлойтів проти 120 у GPT-5.5.

GPT-5.5 однак зберіг перевагу в експлуатації на рівні ядра, випередивши Mythos із рахунком 22 проти 12 на цьому вузькому полі. UK AI Security Institute поставив його трохи вище за Mythos у завданнях з експертної кібербезпеки — 71,4% проти 68,6%.

Anthropic представила Mythos у квітні після того, як модель виявила тисячі раніше невідомих вразливостей у провідних операційних системах і в кожному з основних веббраузерів, з сотнями багів лише у Firefox. Після цього компанія відмовилася від відкритого релізу моделі, остерігаючись, що навички зі створення експлойтів можуть так само легко допомогти нападникам, як і захисникам, для яких вона створювалася.

Читайте далі: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
Claude Opus 4.8 очолює індекс інтелекту, але Mythos домінує в хакінгу | Yellow.com