Claude Opus 4.8 возглавляет индекс интеллекта, но в хакинге доминирует Mythos

Anthropic выпустила свою новейшую модель Claude Opus 4.8 на этой неделе, с небольшим отрывом возглавив один из индексов интеллекта, но при этом заметно уступая закрытой системе Mythos в написании программных эксплойтов.

Ключевые моменты:

Claude Opus 4.8 с небольшим преимуществом возглавляет Artificial Analysis Intelligence Index с результатом 61,4, обгоняя GPT-5.5 с 60,2.

Во внутренних тестах Anthropic Mythos создавал рабочие эксплойты для Firefox в 70,8% случаев, против 8,8% у Opus 4.8.

Mythos остаётся доступен только для проверенных партнёров Project Glasswing, тогда как Opus 4.8 поставляется по той же цене, что и его предшественник.

Преимущество Opus 4.8 в бенчмарках

Компания запустила Opus 4.8 на этой неделе и оценили его в 5 долларов за миллион входных токенов и 25 долларов за миллион выходных, сохранив те же тарифы, что и для Opus 4.7.

Независимые тестировщики сообщают, что модель теперь возглавляет Artificial Analysis Intelligence Index с результатом 61,4 — это агрегат из десяти оценок — немного опережая GPT-5.5 с 60,2. В Anthropic называют обновление умеренным, постепенным шагом, а не поколенческим скачком, которого можно было бы ожидать по названию.

В агентном программировании Opus 4.8 набирает 69,2% в SWE-bench Pro — бенчмарке, в котором модель должна исправлять реальные ошибки в крупных репозиториях кода, тогда как GPT-5.5 достигает 58,6%.

Две системы показывают почти одинаковые результаты на вопросах уровня магистратуры по наукам, обе выходят примерно на 94%, а Opus 4.8 с небольшим отрывом лидирует в обширном экзамене на рассуждение, где его предшественники отставали.

Mythos располагается выше обеих моделей в самых сложных инженерных задачах, показывая 77,8% в том же бенчмарке по кодингу и более заметный отрыв в задачах, сочетающих код и скриншоты. Anthropic ограничивает доступ к Mythos кругом проверенных партнёров в рамках программы Project Glasswing, а не продаёт его открыто. За превью-версию взимается плата 25 и 125 долларов за миллион токенов — в пять раз дороже, чем Opus.

Также читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Кибердоминирование Mythos

Самый большой разрыв проявляется в наступательной безопасности.

При отключённых защитных механизмах Mythos создал полностью рабочий эксплойт для 70,8% целей в Firefox в собственных оценках Anthropic, тогда как Opus 4.8 достиг только 8,8%.

В отдельном тесте на базе открытого кода Opus 4.8 не смог набрать баллы по 61,5% целей — более чем вдвое больше, чем показатель пропусков у Mythos в 23,3%.

В публичном кросс-модельном испытании, проведённом Berkeley RDI, каждую систему объединили с собственным кодовым агентом и проверили на 898 уязвимостях из реального мира; там Mythos написал 157 рабочих эксплойтов против 120 у GPT-5.5.

GPT-5.5 при этом сохранил преимущество в эксплуатации уязвимостей на уровне ядра, опередив Mythos 22 против 12 в этой узкой категории. UK AI Security Institute поставил его немного выше Mythos в экспертных киберзадачах — 71,4% против 68,6%.

Anthropic представила Mythos в апреле, после того как модель обнаружила тысячи ранее неизвестных уязвимостей в основных операционных системах и всех ведущих браузерах, причём сотни — только в Firefox. Затем компания удержала модель от публичного релиза, опасаясь, что те же способности к написанию эксплойтов могут столь же легко помочь атакующим, как и защитникам, ради которых она создавалась.

Читайте далее: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears