Anthropic выпустила свою новейшую модель Claude Opus 4.8 на этой неделе с небольшим отрывом в рейтинге интеллектуальных возможностей, однако она заметно уступает ограниченной системе Mythos в умении писать программные эксплойты.
Ключевые моменты:
- Claude Opus 4.8 с небольшим перевесом возглавляет Artificial Analysis Intelligence Index с результатом 61,4, опережая GPT-5.5 с 60,2.
- Во внутренних тестах Anthropic Mythos создавала рабочие эксплойты для Firefox в 70,8% случаев, против 8,8% у Opus 4.8.
- Mythos остаётся доступной только проверенным партнёрам Project Glasswing, тогда как Opus 4.8 поставляется по той же цене, что и его предшественник.
Преимущество Opus 4.8 в бенчмарках
Компания запустила Opus 4.8 на этой неделе и оценила её в 5 долларов за миллион входных токенов и 25 долларов за миллион выходных, сохранив тариф на уровне предыдущей версии Opus 4.7.
Независимые тестировщики сообщают, что модель теперь лидирует в Artificial Analysis Intelligence Index с результатом 61,4 — это агрегат десяти испытаний — лишь немного опережая GPT-5.5 с 60,2. В Anthropic описывают обновление как скромный, постепенный шаг, а не поколенческий скачок, который мог бы подразумевать новый номер версии.
В задачах «агентного» программирования Opus 4.8 набирает 69,2% на SWE-bench Pro — бенчмарке, в котором модели нужно исправлять реальные ошибки в крупных репозиториях кода, тогда как GPT-5.5 достигает 58,6%.
Две системы идут почти вровень по вопросам уровня магистратуры по естественным наукам, обе показывают около 94%, а Opus 4.8 с небольшим перевесом лидирует в широком экзамене на рассуждение, по которому её предшественники отставали.
Mythos стоит выше обеих моделей на самых сложных инженерных задачах, показывая 77,8% на том же бенчмарке по программированию и более серьёзный отрыв в заданиях, сочетающих код и скриншоты. Anthropic ограничивает доступ к Mythos проверенным партнёрам в рамках программы Project Glasswing, а не продаёт её открыто. За превью взимается плата 25 и 125 долларов за миллион токенов — в пять раз дороже Opus.
Также читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Кибердоминирование Mythos
Самый большой разрыв проявляется в наступательной безопасности.
При отключённых защитных ограничениях Mythos создавала полностью рабочий эксплойт в 70,8% целей Firefox в собственных оценках Anthropic, тогда как Opus 4.8 достигала лишь 8,8%.
В отдельном тесте на основе открытого кода Opus 4.8 не смогла набрать баллы в 61,5% целей — более чем вдвое больше, чем уровень пропусков у Mythos, составивший 23,3%.
В публичном межмодельном испытании, проведённом Berkeley RDI, каждую систему соединили с её собственным код‑агентом и прогнали по 898 реальным уязвимостям, где Mythos написала 157 рабочих эксплойтов против 120 у GPT-5.5.
GPT-5.5 при этом сохранила преимущество в эксплуатации уязвимостей на уровне ядра, опередив Mythos 22 против 12 в этом узком сегменте. UK AI Security Institute также поставил её немного выше Mythos по экспертным киберзадачам: 71,4% против 68,6%.
Anthropic представила Mythos в апреле после того, как модель обнаружила тысячи ранее неизвестных уязвимостей в основных операционных системах и во всех ведущих браузерах, причём сотни — только в Firefox. Затем компания отказалась от её публичного релиза, опасаясь, что те же навыки по созданию эксплойтов могут одинаково помочь как защитникам, ради которых модель создавалась, так и злоумышленникам.
Читайте далее: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





