Claude Opus 4.8 возглавляет индекс интеллекта, но Mythos доминирует в хакинге

Claude Opus 4.8 возглавляет индекс интеллекта, но Mythos доминирует в хакинге

Anthropic выпустила свою новейшую модель Claude Opus 4.8 на этой неделе с небольшим отрывом в рейтинге интеллектуальных возможностей, однако она заметно уступает ограниченной системе Mythos в умении писать программные эксплойты.

Ключевые моменты:

  • Claude Opus 4.8 с небольшим перевесом возглавляет Artificial Analysis Intelligence Index с результатом 61,4, опережая GPT-5.5 с 60,2.
  • Во внутренних тестах Anthropic Mythos создавала рабочие эксплойты для Firefox в 70,8% случаев, против 8,8% у Opus 4.8.
  • Mythos остаётся доступной только проверенным партнёрам Project Glasswing, тогда как Opus 4.8 поставляется по той же цене, что и его предшественник.

Преимущество Opus 4.8 в бенчмарках

Компания запустила Opus 4.8 на этой неделе и оценила её в 5 долларов за миллион входных токенов и 25 долларов за миллион выходных, сохранив тариф на уровне предыдущей версии Opus 4.7.

Независимые тестировщики сообщают, что модель теперь лидирует в Artificial Analysis Intelligence Index с результатом 61,4 — это агрегат десяти испытаний — лишь немного опережая GPT-5.5 с 60,2. В Anthropic описывают обновление как скромный, постепенный шаг, а не поколенческий скачок, который мог бы подразумевать новый номер версии.

В задачах «агентного» программирования Opus 4.8 набирает 69,2% на SWE-bench Pro — бенчмарке, в котором модели нужно исправлять реальные ошибки в крупных репозиториях кода, тогда как GPT-5.5 достигает 58,6%.

Две системы идут почти вровень по вопросам уровня магистратуры по естественным наукам, обе показывают около 94%, а Opus 4.8 с небольшим перевесом лидирует в широком экзамене на рассуждение, по которому её предшественники отставали.

Mythos стоит выше обеих моделей на самых сложных инженерных задачах, показывая 77,8% на том же бенчмарке по программированию и более серьёзный отрыв в заданиях, сочетающих код и скриншоты. Anthropic ограничивает доступ к Mythos проверенным партнёрам в рамках программы Project Glasswing, а не продаёт её открыто. За превью взимается плата 25 и 125 долларов за миллион токенов — в пять раз дороже Opus.

Также читайте: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Кибердоминирование Mythos

Самый большой разрыв проявляется в наступательной безопасности.

При отключённых защитных ограничениях Mythos создавала полностью рабочий эксплойт в 70,8% целей Firefox в собственных оценках Anthropic, тогда как Opus 4.8 достигала лишь 8,8%.

В отдельном тесте на основе открытого кода Opus 4.8 не смогла набрать баллы в 61,5% целей — более чем вдвое больше, чем уровень пропусков у Mythos, составивший 23,3%.

В публичном межмодельном испытании, проведённом Berkeley RDI, каждую систему соединили с её собственным код‑агентом и прогнали по 898 реальным уязвимостям, где Mythos написала 157 рабочих эксплойтов против 120 у GPT-5.5.

GPT-5.5 при этом сохранила преимущество в эксплуатации уязвимостей на уровне ядра, опередив Mythos 22 против 12 в этом узком сегменте. UK AI Security Institute также поставил её немного выше Mythos по экспертным киберзадачам: 71,4% против 68,6%.

Anthropic представила Mythos в апреле после того, как модель обнаружила тысячи ранее неизвестных уязвимостей в основных операционных системах и во всех ведущих браузерах, причём сотни — только в Firefox. Затем компания отказалась от её публичного релиза, опасаясь, что те же навыки по созданию эксплойтов могут одинаково помочь как защитникам, ради которых модель создавалась, так и злоумышленникам.

Читайте далее: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи
Claude Opus 4.8 возглавляет индекс интеллекта, но Mythos доминирует в хакинге | Yellow.com