Claude Opus 4.8 обходит Gemini и GPT в ряде тестов по программированию

Anthropic выпустила Claude Opus 4.8, заявив, что обновлённая модель превосходит OpenAI's GPT-5.5 и Google's Gemini 3.1 Pro в ряде бенчмарков по программированию.

Ключевые моменты:

Anthropic запустила Claude Opus 4.8 28 мая, установив цену на уровне предыдущего релиза 4.7.

Компания утверждает, что модель опережает GPT-5.5 от OpenAI и Gemini 3.1 Pro от Google в SWE-Bench Pro и других тестах.

Обновлённый быстрый режим и динамические рабочие процессы призваны сократить стоимость и время агентной работы.

Claude Opus 4.8 лидирует в бенчмарках по кодингу

Компания представила модель в четверг, развивая версию Opus 4.7, выпущенную примерно шестью неделями ранее. По данным Anthropic, Opus 4.8 набрала 69,2% в тесте SWE-Bench Pro, опередив обоих конкурентов и превзойдя их по нескольким другим показателям. Также сообщается о росте эффективности при работе с компьютером, в задачах интеллектуального труда и финансового анализа, а также о результате 74,2% в бенчмарке Terminal-Bench 2.1.

Anthropic подала релиз как выход более честной модели, отметив, что тестировщики обнаружили, что она лучше обозначает собственную неуверенность и воздерживается от неподкреплённых утверждений. Внутренние проверки показывают, что модель примерно в четыре раза реже, чем Opus 4.7, пропускает ошибки в коде, а также, по словам компании, лучше соблюдает автономию пользователя.

Также читайте: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Почему контроль затрат Anthropic важен

Цены остались на уровне $5 за миллион входных токенов и $25 за миллион выходных. Обновлённый быстрый режим теперь работает примерно на 150% быстрее и стоит в три раза дешевле предыдущей настройки. Anthropic также открыла исследовательский предпросмотр динамических рабочих процессов, которые запускают сотни параллельных субагентов для миграций, охватывающих сотни тысяч строк кода.

Тем не менее, прогресс остаётся постепенным.

GPT-5.5 всё ещё лидирует в одном из терминальных тестов по программированию, а сама Anthropic называет модель скорее скромным шагом вперёд, чем прорывом. Разработчики теперь могут менять инструкции Claude по ходу задачи через Messages API. Покупатели, ищущие более дешёвый ИИ, могут придать большее значение этим инструментам контроля расходов, чем небольшому разрыву между топ‑моделями.

Оценка Anthropic и фон вокруг Mythos

Запуск состоялся в тот же день, когда Anthropic подтвердила раунд Series H на $65 млрд при оценке $965 млрд. Этот раунд, возглавленный Altimeter Capital, Dragoneer, Greenoaks и Sequoia Capital, поднял пятилетнюю компанию выше заявленной оценки OpenAI в $850 млрд и вывел годовую выручку примерно к $47 млрд.

Оценка почти утроилась по сравнению с $380 млрд в феврале, и этот раунд может оказаться последним частным перед выходом на биржу. Компания пока удерживает свою более мощную модель Mythos, предназначенную для задач кибербезопасности, предоставляя её лишь немногим организациям из‑за соображений безопасности. Теперь Anthropic рассчитывает в ближайшие недели расширить доступ к системам класса Mythos для всех клиентов.

Читайте далее: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks