Anthropic заявляет, что новый Claude Opus 4.8 улавливает свои ошибки в 4 раза чаще

Anthropic выпустила Claude Opus 4.8 в четверг, представив обновлённую модель как более честную и менее склонную выдумывать факты по сравнению с предыдущей версией.

Ключевые моменты:

Anthropic представила Claude Opus 4.8 в четверг, назвав честность его главным преимуществом.

По словам компании, модель примерно в четыре раза реже пропускает ошибки в коде.

Быстрый режим теперь работает в 2,5 раза быстрее и стоит в три раза дешевле, чем раньше.

Anthropic делает ставку на честность Opus 4.8

Компания представила модель в четверг, позиционируя её как последовательное развитие Opus 4.7, а не полное переосмысление, при этом большинство бенчмарков выросли лишь незначительно. В тесте по программированию SWE-Bench Pro она набрала 69,2% против 64,3% у предыдущей версии и обошла GPT-5.5 от OpenAI, который показал 58,6%.

В центре внимания оказалась честность. Anthropic утверждает, что модели ИИ часто поспешно делают выводы и заявляют о прогрессе на основании слабых данных, а ранние тестировщики отметили, что версия 4.8 быстрее признаёт сомнения во время длительных, неконтролируемых задач. По результатам внутренних тестов, как указано, модель примерно в четыре раза реже, чем 4.7, пропускает недостатки в коде, не отметив их.

Обновление вышло с новыми настройками, включая параметр, позволяющий пользователям задавать, насколько усердно модель работает над задачей; он теперь доступен во всех тарифных планах. Anthropic также снизила цену быстрого режима, в котором модель работает в 2,5 раза быстрее обычного, до трети стоимости, которую взимали предыдущие модели.

Также читайте: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Причард поддерживает суждения Opus 4.8

Том Причард, старший инженер в Shopify, сообщил Anthropic, что версия модели, ориентированная на кодирование, демонстрирует гораздо более взвешенные суждения. По его словам, модель «задаёт правильные вопросы, находит собственные ошибки» и возражает, когда план выглядит слабым. Для команд, уже пострадавших от ИИ‑агентов, которые стирали боевые базы данных в продакшене, такое обещание может иметь реальный вес.

Не все оказались убеждены.

На Reddit многие пользователи усомнились в достоверности бенчмарков, описав общее настроение как отсутствие доверия к ним, в то время как другие опасались потерять старую версию Opus 4.6, которую по-прежнему предпочитали для повседневной работы.

Opus 4.8 завершает рост Anthropic

Запуск состоялся в переломный момент для лаборатории. Оценка Anthropic выросла и превысила отметку почти в 965 миллиардов долларов, ранее достигнутую OpenAI, после нового раунда инвестиций, который вошёл в число крупнейших в технологическом секторе. Инвесторы в целом ожидают, что компания будет стремиться к публичному размещению акций позднее в этом году.

Этот релиз также завершил череду быстрых обновлений: Opus 4.7 стал доступен пользователям всего месяцем ранее и тоже сопровождался сомнениями в бенчмарках. С тех пор Anthropic заинтриговала рынки анонсом Mythos — гораздо более мощной модели, которую компания пока не выводит в публичный доступ из‑за опасений, связанных с кибербезопасностью.

Читайте далее: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak