Anthropic заявляє, що новий Claude Opus 4.8 виявляє власні помилки у чотири рази частіше

Anthropic released Claude Opus 4.8 у четвер, позиціонуючи оновлену модель як більш чесну та менш схильну до вигадування фактів, ніж версія, яку вона замінює.

Ключові моменти:

Anthropic випустила Claude Opus 4.8 у четвер, назвавши чесність головним досягненням.

За словами компанії, модель приблизно у чотири рази рідше пропускає помилки в коді.

Швидкий режим тепер працює у 2,5 раза швидше й коштує утричі менше, ніж раніше.

Anthropic робить ставку на чесність Opus 4.8

Компанія unveiled модель у четвер, представивши її як поступове покращення Opus 4.7, а не повне переосмислення, при цьому більшість бенчмарків зросли лише незначно. У тесті SWE-Bench Pro з програмування вона scored 69,2% проти 64,3% у попередньої версії та випередила GPT-5.5 від OpenAI, який набрав 58,6%.

У центрі уваги опинилася чесність. Anthropic заявляє, що моделі ШІ часто роблять передчасні висновки, заявляючи про прогрес на основі слабких доказів, і що ранні тестувальники помітили: версія 4.8 швидше визнає сумніви під час тривалих, автоматизованих завдань. Її тести indicated, що модель приблизно вчетверо рідше, ніж 4.7, пропускає помилки в коді без зауважень.

Оновлення shipped з новими засобами керування, зокрема з налаштуванням, яке дозволяє користувачам регулювати, наскільки інтенсивно модель працює над завданням; тепер воно доступне в усіх тарифних планах. Anthropic також знизила ціну швидкого режиму, в якому модель працює у 2,5 раза швидше за звичайне, до третини вартості попередніх моделей.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Прітчард високо оцінює судження Opus 4.8

Tom Pritchard, штатний інженер у Shopify, told Anthropic, що версія для коду має значно краще судження. За його словами, модель «ставить правильні запитання, знаходить власні помилки» й заперечує, коли план виглядає слабким. Для команд, які вже постраждали від агентів ШІ, що видаляли бойові бази даних, така обіцянка може мати велику вагу.

Не всі залишилися переконаними.

На Reddit багато користувачів doubted діаграми з бенчмарками, підсумовуючи настрій як повну відсутність довіри до них, а інші боялися втратити старіший Opus 4.6, який вони й досі віддають перевагу в повсякденній роботі.

Opus 4.8 вінчає злет Anthropic

Запуск відбувся в період стрімкого зростання лабораторії. Оцінка Anthropic climbed вище майже 965 мільярдів доларів OpenAI після нового раунду фінансування, що став одним із найбільших у сфері технологій. Інвестори широко очікують, що компанія вийде на публічний ринок пізніше цього року.

Цей реліз також підсумував серію швидких оновлень: Opus 4.7 reaching користувачів менш ніж місяць тому й сам супроводжувався сумнівами щодо бенчмарків. Відтоді Anthropic тизерить Mythos — значно потужнішу модель, яку компанія поки що не випускає у відкритий доступ через занепокоєння кібербезпекою.