Anthropic заявляет, что новый Claude Opus 4.8 улавливает свои ошибки в 4 раза чаще

profile-alexey-bondarev
Alexey Bondarev10 часов назад
Anthropic заявляет, что новый Claude Opus 4.8 улавливает свои ошибки в 4 раза чаще

Anthropic выпустила Claude Opus 4.8 в четверг, представив обновлённую модель как более честную и менее склонную выдумывать факты по сравнению с предыдущей версией.

Ключевые моменты:

  • Anthropic представила Claude Opus 4.8 в четверг, назвав честность его главным преимуществом.
  • По словам компании, модель примерно в четыре раза реже пропускает ошибки в коде.
  • Быстрый режим теперь работает в 2,5 раза быстрее и стоит в три раза дешевле, чем раньше.

Anthropic делает ставку на честность Opus 4.8

Компания представила модель в четверг, позиционируя её как последовательное развитие Opus 4.7, а не полное переосмысление, при этом большинство бенчмарков выросли лишь незначительно. В тесте по программированию SWE-Bench Pro она набрала 69,2% против 64,3% у предыдущей версии и обошла GPT-5.5 от OpenAI, который показал 58,6%.

В центре внимания оказалась честность. Anthropic утверждает, что модели ИИ часто поспешно делают выводы и заявляют о прогрессе на основании слабых данных, а ранние тестировщики отметили, что версия 4.8 быстрее признаёт сомнения во время длительных, неконтролируемых задач. По результатам внутренних тестов, как указано, модель примерно в четыре раза реже, чем 4.7, пропускает недостатки в коде, не отметив их.

Обновление вышло с новыми настройками, включая параметр, позволяющий пользователям задавать, насколько усердно модель работает над задачей; он теперь доступен во всех тарифных планах. Anthropic также снизила цену быстрого режима, в котором модель работает в 2,5 раза быстрее обычного, до трети стоимости, которую взимали предыдущие модели.

Также читайте: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Причард поддерживает суждения Opus 4.8

Том Причард, старший инженер в Shopify, сообщил Anthropic, что версия модели, ориентированная на кодирование, демонстрирует гораздо более взвешенные суждения. По его словам, модель «задаёт правильные вопросы, находит собственные ошибки» и возражает, когда план выглядит слабым. Для команд, уже пострадавших от ИИ‑агентов, которые стирали боевые базы данных в продакшене, такое обещание может иметь реальный вес.

Не все оказались убеждены.

На Reddit многие пользователи усомнились в достоверности бенчмарков, описав общее настроение как отсутствие доверия к ним, в то время как другие опасались потерять старую версию Opus 4.6, которую по-прежнему предпочитали для повседневной работы.

Opus 4.8 завершает рост Anthropic

Запуск состоялся в переломный момент для лаборатории. Оценка Anthropic выросла и превысила отметку почти в 965 миллиардов долларов, ранее достигнутую OpenAI, после нового раунда инвестиций, который вошёл в число крупнейших в технологическом секторе. Инвесторы в целом ожидают, что компания будет стремиться к публичному размещению акций позднее в этом году.

Этот релиз также завершил череду быстрых обновлений: Opus 4.7 стал доступен пользователям всего месяцем ранее и тоже сопровождался сомнениями в бенчмарках. С тех пор Anthropic заинтриговала рынки анонсом Mythos — гораздо более мощной модели, которую компания пока не выводит в публичный доступ из‑за опасений, связанных с кибербезопасностью.

Читайте далее: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Последние новости
Показать все новости
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи
Anthropic заявляет, что новый Claude Opus 4.8 улавливает свои ошибки в 4 раза чаще | Yellow.com