Anthropic заявляет, что новый Claude Opus 4.8 находит свои ошибки в 4 раза чаще

profile-alexey-bondarev
Alexey Bondarev50 минут назад
Anthropic заявляет, что новый Claude Opus 4.8 находит свои ошибки в 4 раза чаще

Anthropic выпустила Claude Opus 4.8 в четверг, позиционируя обновлённую модель как более честную и менее склонную придумывать факты по сравнению с предыдущей версией.

Ключевые моменты:

  • Anthropic выпустила Claude Opus 4.8 в четверг и назвала честность его главным преимуществом.
  • По словам компании, модель примерно в четыре раза реже пропускает ошибки в коде.
  • Быстрый режим теперь работает в 2,5 раза быстрее и стоит в три раза дешевле, чем раньше.

Anthropic делает ставку на честность Opus 4.8

Компания представила модель в четверг, описывая её как планомерное развитие Opus 4.7, а не полное переосмысление: большинство бенчмарков выросли лишь немного. В тесте по программированию SWE-Bench Pro она получила 69,2% против 64,3% у предыдущей версии и обошла GPT-5.5 от OpenAI, набравшего 58,6%.

В центре внимания оказалась именно честность. В Anthropic говорят, что модели ИИ часто спешат с выводами и выдают прогресс при слабых основаниях, а ранние тестировщики заметили, что 4.8 быстрее признаёт сомнения при долгих, автономно выполняемых задачах. Тесты показали, что модель примерно в четыре раза реже, чем 4.7, пропускает ошибки в коде, не отметив их.

Обновление вышло с новыми настройками, включая параметр, позволяющий пользователям регулировать, насколько усердно модель работает над задачей; он теперь доступен во всех тарифах. Anthropic также снизила цену быстрого режима, в котором модель работает в 2,5 раза быстрее обычного, до трети стоимости предыдущих моделей.

Также читайте: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Притчард поддерживает суждения Opus 4.8

Том Притчард, ведущий инженер в Shopify, рассказал Anthropic, что версия модели для программирования демонстрирует гораздо более взвешенные суждения. По его словам, модель «задаёт правильные вопросы, находит собственные ошибки» и возражает, когда план кажется слабым. Для команд, уже пострадавших от ИИ-агентов, которые удаляли боевые базы данных, такое обещание может иметь реальный вес.

Однако убедились не все.

На Reddit многие пользователи ставили под сомнение графики бенчмарков, описывая общее настроение как полное недоверие, а другие опасались потерять старый Opus 4.6, который они по‑прежнему предпочитают для повседневной работы.

Opus 4.8 завершает рывок Anthropic

Запуск состоялся в момент бурного роста лаборатории. Оценка Anthropic выросла и превзошла почти 965‑миллиардную планку OpenAI после нового раунда, который вошёл в число крупнейших в технологическом секторе. Инвесторы широко ожидают, что компания выйдет на биржу позже в этом году.

Релиз также завершил серию быстрых обновлений: Opus 4.7 дошёл до пользователей всего месяц назад — на фоне собственных сомнений по поводу бенчмарков. С тех пор Anthropic тизерит Mythos — гораздо более мощную модель, которую компания пока не выпускает в открытую из‑за опасений в сфере кибербезопасности.

Читайте далее: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Последние новости
Показать все новости
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи
Anthropic заявляет, что новый Claude Opus 4.8 находит свои ошибки в 4 раза чаще | Yellow.com