Anthropic выпустила Claude Opus 4.8 в четверг, позиционируя обновлённую модель как более честную и менее склонную придумывать факты по сравнению с предыдущей версией.
Ключевые моменты:
- Anthropic выпустила Claude Opus 4.8 в четверг и назвала честность его главным преимуществом.
- По словам компании, модель примерно в четыре раза реже пропускает ошибки в коде.
- Быстрый режим теперь работает в 2,5 раза быстрее и стоит в три раза дешевле, чем раньше.
Anthropic делает ставку на честность Opus 4.8
Компания представила модель в четверг, описывая её как планомерное развитие Opus 4.7, а не полное переосмысление: большинство бенчмарков выросли лишь немного. В тесте по программированию SWE-Bench Pro она получила 69,2% против 64,3% у предыдущей версии и обошла GPT-5.5 от OpenAI, набравшего 58,6%.
В центре внимания оказалась именно честность. В Anthropic говорят, что модели ИИ часто спешат с выводами и выдают прогресс при слабых основаниях, а ранние тестировщики заметили, что 4.8 быстрее признаёт сомнения при долгих, автономно выполняемых задачах. Тесты показали, что модель примерно в четыре раза реже, чем 4.7, пропускает ошибки в коде, не отметив их.
Обновление вышло с новыми настройками, включая параметр, позволяющий пользователям регулировать, насколько усердно модель работает над задачей; он теперь доступен во всех тарифах. Anthropic также снизила цену быстрого режима, в котором модель работает в 2,5 раза быстрее обычного, до трети стоимости предыдущих моделей.
Также читайте: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Притчард поддерживает суждения Opus 4.8
Том Притчард, ведущий инженер в Shopify, рассказал Anthropic, что версия модели для программирования демонстрирует гораздо более взвешенные суждения. По его словам, модель «задаёт правильные вопросы, находит собственные ошибки» и возражает, когда план кажется слабым. Для команд, уже пострадавших от ИИ-агентов, которые удаляли боевые базы данных, такое обещание может иметь реальный вес.
Однако убедились не все.
На Reddit многие пользователи ставили под сомнение графики бенчмарков, описывая общее настроение как полное недоверие, а другие опасались потерять старый Opus 4.6, который они по‑прежнему предпочитают для повседневной работы.
Opus 4.8 завершает рывок Anthropic
Запуск состоялся в момент бурного роста лаборатории. Оценка Anthropic выросла и превзошла почти 965‑миллиардную планку OpenAI после нового раунда, который вошёл в число крупнейших в технологическом секторе. Инвесторы широко ожидают, что компания выйдет на биржу позже в этом году.
Релиз также завершил серию быстрых обновлений: Opus 4.7 дошёл до пользователей всего месяц назад — на фоне собственных сомнений по поводу бенчмарков. С тех пор Anthropic тизерит Mythos — гораздо более мощную модель, которую компания пока не выпускает в открытую из‑за опасений в сфере кибербезопасности.
Читайте далее: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





