Anthropic released Claude Opus 4.8 у четвер, позиціонуючи оновлену модель як чеснішу та менш схильну вигадувати факти, ніж її попередниця.
Основні моменти:
- Anthropic випустила Claude Opus 4.8 у четвер, назвавши чесність її головною перевагою.
- За словами компанії, модель приблизно в чотири рази рідше пропускає помилки в коді.
- Швидкий режим тепер працює у 2,5 раза швидше й коштує втричі дешевше, ніж раніше.
Anthropic робить ставку на чесність Opus 4.8
Компанія unveiled модель у четвер, представивши її радше як послідовне вдосконалення Opus 4.7, а не як повне перевтілення: більшість бенчмарків зросли лише незначно. У тесті програмування SWE-Bench Pro вона scored 69,2% проти 64,3% у попередньої версії та обійшла GPT-5.5 від OpenAI, який набрав 58,6%.
У центрі уваги опинилася саме чесність. Anthropic зазначає, що моделі ШІ часто роблять поспішні висновки, заявляючи про прогрес на крихких підставах, і що ранні тестувальники помітили: версія 4.8 швидше визнає сумніви під час тривалих, автономних завдань. Її тести indicated, що модель приблизно вчетверо рідше, ніж 4.7, пропускає помилки в коді без зауважень.
Оновлення shipped з новими засобами керування, зокрема налаштуванням, яке дає змогу користувачам визначати, наскільки інтенсивно модель працює над завданням; тепер воно доступне в кожному тарифному плані. Anthropic також знизила ціну швидкого режиму, в якому модель працює у 2,5 раза швидше за звичайне, до третини вартості попередніх моделей.
Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard високо оцінює здатність Opus 4.8 до суджень
Tom Pritchard, штатний інженер у Shopify, told Anthropic, що версія моделі для програмування демонструє значно кращі судження. За його словами, модель «ставить правильні запитання, виявляє власні помилки» й заперечує, коли план виглядає слабким. Для команд, які вже обпеклися на агентних ШІ, що зносили бойові бази даних, така обіцянка може мати велику вагу.
Не всі залишилися переконаними.
На Reddit багато користувачів doubted наведеним графікам з бенчмарками, підсумовуючи настрій як загальну недовіру, тоді як інші боялися втратити старішу версію Opus 4.6, яку все ще віддають перевагу в щоденній роботі.
Opus 4.8 підсумовує стрибок Anthropic
Запуск відбувся в момент стрімкого злету лабораторії. Оцінка Anthropic climbed вище майже 965 мільярдів доларів OpenAI після нового раунду фінансування, що став одним із найбільших у техсекторі. Інвестори загалом очікують, що компанія вийде на біржу пізніше цього року.
Випуск також став завершенням швидкої низки оновлень: Opus 4.7 reaching користувачів лише місяць тому, уже тоді супроводжуючись сумнівами щодо бенчмарків. Відтоді Anthropic тизерила Mythos — набагато потужнішу модель, яку поки що не випускає у відкритий доступ через занепокоєння кібербезпекою.
Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





