Anthropic заявляє, що новий Claude Opus 4.8 виявляє власні помилки у 4 рази частіше

profile-alexey-bondarev
Alexey Bondarev48 хвилин тому
Anthropic заявляє, що новий Claude Opus 4.8 виявляє власні помилки у 4 рази частіше

Anthropic released Claude Opus 4.8 у четвер, позиціонуючи оновлену модель як чеснішу та менш схильну вигадувати факти, ніж її попередниця.

Основні моменти:

  • Anthropic випустила Claude Opus 4.8 у четвер, назвавши чесність її головною перевагою.
  • За словами компанії, модель приблизно в чотири рази рідше пропускає помилки в коді.
  • Швидкий режим тепер працює у 2,5 раза швидше й коштує втричі дешевше, ніж раніше.

Anthropic робить ставку на чесність Opus 4.8

Компанія unveiled модель у четвер, представивши її радше як послідовне вдосконалення Opus 4.7, а не як повне перевтілення: більшість бенчмарків зросли лише незначно. У тесті програмування SWE-Bench Pro вона scored 69,2% проти 64,3% у попередньої версії та обійшла GPT-5.5 від OpenAI, який набрав 58,6%.

У центрі уваги опинилася саме чесність. Anthropic зазначає, що моделі ШІ часто роблять поспішні висновки, заявляючи про прогрес на крихких підставах, і що ранні тестувальники помітили: версія 4.8 швидше визнає сумніви під час тривалих, автономних завдань. Її тести indicated, що модель приблизно вчетверо рідше, ніж 4.7, пропускає помилки в коді без зауважень.

Оновлення shipped з новими засобами керування, зокрема налаштуванням, яке дає змогу користувачам визначати, наскільки інтенсивно модель працює над завданням; тепер воно доступне в кожному тарифному плані. Anthropic також знизила ціну швидкого режиму, в якому модель працює у 2,5 раза швидше за звичайне, до третини вартості попередніх моделей.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard високо оцінює здатність Opus 4.8 до суджень

Tom Pritchard, штатний інженер у Shopify, told Anthropic, що версія моделі для програмування демонструє значно кращі судження. За його словами, модель «ставить правильні запитання, виявляє власні помилки» й заперечує, коли план виглядає слабким. Для команд, які вже обпеклися на агентних ШІ, що зносили бойові бази даних, така обіцянка може мати велику вагу.

Не всі залишилися переконаними.

На Reddit багато користувачів doubted наведеним графікам з бенчмарками, підсумовуючи настрій як загальну недовіру, тоді як інші боялися втратити старішу версію Opus 4.6, яку все ще віддають перевагу в щоденній роботі.

Opus 4.8 підсумовує стрибок Anthropic

Запуск відбувся в момент стрімкого злету лабораторії. Оцінка Anthropic climbed вище майже 965 мільярдів доларів OpenAI після нового раунду фінансування, що став одним із найбільших у техсекторі. Інвестори загалом очікують, що компанія вийде на біржу пізніше цього року.

Випуск також став завершенням швидкої низки оновлень: Opus 4.7 reaching користувачів лише місяць тому, уже тоді супроводжуючись сумнівами щодо бенчмарків. Відтоді Anthropic тизерила Mythos — набагато потужнішу модель, яку поки що не випускає у відкритий доступ через занепокоєння кібербезпекою.

Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Останні новини
Показати всі новини
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
Anthropic заявляє, що новий Claude Opus 4.8 виявляє власні помилки у 4 рази частіше | Yellow.com