Claude Opus 4.8 випереджає Gemini і GPT у кількох тестах на кодування

Anthropic випустила Claude Opus 4.8, стверджуючи, що оновлена модель перевершує OpenAI's GPT-5.5 та Google's Gemini 3.1 Pro у кількох бенчмарках для кодування.

Ключові моменти:

Anthropic запустила Claude Opus 4.8 28 травня, встановивши ціну на рівні попереднього релізу 4.7.

Компанія заявляє, що модель перевершує GPT-5.5 від OpenAI та Gemini 3.1 Pro від Google у SWE-Bench Pro та інших тестах.

Оновлений швидкий режим і динамічні робочі процеси мають скоротити вартість і час агентної роботи.

Claude Opus 4.8 очолює рейтинги бенчмарків для кодування

Компанія представила модель у четвер, розширивши можливості версії Opus 4.7, випущеної приблизно шістьма тижнями раніше. Anthropic повідомила, що Opus 4.8 набрала 69,2% у тесті SWE-Bench Pro з кодування, перевершивши обох конкурентів і випередивши їх за кількома іншими показниками. Також зафіксовано покращення у роботі з комп’ютером, інтелектуальній праці та фінансовому аналізі, а також результат 74,2% у бенчмарку Terminal-Bench 2.1.

Anthropic подала цей реліз як більш чесну модель: за її словами, тестувальники виявили, що вона частіше сигналізує про власну невпевненість і уникає непідтверджених тверджень. Внутрішні перевірки показують, що модель приблизно вчетверо рідше, ніж Opus 4.7, пропускає помилки у коді, а також набирає вищі бали щодо поваги до автономії користувача.

Також читайте: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Чому контроль витрат Anthropic має значення

Ціни залишилися на рівні $5 за мільйон вхідних токенів і $25 за мільйон вихідних токенів. Оновлений швидкий режим тепер працює приблизно на 150% швидше й коштує утричі менше, ніж попередній режим. Anthropic також відкрила дослідницький прев’ю динамічних робочих процесів, які запускають сотні паралельних субагентів для міграцій, що охоплюють сотні тисяч рядків коду.

Втім, покращення залишаються поступовими.

GPT-5.5 все ще лідирує в одному з тестів на кодування в терміналі, а сама Anthropic назвала модель скромним кроком уперед, а не проривом. Розробники тепер можуть змінювати інструкції Claude посеред виконання задачі через Messages API. Замовники, які шукають дешевший ШІ, можуть приділяти більшу увагу цим механізмам контролю витрат, ніж незначній різниці між топ-моделями.

Оцінка Anthropic і контекст Mythos

Запуск відбувся в той самий день, коли Anthropic підтвердила раунд серії H обсягом $65 млрд за оцінки компанії у $965 млрд. Раунд, очолений Altimeter Capital, Dragoneer, Greenoaks та Sequoia Capital, підняв п’ятирічну компанію вище за оголошені $850 млрд OpenAI і збільшив річний дохід до майже $47 млрд.

Оцінка майже потроїлася з $380 млрд у лютому, і це може виявитися останнім приватним раундом Anthropic перед виходом на біржу. Компанія досі стримує свій більш потужний модуль Mythos, створений для кібербезпеки, надаючи доступ лише кільком організаціям через питання безпеки. Тепер вона очікує розширити доступ до систем класу Mythos для всіх клієнтів у найближчі тижні.

Читайте далі: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks