Claude Opus 4.8 Ungguli Gemini dan GPT di Berbagai Uji Koding

Anthropic merilis Claude Opus 4.8, mengklaim model yang ditingkatkan ini melampaui GPT-5.5 milik OpenAI dan Gemini 3.1 Pro milik Google pada sejumlah tolok ukur koding.

Poin-Poin Utama:

Anthropic meluncurkan Claude Opus 4.8 pada 28 Mei, dengan harga setara rilis 4.7 sebelumnya.

Perusahaan mengatakan model ini mengungguli GPT-5.5 milik OpenAI dan Gemini 3.1 Pro milik Google pada SWE-Bench Pro dan uji lain.

Mode cepat yang diperbarui dan alur kerja dinamis ditujukan untuk memangkas biaya dan waktu pekerjaan agen.

Claude Opus 4.8 Ungguli Tolok Ukur Koding

Perusahaan mengungkap model ini pada hari Kamis, dibangun di atas Opus 4.7 yang dirilis sekitar enam minggu sebelumnya. Anthropic mengatakan Opus 4.8 mencetak 69,2% pada uji koding SWE-Bench Pro, mengalahkan kedua pesaing tersebut dan unggul pada sejumlah metrik lain. Mereka juga melaporkan peningkatan dalam penggunaan komputer, kerja pengetahuan, dan analisis keuangan, serta nilai 74,2% pada tolok ukur Terminal-Bench 2.1.

Anthropic membingkai rilis ini sebagai model yang lebih jujur, dengan menyebut para penguji menemukan bahwa model ini menandai ketidakpastiannya sendiri dan tidak membuat klaim tanpa dukungan. Peninjauan internal menilai model ini sekitar empat kali lebih kecil kemungkinannya dibanding Opus 4.7 untuk membiarkan cacat koding lolos, dan perusahaan mengatakan model ini meraih skor lebih tinggi dalam menghormati otonomi pengguna.

Mengapa Pengendalian Biaya Anthropic Penting

Harga tetap di $5 per satu juta token input dan $25 per satu juta token output. Mode cepat yang diperbarui kini berjalan sekitar 150% lebih cepat dan tiga kali lebih murah daripada pengaturan sebelumnya. Anthropic juga membuka pratinjau riset untuk alur kerja dinamis, yang memutar ratusan subagen paralel untuk migrasi yang mencakup ratusan ribu baris kode.

Meski begitu, peningkatannya tetap bersifat inkremental.

GPT-5.5 masih memimpin pada satu uji koding terminal, dan Anthropic sendiri menyebut model ini sebagai langkah moderat, bukan terobosan besar. Pengembang kini dapat merevisi instruksi Claude di tengah tugas melalui Messages API miliknya. Pembeli yang mencari AI lebih murah mungkin akan menilai kontrol pengeluaran itu lebih penting daripada selisih tipis di antara model-model papan atas.

Valuasi Anthropic dan Latar Mythos

Peluncuran ini terjadi pada hari yang sama ketika Anthropic mengonfirmasi pendanaan Seri H senilai $65 miliar dengan valuasi $965 miliar. Putaran yang dipimpin Altimeter Capital, Dragoneer, Greenoaks, dan Sequoia Capital itu mendorong perusahaan berusia lima tahun ini melampaui valuasi $850 miliar OpenAI dan mengangkat pendapatan tahunan mendekati $47 miliar.

Valuasi tersebut hampir tiga kali lipat dari $380 miliar pada Februari, dalam apa yang bisa menjadi pendanaan privat terakhir Anthropic sebelum melantai di bursa. Perusahaan menahan model Mythos yang lebih kuat, yang dibangun untuk pekerjaan keamanan siber, dan hanya merilisnya ke segelintir organisasi karena alasan keamanan. Mereka kini berharap memperluas akses ke sistem kelas Mythos bagi semua pelanggan dalam beberapa minggu mendatang.

Baca Selanjutnya: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks