Claude Opus 4.8 Ungguli Gemini dan GPT di Berbagai Uji Koding

Claude Opus 4.8 Ungguli Gemini dan GPT di Berbagai Uji Koding

Anthropic merilis Claude Opus 4.8, mengklaim model yang ditingkatkan ini melampaui GPT-5.5 milik OpenAI dan Gemini 3.1 Pro milik Google pada sejumlah tolok ukur koding.

Poin-Poin Utama:

  • Anthropic meluncurkan Claude Opus 4.8 pada 28 Mei, dengan harga setara rilis 4.7 sebelumnya.
  • Perusahaan mengatakan model ini mengungguli GPT-5.5 milik OpenAI dan Gemini 3.1 Pro milik Google pada SWE-Bench Pro dan uji lain.
  • Mode cepat yang diperbarui dan alur kerja dinamis ditujukan untuk memangkas biaya dan waktu pekerjaan agen.

Claude Opus 4.8 Ungguli Tolok Ukur Koding

Perusahaan mengungkap model ini pada hari Kamis, dibangun di atas Opus 4.7 yang dirilis sekitar enam minggu sebelumnya. Anthropic mengatakan Opus 4.8 mencetak 69,2% pada uji koding SWE-Bench Pro, mengalahkan kedua pesaing tersebut dan unggul pada sejumlah metrik lain. Mereka juga melaporkan peningkatan dalam penggunaan komputer, kerja pengetahuan, dan analisis keuangan, serta nilai 74,2% pada tolok ukur Terminal-Bench 2.1.

Anthropic membingkai rilis ini sebagai model yang lebih jujur, dengan menyebut para penguji menemukan bahwa model ini menandai ketidakpastiannya sendiri dan tidak membuat klaim tanpa dukungan. Peninjauan internal menilai model ini sekitar empat kali lebih kecil kemungkinannya dibanding Opus 4.7 untuk membiarkan cacat koding lolos, dan perusahaan mengatakan model ini meraih skor lebih tinggi dalam menghormati otonomi pengguna.

Baca Juga: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Mengapa Pengendalian Biaya Anthropic Penting

Harga tetap di $5 per satu juta token input dan $25 per satu juta token output. Mode cepat yang diperbarui kini berjalan sekitar 150% lebih cepat dan tiga kali lebih murah daripada pengaturan sebelumnya. Anthropic juga membuka pratinjau riset untuk alur kerja dinamis, yang memutar ratusan subagen paralel untuk migrasi yang mencakup ratusan ribu baris kode.

Meski begitu, peningkatannya tetap bersifat inkremental.

GPT-5.5 masih memimpin pada satu uji koding terminal, dan Anthropic sendiri menyebut model ini sebagai langkah moderat, bukan terobosan besar. Pengembang kini dapat merevisi instruksi Claude di tengah tugas melalui Messages API miliknya. Pembeli yang mencari AI lebih murah mungkin akan menilai kontrol pengeluaran itu lebih penting daripada selisih tipis di antara model-model papan atas.

Valuasi Anthropic dan Latar Mythos

Peluncuran ini terjadi pada hari yang sama ketika Anthropic mengonfirmasi pendanaan Seri H senilai $65 miliar dengan valuasi $965 miliar. Putaran yang dipimpin Altimeter Capital, Dragoneer, Greenoaks, dan Sequoia Capital itu mendorong perusahaan berusia lima tahun ini melampaui valuasi $850 miliar OpenAI dan mengangkat pendapatan tahunan mendekati $47 miliar.

Valuasi tersebut hampir tiga kali lipat dari $380 miliar pada Februari, dalam apa yang bisa menjadi pendanaan privat terakhir Anthropic sebelum melantai di bursa. Perusahaan menahan model Mythos yang lebih kuat, yang dibangun untuk pekerjaan keamanan siber, dan hanya merilisnya ke segelintir organisasi karena alasan keamanan. Mereka kini berharap memperluas akses ke sistem kelas Mythos bagi semua pelanggan dalam beberapa minggu mendatang.

Baca Selanjutnya: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.
Claude Opus 4.8 Ungguli Gemini dan GPT di Berbagai Uji Koding | Yellow.com