Claude Opus 4.8 Puncaki Indeks Kecerdasan Namun Mythos Masih Mendominasi Peretasan

Anthropic merilis model terbarunya, Claude Opus 4.8 minggu ini dengan keunggulan tipis pada tolok ukur kecerdasan, namun tertinggal dari sistem Mythos yang dibatasi perusahaan dalam menulis eksploit perangkat lunak.

Poin Utama:

Claude Opus 4.8 sedikit memuncaki Artificial Analysis Intelligence Index dengan skor 61,4, tepat di atas GPT-5.5 di 60,2.

Dalam pengujian internal Anthropic, Mythos menghasilkan eksploit Firefox yang berfungsi pada 70,8% target, dibanding 8,8% untuk Opus 4.8.

Mythos tetap dibatasi untuk mitra Project Glasswing yang telah diseleksi, sementara Opus 4.8 dirilis dengan harga sama seperti pendahulunya.

Keunggulan Benchmark Opus 4.8

Perusahaan meluncurkan Opus 4.8 minggu ini dan mematok harga sebesar $5 per satu juta token input dan $25 per satu juta token output, mempertahankan tarif yang sama dengan Opus 4.7 sebelumnya.

Penguji independen melaporkan bahwa model ini kini memimpin Artificial Analysis Intelligence Index dengan skor 61,4, gabungan dari sepuluh evaluasi, sedikit di atas GPT-5.5 di angka 60,2. Anthropic menggambarkan peningkatan ini sebagai langkah bertahap yang moderat, bukan lompatan generasi seperti yang mungkin disiratkan namanya.

Dalam pengujian coding agentik, Opus 4.8 mencetak skor 69,2% pada SWE-bench Pro, benchmark yang meminta model memperbaiki bug nyata di dalam repositori kode besar, sementara GPT-5.5 mencapai 58,6%.

Kedua sistem hampir seimbang pada pertanyaan sains tingkat pascasarjana, keduanya berada di kisaran 94%, dan Opus 4.8 sedikit unggul pada ujian penalaran luas yang sebelumnya tertinggal oleh pendahulunya.

Mythos berada di atas keduanya dalam pekerjaan rekayasa tersulit, dengan skor 77,8% pada tolok ukur coding yang sama dan keunggulan lebih lebar pada tugas yang menggabungkan kode dengan tangkapan layar. Anthropic membatasi Mythos untuk sekelompok mitra terpilih di bawah program Project Glasswing, alih-alih menjualnya secara terbuka. Perusahaan menarik bayaran $25 dan $125 per satu juta token untuk pratinjau, lima kali tarif Opus.

Juga Baca: Zcash Turun Setelah Koreksi 6% Sementara Monero Mencuri Perhatian

Dominasi Siber Mythos

Kesenjangan terbesar muncul dalam keamanan ofensif.

Dengan pengaman dinonaktifkan, Mythos menghasilkan eksploit lengkap yang berfungsi pada 70,8% target Firefox dalam evaluasi Anthropic sendiri, sementara Opus 4.8 hanya mencapai 8,8%.

Pada uji terpisah yang diambil dari kode open-source, Opus 4.8 gagal mencetak skor pada 61,5% target, lebih dari dua kali tingkat kegagalan 23,3% yang dibukukan Mythos.

Uji lintas-model publik yang dijalankan Berkeley RDI memasangkan setiap sistem dengan agen coding masing-masing di 898 kerentanan dunia nyata, di mana Mythos menulis 157 eksploit yang berfungsi dibanding 120 milik GPT-5.5.

GPT-5.5 masih memegang keunggulan pada eksploitasi tingkat kernel, memimpin Mythos 22 banding 12 pada segmen sempit tersebut. UK AI Security Institute menempatkannya sedikit di depan Mythos pada tugas siber tingkat ahli, dengan skor 71,4% berbanding 68,6%.

Anthropic memperkenalkan Mythos pada April setelah model tersebut menemukan ribuan kerentanan yang sebelumnya tidak diketahui di berbagai sistem operasi utama dan setiap browser web terkemuka, dengan ratusan di antaranya dilaporkan hanya pada Firefox. Perusahaan kemudian menahan model ini dari rilis publik, khawatir bahwa kemampuan penulisan eksploit yang sama dapat membantu penyerang secepat ia membantu para pembela yang menjadi tujuan awal pembuatannya.

Baca Selanjutnya: Strategy Menarik Kembali $30 Juta Dalam Bitcoin, Meredakan Kekhawatiran Gelombang Jual