Claude Opus 4.8 Puncaki Indeks Kecerdasan Namun Mythos Mendominasi Peretasan

Claude Opus 4.8 Puncaki Indeks Kecerdasan Namun Mythos Mendominasi Peretasan

Anthropic released its newest model, Claude Opus 4.8, pekan ini dengan sedikit keunggulan pada tolok ukur kecerdasan, namun tetap tertinggal dari sistem Mythos milik perusahaan yang dibatasi dalam menulis eksploit perangkat lunak.

Poin Utama:

  • Claude Opus 4.8 sedikit memimpin Artificial Analysis Intelligence Index di 61,4, tepat di depan GPT-5.5 di 60,2.
  • Dalam uji internal Anthropic, Mythos menghasilkan eksploit Firefox yang berfungsi pada 70,8% target, dibanding 8,8% untuk Opus 4.8.
  • Mythos tetap dibatasi untuk mitra Project Glasswing yang telah diseleksi, sementara Opus 4.8 diluncurkan dengan harga yang sama seperti pendahulunya.

Keunggulan Benchmark Opus 4.8

Perusahaan meluncurkan Opus 4.8 pekan ini dan priced model tersebut di angka US$5 per satu juta token input dan US$25 per satu juta token output, mempertahankan tarif yang sama dengan Opus 4.7 sebelumnya.

Penguji independen report bahwa model ini kini memimpin Artificial Analysis Intelligence Index di angka 61,4, gabungan dari sepuluh evaluasi, sedikit di depan GPT-5.5 di 60,2. Anthropic menggambarkan peningkatan ini sebagai langkah bertahap yang moderat, bukan lompatan generasi seperti yang mungkin disiratkan namanya.

Dalam pengujian pengkodean agentik, Opus 4.8 scores 69,2% pada SWE-bench Pro, sebuah tolok ukur yang meminta model memperbaiki bug nyata di dalam repositori kode besar, sementara GPT-5.5 mencapai 58,6%.

Kedua sistem hampir seimbang pada pertanyaan sains tingkat pascasarjana, keduanya berada di kisaran 94%, dan Opus 4.8 sedikit memimpin pada ujian penalaran luas yang sebelumnya tertinggal bagi pendahulunya.

Mythos berada di atas keduanya pada pekerjaan rekayasa tersulit, mencatat 77,8% pada tolok ukur pengkodean yang sama dan keunggulan lebih besar pada tugas yang menggabungkan kode dengan tangkapan layar. Anthropic restricts Mythos to a vetted set of partners di bawah program Project Glasswing, alih-alih menjualnya secara terbuka. Perusahaan charges US$25 dan US$125 per satu juta token untuk pratinjau, lima kali tarif Opus.

Juga Baca: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Dominasi Siber Mythos

Kesenjangan paling lebar muncul dalam keamanan ofensif.

Dengan pengaman dimatikan, Mythos produced eksploit lengkap yang berfungsi pada 70,8% target Firefox dalam evaluasi internal Anthropic, sementara Opus 4.8 hanya mencapai 8,8%.

Pada tes terpisah yang diambil dari kode open source, Opus 4.8 gagal mencetak skor pada 61,5% target, lebih dari dua kali tingkat kegagalan 23,3% yang dicatat Mythos.

Uji lintas model publik yang dijalankan oleh Berkeley RDI memasangkan setiap sistem dengan agen pengkodeannya sendiri pada 898 kerentanan dunia nyata, di mana Mythos menulis 157 eksploit yang berfungsi dibanding 120 milik GPT-5.5.

GPT-5.5 masih memegang keunggulan pada eksploitasi tingkat kernel, memimpin Mythos 22 berbanding 12 pada segmen sempit tersebut. UK AI Security Institute menempatkannya sedikit di depan Mythos pada tugas siber tingkat ahli, di 71,4% berbanding 68,6%.

Anthropic memperkenalkan Mythos pada bulan April setelah model tersebut found thousands of previously unknown flaws di berbagai sistem operasi utama dan setiap peramban web terkemuka, dengan ratusan temuan di Firefox saja. Perusahaan kemudian menahan model tersebut dari rilis publik, khawatir bahwa kemampuan menulis eksploit yang sama dapat membantu penyerang sama mudahnya dengan pembela yang ingin dibantu.

Baca Selanjutnya: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.
Claude Opus 4.8 Puncaki Indeks Kecerdasan Namun Mythos Mendominasi Peretasan | Yellow.com