Anthropic Mengatakan Claude Opus 4.8 Baru Menangkap 4 Kali Lebih Banyak Kesalahannya

Anthropic released Claude Opus 4.8 pada hari Kamis, memasarkan model yang ditingkatkan ini sebagai lebih jujur dan lebih jarang mengarang fakta dibanding versi yang digantikannya.

Poin Penting:

Anthropic meluncurkan Claude Opus 4.8 pada hari Kamis, dengan kejujuran sebagai peningkatan utamanya.

Menurut perusahaan, model ini kira-kira empat kali lebih kecil kemungkinannya membiarkan cacat kode lolos.

Mode cepat sekarang berjalan 2,5 kali lebih cepat dan biayanya tiga kali lebih murah daripada sebelumnya.

Anthropic Menjual Kejujuran Opus 4.8

Perusahaan tersebut unveiled model ini pada hari Kamis, membingkainya sebagai pengembangan bertahap dari Opus 4.7 alih-alih sebuah reinventasi, dengan sebagian besar skor tolok ukur hanya naik sedikit. Pada uji pemrograman SWE-Bench Pro, model ini scored 69,2%, naik dari 64,3% pada versi sebelumnya dan berada di depan GPT-5.5 milik OpenAI, yang mencapai 58,6%.

Kejujuran menjadi sorotan. Anthropic mengatakan model AI sering meloncat ke kesimpulan, mengklaim kemajuan dengan bukti tipis, dan penguji awal menemukan versi 4.8 lebih cepat mengakui keraguan selama tugas panjang tanpa pengawasan. Uji internal mereka indicated bahwa model ini sekitar empat kali lebih kecil kemungkinannya dibanding 4.7 untuk membiarkan cacat pemrograman lolos tanpa komentar.

Peningkatan ini shipped dengan kontrol baru, termasuk pengaturan yang memungkinkan pengguna mengatur seberapa keras model bekerja pada sebuah tugas, yang kini tersedia di setiap paket. Anthropic juga memangkas harga mode cepat, di mana model berjalan 2,5 kali kecepatan normal, menjadi sepertiga dari tarif model sebelumnya.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard Mendukung Penilaian Opus 4.8

Tom Pritchard, staf insinyur di Shopify, told Anthropic bahwa versi pemrograman menunjukkan penilaian yang jauh lebih baik. Ia mengatakan model ini “mengajukan pertanyaan yang tepat, menangkap kesalahannya sendiri,” dan memberi perlawanan ketika sebuah rencana terlihat lemah. Bagi tim yang pernah dirugikan agen AI yang menghapus database produksi langsung, janji semacam itu bisa sangat berarti.

Tidak semua orang yakin.

Di Reddit, banyak pengguna doubted bagan tolok ukurnya, menyimpulkan suasana sebagai tak ada yang mempercayainya, sementara yang lain khawatir kehilangan Opus 4.6 yang lebih mereka sukai untuk kerja harian.

Opus 4.8 Menutup Lonjakan Anthropic

Peluncuran ini datang pada momen besar bagi lab tersebut. Valuasi Anthropic telah climbed melampaui angka hampir $965 miliar milik OpenAI setelah putaran pendanaan baru yang termasuk terbesar di dunia teknologi. Investor secara luas memperkirakan perusahaan ini akan mengejar pencatatan publik akhir tahun ini.

Rilis ini juga menutup rangkaian peningkatan cepat, dengan Opus 4.7 baru saja reaching pengguna kurang dari sebulan sebelumnya di tengah keraguan terhadap tolok ukurnya sendiri. Anthropic sejak itu menggoda Mythos, model yang jauh lebih kuat yang masih mereka tahan dari publik karena kekhawatiran keamanan siber.