Anthropic released Claude Opus 4.8 pada hari Kamis, memasarkan model yang ditingkatkan ini sebagai lebih jujur dan lebih kecil kemungkinannya mengarang fakta dibanding versi yang digantikannya.
Poin Utama:
- Anthropic merilis Claude Opus 4.8 pada hari Kamis, dengan kejujuran sebagai peningkatan utamanya.
- Menurut perusahaan, model ini kira-kira empat kali lebih kecil kemungkinannya membiarkan cacat kode lolos tanpa terdeteksi.
- Mode cepat kini berjalan 2,5 kali lebih cepat dan biayanya sepertiga dari sebelumnya.
Anthropic Mengedepankan Kejujuran Opus 4.8
Perusahaan unveiled model tersebut pada hari Kamis, memposisikannya sebagai kelanjutan bertahap dari Opus 4.7 alih-alih sebuah reinvensi, dengan sebagian besar skor benchmark hanya naik sedikit. Pada uji coding SWE-Bench Pro, model ini scored 69,2%, naik dari 64,3% untuk versi sebelumnya dan melampaui GPT-5.5 milik OpenAI, yang meraih 58,6%.
Kejujuran menjadi sorotan. Anthropic mengatakan model AI sering lompat ke kesimpulan, mengklaim kemajuan berdasarkan bukti tipis, dan bahwa penguji awal menemukan 4.8 lebih cepat mengakui keraguan selama tugas panjang yang dibiarkan tanpa pengawasan. Tes mereka indicated model ini sekitar empat kali lebih kecil kemungkinannya dibanding 4.7 membiarkan cacat kode lolos tanpa dikomentari.
Peningkatan ini shipped dengan kontrol baru, termasuk pengaturan yang memungkinkan pengguna mengatur seberapa keras model bekerja pada suatu tugas, yang kini tersedia di setiap paket. Anthropic juga memotong harga mode cepat, di mana model berjalan 2,5 kali kecepatan normal, menjadi sepertiga dari tarif model sebelumnya.
Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard Mendukung Penilaian Opus 4.8
Tom Pritchard, staf insinyur di Shopify, told Anthropic bahwa versi coding menunjukkan penilaian yang jauh lebih baik. Ia mengatakan model ini “mengajukan pertanyaan yang tepat, menemukan kesalahannya sendiri,” dan menolak ketika suatu rencana tampak lemah. Bagi tim yang pernah disakiti agen AI yang menghapus database produksi langsung, janji semacam itu bisa sangat berarti.
Tidak semua orang yakin.
Di Reddit, banyak pengguna doubted grafik benchmark, merangkum suasana sebagai tidak ada yang mempercayainya, sementara yang lain khawatir kehilangan Opus 4.6 lama yang masih mereka sukai untuk pekerjaan harian.
Opus 4.8 Menandai Puncak Lonjakan Anthropic
Peluncuran ini datang pada momen penting bagi lab tersebut. Valuasi Anthropic telah climbed melampaui hampir $965 miliar milik OpenAI setelah putaran pendanaan baru yang termasuk terbesar di dunia teknologi. Investor secara luas memperkirakan perusahaan akan mengejar pencatatan publik akhir tahun ini.
Rilis ini juga menutup rangkaian peningkatan cepat, dengan Opus 4.7 reaching pengguna baru sebulan sebelumnya di tengah keraguan benchmarknya sendiri. Sejak itu Anthropic menggoda Mythos, model yang jauh lebih kuat yang masih mereka tahan dari publik karena kekhawatiran keamanan siber.
Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





