Penurunan Skor Coding Claude Fable 5 Ungkap Masalah Router, Bukan Pelemahan Model

Claude Fable 5 kembali pada 1 Jul dengan keluhan tajam dari pengguna, tetapi data benchmark mengarah pada router Anthropic yang lebih ketat, bukan model yang lebih lemah.

Poin Utama:

BridgeBench melaporkan kejatuhan skor coding Fable 5 setelah sebagian besar tugas debugging dialihkan dari model.

Arena.AI menemukan hasil preferensi manusia buta yang sebagian besar stabil, dengan kenaikan di kategori dokumen dan teks ahli.

Pengembang menghadapi gangguan paling jelas karena prompt debugging rutin dapat memicu classifier baru.

Routing Fable 5

Claude Fable 5 kembali online pada 1 Jul setelah dikembalikan, dan pengguna di X dengan cepat menggambarkannya sebagai rusak, di-nerf, atau kurang mampu daripada sebelumnya. Bukti terkuat untuk pandangan itu datang dari BridgeMind, yang menjalankan ulang suite coding BridgeBench terhadap versi yang dikembalikan.

Hasilnya tampak parah. Debugging turun dari 86,2 ke 25,9, refactoring turun dari 73,6 ke 38,4, dan ketahanan terhadap halusinasi turun dari 75,9 ke 61,7.

Angka-angka itu tidak menunjukkan kejatuhan bersih di level model karena BridgeBench mengatakan hanya tiga dari 12 tugas debugging TypeScript yang benar-benar mencapai Fable 5. Sembilan lainnya disaring oleh classifier keamanan baru Anthropic dan dikirim ke Claude Opus 4.8, dengan setiap fallback diberi skor nol karena model yang dievaluasi tidak menjawab.

Juga Baca: Misteri 491 BTC Strategy Hidupkan Lagi Debat soal Kebijakan Jual Saylor

Classifier Anthropic

Arena.AI sampai pada kesimpulan berbeda karena ia mengukur preferensi manusia buta di berbagai campuran prompt, termasuk tugas teks, visi, dokumen, kode, dan agen. Data awalnya menunjukkan Fable 5 bertahan relatif stabil dibandingkan versi Juni.

Kode frontend turun dari 1650 ke 1623 Elo, yang menurut Arena masih berada dalam interval kepercayaan selama suara terus terkumpul. Performa dokumen naik 34 poin, teks ahli naik 25 poin dan penulisan kreatif naik 9 poin.

Perbedaan ini menyiratkan Fable 5 masih bekerja seperti Fable 5 ketika prompt benar-benar sampai ke model. Masalahnya adalah pekerjaan coding yang beririsan dengan keamanan dapat dialihkan sebelum model merespons, terutama ketika prompt berisi istilah seperti vulnerability, exploit, hook, atau fix.

Anthropic telah mengakui bahwa classifier baru akan menghasilkan positif palsu pada pekerjaan coding dan debugging biasa. Perusahaan mengatakan akan menyempurnakan sistem seiring waktu, tetapi belum memberikan tanggal target.

Pengaturan saat ini mengikuti sengketa keamanan yang lebih luas setelah peneliti Amazon melaporkan jailbreak yang mendorong Fable 5 mengidentifikasi dan mendemonstrasikan kerentanan perangkat lunak. Jawaban Anthropic adalah classifier konservatif, yang kini tampaknya memblokir lebih dari sekadar prompt berbahaya yang seharusnya ditangkap.

Baca Selanjutnya: Trump Mengaku Tak Tahu soal Pendapatan Kripto $1,4 Miliar