Claude Fable 5 Coding Drop Mengungkap Masalah Router, Bukan Penurunan Model

Claude Fable 5 Coding Drop Mengungkap Masalah Router, Bukan Penurunan Model

Claude Fable 5 kembali pada 1 Jul dengan keluhan tajam dari pengguna, tetapi data benchmark menunjuk pada router Anthropic yang lebih ketat daripada model yang melemah.

Poin Utama:

  • BridgeBench melaporkan runtuhnya skor coding Fable 5 setelah sebagian besar tugas debugging dialihkan dari model.
  • Arena.AI menemukan hasil preferensi manusia buta yang sebagian besar stabil, dengan kenaikan di kategori dokumen dan teks ahli.
  • Pengembang menghadapi gangguan paling jelas karena prompt debugging rutin dapat memicu classifier baru.

Routing Fable 5

Claude Fable 5 kembali online pada 1 Jul setelah diaktifkan kembali, dan pengguna di X dengan cepat menggambarkannya sebagai rusak, di-nerf, atau kurang mampu dibanding sebelumnya. Bukti terkuat untuk pandangan itu datang dari BridgeMind, yang menjalankan ulang suite coding BridgeBench terhadap versi yang diaktifkan lagi.

Hasilnya tampak parah. Debugging turun dari 86,2 menjadi 25,9, refactoring turun dari 73,6 menjadi 38,4, dan ketahanan terhadap halusinasi menurun dari 75,9 menjadi 61,7.

Angka-angka tersebut tidak menunjukkan keruntuhan bersih di tingkat model karena BridgeBench menyatakan hanya tiga dari 12 tugas debugging TypeScript yang benar-benar sampai ke Fable 5. Sembilan lainnya dicegat oleh classifier keamanan baru Anthropic dan dialihkan ke Claude Opus 4.8, dengan setiap fallback diberi skor nol karena model yang dievaluasi tidak menjawab.

Juga Baca: Misteri 491 BTC Strategy Bangkitkan Debat Soal Kebijakan Jual Saylor

Classifier Anthropic

Arena.AI sampai pada kesimpulan berbeda karena mereka mengukur preferensi manusia buta di seluruh campuran prompt yang lebih luas, termasuk tugas teks, visi, dokumen, kode, dan agen. Data awalnya menunjukkan Fable 5 tetap hampir stabil dibanding versi Juni.

Kode frontend turun dari 1650 menjadi 1623 Elo, yang menurut Arena masih berada dalam interval kepercayaan sambil menunggu lebih banyak suara terkumpul. Performa dokumen naik 34 poin, teks ahli bertambah 25 poin dan penulisan kreatif meningkat 9 poin.

Perbedaan ini menyiratkan Fable 5 masih berkinerja seperti Fable 5 ketika prompt benar-benar sampai ke model. Masalahnya adalah pekerjaan coding yang berdekatan dengan keamanan dapat dialihkan sebelum model merespons, terutama ketika prompt berisi istilah seperti vulnerability, exploit, hook, atau fix.

Anthropic telah mengakui bahwa classifier baru akan menghasilkan positif palsu pada pekerjaan coding dan debugging biasa. Perusahaan mengatakan akan menyempurnakan sistem seiring waktu, tetapi belum memberikan tanggal target.

Pengaturan saat ini mengikuti sengketa keamanan yang lebih luas setelah peneliti Amazon melaporkan jailbreak yang mendorong Fable 5 mengidentifikasi dan mendemonstrasikan kerentanan perangkat lunak. Jawaban Anthropic adalah classifier konservatif, yang kini tampaknya memblokir lebih banyak daripada sekadar prompt berbahaya yang ingin ditangkapnya.

Baca Selanjutnya: Trump Mengatakan Ia Tidak Tahu Soal Pendapatan Kripto $1,4 Miliar

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.
Claude Fable 5 Coding Drop Mengungkap Masalah Router, Bukan Penurunan Model | Yellow.com