Claude Fable 5 Mungkin Diam-Diam Menyabotase Pekerjaan AI Anda

Anthropic dengan Claude Fable 5 dapat diam-diam membatasi efektivitasnya pada beberapa permintaan pengembangan AI tingkat lanjut tanpa memberi tahu pengguna, menciptakan masalah kepercayaan baru bagi pengembang yang makin mengandalkan asisten AI sebagai bagian dari alur kerja perangkat lunak mereka.

Menurut kutipan kartu model Fable 5 yang beredar pekan ini, Anthropic telah menerapkan intervensi baru yang membatasi efektivitas Claude untuk permintaan yang menargetkan pengembangan large language model frontier, termasuk pekerjaan pada pipeline pretraining, infrastruktur pelatihan terdistribusi, dan desain akselerator ML.

Perusahaan menyatakan penggunaan Claude untuk mengembangkan model pesaing sudah melanggar ketentuan layanannya. Namun detail yang lebih signifikan adalah bagaimana pembatasan itu ditegakkan. Berbeda dengan pengaman untuk keamanan siber, biologi, kimia, dan upaya distilasi, Anthropic menyatakan intervensi ini tidak akan terlihat oleh pengguna.

Claude tidak akan beralih ke model lain. Sebagai gantinya, langkah pengaman dapat membatasi efektivitas melalui metode seperti modifikasi prompt, vektor pengarah, atau fine-tuning hemat parameter.

Artinya, Claude mungkin tidak menolak permintaan. Ia mungkin hanya menjadi kurang membantu.

Pengaman Tersembunyi Menciptakan Masalah Debugging

Isunya bukan hanya apakah Anthropic seharusnya mencegah modelnya membantu pesaing membangun sistem AI frontier. Kekhawatiran yang lebih tajam adalah apakah pengembang dapat memercayai asisten AI jika mereka tidak tahu kapan sistem berhenti mengoptimalkan demi keberhasilan mereka.

Jika Claude memberikan jawaban lemah untuk masalah pelatihan model, pengembang mungkin tidak tahu apakah model salah memahami tugas, kekurangan konteks yang tepat, menghadapi batasan teknis nyata, atau diam-diam dibatasi oleh kebijakan.

Ambiguitas itu penting karena asisten AI bukan lagi sekadar chatbot. Mereka menjadi bagian dari rantai pasok perangkat lunak. Pengembang menggunakannya untuk menulis kode, debug infrastruktur, menalar masalah deployment, dan merancang sistem berbasis model.

Begitu sebuah alat pengembangan dapat diam-diam mengurangi kualitas output, debugging menjadi lebih sulit. Pengguna dibiarkan menebak apakah masalah ada pada kode mereka, penalaran model, atau intervensi tak kasatmata dari penyedia.

Batas Sekitar AI Frontier Semakin Samar

Contoh Anthropic berfokus pada pengembangan LLM frontier, tetapi garis antara pekerjaan AI frontier dan pengembangan produk biasa menjadi semakin tidak jelas.

Perusahaan perangkat lunak modern makin sering membangun sistem embedding mereka sendiri, reranker, model rekomendasi, dan pipeline model bahasa kecil. Startup melakukan fine-tuning model, meng-host di internal, dan mengadaptasi sistem open-source untuk produk tertentu.

Pekerjaan yang dulu tampak seperti riset frontier kini menjadi bagian dari pengembangan perangkat lunak normal. Lima tahun lalu, membangun atau mengadaptasi model seperti CLIP sebagian besar dilakukan di laboratorium riset. Kini, tim kecil dapat melakukan fine-tuning model visi-bahasa untuk produk perjalanan, komersial, pencarian, aplikasi sosial, dan analitik.

Also Read: Anthropic Prices Claude Mythos 5 At $10 Per Million Tokens, Claims It's The Most Powerful Model Ever

Hal itu membuat pembatasan tak terlihat menjadi lebih berdampak. Sebuah startup kecil mungkin tidak berniat membangun model frontier. Mereka mungkin hanya ingin meningkatkan produk pencarian atau melatih sistem pemeringkatan khusus. Namun jika pekerjaan mereka tumpang tindih dengan batas kebijakan yang tidak dijelaskan dengan jelas saat runtime, jawaban Claude bisa menjadi tidak andal tanpa peringatan.

Strategi Keamanan Anthropic Semakin Berlapis

Kontroversi ini muncul di tengah peluncuran yang lebih luas dari Anthropic seputar Claude Fable dan Claude Mythos.

Yellow sebelumnya melaporkan bahwa Anthropic meluncurkan Claude Mythos 5 sebagai sistem terbatas untuk mitra Project Glasswing dan pembela siber pemerintah AS, sementara Fable 5 tersedia secara publik dengan lapisan keamanan. Fable 5 dilaporkan meneruskan permintaan keamanan siber dan biologi yang sensitif ke Claude Opus 4.8, dengan pengaman aktif di kurang dari 5% sesi.

Struktur itu menunjukkan upaya Anthropic menyeimbangkan kapabilitas dan risiko: model keamanan siber paling kuat tetap dibatasi, sementara model publik membawa kontrol tambahan.

Yellow juga melaporkan bahwa profesor Wharton Ethan Mollick menguji versi awal Claude Fable dan menggambarkannya sebagai lompatan nyata. Mollick mengatakan model tersebut menghasilkan karya akademik yang canggih dan menangani tugas kompleks, tetapi juga terasa mengusik karena sangat sedikit mengungkapkan banyak keputusan yang dibuat saat menyelesaikannya.

Kekhawatiran baru tentang pengaman pengembangan AI yang senyap cocok dengan pola yang sama. Seiring model menjadi lebih mampu, tingkat opasitasnya menjadi semakin penting.

Tim Kripto dan DeFi Menghadapi Risiko Terkait

Bagi pengembang kripto dan DeFi, masalah ini memiliki lapisan tambahan.

Yellow sebelumnya melaporkan bahwa pasar kripto sudah mengamati Claude Fable karena kekhawatiran bahwa model AI yang lebih kuat dapat mempercepat penemuan eksploit. Kekhawatiran itu bukan hanya soal smart contract, yang diaudit secara ketat oleh protokol besar, tetapi juga front-end, ekstensi browser, jembatan, dan server yang menyimpan private key.

Latar belakang itu membuat pembatasan Anthropic dapat dipahami dari sudut pandang keamanan. Model yang sangat mampu yang membantu membangun atau menyerang sistem AI dapat menciptakan risiko keamanan.

Namun opasitas yang sama dapat menciptakan masalah defensif. Jika tim DeFi menggunakan Claude untuk memperkuat infrastruktur, mengaudit kode berbantuan model, atau meningkatkan tooling AI internal, batas intervensi yang tidak jelas dapat membuat asisten menjadi kurang andal tepat ketika presisi sangat penting.

Pertarungan Berikutnya Adalah Soal Pengungkapan

Anthropic mengatakan pengaman tersebut hanya memengaruhi sebagian kecil pengembang. Namun isu ke depan bukanlah persentase hari ini. Pertanyaannya adalah apakah penyedia AI harus mengungkap kapan sistem keamanan secara material mengubah kualitas jawaban.

Penolakan itu jelas. Peringatan juga jelas. Model yang diam-diam menjadi kurang efektif jauh lebih sulit dievaluasi.

Pembedaan ini dapat menjadi pusat saat asisten AI bergerak lebih dalam ke pengembangan perangkat lunak. Perusahaan mungkin menerima batas pada output berbahaya, tetapi kemungkinan besar akan menuntut transparansi ketika batas tersebut memengaruhi keandalan.