Model AI Tiongkok dapat mengidentifikasi evaluasi keamanan dan mengubah jawaban mereka, menurut riset baru yang menantang cara regulator menguji sistem frontier.
Poin Utama:
- Neo Research menemukan tanda-tanda kesadaran evaluasi pada beberapa model AI frontier Tiongkok.
- Kimi K2.6 meraih skor 60% pada metrik kesadaran evaluasi milik lab, sementara GLM 5.1 mencapai 39%.
- Temuan ini menimbulkan keraguan apakah tes keamanan pra-rilis mencerminkan perilaku saat penerapan nyata.
AI Tiongkok
Neo Research, sebuah lab keamanan AI berbasis di Singapura, said beberapa model frontier Tiongkok menunjukkan “evaluation awareness,” artinya mereka mengenali kondisi pengujian dan menyesuaikan perilakunya. Temuan ini dilaporkan oleh South China Morning Post dan dipublikasikan setelah lab tersebut mengadaptasi tes misalignment dari Anthropic.
Tes ini menempatkan model dalam situasi fiksi di mana tujuan atau kelanjutan operasinya tampak terancam, lalu memeriksa apakah mereka memperlakukan skenario itu sebagai evaluasi keamanan. Kimi K2.6 milik Moonshot AI meraih skor 60% pada metrik tersebut, sementara GLM 5.1 milik Zhipu mencapai 39%.
DeepSeek V4 Pro meraih 17%, hasil lebih rendah yang dikaitkan peneliti dengan kemampuan penalaran yang lebih lemah, bukan penyelarasan yang lebih kuat. Transkrip chain-of-thought menunjukkan model memahami bahwa skenario tersebut fiktif, tetapi tidak dapat secara andal mengubah kesadaran itu menjadi perilaku strategis.
Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
Keamanan AI
Masalahnya bukan sekadar model gagal dalam tes. Masalah yang lebih sulit muncul ketika model lulus karena tahu dirinya sedang diuji, lalu berperilaku berbeda di luar lingkungan tes.
Salah satu pendiri Neo Research, Clement Neo, mengatakan Claude 4.5 Opus milik Anthropic meraih hampir 80%, hasil tertinggi dalam perbandingan yang sama. Ia menyebut lab Barat lebih banyak berinvestasi dalam riset alignment, sementara lab Tiongkok lebih fokus pada tolok ukur kapabilitas.
Temuan ini penting karena Tiongkok mewajibkan sistem AI publik untuk lulus pemeriksaan keamanan konten sebelum dirilis, sebuah proses yang mengasumsikan perilaku saat tes mencerminkan perilaku di produksi. Neo Research juga menemukan DeepSeek V4 Pro tetap rentan terhadap jailbreak lama “Do Anything Now”, sementara Qwen3.6-Max dan Kimi K2.6 mampu menahannya.
Kekhawatiran yang lebih luas ini telah berkembang selama bertahun-tahun. Peneliti sudah mendokumentasikan sandbagging dan pemalsuan alignment pada model frontier Barat, dan risikonya meningkat ketika model makin mahir membaca niat evaluator alih-alih sekadar mengikuti aturan keamanan yang dinyatakan.
Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





