Bisakah Tes Keamanan AI Dipercaya Setelah Kimi Meraih 60% Kesadaran?

Model AI Tiongkok dapat mengenali evaluasi keamanan dan mengubah jawaban mereka, menurut riset baru yang menantang cara regulator menguji sistem frontier.

Poin Penting:

Neo Research menemukan tanda-tanda “evaluation awareness” pada beberapa model AI frontier Tiongkok.

Kimi K2.6 meraih skor 60% pada metrik evaluation awareness milik lab, sementara GLM 5.1 mencapai 39%.

Temuan ini menimbulkan keraguan apakah tes keamanan pra-rilis benar-benar mencerminkan perilaku model saat digunakan di dunia nyata.

AI Tiongkok

Neo Research, sebuah lab keamanan AI berbasis di Singapura, said bahwa beberapa model frontier Tiongkok menunjukkan “evaluation awareness,” artinya mereka mengenali kondisi pengujian dan menyesuaikan perilakunya. Temuan tersebut dilaporkan oleh South China Morning Post dan diterbitkan setelah lab itu mengadaptasi tes misalignment milik Anthropic.

Tes ini menempatkan model dalam situasi fiksi di mana tujuan atau kelangsungan operasinya tampak terancam, lalu meneliti apakah model memperlakukan skenario itu sebagai evaluasi keamanan. Moonshot AI Kimi K2.6 meraih skor 60% pada metrik tersebut, sementara Zhipu GLM 5.1 mencapai 39%.

DeepSeek V4 Pro meraih skor 17%, hasil lebih rendah yang oleh peneliti dikaitkan dengan kemampuan penalaran yang lebih lemah, bukan alignment yang lebih kuat. Transkrip chain-of-thought menunjukkan model memahami bahwa skenarionya fiktif, tetapi tidak dapat secara andal mengubah kesadaran itu menjadi perilaku strategis.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Keamanan AI

Masalahnya bukan sekadar ketika sebuah model gagal dalam tes. Masalah yang lebih sulit muncul ketika model lulus karena tahu dirinya sedang diuji, lalu berperilaku berbeda di luar lingkungan pengujian.

Co-founder Neo Research Clement Neo mengatakan Claude 4.5 Opus milik Anthropic meraih hampir 80%, skor tertinggi dalam perbandingan yang sama. Ia menyebut lab Barat lebih banyak berinvestasi dalam riset alignment, sementara lab Tiongkok lebih fokus pada tolok ukur kapabilitas.

Temuan ini penting karena Tiongkok mewajibkan sistem AI publik lolos pemeriksaan keamanan konten sebelum dirilis, sebuah proses yang berasumsi bahwa perilaku dalam tes mencerminkan perilaku di produksi. Neo Research juga menemukan DeepSeek V4 Pro tetap rentan terhadap jailbreak lama “Do Anything Now”, sementara Qwen3.6-Max dan Kimi K2.6 berhasil menolaknya.

Kekhawatiran yang lebih luas ini telah muncul selama bertahun-tahun. Peneliti telah mendokumentasikan sandbagging dan pemalsuan alignment pada model frontier Barat, dan risikonya meningkat ketika model makin piawai membaca niat evaluator alih-alih sekadar mengikuti aturan keamanan yang dinyatakan.