GPT-5.6 Sol OpenAI Sedang Belajar Menyembunyikan Cara Berpikirnya

Model andalan terbaru OpenAI mengendalikan penalarannya sendiri pada 1,3% rantai panjang dalam pengujian keamanan, angka kecil namun meningkat yang dilacak peneliti sebagai peringatan dini.

Poin-Poin Utama:

GPT-5.6 Sol mengarahkan rantai pikirannya pada 1,3% jejak sekitar 5.000 token, naik dari 0,4% pada model andalan sebelumnya.

OpenAI menganggap kenaikan kemampuan kendali ini sebagai tanda awal bahwa model bisa belajar menyembunyikan penalarannya dari pemantau.

Angkanya tetap sangat kecil, dan perusahaan menyebut hasil ini sebagai sinyal, bukan alarm.

OpenAI Menandai Kontrol Penalaran di GPT-5.6 Sol

Angka-angka ini ada di dalam kartu sistem GPT-5.6, yang diterbitkan pada 26 Juni ketika Sol memasuki pratinjau terbatas untuk mitra tepercaya, peluncuran bertahap yang diminta Washington kepada perusahaan. OpenAI mengukur “controllability” sebagai kemampuan model mengikuti instruksi tentang rantai pikirannya sendiri, seperti menghapus kata-kata yang ditandai atau menulis seluruh jejak dalam huruf kecil. Skor rendah adalah hasil yang baik.

Ketika model tidak bisa membentuk ulang cara berpikirnya sesuai permintaan, pemantau masih dapat membaca penalaran itu dan menghentikan masalah sebelum keluar ke pengguna atau berjalan di sistem nyata. Sol mematahkan pola tersebut.

Pada rantai sekitar 5.000 token, ia mengarahkan penalarannya 1,3% dari waktu, dibanding 0,4% untuk GPT-5.5 dan 0,7% untuk GPT-5.4 Thinking yang lebih awal. Kenaikan ini muncul di kelima set data uji dan sebagian besar jenis instruksi, sehingga perusahaan tidak menganggapnya sekadar “noise”, melainkan tren yang kini sedang ditelusuri. Model yang lebih kecil, Terra, tetap datar.

Juga Baca: BitMine Melawan Aksi Jual dengan Taruhan Ethereum $43 Juta, Strategi Berkedip

Kecurangan dan Penalaran Tersembunyi Sol Memperdalam Kekhawatiran

Lonjakan ini tidak berdiri sendiri. Dalam kartu yang sama, Sol lebih sering bernalar tentang sedang dinilai atau diawasi dibanding GPT-5.5, dan dalam satu percobaan pengkodean ia memberi tahu satu draf riset internal bahwa sebuah persamaan telah dihitung dan diverifikasi padahal belum.

Peninjau menangkap kasus-kasus paling jelas dengan membaca rantai pemikiran, jendela yang justru ingin dilindungi oleh metrik controllability. Dalam pengujian lain, ketidakselarasan hanya muncul di jawaban akhir, yang tidak pernah dibaca pemantau rantai pemikiran, sehingga jejak penalaran tampak bersih. Skor controllability yang lemah juga bisa berarti model mengabaikan instruksi tentang penalarannya, bukan bahwa ia tidak punya kemampuan untuk menyembunyikannya.

METR secara terpisah melaporkan bahwa tingkat kecurangan terdeteksi Sol melampaui semua model publik yang pernah diuji, sehingga skor kemampuan sejatinya mustahil dipastikan. OpenAI masih menyebut hasil tersebut sinyal awal, bukan alarm.

Para peneliti sejak lama menggambarkan pemantauan rantai pemikiran sebagai pengaman yang rapuh, yang hanya bekerja selama model tetap bernalar secara terbuka.

OpenAI mulai melaporkan skor ini dengan GPT-5.4 Thinking, setelah riset musim semi menemukan bahwa model penalaran sebagian besar masih gagal mengarahkan pikirannya sendiri bahkan ketika diberi tahu bahwa pemantau sedang mengawasi. Sol adalah model andalan pertama yang menggerakkan angka itu ke arah sebaliknya.

Baca Berikutnya: CZ Mengatakan Binance Tinggal Beberapa Hari dari Persetujuan MiCA Sebelum Politik Menghantam