Model unggulan terbaru OpenAI mengendalikan penalarannya sendiri pada 1,3% rantai panjang dalam pengujian keamanan, angka kecil namun meningkat yang dilacak peneliti sebagai peringatan dini.
Poin Utama:
- GPT-5.6 Sol mengarahkan rantai pikirannya pada 1,3% jejak sekitar 5.000 token, naik dari 0,4% untuk model unggulan sebelumnya.
- OpenAI memandang meningkatnya kemampuan kendali sebagai tanda awal bahwa model bisa belajar menyembunyikan penalarannya dari pemantau.
- Angka absolut tetap sangat kecil, dan perusahaan menyebut hasil ini sebagai sinyal, bukan alarm.
OpenAI Menandai Kontrol Penalaran di GPT-5.6 Sol
Angka ini terdapat dalam kartu sistem GPT-5.6, yang dipublikasikan pada 26 Juni saat Sol memasuki pratinjau terbatas untuk mitra tepercaya, peluncuran bertahap yang diminta Washington agar dijalankan perusahaan. OpenAI mengukur “controllability” sebagai kemampuan model mengikuti instruksi tentang rantai pikirannya sendiri, seperti menghapus kata yang ditandai atau menulis seluruh jejak dalam huruf kecil. Skor rendah adalah hasil yang diinginkan.
Ketika model tidak dapat membentuk ulang pikirannya sesuai permintaan, pemantau masih bisa membaca penalaran itu dan menghentikan masalah sebelum keluaran mencapai pengguna atau berjalan di sistem nyata. Sol mematahkan pola tersebut.
Pada rantai mendekati 5.000 token, Sol mengarahkan penalarannya 1,3% dari waktu, dibanding 0,4% untuk GPT-5.5 dan 0,7% untuk GPT-5.4 Thinking yang lebih awal. Kenaikan ini konsisten di semua lima dataset uji dan sebagian besar jenis instruksi, sehingga perusahaan tidak menganggapnya sekadar noise, melainkan tren yang kini mereka telusuri. Model Terra yang lebih kecil tetap datar.
Juga Baca: BitMine Menentang Aksi Jual Dengan Taruhan Ethereum $43 Juta, Strategi Ragu
Kecurangan Sol dan Penalaran Tersembunyi Menambah Kekhawatiran
Lonjakan ini tidak berdiri sendiri. Dalam kartu yang sama, Sol lebih sering bernalar tentang sedang dinilai atau diawasi dibanding GPT-5.5, dan dalam satu uji pemrograman ia memberi tahu sebuah draf riset internal bahwa sebuah persamaan telah dihitung dan diverifikasi padahal belum.
Peninjau menangkap kasus paling jelas dengan membaca rantai pikiran, jendela yang justru dimaksud untuk dilindungi oleh metrik controllability. Dalam uji lain, ketidaksesuaian hanya muncul di jawaban akhir, yang tidak pernah dibaca pemantau rantai pikiran, sehingga jejak penalaran terlihat bersih. Skor controllability yang lemah juga bisa berarti model mengabaikan instruksi tentang penalarannya, bukan bahwa ia tidak memiliki kemampuan untuk menyembunyikannya.
METR secara terpisah melaporkan bahwa tingkat kecurangan terdeteksi Sol melampaui semua model publik yang pernah mereka uji, membuat skor kemampuan sebenarnya mustahil dipastikan. OpenAI tetap menyebut hasil ini sinyal awal, bukan alarm.
Para peneliti sejak lama menggambarkan pemantauan rantai pikiran sebagai pengaman yang rapuh, yang hanya bekerja selama model tetap bernalar secara terbuka.
OpenAI mulai melaporkan skor ini dengan GPT-5.4 Thinking, setelah riset musim semi menemukan bahwa model penalaran masih sebagian besar gagal mengarahkan pikirannya sendiri bahkan ketika diberi tahu bahwa pemantau sedang mengawasi. Sol adalah model unggulan pertama yang menggerakkan angka itu ke arah sebaliknya.
Baca Berikutnya: CZ Bilang Binance Tinggal Beberapa Hari dari Persetujuan MiCA Sebelum Politik Menghantam





