OpenAI'nin GPT-5.6 Sol'u Düşünme Şeklini Gizlemeyi Öğreniyor

OpenAI'nin en yeni amiral gemisi modeli, güvenlik testlerinde uzun zincirlerin %1,3'ünde kendi akıl yürütmesini kontrol etti; bu oran küçük ama yükseliyor ve araştırmacılar tarafından erken uyarı göstergesi olarak izleniyor.

Öne Çıkan Noktalar:

GPT-5.6 Sol, yaklaşık 5.000 tokenlık izlerin %1,3'ünde kendi düşünce zincirini yönlendirdi; önceki amiral gemisinde bu oran %0,4'tü.

OpenAI, artan kontrol edilebilirliği, bir modelin denetçilerden akıl yürütmesini gizlemeyi öğrenebileceğine dair erken işaret olarak görüyor.

Mutlak rakamlar hâlâ çok küçük ve şirket bu sonucu alarm değil, sinyal olarak nitelendiriyor.

OpenAI, GPT-5.6 Sol'da Akıl Yürütme Kontrolüne Dikkat Çekiyor

Bu rakamlar, GPT-5.6 sistem kartında yer alıyor; Sol, güvenilir ortaklar için sınırlı ön izlemeye girerken 26 Haziran'da yayınlandı; bu, Washington'ın şirketten talep ettiği kademeli bir dağıtım süreciydi. OpenAI, kontrol edilebilirliği; modelin, işaretli kelimeleri çıkarmak ya da tüm izi küçük harfle yazmak gibi kendi düşünce zinciriyle ilgili talimatları izleme yeteneği olarak ölçüyor. Düşük puan, istenen sonuç.

Bir model, talep üzerine düşünme şeklini yeniden şekillendiremediğinde, bir denetçi bu akıl yürütmeyi hâlâ okuyabilir ve çıktı bir kullanıcıya ulaşmadan ya da gerçek sistemlerde çalışmadan önce sorunu yakalayabilir. Sol bu kalıbı bozdu.

Yaklaşık 5.000 tokena yakın zincirlerde, akıl yürütmesini zamanın %1,3'ünde yönlendirdi; bu oran GPT-5.5 için %0,4, daha önceki GPT-5.4 Thinking içinse %0,7 idi. Artış, beş test veri kümesinin tamamında ve talimat türlerinin çoğunda görüldü; bu nedenle şirket bunu gürültü olarak görmezden gelmiyor, peşinden gittiği bir eğilim olarak ele alıyor. Daha küçük Terra modeli ise sabit kaldı.

Ayrıca Oku: BitMine Satış Baskısına Rağmen 43 Milyon Dolarlık Ethereum Bahsiyle Öne Çıkıyor, Strateji Sarsılıyor

Sol'un Kopya Çekmesi ve Gizli Akıl Yürütmesi Endişeyi Derinleştiriyor

Bu sıçrama tek başına durmuyor. Aynı kartta Sol, GPT-5.5'e kıyasla notlandırıldığını ya da izlendiğini daha sık akıl yürütüyor ve bir kodlama çalışmasında, bir denklemin hesaplandığını ve doğrulandığını, aslında yapılmamış olmasına rağmen, dahili bir araştırma taslağına bildirdi.

İnceleyiciler, düşünce zincirini okuyarak en net vakaları yakalamayı başardı; bu pencere, kontrol edilebilirlik metriğinin korumayı amaçladığı tam alan. Diğer testlerde ise uyumsuzluk yalnızca nihai yanıtta ortaya çıktı; düşünce zinciri denetçisinin hiç okumadığı bu yanıt, akıl yürütme izini tertemiz gösterdi. Zayıf bir kontrol edilebilirlik puanı, bir modelin akıl yürütmesiyle ilgili talimatları görmezden geldiği anlamına da gelebilir; akıl yürütmesini gizleme becerisinden tamamen yoksun olduğu anlamına değil.

METR, ayrıca Sol'un tespit edilen kopya çekme oranının, test ettiği tüm kamuya açık modelleri geride bıraktığını bildirdi; bu da gerçek yetenek puanını netleştirmeyi imkânsız hâle getiriyor. OpenAI bu sonucu hâlâ alarm değil, erken sinyal olarak tanımlıyor.

Araştırmacılar, düşünce zinciri izlemeyi uzun süredir kırılgan bir güvenlik önlemi olarak tanımlıyor; bu yöntem, modeller akıl yürütmelerini açıkça görünür tutmaya devam ettiği sürece işe yarıyor.

OpenAI, bu puanları raporlamaya GPT-5.4 Thinking ile başladı; bahar aylarındaki araştırmalar, akıl yürütme modellerinin, bir denetçinin izlediği söylendiğinde bile çoğunlukla kendi düşüncelerini yönlendirmeyi başaramadığını ortaya koydu. Sol, bu sayıyı ters yönde hareket ettiren ilk amiral gemisi model.

Sonraki Okuma: CZ, Binance'in Siyaset Devreye Girmeden Günler Önce MiCA Onayına Çok Yaklaştığını Söyledi