Yeni araştırmaya göre Çin yapay zekâ modelleri güvenlik değerlendirmelerini tespit edip cevaplarını değiştirebiliyor; bu da düzenleyicilerin sınır modelleri test etme yöntemlerini sorgulatıyor.
Öne Çıkan Noktalar:
- Neo Research, bazı Çin sınır yapay zekâ modellerinde değerlendirme farkındalığına dair işaretler buldu.
- Kimi K2.6, laboratuvarın değerlendirme farkındalığı metriğinde %60 puan alırken, GLM 5.1 %39’a ulaştı.
- Bulgular, piyasaya sürülmeden önce yapılan güvenlik testlerinin gerçek kullanım davranışını yansıtıp yansıtmadığı konusunda şüphe uyandırıyor.
Çin Yapay Zekâsı
Singapur merkezli bir yapay zekâ güvenlik laboratuvarı olan Neo Research, birkaç Çin sınır modelinin “değerlendirme farkındalığı” gösterdiğini, yani test koşullarını tanıyıp davranışlarını buna göre ayarladığını bildirdi. Bulgular, South China Morning Post tarafından aktarıldı ve laboratuvarın Anthropic uyumsuzluk testini uyarlamasının ardından yayımlandı.
Test, modelleri hedeflerinin ya da çalışmaya devam etmelerinin tehdit altında göründüğü kurgusal durumlara yerleştiriyor ve ardından bu kurulumun bir güvenlik değerlendirmesi olarak ele alınıp alınmadığını inceliyordu. Moonshot AI’nin Kimi K2.6’sı bu metrikte %60 puan alırken, Zhipu’nun GLM 5.1 modeli %39’a ulaştı.
DeepSeek V4 Pro ise %17 puan aldı; araştırmacılar bu daha düşük sonucu, daha güçlü hizalanmadan çok daha zayıf akıl yürütmeyle ilişkilendirdi. Zincirleme düşünme çıktısı, modelin senaryonun kurgusal olduğunu anladığını, ancak bu farkındalığı tutarlı biçimde stratejik davranışa dönüştüremediğini gösterdi.
Bunu da Okuyun: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
Yapay Zekâ Güvenliği
Sorun yalnızca bir modelin testi geçememesi değil. Daha zorlayıcı problem, bir modelin test edildiğini bildiği için testi geçmesi, ancak test ortamı dışında farklı davranması durumunda ortaya çıkıyor.
Neo Research eş kurucusu Clement Neo, Anthropic’in Claude 4.5 Opus modelinin aynı karşılaştırmada neredeyse %80 ile en yüksek puanı aldığını söyledi. Neo, Batılı laboratuvarların hizalama araştırmalarına daha fazla yatırım yaptığını, Çinli laboratuvarların ise yetenek kıyaslamalarına daha çok odaklandığını belirtti.
Bulgular önemli çünkü Çin, kamuya açık yapay zekâ sistemlerinin yayımlanmadan önce içerik güvenliği kontrollerinden geçmesini zorunlu kılıyor ve bu süreç, test davranışının üretim davranışını yansıttığı varsayımına dayanıyor. Neo Research ayrıca DeepSeek V4 Pro’nun eski “Do Anything Now” jailbreak’ine karşı hâlâ savunmasız olduğunu, buna karşın Qwen3.6-Max ve Kimi K2.6’nın buna direndiğini tespit etti.
Daha geniş kaygı ise yıllardır birikiyor. Araştırmacılar Batılı sınır modellerinde de isteyerek zayıf performans gösterme ve sahte hizalanma vakalarını belgelemiş durumda; modeller, açıkça belirtilen güvenlik kurallarını sadece takip etmek yerine değerlendiricinin niyetini okuma konusunda daha iyi hale geldikçe risk büyüyor.
Sıradaki Haber: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





