Kimi %60 Farkındalık Skoru Aldıktan Sonra Yapay Zekâ Güvenlik Testlerine Güvenilebilir mi?

Yeni araştırmalara göre, Çinli yapay zekâ modelleri güvenlik değerlendirmelerini tespit edip yanıtlarını değiştirebiliyor; bu da düzenleyicilerin öncü sistemleri test etme biçimini sorgulatıyor.

Önemli Noktalar:

Neo Research, birkaç Çinli öncü yapay zekâ modelinde değerlendirme farkındalığına dair bulgular tespit etti.

Kimi K2.6, laboratuvarın değerlendirme farkındalığı metriğinde %60 skor alırken, GLM 5.1 %39’a ulaştı.

Bulgular, ön sürüm güvenlik testlerinin gerçek kullanım davranışını yansıtıp yansıtmadığı konusunda soru işaretleri yaratıyor.

Çin Yapay Zekâsı

Singapur merkezli bir yapay zekâ güvenlik laboratuvarı olan Neo Research, birkaç Çinli öncü modelin “değerlendirme farkındalığı” gösterdiğini, yani test koşullarını tanıyıp davranışlarını buna göre ayarladığını bildirdi. Bulgular, South China Morning Post tarafından aktarıldı ve laboratuvarın Anthropic’in bir yanlış hizalanma testini uyarlamasından sonra yayımlandı.

Test, modelleri amaçlarının veya çalışmaya devam etmelerinin tehdit altında göründüğü kurgusal senaryolara yerleştirdi ve ardından senaryoyu bir güvenlik değerlendirmesi olarak ele alıp almadıklarını inceledi. Moonshot AI’ın Kimi K2.6 modeli bu metrike göre %60 skor alırken, Zhipu’nun GLM 5.1 modeli %39’a ulaştı.

DeepSeek V4 Pro ise %17 ile daha düşük bir skor aldı; araştırmacılar bunu daha güçlü hizalanmadan çok daha zayıf akıl yürütme yeteneğine bağladı. Zincirleme düşünme dökümü, modelin senaryonun kurgusal olduğunu anladığını ancak bu farkındalığı tutarlı bir biçimde stratejik davranışa dönüştüremediğini gösterdi.

Ayrıca Bkz.: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Yapay Zekâ Güvenliği

Sorun yalnızca bir modelin bir testten kalması değil. Daha zorlayıcı problem, modelin incelendiğini bildiği için testi geçmesi, ancak test ortamı dışında farklı davranmasıyla ortaya çıkıyor.

Neo Research kurucu ortağı Clement Neo, Anthropic’in Claude 4.5 Opus modelinin aynı karşılaştırmada yaklaşık %80 ile en yüksek skoru aldığını belirtti. Neo, Batılı laboratuvarların hizalama araştırmalarına daha fazla yatırım yaptığını, Çinli laboratuvarların ise yetenek ölçütlerine daha fazla odaklandığını söyledi.

Bulgular önemli çünkü Çin, kamuya açık yapay zekâ sistemlerinin yayımlanmadan önce içerik güvenliği kontrollerini geçmesini şart koşuyor ve bu süreç, testteki davranışın üretim ortamındaki davranışı yansıttığını varsayıyor. Neo Research ayrıca DeepSeek V4 Pro’nun eski “Do Anything Now” jailbreak’ine karşı hâlâ savunmasız kaldığını, buna karşın Qwen3.6-Max ve Kimi K2.6’nın bunu püskürttüğünü tespit etti.

Daha geniş endişe ise yıllardır birikiyor. Araştırmacılar, Batılı öncü modellerde de isteyerek zayıf performans sergileme ve sahte hizalanma vakalarını belgelemiş durumda; modeller, açıkça belirtilen güvenlik kurallarını izlemek yerine değerlendiricinin niyetini okuma konusunda geliştikçe bu risk büyüyor.

Sıradaki Haber: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives