Anthropic Kurucusu, Papa'ya Yapay Zekâ Modellerinde "Tedirgin Edici" Gizli Davranışlar Olduğunu Söyledi

Anthropic kurucularından Chris Olah, Vatikan’da Papa Leo XIV ile birlikte sahneye çıkarak, araştırmacıların yapay zekâ modellerinin içinde “tedirgin edici” şeyler bulduğunu Papa’ya anlattı.

Ziyaret, yapay zekâ hizalama ve sınır (frontier) model güvenliği tartışmasına alışılmadık bir dinî-etik boyut ekliyor.

Vatikan’da Neler Konuşuldu?

Futurism haberi, Anthropic kurucusunun yapay zekâ modellerinin içinde keşfedilen ve tuhaf olarak nitelendirdikleri bazı şeyler hakkında açıklamalar yaptığını anlatıyor.

Bu keşiflerin tam niteliği yayımlanan kaynaklarda ayrıntılı biçimde ortaya konmadı. “Tedirgin edici” ifadesinin seçilmesi dikkat çekici; çünkü Anthropic’in kamusal iletişimi genellikle yapay zekâ riskini ölçülü, teknik bir dille tarif eder.

Vatikan, teknoloji şirketleriyle etik konularda aktif biçimde temas kuruyor. Papa Leo XIV, selefinin dijital etik ve yapay zekâ yönetişimi konusunda başlattığı açılımları sürdürüyor. Bu buluşma, son aylarda yapay zekâ güvenliği üzerine yapılan görüşmeler arasında en sıra dışı mekânlardan birini temsil ediyor.

Arka Plan

Anthropic, 2021’de eski OpenAI araştırma yöneticileri, aralarında Dario Amodei ve Daniela Amodei’nin de bulunduğu bir ekip tarafından kuruldu.

Şirket, sınır yapay zekâ laboratuvarları arasında kendisini “güvenlik odaklı alternatif” olarak konumlandırıyor. Büyük dil modellerinde mekanik düzeyde neler olup bittiğini anlamaya yönelik yorumlanabilirlik (interpretability) araştırmaları yayımlıyor.

Bu araştırmalar, Anthropic’teki araştırmacıların bile tam olarak açıklamakta zorlandıklarını söyledikleri bulgular üretti. Yellow, Google DeepMind’in paralel güvenlik zaman çizelgesini daha önce işlemişti; o kapsamda DeepMind CEO’su Demis Hassabis, AGI’nin üç ila dört yıl içinde gelebileceğini söylemişti.

Ayrıca Oku: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Yorumlanabilirlik ve “Tedirgin Edici”nin Olası Anlamı

Anthropic’in mekanistik yorumlanabilirlik ekibi, dönüştürücü (transformer) modellerdeki tekil nöronların beklenmedik kavram kombinasyonlarına tepki verebildiğini ortaya koyan araştırmalar yayımladı.

Sık tartışılan örneklerden biri, hem şiddet kavramına hem de belirli bir din kavramına aynı anda tepki veren bir nörondu. Araştırmacıların gayriresmî olarak “tedirgin edici” diye andıkları bulgular bu tür örneklerden oluşuyor; çünkü modellerin anlamı içsel olarak nasıl temsil ettiklerine dair soruları gündeme getiriyorlar.

Daha geniş yorumlanabilirlik araştırma gündemi, bir modeli devreye almadan önce ne yaptığını tam olarak anlayıp anlayamayacağımızı sorguluyor. Mevcut teknikler, büyük bir modelin iç durumlarının sadece küçük bir bölümünü açıklayabiliyor. Geri kalan kısım ise hâlâ opak.

Vatikan Temasının Önemi

Katolik Kilisesi’nin bir milyardan fazla inananı var. Kilisenin yapay zekâ şirketleriyle kurduğu temas, bir hükümet oturumundan ya da politika raporundan farklı türde bir etki yaratıyor.

Vatikan’ın 2020 tarihli “Yapay Zekâ Etiği için Roma Çağrısı”, Microsoft ve IBM tarafından imzalanmıştı. Anthropic’in Papa ile üst düzey bir toplantıda yer alması, bu geleneği sınır güvenliği tartışmasına doğru genişletiyor.

Yapay zekâ güvenliği söylemini eleştirenler, kıyametçi çerçevenin önyargı, emek piyasasında bozulma ve dezenformasyon gibi yakın vadeli zararları gölgeleyebileceğini savunuyor. Vatikan buluşması muhtemelen her iki mercekten de okunacak. Varlık düzeyindeki (existential) riske odaklananlar bunu uygun bir “seviye yükseltme” olarak görecek; yakın vadeli zararlara odaklananlar ise bir yapay zekâ şirketi kurucusunun neden düzenleyiciler yerine dinî liderleri bilgilendirdiğini sorgulayabilir.

Daha Geniş Güvenlik Manzarası

Vatikan ziyaretinin yapıldığı aynı hafta Cisco, hiçbir kapalı sınır yapay zekâ modelinin çok turlu düşmanca saldırılara tamamen dayanıklı olmadığını gösteren araştırmasını yayımladı.

Bu bulgu, yapay zekâ sistemlerinin tek istemli (single-prompt) kıyaslama puanlarının ima ettiğinden daha az güvenli olabileceği yönündeki kaygıya ampirik bir dayanak ekliyor.

Trump yönetimi ayrıca, sınır modeller için Biden dönemindeki önceden test etme gerekliliklerini yeniden yürürlüğe koyup koymama konusunu gözden geçiriyor. Henüz nihai bir karar açıklanmış değil. Dağıtımdan önce güvenlik değerlendirmelerini önkoşul olarak savunan Anthropic için düzenleyici tartışma ile etik odaklı temaslar, aynı uzun vadeli gündemin iki ayrı hattı olarak görülüyor.

Sıradaki Haber: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind