Anthropic, Güvenlik Önlemleri Yetişince Claude Mythos'u Kamuya Açacak; Belki 12 Ay İçinde

Anthropic, Mythos, its vulnerability-hunting AI modeline kamuya erişim vermeyi planladığını, ancak bunu yalnızca henüz var olmayan güvenlik önlemlerini inşa ettikten sonra yapacağını söylüyor.

Öne çıkan noktalar:

Anthropic, Mythos sınıfı modelleri, önce ABD ve müttefik hükümetlere erişimi genişlettikten sonra, yaygın biçimde yayımlamayı planlıyor.

Şirket, kendisi de dâhil olmak üzere hiçbir kurumun kötüye kullanımı durdurabilecek kadar güçlü güvenlik önlemleri inşa etmediğini kabul ediyor.

Mythos, 1.000 açık kaynaklı proje genelinde 23.000’den fazla sorunu işaretledi; bunların 6.202’si yüksek ya da kritik düzeyde kusur olarak sınıflandırıldı.

Anthropic Mythos’un Yayın Planı

Anthropic, planını sınırlı erişimli güvenlik programı Project Glasswing için yayımladığı bir güncellemede doğruladı; ayrı bir rapor ise zaman çizelgesinin belirsizliğine dikkat çekti.

Şirket, programı genişletmek için önce ABD ve müttefik hükümetlerle çalışacağını söyledi. “Mythos sınıfı modeller”in daha geniş çaplı bir yayını ise buna yakın bir gelecekte takip edecek.

Anthropic, riskler konusunda açık konuştu. Belirttiğine göre, hiçbir şirket –kendisi de dâhil– modeli kötüye kullanımdan ve ağır zararlardan koruyacak kadar güçlü güvenlik önlemleri geliştirmiş değil.

Buna rağmen şirket, benzer araçların hızla yayılmasını bekliyor ve Mythos seviyesindeki modellerin altı ila 12 ay içinde geniş erişilebilirliğe ulaşacağını öngörüyor.

Mythos, Nisan ayında ilk kez tanıtıldı. Anthropic, testlerde çalışır durumdaki istismar kodlarını üretme oranının yüzde 72,4 olduğunu; önceki bir Claude modelinde ise bu oranın neredeyse sıfır olduğunu belirtti.

Ayrıca bkz.: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Mythos’un Tespit Ettiği Açıklar

Tanıtımından bu yana model, 1.000’den fazla açık kaynaklı projeyi taradı ve bunlar arasında 6.202 tanesi yüksek ya da kritik şiddette olmak üzere 23.019 sorun ortaya çıkardı.

Bunlardan biri özellikle öne çıktı. Mythos, milyarlarca cihaz tarafından kullanılan wolfSSL kriptografi kütüphanesinde, saldırganların sertifika taklit ederek bankaları ya da e-posta sağlayıcılarını taklit etmesine olanak verebilecek bir açık tespit etti. Bu açık daha sonra yamalandı.

Rapor akını, bu sorunları düzeltmekle yükümlü kişileri zorladı. Açık kaynak bakıcıları, bildirilen açıkların hacminin kendi kapasitelerini aştığını söyleyerek Anthropic’ten açıklama hızını düşürmesini istedi.

Araştırmacılar daha derin bir dengesizlik görüyor. Anthropic, artık hata bulmanın onları düzeltmekten çok daha kolay hâle geldiğini savunuyor ve şirket, bakımcıların biriken işleri önceliklendirmesine yardımcı olmak için Open Source Security Foundation’ın Alpha-Omega projesiyle ortaklık kurdu.

Claude Mythos sistem kartı, uzun vadede yapay zekânın savunmacıların lehine çalışacağını öngörüyor; ancak Anthropic, şu an için saldırganların avantajlı olabileceğini kabul ediyor.

Mythos was first revealed olduğunda Anthropic, aralarında Apple, Microsoft ve Google’ın da bulunduğu 50’den fazla kuruluşa, yaklaşık 100 milyon dolarlık kullanım kredisiyle birlikte erişim verdi; ancak yazılım açıklarının silaha dönüştürülebilme kapasitesi nedeniyle modeli kamuya açmadı.

Sıradaki Haber: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High