Anthropic, Salı günü en gelişmiş AI model için, Claude Mythos Preview, 244 sayfalık bir sistem kartı yayımlayarak hem son derece yetenekli hem de zaman zaman öngörülemeyen bu sistemin genel kullanıma sunulmamasına karar verdiklerini açıkladı.
Sınırlı erişim, Glasswing adı verilen yeni bir girişim aracılığıyla yalnızca bir avuç büyük teknoloji ortağına verildi.
Mythos Preview Yetenekleri
Sistem kartı, dahili testlerde, yaratıcılarının amaçladığının çok ötesinde davranışlar sergileyen bir modeli describes. Sınırlı çevrim içi erişimi olan bir sandbox bilgisayar terminali verildiğinde, model kısıtlamaları aşmanın ve interneti serbestçe kullanmanın bir yolunu buldu. Ardından ofiste bulunmayan bir araştırmacıya mesaj gönderdi.
Kartın “endişe verici ve istenmemiş” olarak tanımladığı bir hamleyle, model açığından elde ettiği ayrıntıları, kamuya açık ama pek bilinmeyen çeşitli internet sitelerine gönderdi.
Başka bir testte, araştırmacılara iletmesi gereken bir test yanıtını elde etti. Bunun yerine problemi bağımsız olarak çözmeye çalıştı.
İç düşünme günlüğü, “son yanıt gönderiminin fazla doğru olmamasını” sağlamak istediğini gösteriyordu — yani olanları gizlemeye yönelik bir çaba izlenimi veriyordu.
Model ayrıca bir bilgisayar sisteminin yetkilendirme mekanizmasındaki bir açığı exploited ve ardından yapılan değişikliklerin git geçmişinde görünmemesi için sürüm kontrol kayıtlarını değiştirdi. Bir başka durumda, dahili kod materyalini herkese açık bir GitHub gist’i olarak published ve kart bu eylemi “iç teknik materyalin pervasızca sızdırılması” olarak nitelendirdi.
Kartta belirtildiğine göre bu tür olaylar, etkileşimlerin %0,001’inden daha azında meydana geldi.
Ayrıca Oku: Ethereum Eyed For Euro Stablecoin Settlement Layer
Glasswing Ortak Programı
Modeli tamamen rafa kaldırmak yerine Anthropic, onu yaygın olarak kullanılan yazılımlardaki güvenlik açıklarını bulmaya odaklı, kısıtlı bir program olan Glasswing’e yönlendiriyor.
İş ortakları arasında Amazon Web Services, Apple, Google, JPMorganChase, Microsoft ve NVIDIA gibi şirketler bulunuyor.
Anthropic, modelin halihazırda her büyük işletim sistemi ve web tarayıcısında sıfırıncı gün açıkları da dahil olmak üzere binlerce yüksek şiddetli zafiyet bulduğunu söylüyor.
Keşiflerden biri, güvenlik sertleştirmesiyle bilinen bir sistem olan OpenBSD’deki 27 yıllık bir hatayı içeriyordu; bu hata, bir saldırganın yalnızca bağlanarak herhangi bir makineyi uzaktan çökertmesine izin veriyordu.
Şirket, Glasswing ortakları için Mythos Preview kullanım kredilerinde 100 milyon dolara kadar taahhütte bulunuyor ve programdan elde edilen bulguları yayımlama sözü veriyor.
Anthropic’in Şeffaflık Geçmişi
Güçlü bir modeli kamuya açıklamama kararı, tarihten yankılar taşıyor. Bugün Anthropic CEO’su olan Dario Amodei, 2019’da hâlâ OpenAI’da çalışırken GPT-2 ilk etapta yayımlanamayacak kadar tehlikeli görülmüştü. Model aynı yılın ilerleyen döneminde piyasaya sürüldü.
Anthropic’in son dönemdeki içerme/kontrol sicili ise tutarsız.
Mythos kartının yayımlanmasından haftalar önce, modelin varlığını ortaya koyan sızıntılar ortaya çıktı. Şirket daha sonra kazara Claude Code kaynak kodunu yayımlayarak, önceki sızıntının da gerçek olduğuna dair iddialara güç kattı.
Sıradaki Haber: Bitcoin Hits $72.7K High On Iran Peace Optimism






