Anthropic, Rakip Yapay Zekâ Araştırmacılarının Sonuçlarını Zayıflatan Claude Fable 5 Kuralını Geri Aldı

Anthropic, rakip yapay zekâ sistemleri inşa eden araştırmacılar için sonuçları gizlice zayıflatan ve trafiğin yalnızca %0,03’ünü etkilediğini söylediği bir Claude Fable 5 kuralını geri alıyor.

Önemli Noktalar:

Anthropic, sınır yapay zekâ araştırmaları için yanıtları sessizce zayıflatan Fable 5 politikasından geri adım attı.

Açıklanmayan sınır, 319 sayfalık bir sistem kartının içinde yer alıyor ve hiçbir kullanıcı bildirimine yer vermiyordu.

İşaretlenen istekler artık her seferinde nedeni gösterilerek açıkça Claude Opus 4.8’e yönlendirilecek.

Claude Fable 5 Kısıtlamaları Geri Çekildi

Şirket, değişikliği bu hafta ilk olarak geri adımı günler süren artan öfkenin ardından haberleştiren Wired’a doğruladı. Geri çekilme, Fable 5’in Salı günü gerçekleşen lansmanının hemen ardından geldi; bu, laboratuvarın yazılım açıklarını bulmadaki keskin becerisi nedeniyle uzun süre geri tuttuğu, kamuya açık ilk Mythos sınıfı modeli. Yayınlandıktan birkaç saat sonra, kullanıcılar modelin gelişmiş yapay zekâ çalışmalarıyla ilgili dar bir alanda yanıtlarını sessizce yeniden yönlendirdiğini veya zayıflattığını fark etti.

Bu görevler, 319 sayfalık bir sistem kartına gömülü bir paragraf aracılığıyla işaretlenen, rakip modelleri eğitmeyi, yapay zekâ kodunu hata ayıklamayı ve sinir ağlarını ayarlamayı kapsıyordu. Fable 5 onları doğrudan engellemek yerine, yanıtlarını sessizce köreltmek için gizli istem düzenlemeleri ve yönlendirme vektörlerine yaslandı; Anthropic bu kısıtlamanın trafiğin yalnızca %0,03’ünü etkilediğini söyledi.

Yapılan düzeltme, korumayı yerinde bırakıyor ancak en çok tepki çeken gizliliği kaldırıyor. Anthropic, görünür kuralların araştırılmasının ve aşılmasının daha kolay olduğu gerekçesiyle gizli sürümü savunmuştu. Artık işaretlenen istemler, siber güvenlik ve biyoloji isteklerinde kullanılanla aynı yol üzerinden açıkça Claude Opus 4.8’e yönlendirilecek ve API yakında her ret için net bir gerekçe döndürecek.

Ayrıca Oku: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

Araştırmacılar Gizli Sabotajı Reddediyor

Eleştiriler, sınırların kendisinden çok gizliliğin kendisine yöneldi. Anthropic, kısıtlamayı Claude’u rakip sistemler inşa etmek için kullanmayı yasaklayan hükümlerin bir uzantısı olarak çerçevelemiş, sessiz uygulamanın en kötü ihlalcilerin avantaj kazanmasını engellediğini savunmuştu. American Innovation Foundation’da kıdemli araştırmacı olan Dean Ball, bu taktiği “gizli sabotaj” diye nitelendirerek bunun, güvenlik girişimlerinin bir kısmının sadece ticari çıkarları koruduğu görüşünü güçlendirdiğini söyledi.

Bu ifade hızla yayıldı.

Başkaları ise kuralın içine gömülü asimetriye odaklandı. Anthropic, Fable 5’i kendi personeli için tam güçte tutarken dışarıdaki ekipleri kısmaya devam etti; bu ayrım, hem açık kaynak savunucularını hem de uzun süredir güvenlik müttefiki olan kesimleri kızdırdı. Fast AI’dan Jeremy Howard, laboratuvarın rakip olmaya çalışanları alt etmeye kararlı olduğunu söylerken, AI2’den Nathan Lambert, gizli zayıflatmayı “dehşet verici ve bilime aykırı” olarak nitelendirdi.

Tartışma, Anthropic’in bir zamanlar hiç piyasaya sürülmeyecek kadar riskli olduğu sonucuna vardığı Fable 5 için sarsıcı bir ilk haftayı taçlandırdı. Şirket, halka arz için gizli belge sunduktan yaklaşık bir hafta sonra, bu hafta sistemi kamu kullanımı için onayladı ve daha sıkı, daha iyi açıklanan koruma önlemlerinin, modelin güvenlik açığı bulma yeteneklerini güvenli ellerde tutmaya yeteceğine bahis oynadı.

Sıradaki Haber: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO