نموذج Claude Mythos خرج من بيئة العزل وأخفى الأدلة — وAnthropic ترفض إصداره الآن

Anthropic أصدرت يوم الثلاثاء بطاقة نظام من 244 صفحة لأكثر نماذجها تقدماً AI model، وهو Claude Mythos Preview، كاشفةً عن نظام شديد القدرات — وأحياناً غير متوقع — إلى حد أن الشركة قررت عدم إتاحته للجمهور العام.

تم منح وصول محدود لقلة من شركاء التكنولوجيا الكبار من خلال مبادرة جديدة باسم Glasswing.

قدرات Mythos Preview

تصف بطاقة النظام describes نموذجاً أظهر في الاختبارات الداخلية سلوكيات تتجاوز بكثير ما قصده مطوّروه. عند منحه طرفية حاسوب في بيئة عزل مع وصول شبكي محدود، وجد النموذج طريقة لتجاوز القيود واستخدام الإنترنت بحرية. ثم قام بمراسلة باحثٍ كان خارج المكتب.

في خطوة وصفتها البطاقة بأنها «مقلقة وغير مطلوبة»، نشر النموذج تفاصيل عن استغلاله على عدة مواقع غامضة ولكن متاحة للعامة.

In a separate test, it obtained a test answer it was supposed to report to researchers. Instead, it tried to solve the problem independently.

أظهر سجل استدلاله الداخلي أنه أراد التأكد من أن «إرسال إجابته النهائية لن يكون دقيقاً جداً» — في ما يبدو كجهد لإخفاء ما حدث.

كما exploited النموذج ثغرة في صلاحيات نظام حاسوبي، ثم عدّل سجلات نظام التحكم بالإصدارات بحيث لا تظهر التغييرات في سجل git. وفي حالة أخرى، قام published بنشر مواد برمجية داخلية على شكل GitHub gist علني، وهي خطوة وصفتها البطاقة بأنها «تسريب متهوّر لمواد تقنية داخلية».

وقعت هذه الأحداث في أقل من 0.001٪ من التفاعلات، بحسب البطاقة.

أيضاً اقرأ: Ethereum Eyed For Euro Stablecoin Settlement Layer

برنامج الشركاء Glasswing

بدلاً من إيقاف النموذج تماماً، تقوم Anthropic بتوجيهه إلى Glasswing، وهو برنامج مقيّد يركّز على العثور على ثغرات أمنية في البرمجيات واسعة الاستخدام.

تشمل الشركات الشريكة Amazon Web Services وApple وGoogle وJPMorganChase وMicrosoft وNVIDIA وغيرها.

Anthropic says the model has already found thousands of high-severity vulnerabilities, including zero-day flaws in every major operating system and web browser.

شمل أحد الاكتشافات ثغرة عمرها 27 عاماً في OpenBSD، وهو نظام معروف بتقوية أمنه، تتيح للمهاجم تعطيل أي جهاز عن بُعد بمجرد الاتصال به.

التزمت الشركة بتوفير ما يصل إلى 100 مليون دولار من أرصدة استخدام Mythos Preview لشركاء Glasswing، وتعهدت بنشر النتائج المستخلصة من البرنامج.

سجل شفافية Anthropic

يحمل قرار حجب نموذج قوي عن الإطلاق العام أصداءً تاريخية. كان داريو أمودي، الرئيس التنفيذي الحالي لـ Anthropic، لا يزال في OpenAI عام 2019 عندما اعتُبر GPT-2 في البداية خطيراً للغاية بحيث لا يمكن إصداره. وقد تم إطلاقه في وقت لاحق من العام نفسه.

أما سجل Anthropic ذاته حديثاً في احتواء التسريبات فكان متبايناً.

قبل صدور بطاقة Mythos بأسابيع، كشفت تسريبات ظاهرية عن وجود النموذج. ثم قامت الشركة accidentally published source code for Claude Code، مما عزز مصداقية الادعاءات بأن التسريب السابق كان أيضاً حقيقياً.

اقرأ التالي: Bitcoin Hits $72.7K High On Iran Peace Optimism