نموذج كلود أوبوس 4.8 يتصدر مؤشر الذكاء فيما يهيمن ميثوس على الاختراقات

Anthropic released its newest model, Claude Opus 4.8, هذا الأسبوع مع تقدّم طفيف في أحد مقاييس الذكاء، لكنه يتأخر عن نظام Mythos المقيّد في كتابة ثغرات البرمجيات.

النقاط الرئيسية:

يتصدر كلود أوبوس 4.8 بصعوبة مؤشر الذكاء لتحليل الذكاء الاصطناعي بدرجة 61.4، متقدمًا قليلاً على GPT-5.5 الذي حقق 60.2.

في اختبارات أنثروبيك الداخلية، أنشأ ميثوس ثغرات فعالة لمتصفح فايرفوكس على 70.8٪ من الأهداف، مقابل 8.8٪ لأوبوس 4.8.

يظل ميثوس مقتصرًا على شركاء مشروع غلاسوينغ المعتمدين، بينما يُطرح أوبوس 4.8 بالسعر نفسه لسلفه.

تفوّق أوبوس 4.8 في الاختبارات القياسية

أطلقت الشركة أوبوس 4.8 هذا الأسبوع وسعّرت استخدامه بـ 5 دولارات لكل مليون رمز إدخال، و25 دولارًا لكل مليون رمز إخراج، محافظِة على الكلفة عند مستوى نموذج Opus 4.7 السابق.

يشير مختبِرون مستقلون إلى أن النموذج يتصدر الآن مؤشر الذكاء لتحليل الذكاء الاصطناعي بدرجة 61.4، وهو متوسط عشر تقييمات، متقدمًا مباشرة على GPT-5.5 الذي سجّل 60.2. وتصف أنثروبيك هذا التحديث بأنه خطوة متواضعة وتدريجية، لا قفزة جيلية كما قد يوحي الاسم.

في البرمجة المعتمدة على الوكلاء، يحقق أوبوس 4.8 نتيجة 69.2٪ على اختبار SWE-bench Pro، وهو معيار يطلب من النموذج إصلاح أعطال حقيقية داخل مستودعات أكواد ضخمة، بينما يصل GPT-5.5 إلى 58.6٪.

يتقارب النظامان تقريبًا في أسئلة العلوم بمستوى الدراسات العليا، حيث يقترب كلاهما من 94٪، ويتقدم أوبوس 4.8 بفارق ضئيل في اختبار واسع للتفكير المنطقي كان أسلافه متأخرين فيه.

يحتل ميثوس مرتبة أعلى من كليهما في أصعب الأعمال الهندسية، مسجلًا 77.8٪ على معيار الترميز نفسه، ويفوز بهامش أوسع في المهام التي تمزج بين الكود ولقطات الشاشة. تقيِّد أنثروبيك ميثوس بمجموعة مختارة من الشركاء ضمن برنامج مشروع غلاسوينغ، بدلًا من بيعه على نطاق مفتوح. وهي تتتقاضى 25 و125 دولارًا لكل مليون رمز في مرحلة المعاينة، أي خمسة أضعاف تعرفة أوبوس.

Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

هيمنة ميثوس في الأمن السيبراني

تظهر أوسع فجوة في مجال الأمن الهجومي.

عند إيقاف آليات الحماية، أنتج ميثوس ثغرات كاملة عاملة على 70.8٪ من أهداف فايرفوكس في تقييمات أنثروبيك نفسها، بينما لم يتجاوز أوبوس 4.8 نسبة 8.8٪.

في اختبار منفصل مستند إلى كود مفتوح المصدر، فشل أوبوس 4.8 في تحقيق أي نتيجة على 61.5٪ من الأهداف، أي أكثر من ضعف معدل الإخفاق البالغ 23.3٪ الذي سجّله ميثوس.

في تجربة عامة متعددة النماذج أجراها Berkeley RDI، جرى إقران كل نظام بوكيله الخاص للبرمجة عبر 898 ثغرة من العالم الواقعي، حيث كتب ميثوس 157 ثغرة عاملة مقابل 120 لـ GPT-5.5.

احتفظ GPT-5.5 بتفوق في استغلالات نواة أنظمة التشغيل، متقدمًا على ميثوس بـ 22 مقابل 12 في هذا الجزء الضيق. كما وضعه معهد أمن الذكاء الاصطناعي في المملكة المتحدة متقدمًا قليلًا على ميثوس في مهام الأمن السيبراني المتقدمة، بنسبة 71.4٪ مقابل 68.6٪.

كشفت أنثروبيك عن ميثوس في أبريل بعد أن اكتشف النموذج آلاف الثغرات غير المعروفة سابقًا عبر أنظمة تشغيل رئيسية وكل متصفحات الويب الرائدة، مع الإبلاغ عن مئات الثغرات في فايرفوكس وحده. ثم امتنعت الشركة عن طرحه للعامة، خشية أن تُستخدم مهاراته في كتابة الثغرات لمساعدة المهاجمين بالقدر نفسه الذي تساعد به المدافعين الذين صُمم لدعمهم.