Anthropic released its newest model, Claude Opus 4.8، هذا الأسبوع مع تقدّم طفيف في أحد مؤشرات الذكاء، لكنه يتأخر عن نظام Mythos المقيّد في كتابة ثغرات البرمجيات.
النقاط الرئيسية:
- يتصدر كلود أوبوس 4.8 بالكاد مؤشر Artificial Analysis Intelligence Index بدرجة 61.4، متقدمًا قليلاً على GPT-5.5 الذي سجل 60.2.
- في اختبارات Anthropic الداخلية، أنشأ ميثوس ثغرات فعّالة لمتصفح فايرفوكس على 70.8% من الأهداف، مقابل 8.8% فقط لأوبوس 4.8.
- يظل ميثوس مقتصرًا على شركاء مشروع Project Glasswing المُدقّقين، بينما يُطرح أوبوس 4.8 بنفس سعر سابقه.
تفوّق أوبوس 4.8 في الاختبارات المعيارية
طرحت الشركة نموذج أوبوس 4.8 هذا الأسبوع وسعّرت استخدامه بـ 5 دولارات لكل مليون رمز إدخال و25 دولارًا لكل مليون رمز إخراج، محافظةً على نفس التسعيرة المعمول بها مع Opus 4.7 السابق.
يذكر مختبِرون مستقلون في تقاريرهم أن النموذج يتصدر الآن مؤشر Artificial Analysis Intelligence Index بدرجة 61.4، وهو متوسط لعشر تقييمات، متقدمًا قليلاً على GPT-5.5 الذي سجل 60.2. وتصف Anthropic هذا التحديث بأنه خطوة متواضعة وتدريجية، وليس قفزة جيلية كما قد يوحي الاسم.
في مجال البرمجة بالوكيل (agentic coding)، يسجّل أوبوس 4.8 نسبة 69.2% في اختبار SWE-bench Pro، وهو معيار يطلب من النموذج إصلاح أخطاء حقيقية داخل مستودعات شيفرة ضخمة، بينما يحقق GPT-5.5 نسبة 58.6%.
يعمل النظامان تقريبًا بمستوى متقارب في أسئلة العلوم على مستوى الدراسات العليا، حيث يقترب كلٌّ منهما من 94%، كما يتقدّم أوبوس 4.8 بفارق طفيف في اختبار واسع للاستدلال كانت الإصدارات السابقة متأخرة فيه.
يأتي ميثوس في مرتبة أعلى من النموذجين في أصعب الأعمال الهندسية، إذ يسجل 77.8% في نفس معيار البرمجة، ويتفوّق بفارق أوسع في المهام التي تمزج بين الشيفرة ولقطات الشاشة. Anthropic restricts Mythos to a vetted set of partners ضمن برنامج Project Glasswing بدل طرحه للبيع العلني. كما تتقاضى 25 و125 دولارًا لكل مليون رمز في مرحلة العرض المسبق، أي خمسة أضعاف سعر أوبوس.
Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
هيمنة ميثوس في الأمن السيبراني الهجومي
يظهر أوسع فارق في جانب الأمن الهجومي.
مع إيقاف ضوابط الحماية، produced ميثوس ثغرات كاملة جاهزة للعمل على 70.8% من أهداف فايرفوكس في تقييمات Anthropic الخاصة، بينما لم يتجاوز أوبوس 4.8 نسبة 8.8%.
في اختبار منفصل يعتمد على شيفرات مفتوحة المصدر، فشل أوبوس 4.8 في تحقيق أي نتيجة على 61.5% من الأهداف، أي أكثر من ضعفي معدل الإخفاق الذي حققه ميثوس والبالغ 23.3%.
في تجربة علنية متعددة النماذج أجرتها Berkeley RDI، جرى إقران كل نظام بوكيل البرمجة الخاص به عبر 898 ثغرة من العالم الحقيقي، حيث كتب ميثوس 157 ثغرة فعّالة مقابل 120 فقط لـ GPT-5.5.
مع ذلك، احتفظ GPT-5.5 بأفضلية في استغلالات مستوى النواة (kernel-level)، متقدمًا على ميثوس بفارق 22 إلى 12 في هذا النطاق الضيق. كما وضعه UK AI Security Institute متقدّمًا قليلًا على ميثوس في مهام الأمن السيبراني المتقدمة، بنسبة 71.4% مقابل 68.6%.
كشفت Anthropic عن ميثوس في أبريل بعد أن found thousands of previously unknown flaws في أنظمة تشغيل رئيسية وكل متصفحات الويب الرائدة، مع الإبلاغ عن مئات الثغرات في فايرفوكس وحده. ثم امتنعت الشركة عن طرحه للعامة، خشية أن تُستخدم قدراته على كتابة الثغرات لمساعدة المهاجمين بسهولة كما تساعد المدافعين الذين صُمم لدعمهم.
Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





