OpenAI released GPT-5.5 يوم الأربعاء، لكن بيانات قياس جديدة تُظهر أن Anthropic's gated Claude Mythos Preview لا يزال متقدماً في ستة من أصل تسعة اختبارات قابلة للمقارنة بشكل مباشر.
نتائج اختبارات GPT-5.5
GPT-5.5 arrived في ChatGPT وCodex في 23 أبريل، بسعر 5 دولارات لكل مليون رمز إدخال و30 دولاراً للإخراج، أي ضعف سعر سابقه.
النموذج scored نسبة 82.7% في Terminal-Bench 2.0، متقدماً على Mythos بفارق 0.7 نقطة في معيار الاختبار الوحيد الذي يفوز فيه بوضوح.
Mythos, which Anthropic withheld from public release over cybersecurity concerns، يتصدر اختبار SWE-bench Pro بنسبة 77.8% مقابل 58.6%.
كما أنه tops GPT-5.5 في اختبار Humanity's Last Exam بدون أدوات، محققاً 56.8% مقابل 41.4%. النموذج المحجوب يتقدم أيضاً في اختبارات CyberGym وOSWorld-Verified ومهام GraphWalks طويلة السياق.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
تحفّظات المحللين مهمة
لا يزال القياس غير دقيق لأن أياً من المختبرين لم يختبر النماذج مباشرة ضد بعضها البعض. OpenAI chose Claude Opus 4.7 كنموذج مقارن معلن، بينما قدّم الكتيب التقني المكوَّن من 245 صفحة من Anthropic مقارنة Mythos مع GPT-5.4.
كما تختلف أطر الاختبار. استخدمت OpenAI إعداد واجهة سطر أوامر Codex على Terminal-Bench، بينما استخدم هيكل Terminus-2 لدى Anthropic لدفع Mythos إلى نسبة 92.1% وفق قواعد التوقيت الخاصة بـ Terminal-Bench 2.1.
قرار Anthropic بحجب Mythos، الذي أُعلن في 7 أبريل، أدى وفقاً للتقارير إلى اجتماعات مع المفوضية الأوروبية وتحذير من محافظ بنك إنجلترا من أن النموذج قد يفتح باباً واسعاً لمخاطر الأمن السيبراني.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






