مراجعات جديدة للمقارنة المباشرة تضع GPT-5.6 سول من OpenAI، الحاصل على نسبة 88.8% في معيار رائد لاختبار قدرات البرمجة، في مواجهة كلود فابل 5 من Anthropic الذي يحقق علامة 80.3% في هندسة البرمجيات.
نقاط رئيسية:
- يتصدر GPT-5.6 سول اختبار Terminal-Bench 2.1 بنسبة 88.8%، بينما ترفع وضعية Ultra النتيجة إلى 91.9%.
- يحتفظ كلود فابل 5 بأوسع تقدّم منشور في SWE-Bench Pro بنسبة 80.3%، مقابل 58.6% لـ GPT-5.5.
- يظل سول في مرحلة معاينة محدودة بموافقة حكومية، بينما عاد فابل 5 إلى الإتاحة العالمية في 1 يوليو.
ادعاءات معايير GPT-5.6 سول
قامت OpenAI بـإطلاق معاينة لعائلة GPT-5.6 في 26 يونيو، في أول إصدار منذ GPT-5.5 في أبريل، مع تقسيم السلسلة إلى ثلاث فئات يكون فيها سول هو النموذج الرئيسي.
تقول الشركة إن سول يحقق نسبة 88.8% على Terminal-Bench 2.1، وهو اختبار لوكلاء سطر الأوامر القادرين على التخطيط والتكرار وتنسيق الأدوات. وضعية Ultra كثيفة الحوسبة، التي تُشغّل وكلاء فرعيين منسّقين لتسريع المهام المعقّدة، ترفع النتيجة إلى 91.9%، وهي أعلى علامة منشورة على مخطط Terminal-Bench.
المراجعون الذين قاموا بـمقارنة المخططات المنشورة يضعون فابل 5 بعد سول بعدة نقاط في الاختبار الطرفي نفسه، رغم أن الأرقام المذكورة تتراوح بين 83.4% و84.3%. وفي حزمة الأمان ExploitBench، يُقال إن سول يطابق أداء فئة Mythos مع استهلاك نحو ثلث عدد رموز الإخراج فقط، وهو خفض في التكلفة له أهمية في تشغيل الوكلاء لفترات طويلة.
يكاد لا أحد خارج برنامج المعاينة يستطيع حتى الآن التحقق من هذه الأرقام بشكل مستقل، وهو تحفّظ أشار إليه عدة مراجعين مع إقرارهم بالدرجات الخام.
اقرأ أيضاً: OpenAI وAnthropic تسعيان لاكتتابات بحجم SpaceX، لكن وول ستريت قد ترفض
تقدّم فابل 5 في البرمجة والتسعير
لا يزال فابل 5 يمتلك المعيار الذي يعتبره معظم المراجعين حاسماً للعمل البرمجي الذاتي، وتفوّقه هناك ليس بسيطاً. فهو يحقق 80.3% على SWE-Bench Pro، الذي يقيس الإصلاحات الشاملة لمشكلات حقيقية على GitHub، مقابل 58.6% لـ GPT-5.5 الأقدم، ولم تنشر OpenAI أي رقم يخص GPT-5.6 على هذا الاختبار.
المحللون الذين اكتشفوا فجوات بهذا الحجم عبر اختبارات البرمجة والاستدلال والمعرفة يشكّكون في أن إصداراً ترقيعياً واحداً يمكنه سدها بالكامل.
التسعير يميل في الاتجاه المعاكس، إذ يُذكر أن سول مُدرج بسعر 5 دولارات لكل مليون رمز إدخال و30 دولاراً للإخراج، أي نصف سعر فابل 5 البالغ 10 دولارات و50 دولاراً. عدة مراجعين جادلوا بأن الإعداد المنطقي يوجّه الوكلاء المعتمدين على الطرفية نحو سول عند فتحه، ويوجه الإصلاحات على مستوى المستودعات نحو فابل 5.
الوصول يرسم الحد الأوضح، إذ يظل سول في معاينة محدودة لنحو 20 شريكاً حاصلاً على موافقة حكومية، بينما عاد فابل 5 للتوفر عالمياً في 1 يوليو مع مكافأة استخدام مؤقتة للمشتركين المدفوعين حتى 7 يوليو.
حوّل شهر يونيو الوصول إلى النماذج المتقدمة إلى هدف متحرك لكلا المختبرين، وهذا التقلّب يحيط بكل مراجعة. فقد أجبرت واشنطن إيقاف فابل 5 وشقيقه الأقوى Mythos 5 في 12 يونيو، مستشهدة بمخاطر جسيمة على الأمن السيبراني، بعد أن كشف باحثو Amazon عن ثغرة jailbreak تنتج شيفرات استغلال. وأكد وزير التجارة هوارد لوتنيك التراجع عن القرار في 30 يونيو بعد مراجعة استمرت أسبوعين، وذلك بعد أيام من عودة Mythos 5 بهدوء إلى حوالي 100 مؤسسة أمريكية خضعت للتدقيق.
اقرأ التالي: لماذا ما زال ETH ضعيفاً بينما يصل تخزين إيثريوم إلى مستويات قياسية؟





