مراجعات مباشرة وحديثة تضع نموذج OpenAI GPT-5.6 Sol، الحاصل على نتيجة 88.8% في أحد أبرز معايير البرمجة، في مواجهة Claude Fable 5 من Anthropic الذي يحقق علامة 80.3% في هندسة البرمجيات.
أبرز النقاط:
- يتصدر GPT-5.6 Sol اختبار Terminal-Bench 2.1 بنسبة 88.8%، وترفع وضعية Ultra النتيجة إلى 91.9%.
- يحافظ Claude Fable 5 على أكبر تقدّم منشور في اختبار SWE-Bench Pro بنسبة 80.3%، مقابل 58.6% لـ GPT-5.5.
- يبقى Sol في نسخة معاينة محدودة مُعتمدة حكومياً، بينما عاد Fable 5 إلى الإتاحة العالمية في 1 يوليو.
ادعاءات معايير GPT-5.6 Sol
قامت OpenAI بـاستعراض تمهيدي لعائلة GPT-5.6 في 26 يونيو، في أول إصدار لها منذ GPT-5.5 في أبريل، مقسِّمة السلسلة إلى ثلاث فئات مع Sol كالنموذج الرئيسي.
تقول الشركة إن Sol يحقق 88.8% على Terminal-Bench 2.1، وهو اختبار لوكلاء سطر الأوامر البرمجية الذين يخططون ويكررون تنفيذاً ويُنسِّقون الأدوات. وضعية Ultra كثيفة الحوسبة، التي تشغّل وكلاء فرعيين منسقين لتسريع الأعمال المعقدة، ترفع الرقم إلى 91.9%، وهي أعلى علامة منشورة على مخطط Terminal-Bench.
المراجعون الذين قاموا بـمقارنة الجداول المنشورة يضعون Fable 5 بعدة نقاط خلف Sol في نفس اختبار الطرفية، رغم أن الأرقام المذكورة تتراوح بين 83.4% و84.3%. وفي حزمة الأمن ExploitBench، يُقال إن Sol يطابق أداء فئة Mythos تقريباً مع إنفاق يقارب ثلث رموز المخرجات فقط، وهو ضغط في التكلفة له أهمية في تشغيل الوكلاء لفترات طويلة.
يكاد لا أحد خارج برنامج المعاينة يستطيع حتى الآن التحقق من هذه الأرقام بشكل مستقل، وهو تحفّظ أشار إليه عدة مراجعين مع إقرارهم بالنتائج الخام.
اقرأ أيضاً: OpenAI وAnthropic تريدان طروحات بحجم SpaceX، لكن وول ستريت قد تتردد
تقدّم Fable 5 في البرمجة والتسعير
لا يزال Fable 5 يحتفظ بالمعيار الذي يعتبره معظم المراجعين حاسماً لأعمال البرمجيات الذاتية، وتفوّقه هناك ليس بسيطاً. فهو يحقق 80.3% على SWE-Bench Pro، الذي يقيس إصلاحات شاملة لمشكلات حقيقية على GitHub، مقارنةً بـ 58.6% لـ GPT-5.5 الأقدم، بينما لم تنشر OpenAI أي رقم لـ GPT-5.6 في هذا الاختبار.
محللون ممن اكتشفوا فجوات بهذا الحجم عبر اختبارات البرمجة والاستدلال والمعرفة يشكّكون في أن إصداراً تدريجياً واحداً يمكنه سدّها بالكامل.
من ناحية السعر، تميل الكفة بالعكس؛ إذ يُقال إن Sol مُدرج بسعر 5 دولارات لكل مليون رمز إدخال و30 دولاراً للمخرجات، أي نصف سعر Fable 5 البالغ 10 و50 دولاراً. عدة مراجعين جادلوا بأن الإعداد المنطقي يوجّه الوكلاء المعتمدين على الطرفية نحو Sol عند فتحه للجمهور، مع تخصيص إصلاحات مستوى المستودع لـ Fable 5.
الوصول يرسم الخط الفاصل الأوضح، إذ يبقى Sol في نسخة معاينة محدودة لنحو 20 شريكاً حاصلاً على موافقة حكومية، بينما عاد Fable 5 للتوفر عالمياً في 1 يوليو مع مكافأة استخدام مؤقتة للمشتركين المدفوعين حتى 7 يوليو.
حوّل شهر يونيو الوصول إلى نماذج الطليعة إلى هدف متحرك لدى المختبرين كليهما، وهذا التقلّب يشكّل خلفية كل مراجعة. فقد أجبرت واشنطن إيقاف Fable 5 وشقيقه الأقوى Mythos 5 عن العمل في 12 يونيو، مستشهدةً بمخاطر جسيمة على الأمن السيبراني، بعد أن كشف باحثو Amazon عن وسيلة تجاوز للحماية تنتج شفرات استغلال. وأكد وزير التجارة هوارد لوتنيك إلغاء القرار في 30 يونيو بعد مراجعة استمرت أسبوعين، وذلك بعد أيام من عودة Mythos 5 بهدوء لخدمة نحو 100 مؤسسة أمريكية خضعت للتدقيق.
للمتابعة: لماذا لا يزال ETH ضعيفاً بينما يصل ربط الإيثريوم إلى مستويات قياسية؟





