تفوق Fable 5 على GPT 5.5 قبل أن يأمره قرار أمريكي بالتوقف عن العمل

Fable 5 من Anthropic تفوق لفترة وجيزة على GPT 5.5 من OpenAI في أهم معايير تقييم نماذج الذكاء الاصطناعي قبل أن يؤدي توجيه لضوابط التصدير الأميركية في 12 يونيو إلى إيقافه عن العمل.

النقاط الرئيسية:

تفوق Fable 5 على GPT 5.5 في Arena وSWE-Bench Pro وأهم اختبارات البرمجة.

لم يكن النموذج متاحًا سوى لثلاثة أيام قبل أن تأمر الحكومة الأميركية شركة Anthropic بتعطيله.

أصبح GPT 5.5 الآن أقوى نموذج متاح افتراضيًا، ليس لأنه تجاوز Fable 5، بل لأن الأخير أُزيل من المنافسة.

إيقاف Fable 5

أصبح Fable 5 أقوى نموذج ذكاء اصطناعي عام بعد إطلاقه في 9 يونيو، متفوقًا على GPT 5.5 في أهم معايير الأداء قبل أن تتدخل الحكومة الأميركية بعد ثلاثة أيام فقط.

جاء النموذج في المركز الأول على منصة Arena، بينما حل GPT 5.5 في المركز الرابع. وعلى اختبار SWE-Bench Pro، حقق Fable 5 نتيجة 80.3% مقابل 58.6% لـ GPT 5.5، أي بفارق يقارب 22 نقطة في مهام الهندسة البرمجية الواقعية.

وكان التفوق واضحًا أيضًا في اختبارات البرمجة. فقد حقق Fable 5 نتيجة 1,665 على Code Arena، متقدمًا بـ 98 نقطة Elo على GPT 5.5، ووصل إلى 29.3% على اختبار FrontierCode Diamond، في حين سجل GPT 5.5 نسبة 5.7% فقط.

امتلك GPT 5.5 أفضلية محدودة في جانب التسعير العملي. فهو يكلّف 5 دولارات لكل مليون رمز إدخال و30 دولارًا لكل مليون رمز إخراج، بينما كانت تكلفة Fable 5 تبلغ 10 دولارات و50 دولارًا على الترتيب، ما جعل نموذج OpenAI أقل تكلفة للاستخدام واسع النطاق.

قدم Fable 5 أيضًا نافذة سياق مكونة من مليون رمز و128,000 رمز للإخراج. وقد أتاحته Anthropic لمشتركي خطط Pro وMax وTeam وEnterprise دون تكلفة إضافية حتى 22 يونيو، قبل أن يؤدي القرار الحكومي إلى إنهاء تلك الفترة مبكرًا.

GPT 5.5 هو الملك

جاء الإيقاف في أعقاب توجيه لضوابط التصدير صدر في 12 يونيو أشار إلى ثغرة في قابلية Fable 5، وعائلة نماذج Mythos 5 الأوسع، للالتفاف على القيود (jailbreak). اعترضت Anthropic على هذا الاستنتاج، مؤكدة أن المشكلة بسيطة، معروفة مسبقًا، وقابلة للتحقيق أيضًا على GPT 5.5 من دون الحاجة إلى أساليب تجاوز خاصة.

النتيجة غير معتادة في سوق الذكاء الاصطناعي.

فقد المطورون الوصول إلى النموذج الذي تصدّر جداول معايير الأداء، بينما أصبح GPT 5.5 أفضل خيار متاح فقط لأن أقرب منافس له أُزيل من الساحة.

يكتسب هذا الفارق أهميته الكبرى في سير عمل البرمجة. ففجوة قدرها 22 نقطة على اختبار SWE-Bench Pro تعني الفرق بين نموذج يمكنه حل نحو أربعة من كل خمسة مشاكل حقيقية في قواعد الشيفرة، وآخر يتعامل مع ما يقرب من ثلاثة من كل خمسة فقط.

كما كشف الأداء القصير لـ Fable 5 عن السرعة التي يمكن أن يتحرك بها خط المقدمة في هذا المجال. فقد أُطلق GPT 5.5 في أواخر أبريل تحت الاسم الداخلي "Spud"، لكن تفوقه استمر فقط إلى أن أتاحت Anthropic وصولًا عامًا إلى نظام أقوى من فئة Mythos في يونيو.

اقرأ التالي: Anthropic Refused To Patch Claude Fable's Jailbreak, So The US Banned It, David Sacks Says