كلود فابل 5 عاد في 1 يوليو مع شكاوى حادة من المستخدمين، لكن بيانات الاختبارات تشير إلى موجّه أنثروبيك أكثر تشدداً بدلاً من نموذج أضعف.
نقاط أساسية:
- منصة BridgeBench سجّلت انهياراً في درجات الترميز لـ«فابل 5» بعد أن جرى توجيه معظم مهام تصحيح الأخطاء بعيداً عن النموذج.
- موقع Arena.AI وجد في الأغلب نتائج تفضيل بشري عمياء مستقرة، مع مكاسب في فئات المستندات والنصوص الخبيرة.
- المطوّرون يواجهون أشد اضطراب لأن أوامر تصحيح الأخطاء الروتينية يمكن أن تفعّل المصنّف الجديد.
توجيه فابل 5
عاد «كلود فابل 5» للعمل في 1 يوليو بعد إعادة تفعيله، وسرعان ما وصفه المستخدمون على منصة X بأنه معطّل أو مُضعَف أو أقل قدرة مما كان عليه. أقوى الأدلة على هذا الرأي جاءت من BridgeMind، التي أعادت تشغيل حزمة الترميز BridgeBench على النسخة المعاد تفعيلها.
بدت النتائج قاسية. هبطت مهام تصحيح الأخطاء من 86.2 إلى 25.9، وتراجعت إعادة الهيكلة من 73.6 إلى 38.4، وانخفضت مقاومة الهلوسة من 75.9 إلى 61.7.
هذه الأرقام لا تُظهر انهياراً نظيفاً على مستوى النموذج، لأن BridgeBench قالت إن ثلاثاً فقط من 12 مهمة تصحيح أخطاء TypeScript وصلت فعلياً إلى «فابل 5». أما المهام التسع الأخرى فقد اعترضها مُصنّف الأمان الجديد لدى أنثروبيك وأُرسِلت إلى «كلود أوبوس 4.8»، مع احتساب كل تحويل بدرجة صفر لأن النموذج المُقيَّم لم يُجِب.
اقرأ أيضاً: لغز 491 بيتكوين لدى Strategy يعيد إحياء الجدل حول سياسة بيع سايلور
مصنّف أنثروبيك
توصّل موقع Arena.AI إلى نتيجة مختلفة لأنه قاس تفضيلات بشرية عمياء عبر مزيج أوسع من الأوامر، شمل النصوص والرؤية والمستندات والبرمجة والمهام القائمة على الوكلاء. أظهرت بياناته المبكرة أن «فابل 5» حافظ في الأغلب على مستواه مقارنة بنسخة يونيو.
تراجعت برمجة الواجهة الأمامية من 1650 إلى 1623 نقطة Elo، وقالت Arena إن هذا الانخفاض بقي ضمن هامش الثقة بينما تستمر عملية جمع الأصوات. أداء المستندات ارتفع 34 نقطة، والنصوص الخبيرة كسبت 25 نقطة، والكتابة الإبداعية زادت 9 نقاط.
يشير هذا الانقسام إلى أن «فابل 5» لا يزال يعمل مثل «فابل 5» عندما تصله الأوامر. المشكلة أن أعمال البرمجة المرتبطة بالأمن يمكن أن تُحوَّل قبل أن يجيب النموذج، خصوصاً عندما تتضمّن الأوامر مصطلحات مثل ثغرة، استغلال، hook أو إصلاح.
أقرت أنثروبيك بأن المصنّفات الجديدة ستولّد نتائج إيجابية خاطئة في أعمال البرمجة وتصحيح الأخطاء العادية. وقالت الشركة إنها ستعمل على تحسين النظام بمرور الوقت، لكنها لم تُحدّد تاريخاً مستهدفاً.
الإعداد الحالي يأتي في سياق نزاع أوسع حول السلامة بعد أن أبلغ باحثو Amazon عن اختراق دفع «فابل 5» إلى تحديد ثغرات برمجية وعرضها عملياً. كان رد أنثروبيك هو طرح مُصنّف متحفّظ، يبدو الآن أنه يحجب أكثر من الأوامر الخطِرة التي صُمّم لالتقاطها.
اقرأ التالي: ترامب يقول إنه لم يكن يعلم بدخل العملات المشفّرة البالغ 1.4 مليار دولار





