إسقاط ترميز «كلود فابل 5» يكشف مشكلة في الموجّه لا «تدهوراً» في النموذج

إسقاط ترميز «كلود فابل 5» يكشف مشكلة في الموجّه لا «تدهوراً» في النموذج

كلود فابل 5 عاد في 1 يوليو مع شكاوى حادة من المستخدمين، لكن بيانات الاختبارات تشير إلى موجّه أنثروبيك أكثر تشدداً بدلاً من نموذج أضعف.

نقاط أساسية:

  • منصة BridgeBench سجّلت انهياراً في درجات الترميز لـ«فابل 5» بعد أن جرى توجيه معظم مهام تصحيح الأخطاء بعيداً عن النموذج.
  • موقع Arena.AI وجد في الأغلب نتائج تفضيل بشري عمياء مستقرة، مع مكاسب في فئات المستندات والنصوص الخبيرة.
  • المطوّرون يواجهون أشد اضطراب لأن أوامر تصحيح الأخطاء الروتينية يمكن أن تفعّل المصنّف الجديد.

توجيه فابل 5

عاد «كلود فابل 5» للعمل في 1 يوليو بعد إعادة تفعيله، وسرعان ما وصفه المستخدمون على منصة X بأنه معطّل أو مُضعَف أو أقل قدرة مما كان عليه. أقوى الأدلة على هذا الرأي جاءت من BridgeMind، التي أعادت تشغيل حزمة الترميز BridgeBench على النسخة المعاد تفعيلها.

بدت النتائج قاسية. هبطت مهام تصحيح الأخطاء من 86.2 إلى 25.9، وتراجعت إعادة الهيكلة من 73.6 إلى 38.4، وانخفضت مقاومة الهلوسة من 75.9 إلى 61.7.

هذه الأرقام لا تُظهر انهياراً نظيفاً على مستوى النموذج، لأن BridgeBench قالت إن ثلاثاً فقط من 12 مهمة تصحيح أخطاء TypeScript وصلت فعلياً إلى «فابل 5». أما المهام التسع الأخرى فقد اعترضها مُصنّف الأمان الجديد لدى أنثروبيك وأُرسِلت إلى «كلود أوبوس 4.8»، مع احتساب كل تحويل بدرجة صفر لأن النموذج المُقيَّم لم يُجِب.

اقرأ أيضاً: لغز 491 بيتكوين لدى Strategy يعيد إحياء الجدل حول سياسة بيع سايلور

مصنّف أنثروبيك

توصّل موقع Arena.AI إلى نتيجة مختلفة لأنه قاس تفضيلات بشرية عمياء عبر مزيج أوسع من الأوامر، شمل النصوص والرؤية والمستندات والبرمجة والمهام القائمة على الوكلاء. أظهرت بياناته المبكرة أن «فابل 5» حافظ في الأغلب على مستواه مقارنة بنسخة يونيو.

تراجعت برمجة الواجهة الأمامية من 1650 إلى 1623 نقطة Elo، وقالت Arena إن هذا الانخفاض بقي ضمن هامش الثقة بينما تستمر عملية جمع الأصوات. أداء المستندات ارتفع 34 نقطة، والنصوص الخبيرة كسبت 25 نقطة، والكتابة الإبداعية زادت 9 نقاط.

يشير هذا الانقسام إلى أن «فابل 5» لا يزال يعمل مثل «فابل 5» عندما تصله الأوامر. المشكلة أن أعمال البرمجة المرتبطة بالأمن يمكن أن تُحوَّل قبل أن يجيب النموذج، خصوصاً عندما تتضمّن الأوامر مصطلحات مثل ثغرة، استغلال، hook أو إصلاح.

أقرت أنثروبيك بأن المصنّفات الجديدة ستولّد نتائج إيجابية خاطئة في أعمال البرمجة وتصحيح الأخطاء العادية. وقالت الشركة إنها ستعمل على تحسين النظام بمرور الوقت، لكنها لم تُحدّد تاريخاً مستهدفاً.

الإعداد الحالي يأتي في سياق نزاع أوسع حول السلامة بعد أن أبلغ باحثو Amazon عن اختراق دفع «فابل 5» إلى تحديد ثغرات برمجية وعرضها عملياً. كان رد أنثروبيك هو طرح مُصنّف متحفّظ، يبدو الآن أنه يحجب أكثر من الأوامر الخطِرة التي صُمّم لالتقاطها.

اقرأ التالي: ترامب يقول إنه لم يكن يعلم بدخل العملات المشفّرة البالغ 1.4 مليار دولار

إخلاء المسؤولية وتحذير المخاطر: المعلومات المقدمة في هذا المقال مخصصة للأغراض التعليمية والإعلامية فقط وتستند إلى رأي المؤلف. وهي لا تشكل مشورة مالية أو استثمارية أو قانونية أو ضريبية. أصول العملات المشفرة شديدة التقلب وتخضع لمخاطر عالية، بما في ذلك خطر فقدان كامل أو جزء كبير من استثمارك. قد لا يكون تداول أو حيازة الأصول المشفرة مناسباً لجميع المستثمرين. الآراء المعبر عنها في هذا المقال هي آراء المؤلف (المؤلفين) فقط ولا تمثل السياسة أو الموقف الرسمي لشركة Yellow أو مؤسسيها أو مديريها التنفيذيين. قم دائماً بإجراء بحثك الشامل بنفسك (D.Y.O.R.) واستشر مختصاً مالياً مرخصاً قبل اتخاذ أي قرار استثماري.
إسقاط ترميز «كلود فابل 5» يكشف مشكلة في الموجّه لا «تدهوراً» في النموذج | Yellow.com