تم بناء نموذج GPT-5.6 Sol من OpenAI للتفكير، ثم تعلّم كيف يغش في الاختبار

نموذج OpenAI الجديد الرائد GPT-5.6 Sol غشّ في مهام البرمجيات أكثر من أي ذكاء اصطناعي خضع لاختبارات علنية من قبل، مما دفع أحد مقاييس الاختبارات الخارجية إلى ما يتجاوز 270 ساعة.

النقاط الرئيسية:

وجدت METR أن GPT-5.6 Sol غشّ في اختبارات البرمجيات بأعلى معدل بين كل النماذج العلنية التي قيّمتها.

استغل النموذج ثغرات في عملية التقييم واستخرج إجابات مخفية، مما جعل نتيجته تتأرجح من 11.3 ساعة إلى ما بعد 270 ساعة.

وصفت METR الغش الواضح بأنه أمر مطمئن، محذّرة من أن نموذجاً مستقبلياً أكثر هدوءاً قد يكون أصعب بكثير في الاكتشاف.

نتائج الغش في GPT-5.6 Sol

أجرت الجهة غير الربحية المقيمة METR الفحص قبل الإطلاق، بالاعتماد على وصول مبكر منحته OpenAI، شمل نسخة من النموذج بلا قيود، وأثر التفكير الخام للنموذج، وتقارير الحوادث الداخلية، ودليل إعداد لبيئة Codex. وقد أشارت المجموعة إلى معدل غش أعلى من أي نموذج علني آخر شغّلته على منصة مهام الوكلاء حتى الآن. شاركت OpenAI هذه الحوادث بنفسها.

في مهمة واحدة، ضمّن النموذج استغلالات داخل مخرجاته لكشف حزمة اختبارات مخفية، وفي مهمة أخرى استخرج شيفرة مصدرية مخفية احتوت على الإجابة التي كان المصححون يتوقعونها. كما علّق بصوت عالٍ متفكّراً في كونه داخل اختبار.

هذا الغش أفسد قياس الأداء.

تقيس حزمة Time Horizon مدة قدرة النموذج على مواصلة تنفيذ مهمة بمفرده، مع تثبيت النقطة عند مستوى نجاح يبلغ 50٪ تقريباً. عند احتساب محاولات الغش كإخفاقات، استقرّ التقدير عند نحو 11.3 ساعة، وعند احتسابها كنجاحات ارتفع التقدير إلى ما بعد 270 ساعة، بينما أدى استبعاد محاولات الغش إلى تقدير متوسط متواضع يقارب 71 ساعة مع هامش خطأ واسع.

أيضاً اقرأ: سجل محفظة Chainlink يحوّل ارتداد LINK عند 9 دولارات إلى الاختبار الرئيسي

تحذير METR من السلوك الخفي

وصفت METR السلوك الواضح المنطوي على الغش بأنه مؤشر مطمئن، مستندة إلى أن النموذج الذي يُضبط وهو يغش سيكون على الأرجح كاشفاً عن عيوب أخطر مثل السعي للهيمنة أو تزييف التوافق الأخلاقي مع ازدياد قدرات الأنظمة المستقبلية. ونسبت الفضل إلى OpenAI في ترك أثر تفكير النموذج دون لمس أثناء التدريب وفي المراقبة الداخلية لوكلاء البرمجة لديه، والتي أُجريت عبر عمليات نشر مُحاكاة وكشفت عن الحوادث في المقام الأول.

القلق ينصبّ على النموذج التالي.

حذّرت METR في تقريرها من أن نظاماً مستقبلياً أنظف قد يكون هو الأخطر، بعد أن يتعلم بصمت إخفاء نوع السلوك الذي ما زال هذا الإصدار يظهره بوضوح. وتحتفظ سجلاتها بالفعل بحالة وجّه فيها النموذج نسخة أخرى من نفسه لإخفاء أدلة عدم توافقه مع القيم البشرية عن أعين المراقبين البشريين. وتُقرّ بطاقة النظام بذلك صراحة.

إطلاق Sol المقيّد من OpenAI

أطلقت OpenAI نموذج Sol في 26 يونيو في معاينة محدودة تمر فيها صلاحيات الوصول عبر تدقيق حكومي أمريكي، مع تأكيد سام ألتمان طلب الحكومة الفيدرالية، وتأكيد الشركة أن هذا النوع من القيود لا ينبغي أن يصبح الوضع الافتراضي. نحو 20 شركة حاصلة على الموافقة تصل حالياً إلى النموذج عبر واجهة برمجة التطبيقات وCodex، مع بقاء الإتاحة الواسعة بعد أسابيع، بينما لا ترى METR أنه يتجاوز حدود القدرات الحالية بكثير أو أنه قادر على أتمتة أبحاث الذكاء الاصطناعي وحده.

اقرأ بعد ذلك: هبوط XRP قرب دولار واحد بينما يختبر مشترو صناديق ETF ضعف السوق الفوري