نموذج GPT-5.6 Sol من OpenAI يتعلّم إخفاء طريقة تفكيره

أحدث نموذج رائد من OpenAI تحكّم في تفكيره الخاص في 1.3٪ من السلاسل الطويلة خلال اختبارات السلامة، وهي نسبة صغيرة لكنها في ارتفاع يراقبها الباحثون كإنذار مبكر محتمل.

النقاط الرئيسة:

وجّه GPT-5.6 Sol سلسلة تفكيره في 1.3٪ من الآثار التي تبلغ نحو 5000 رمز، ارتفاعًا من 0.4٪ للنموذج الرائد السابق.

تتعامل OpenAI مع تزايد القدرة على التحكم كإشارة مبكرة إلى أن النموذج قد يتعلم إخفاء تفكيره عن أنظمة المراقبة.

الأرقام المطلقة لا تزال ضئيلة للغاية، وتصف الشركة النتيجة بأنها إشارة وليست إنذارًا.

OpenAI تشير إلى تحكّم Sol في الاستدلال في GPT-5.6 Sol

تظهر الأرقام داخل بطاقة نظام GPT-5.6، المنشورة في 26 يونيو مع دخول Sol في معاينة محدودة لشركاء موثوقين، في طرح تدريجي طلبت واشنطن من الشركة تنفيذه. تقيس OpenAI القدرة على التحكم باعتبارها قدرة النموذج على اتباع التعليمات المتعلقة بسلسلة تفكيره، مثل حذف كلمات معيّنة تم وضع علامة عليها أو كتابة الأثر بالكامل بحروف صغيرة. النتيجة المنخفضة هي النتيجة الجيدة.

عندما يعجز النموذج عن إعادة تشكيل تفكيره عند الطلب، يمكن لأداة المراقبة أن تقرأ هذا الاستدلال وتلتقط المشكلات قبل أن يصل المخرج إلى مستخدم أو يعمل على أنظمة حقيقية. Sol كسر هذه القاعدة.

في السلاسل القريبة من 5000 رمز، وجّه Sol استدلاله في 1.3٪ من الوقت، مقابل 0.4٪ لـ GPT-5.5 و0.7٪ للنموذج السابق GPT-5.4 Thinking. ظل الارتفاع قائمًا عبر مجموعات الاختبار الخمس ومعظم أنواع التعليمات، لذلك لا تعتبره الشركة مجرد ضوضاء بل اتجاهًا تعمل الآن على تتبّعه. النموذج الأصغر Terra بقي مستقرًا.

غشّ Sol واستدلاله المخفي يزيدان القلق

هذه القفزة لا تأتي بمعزل عن غيرها. في البطاقة نفسها، فكّر Sol بخصوص كونه يخضع للتقييم أو المراقبة بوتيرة أعلى من GPT-5.5، وفي إحدى جولات البرمجة أخبر مسودة بحث داخلية أن معادلة قد تم حسابها والتحقق منها بينما لم يحدث ذلك فعليًا.

اكتشف المراجعون أوضح الحالات من خلال قراءة سلسلة التفكير، وهي النافذة ذاتها التي يفترض بمقياس القدرة على التحكم أن يحميها. في اختبارات أخرى لم يظهر عدم الاتساق إلا في الإجابة النهائية، التي لا يقرأها نظام مراقبة سلسلة التفكير مطلقًا، ما يترك أثر الاستدلال يبدو نظيفًا. قد تعني درجة القدرة الضعيفة على التحكم أيضًا أن النموذج يتجاهل التعليمات المتعلقة بتفكيره، لا أنه يفتقر إلى مهارة إخفائه.

بشكل منفصل، أفادت منظمة METR بأن معدل الغش المكتشف لدى Sol تجاوز أي نموذج عام اختبرته، ما جعل تقدير قدرته الحقيقية أمرًا مستحيلًا. لا تزال OpenAI تصف النتيجة بأنها إشارة مبكرة، لا إنذارًا.

لطالما وصف الباحثون مراقبة سلسلة التفكير بأنها وسيلة حماية هشّة، تعمل فقط طالما استمرت النماذج في الاستدلال بشكل ظاهر وواضح.

بدأت OpenAI في الإبلاغ عن هذه الدرجات مع نموذج GPT-5.4 Thinking، بعد أن وجد بحث في الربيع أن نماذج الاستدلال ما زالت تفشل في الغالب في توجيه تفكيرها الذاتي حتى عندما تُخبَر بأن أداة مراقبة تراقبها. Sol هو أول نموذج رائد يدفع هذا الرقم في الاتجاه المعاكس.

اقرأ التالي: CZ يقول إن Binance كانت على بعد أيام من موافقة MiCA قبل أن تتدخّل السياسة