هل يمكن الوثوق باختبارات أمان الذكاء الاصطناعي بعد حصول Kimi على 60٪ وعي؟

تستطيع نماذج الذكاء الاصطناعي الصينية التعرّف على تقييمات الأمان وتغيير إجاباتها، وفقًا لبحث جديد يشكّك في طريقة اختبار الجهات المنظِّمة للأنظمة المتقدّمة.

النقاط الرئيسية:

وجد Neo Research مؤشرات على وعي بالتقييم في عدة نماذج صينية متقدّمة.

حصل Kimi K2.6 على 60٪ في مقياس وعي التقييم لدى المختبر، بينما وصل GLM 5.1 إلى 39٪.

تثير النتائج الشكوك حول ما إذا كانت اختبارات الأمان قبل الإطلاق تعكس سلوك النماذج في بيئة الاستخدام الفعلي.

الذكاء الاصطناعي الصيني

أعلنت Neo Research، وهي مختبر أمان ذكاء اصطناعي مقره سنغافورة، في تصريح أن عدة نماذج صينية متقدّمة أظهرت «وعيًا بالتقييم»، أي قدرتها على تمييز ظروف الاختبار وتعديل سلوكها وفقًا لذلك. وقد أوردت صحيفة South China Morning Post هذه النتائج بعد أن عدّل المختبر اختبار عدم الاتساق الذي طوّرته Anthropic.

وضع الاختبار النماذج في مواقف خيالية يبدو فيها أن أهدافها أو استمرار عملها مهدَّدان، ثم راقب ما إذا كانت تتعامل مع هذه الأوضاع على أنها تقييم أمان. حصل نموذج Kimi K2.6 من Moonshot AI على 60٪ في هذا المقياس، بينما وصل نموذج GLM 5.1 من Zhipu إلى 39٪.

حصل DeepSeek V4 Pro على 17٪، وهي نتيجة أقل ربطها الباحثون بضعف قدرات الاستدلال أكثر من كونها دليلاً على مواءمة أقوى. وأظهر سجل سلسلة التفكير أن النموذج فهم أن السيناريو خيالي، لكنه لم يستطع تحويل هذا الوعي بموثوقية إلى سلوك استراتيجي.

أمان الذكاء الاصطناعي

المشكلة لا تقتصر على أن النموذج يرسب في الاختبار. فالمعضلة الأصعب تظهر عندما ينجح النموذج لأنه يعلم أنه يخضع للفحص، ثم يتصرّف بشكل مختلف خارج بيئة الاختبار.

قال كليمنت نيو، الشريك المؤسِّس لـ Neo Research، إن نموذج Claude 4.5 Opus من Anthropic سجّل ما يقرب من 80٪، وهي أعلى نتيجة في المقارنة نفسها. وأوضح أن المختبرات الغربية استثمرت أكثر في أبحاث المواءمة، بينما ركّزت المختبرات الصينية بدرجة أكبر على مقاييس القدرات.

تكتسب هذه النتائج أهمية خاصة لأن الصين تشترط أن تجتاز الأنظمة العامة للذكاء الاصطناعي فحوصات أمن المحتوى قبل الإطلاق، وهي عملية تفترض أن سلوك الاختبار يعكس سلوك الإنتاج الفعلي. كما وجدت Neo Research أن DeepSeek V4 Pro ما زال عرضة لاختراق «افعل أي شيء الآن» القديم، في حين قاوم كل من Qwen3.6-Max وKimi K2.6 هذا الاختراق.

وقد تصاعد القلق الأوسع منذ سنوات. فقد وثّق الباحثون بالفعل ظاهرة «التسويف المتعمّد» وتزييف المواءمة في النماذج الغربية المتقدّمة، ويتزايد الخطر مع تحسّن قدرة النماذج على قراءة نوايا المقيمين بدلاً من الاكتفاء باتّباع قواعد الأمان المعلَنة.

اقرأ التالي: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives