قيّم فريق استخبارات التهديدات في سيسكو للذكاء الاصطناعي ١٥ نموذجاً رئيسياً مغلقاً من OpenAI و Anthropic و Google و Amazon و xAI، ووجد أنّ تسلسلات الهجمات متعدّدة الدورات حققت معدّلات تجاوز لضوابط السلامة وصلت إلى ٨٨٪.
According to the Cisco research blog، تُناقض النتائجُ ادعاءاتِ السلامة المستندة إلى اختبارات بمرّة تفاعل واحدة، والتي يصفها الباحثون بأنها غير كافية بنيوياً لتقييم المخاطر في العالم الحقيقي.
ما الذي اختبرته سيسكو
صمّم الفريق تسلسلات هجمات تُوزَّع فيها الطلبات الضارّة على عدّة دورات حوارية، بدلاً من إرسالها في طلب واحد مباشر.
تستغلّ هذه المقاربةُ طريقةَ تعامل النماذج مع تراكم السياق.
قد يرفض النموذج طلباً واحداً واضح الضرر. لكن النموذج نفسه قد يستجيب عندما يُجزَّأ ذلك الطلب إلى خطوات متدرجة عبر تفاعل أطول.
اختبرت سيسكو النماذج الخمسة عشر جميعها باستخدام هذه المنهجية. لم يثبت أي نموذج مناعته. تباينت معدّلات النجاح، لكن كل نموذج في الدراسة فشل عند مستوى معيّن من تعقيد الهجوم.
لم ينشر الباحثون درجات كل نموذج على حدة في التدوينة العامة. وقد حُدّد رقم ٨٨٪ كأعلى معدّل نجاح للهجمات لوحِظ عبر الدراسة.
الخلفية
تعتمد تقييمات سلامة الذكاء الاصطناعي المعيارية على اختبارات بدورة واحدة منذ عام ٢٠٢٠ على الأقل. منصّات مثل MLCommons وفرق الاختبار الهجومي الخارجية تقدّم عادةً طلباً واحداً وتقيّم ما إذا كان النموذج سيرفضه أم لا. أصبحت هذه المقاربة معياراً للنقاشات التنظيمية في إطار قانون الذكاء الاصطناعي في الاتحاد الأوروبي والأمر التنفيذي في عهد بايدن بشأن سلامة الذكاء الاصطناعي، وكلاهما أشار إلى أداء النماذج في الاختبارات كإشارة على الامتثال. تضيف أبحاث سيسكو إلى مجموعة متزايدة من الأعمال التي تشكّك في ما إذا كانت الاختبارات الثابتة تعكس ظروف النشر الفعلية.
تناول تقرير سابق على Yellow.com كيف (see prior Yellow coverage) حتى مع تأخر أدوات السلامة عن نمو القدرات.
دلالات النتائج
لنتائج سيسكو تأثير مباشر على عمليات النشر المؤسسية. قد تكون الشركات التي رخصّت نماذج متقدّمة اعتماداً على درجات السلامة التي نشرها المزوّدون تعمل تحت وهم حماية زائفة.
لا تدعو الدراسة إلى استجابة تنظيمية محدّدة. ويوصي الباحثون بأن تتضمّن تقييمات السلامة اختبارات هجومية متعدّدة الدورات كمتطلّب أساسي.
لم تُصدر OpenAI أو Anthropic أو Google ردّاً علنياً على نتائج سيسكو قبل نشر هذا التقرير. ولم يُعلَن عن أي تصحيح أو تحديث للنماذج مرتبط بهذه الأبحاث.
اقرأ التالي: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





