تُظهر أبحاث سيسكو فشل نماذج الذكاء الاصطناعي المتقدّمة أمام هجمات المحادثات متعددة الأدوار

قيّم فريق استخبارات التهديدات في سيسكو للذكاء الاصطناعي 15 نموذجًا مغلقًا رائدًا من OpenAI وAnthropic وGoogle وAmazon وxAI، ووجد أن تسلسلات الهجمات متعددة الأدوار حققت معدلات تجاوز لضوابط السلامة بلغت ما يصل إلى 88%.

According to the Cisco research blog، تُناقض النتائج ادعاءات السلامة المستندة إلى اختبارات من مطالبة واحدة، والتي يصفها الباحثون بأنها غير كافية من الناحية البنيوية لتقييم المخاطر في العالم الحقيقي.

ما الذي اختبرته سيسكو

صمّم الفريق تسلسلات هجوم توزّع الطلب الضار على عدة أدوار في المحادثة بدلًا من إرساله في مطالبة واحدة.

تستغل هذه المقاربة طريقة تعامل النماذج مع تراكم السياق.

قد يرفض النموذج طلبًا ضارًا واضحًا عندما يُقدَّم مرة واحدة. لكن النموذج نفسه قد يمتثل عندما يُقسَّم هذا الطلب إلى خطوات متدرجة عبر تفاعل أطول.

اختبرت سيسكو النماذج الخمسة عشر جميعها باستخدام هذه المنهجية. لم يثبت أي نموذج أنه محصّن. تباينت معدلات النجاح، لكن كل نموذج في الدراسة فشل عند مستوى معيّن من تعقيد الهجوم.

لم ينشر الباحثون نتائج كل نموذج على حدة في التدوينة العامة. وحدّدوا نسبة 88% باعتبارها أعلى معدل نجاح للهجمات تمّت ملاحظته عبر الدراسة.

الخلفية

اعتمدت تقييمات سلامة الذكاء الاصطناعي القياسية على اختبارات أحادية الدور منذ عام 2020 على الأقل. منصّات مثل MLCommons وفرق الاختبار الخارجية عادةً ما ترسل مطالبة واحدة ثم تقيّم ما إذا كان النموذج سيرفضها. أصبحت هذه المقاربة الأساس للنقاشات التنظيمية في إطار قانون الذكاء الاصطناعي الأوروبي والأمر التنفيذي في عهد بايدن بشأن سلامة الذكاء الاصطناعي، واللذين استشهدا بأداء الاختبارات كمؤشر على الامتثال. تضيف أبحاث سيسكو إلى مجموعة متزايدة من الأعمال التي تشكك في ما إذا كانت الاختبارات الثابتة تعكس ظروف النشر الفعلية.

تناول تقرير سابق على Yellow.com كيف (see prior Yellow coverage) يتأخر تطوّر أدوات السلامة عن وتيرة نمو القدرات.

دلالات النتائج

لنتائج سيسكو آثار مباشرة على عمليات النشر في المؤسسات. قد تعمل الشركات التي رخّصت نماذج متقدّمة استنادًا إلى درجات السلامة التي ينشرها المورّدون ضمن شعور زائف بالحماية.

لا تدعو الدراسة إلى استجابة تنظيمية محدّدة. ويوصي الباحثون بأن تتضمّن تقييمات السلامة اختبارات هجومية متعددة الأدوار كمتطلّب أساسي.

لم تستجب OpenAI وAnthropic وGoogle علنًا لنتائج سيسكو قبل نشر هذا التقرير. ولم يُعلَن عن أي تصحيح أو تحديث للنماذج مرتبط بهذه الأبحاث.

المقال التالي: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors