تُظهر أبحاث سيسكو فشل نماذج الذكاء الاصطناعي المتقدّمة تحت هجمات الحوار متعدّد الدورات

تُظهر أبحاث سيسكو فشل نماذج الذكاء الاصطناعي المتقدّمة تحت هجمات الحوار متعدّد الدورات

قيّم فريق استخبارات التهديدات في سيسكو للذكاء الاصطناعي ١٥ نموذجاً رئيسياً مغلقاً من OpenAI و Anthropic و Google و Amazon و xAI، ووجد أنّ تسلسلات الهجمات متعدّدة الدورات حققت معدّلات تجاوز لضوابط السلامة وصلت إلى ٨٨٪.

According to the Cisco research blog، تُناقض النتائجُ ادعاءاتِ السلامة المستندة إلى اختبارات بمرّة تفاعل واحدة، والتي يصفها الباحثون بأنها غير كافية بنيوياً لتقييم المخاطر في العالم الحقيقي.

ما الذي اختبرته سيسكو

صمّم الفريق تسلسلات هجمات تُوزَّع فيها الطلبات الضارّة على عدّة دورات حوارية، بدلاً من إرسالها في طلب واحد مباشر.

تستغلّ هذه المقاربةُ طريقةَ تعامل النماذج مع تراكم السياق.

قد يرفض النموذج طلباً واحداً واضح الضرر. لكن النموذج نفسه قد يستجيب عندما يُجزَّأ ذلك الطلب إلى خطوات متدرجة عبر تفاعل أطول.

اختبرت سيسكو النماذج الخمسة عشر جميعها باستخدام هذه المنهجية. لم يثبت أي نموذج مناعته. تباينت معدّلات النجاح، لكن كل نموذج في الدراسة فشل عند مستوى معيّن من تعقيد الهجوم.

لم ينشر الباحثون درجات كل نموذج على حدة في التدوينة العامة. وقد حُدّد رقم ٨٨٪ كأعلى معدّل نجاح للهجمات لوحِظ عبر الدراسة.

الخلفية

تعتمد تقييمات سلامة الذكاء الاصطناعي المعيارية على اختبارات بدورة واحدة منذ عام ٢٠٢٠ على الأقل. منصّات مثل MLCommons وفرق الاختبار الهجومي الخارجية تقدّم عادةً طلباً واحداً وتقيّم ما إذا كان النموذج سيرفضه أم لا. أصبحت هذه المقاربة معياراً للنقاشات التنظيمية في إطار قانون الذكاء الاصطناعي في الاتحاد الأوروبي والأمر التنفيذي في عهد بايدن بشأن سلامة الذكاء الاصطناعي، وكلاهما أشار إلى أداء النماذج في الاختبارات كإشارة على الامتثال. تضيف أبحاث سيسكو إلى مجموعة متزايدة من الأعمال التي تشكّك في ما إذا كانت الاختبارات الثابتة تعكس ظروف النشر الفعلية.

تناول تقرير سابق على Yellow.com كيف (see prior Yellow coverage) حتى مع تأخر أدوات السلامة عن نمو القدرات.

دلالات النتائج

لنتائج سيسكو تأثير مباشر على عمليات النشر المؤسسية. قد تكون الشركات التي رخصّت نماذج متقدّمة اعتماداً على درجات السلامة التي نشرها المزوّدون تعمل تحت وهم حماية زائفة.

لا تدعو الدراسة إلى استجابة تنظيمية محدّدة. ويوصي الباحثون بأن تتضمّن تقييمات السلامة اختبارات هجومية متعدّدة الدورات كمتطلّب أساسي.

لم تُصدر OpenAI أو Anthropic أو Google ردّاً علنياً على نتائج سيسكو قبل نشر هذا التقرير. ولم يُعلَن عن أي تصحيح أو تحديث للنماذج مرتبط بهذه الأبحاث.

اقرأ التالي: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

إخلاء المسؤولية وتحذير المخاطر: المعلومات المقدمة في هذا المقال مخصصة للأغراض التعليمية والإعلامية فقط وتستند إلى رأي المؤلف. وهي لا تشكل مشورة مالية أو استثمارية أو قانونية أو ضريبية. أصول العملات المشفرة شديدة التقلب وتخضع لمخاطر عالية، بما في ذلك خطر فقدان كامل أو جزء كبير من استثمارك. قد لا يكون تداول أو حيازة الأصول المشفرة مناسباً لجميع المستثمرين. الآراء المعبر عنها في هذا المقال هي آراء المؤلف (المؤلفين) فقط ولا تمثل السياسة أو الموقف الرسمي لشركة Yellow أو مؤسسيها أو مديريها التنفيذيين. قم دائماً بإجراء بحثك الشامل بنفسك (D.Y.O.R.) واستشر مختصاً مالياً مرخصاً قبل اتخاذ أي قرار استثماري.
آخر الأخبار
عرض جميع الأخبار
أخبار ذات صلة
مقالات البحث ذات الصلة
مقالات التعلم ذات الصلة
تُظهر أبحاث سيسكو فشل نماذج الذكاء الاصطناعي المتقدّمة تحت هجمات الحوار متعدّد الدورات | Yellow.com