งานวิจัยของ Cisco ชี้ว่าโมเดล Frontier AI ล้มเหลวภายใต้การโจมตี แบบหลายรอบสนทนา

ทีมข่าวกรองภัยคุกคามด้าน AI ของ Cisco ประเมินโมเดลปิดระดับธง 15 โมเดลจาก OpenAI, Anthropic, Google, Amazon และ xAI พบว่าลำดับการโจมตีแบบหลายรอบสนทนา สามารถเลี่ยงกลไกความปลอดภัยได้สูงสุดถึง 88%

According to the Cisco research blog ผลลัพธ์นี้ขัดแย้งกับคำกล่าวอ้างด้านความปลอดภัยที่อิงกับการทดสอบแบบคำสั่งเดียว ซึ่งนักวิจัยมองว่าไม่เพียงพอเชิงโครงสร้างในการประเมินความเสี่ยงในโลกจริง

Cisco ทดสอบอะไรบ้าง

ทีมงานออกแบบลำดับการโจมตีที่กระจายคำขอที่เป็นอันตรายออกเป็นหลายรอบสนทนา แทนที่จะส่งทั้งหมดในคำสั่งเดียว

วิธีนี้อาศัยการใช้ประโยชน์จากวิธีที่โมเดลจัดการกับการสะสมบริบท

โมเดลอาจปฏิเสธคำขอที่อันตรายอย่างชัดเจนเมื่อมาเป็นคำสั่งเดียว แต่โมเดลเดียวกันอาจยอมทำตามได้ หากคำขอนั้นถูกแยกเป็นขั้นตอนย่อย ๆ กระจายไปบนบทสนทนาที่ยาวขึ้น

Cisco ทดสอบโมเดลทั้ง 15 โมเดลด้วยวิธีการนี้ ไม่มีโมเดลใดต้านทานได้อย่างสมบูรณ์ อัตราความสำเร็จต่างกันไป แต่ทุกโมเดลในงานศึกษาล้วนล้มเหลวเมื่อระดับความซับซ้อนของการโจมตีสูงพอ

นักวิจัยไม่ได้เผยคะแนนของแต่ละโมเดลในบล็อกสาธารณะ พวกเขาระบุเพียงตัวเลข 88% ว่าเป็นอัตราความสำเร็จสูงสุดที่พบในงานศึกษา

ภูมิหลัง

การประเมินความปลอดภัยของ AI แบบมาตรฐานพึ่งพาการทดสอบแบบรอบเดียวมาตั้งแต่ราวปี 2020 แพลตฟอร์มอย่าง MLCommons และทีมแดงภายนอกมักส่งคำสั่งเพียงหนึ่งข้อความ แล้วประเมินว่าโมเดลปฏิเสธหรือไม่ วิธีนี้กลายเป็นมาตรฐานอ้างอิงสำหรับการถกเถียงเชิงกฎระเบียบ ภายใต้กฎหมาย AI ของสหภาพยุโรป (EU AI Act) และคำสั่งฝ่ายบริหารด้านความปลอดภัย AI ในยุครัฐบาลไบเดน ซึ่งต่างก็อ้างอิงประสิทธิภาพจากเกณฑ์ทดสอบเป็นสัญญาณการปฏิบัติตามข้อกำหนด งานวิจัยของ Cisco จึงกลายเป็นอีกหนึ่งหลักฐานที่ตั้งคำถามว่า เกณฑ์ทดสอบแบบตายตัวเหล่านี้สะท้อนสภาพการใช้งานจริงหรือไม่

เรื่องก่อนหน้าบน Yellow.com เคยกล่าวถึงว่า (see prior Yellow coverage) แม้เครื่องมือด้านความปลอดภัยยังล้าหลังการเติบโตของความสามารถของโมเดล

ความหมายของผลการศึกษา

ผลลัพธ์ของ Cisco ส่งผลโดยตรงต่อการนำไปใช้ในภาคธุรกิจ บริษัทที่ทำสัญญาใช้โมเดล Frontier จากคะแนนความปลอดภัยที่ผู้ขายเผยแพร่อาจกำลังอยู่ภายใต้ ความรู้สึกมั่นใจผิด ๆ ว่าตนได้รับการปกป้องเพียงพอแล้ว

การศึกษานี้ไม่ได้เรียกร้องมาตรการกำกับดูแลเฉพาะใด ๆ แต่นักวิจัยแนะนำให้การประเมินความปลอดภัยต้องรวมการทดสอบเชิงรุกแบบหลายรอบสนทนา เป็นข้อกำหนดพื้นฐาน

OpenAI, Anthropic และ Google ยังไม่ออกแถลงการณ์สาธารณะตอบโต้ผลการศึกษาของ Cisco ก่อนรายงานฉบับนี้เผยแพร่ และยังไม่มีการประกาศแพตช์หรืออัปเดตโมเดลที่เกี่ยวข้องกับงานวิจัยนี้

อ่านต่อ: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors