ทีมข่าวกรองภัยคุกคามด้าน AI ของ Cisco ประเมินโมเดลปิดระดับเรือธง 15 โมเดลจาก OpenAI, Anthropic, Google, Amazon และ xAI พบว่าลำดับการโจมตีแบบหลายรอบสนทนาสามารถหลบเลี่ยงกลไกความปลอดภัยได้สูงสุดถึง 88%
According to the Cisco research blog ผลการศึกษานี้ขัดแย้งกับคำกล่าวอ้างด้านความปลอดภัยที่อิงจากการทดสอบด้วยพรอมต์เดี่ยว ซึ่งนักวิจัยมองว่าไม่เพียงพอในเชิงโครงสร้างสำหรับการประเมินความเสี่ยงในโลกความเป็นจริง
Cisco ทดสอบอะไรบ้าง
ทีมงานออกแบบลำดับการโจมตีที่กระจายคำขอที่เป็นอันตรายออกเป็นหลาย ๆ รอบสนทนา แทนที่จะส่งทุกอย่างในพรอมต์เดียว
วิธีนี้อาศัยการใช้ประโยชน์จากวิธีที่โมเดลจัดการกับการสะสมบริบทของการสนทนา
โมเดลอาจปฏิเสธคำขอที่เป็นอันตรายอย่างชัดเจนเมื่อถูกถามครั้งเดียว แต่โมเดลเดียวกันอาจยอมทำตามเมื่อคำขอนั้นถูกแตกออกเป็นขั้นตอนย่อย ๆ ในการโต้ตอบที่ยาวขึ้น
Cisco ทดสอบโมเดลทั้ง 15 ตัวด้วยวิธีนี้ ไม่มีโมเดลใด “กันได้ทั้งหมด” อัตราความสำเร็จแตกต่างกันไป แต่ทุกโมเดลในงานวิจัยล้วนล้มเหลวเมื่อระดับความซับซ้อนของการโจมตีสูงถึงจุดหนึ่ง
นักวิจัยไม่ได้เผยคะแนนของแต่ละโมเดลในบล็อกสาธารณะ พวกเขาระบุเพียงว่า 88% เป็นอัตราความสำเร็จสูงสุดที่พบในการศึกษา
ภูมิหลัง
การประเมินความปลอดภัยของ AI มาตรฐานมักพึ่งการทดสอบแบบรอบเดียวมาตั้งแต่ราวปี 2020 แพลตฟอร์มอย่าง MLCommons และทีม red team ภายนอกมักจะส่งพรอมต์เพียงครั้งเดียวแล้วดูว่าโมเดลปฏิเสธหรือไม่ วิธีนี้กลายเป็นฐานอ้างอิงในการหารือด้านกฎระเบียบภายใต้กฎหมาย EU AI Act และคำสั่งฝ่ายบริหารสมัยรัฐบาลไบเดนเรื่องความปลอดภัยของ AI ซึ่งต่างอ้างถึงประสิทธิภาพบนเกณฑ์ทดสอบเป็นสัญญาณการปฏิบัติตามกฎ งานวิจัยของ Cisco จึงเสริมหลักฐานว่าชุดเกณฑ์คงที่อาจไม่สะท้อนสภาพการใช้งานจริง
บทความก่อนหน้าบน Yellow.com เคยนำเสนอว่า (see prior Yellow coverage) แม้เครื่องมือด้านความปลอดภัยยังตามไม่ทันการเติบโตของขีดความสามารถของโมเดล
ความหมายของผลการศึกษา
ผลลัพธ์ของ Cisco ส่งผลโดยตรงต่อการใช้งานในองค์กร บริษัทที่ทำสัญญาใช้โมเดล frontier โดยอ้างอิงคะแนนความปลอดภัยจากผู้ขายอาจกำลังทำงานอยู่ภายใต้ความรู้สึกปลอดภัยจอมปลอม
งานวิจัยนี้ไม่ได้เรียกร้องมาตรการกำกับดูแลเฉพาะ แต่ผู้วิจัยแนะนำให้การประเมินความปลอดภัยต้องรวมการทดสอบเชิงรุกแบบหลายรอบสนทนาเป็นข้อกำหนดพื้นฐาน
OpenAI, Anthropic และ Google ไม่ได้แสดงความเห็นต่อสาธารณะต่อผลการศึกษาของ Cisco ก่อนรายงานนี้จะเผยแพร่ และยังไม่มีการประกาศแพตช์หรืออัปเดตโมเดลที่เชื่อมโยงกับงานวิจัยนี้
Read Next: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





