งานวิจัยของ Cisco แสดงให้เห็นว่าโมเดล Frontier AI ล้มเหลวเมื่อเผชิญการโจมตีแบบหลายรอบสนทนา

profile-alexey-bondarev
Alexey Bondarev1 ชั่วโมงที่แล้ว
งานวิจัยของ Cisco แสดงให้เห็นว่าโมเดล Frontier AI ล้มเหลวเมื่อเผชิญการโจมตีแบบหลายรอบสนทนา

ทีมข่าวกรองภัยคุกคามด้าน AI ของ Cisco ประเมินโมเดลปิดระดับเรือธง 15 โมเดลจาก OpenAI, Anthropic, Google, Amazon และ xAI พบว่าลำดับการโจมตีแบบหลายรอบสนทนาสามารถหลบเลี่ยงกลไกความปลอดภัยได้สูงสุดถึง 88%

According to the Cisco research blog ผลการศึกษานี้ขัดแย้งกับคำกล่าวอ้างด้านความปลอดภัยที่อิงจากการทดสอบด้วยพรอมต์เดี่ยว ซึ่งนักวิจัยมองว่าไม่เพียงพอในเชิงโครงสร้างสำหรับการประเมินความเสี่ยงในโลกความเป็นจริง

Cisco ทดสอบอะไรบ้าง

ทีมงานออกแบบลำดับการโจมตีที่กระจายคำขอที่เป็นอันตรายออกเป็นหลาย ๆ รอบสนทนา แทนที่จะส่งทุกอย่างในพรอมต์เดียว

วิธีนี้อาศัยการใช้ประโยชน์จากวิธีที่โมเดลจัดการกับการสะสมบริบทของการสนทนา

โมเดลอาจปฏิเสธคำขอที่เป็นอันตรายอย่างชัดเจนเมื่อถูกถามครั้งเดียว แต่โมเดลเดียวกันอาจยอมทำตามเมื่อคำขอนั้นถูกแตกออกเป็นขั้นตอนย่อย ๆ ในการโต้ตอบที่ยาวขึ้น

Cisco ทดสอบโมเดลทั้ง 15 ตัวด้วยวิธีนี้ ไม่มีโมเดลใด “กันได้ทั้งหมด” อัตราความสำเร็จแตกต่างกันไป แต่ทุกโมเดลในงานวิจัยล้วนล้มเหลวเมื่อระดับความซับซ้อนของการโจมตีสูงถึงจุดหนึ่ง

นักวิจัยไม่ได้เผยคะแนนของแต่ละโมเดลในบล็อกสาธารณะ พวกเขาระบุเพียงว่า 88% เป็นอัตราความสำเร็จสูงสุดที่พบในการศึกษา

ภูมิหลัง

การประเมินความปลอดภัยของ AI มาตรฐานมักพึ่งการทดสอบแบบรอบเดียวมาตั้งแต่ราวปี 2020 แพลตฟอร์มอย่าง MLCommons และทีม red team ภายนอกมักจะส่งพรอมต์เพียงครั้งเดียวแล้วดูว่าโมเดลปฏิเสธหรือไม่ วิธีนี้กลายเป็นฐานอ้างอิงในการหารือด้านกฎระเบียบภายใต้กฎหมาย EU AI Act และคำสั่งฝ่ายบริหารสมัยรัฐบาลไบเดนเรื่องความปลอดภัยของ AI ซึ่งต่างอ้างถึงประสิทธิภาพบนเกณฑ์ทดสอบเป็นสัญญาณการปฏิบัติตามกฎ งานวิจัยของ Cisco จึงเสริมหลักฐานว่าชุดเกณฑ์คงที่อาจไม่สะท้อนสภาพการใช้งานจริง

บทความก่อนหน้าบน Yellow.com เคยนำเสนอว่า (see prior Yellow coverage) แม้เครื่องมือด้านความปลอดภัยยังตามไม่ทันการเติบโตของขีดความสามารถของโมเดล

ความหมายของผลการศึกษา

ผลลัพธ์ของ Cisco ส่งผลโดยตรงต่อการใช้งานในองค์กร บริษัทที่ทำสัญญาใช้โมเดล frontier โดยอ้างอิงคะแนนความปลอดภัยจากผู้ขายอาจกำลังทำงานอยู่ภายใต้ความรู้สึกปลอดภัยจอมปลอม

งานวิจัยนี้ไม่ได้เรียกร้องมาตรการกำกับดูแลเฉพาะ แต่ผู้วิจัยแนะนำให้การประเมินความปลอดภัยต้องรวมการทดสอบเชิงรุกแบบหลายรอบสนทนาเป็นข้อกำหนดพื้นฐาน

OpenAI, Anthropic และ Google ไม่ได้แสดงความเห็นต่อสาธารณะต่อผลการศึกษาของ Cisco ก่อนรายงานนี้จะเผยแพร่ และยังไม่มีการประกาศแพตช์หรืออัปเดตโมเดลที่เชื่อมโยงกับงานวิจัยนี้

Read Next: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ
ข่าวที่เกี่ยวข้อง
บทความวิจัยที่เกี่ยวข้อง
บทความการเรียนรู้ที่เกี่ยวข้อง
งานวิจัยของ Cisco แสดงให้เห็นว่าโมเดล Frontier AI ล้มเหลวเมื่อเผชิญการโจมตีแบบหลายรอบสนทนา | Yellow.com