Nghiên cứu của Cisco cho thấy các mô hình AI tiên tiến thất bại trước các cuộc tấn công nhiều lượt

Nhóm tình báo mối đe dọa AI của Cisco đã đánh giá 15 mô hình chủ lực dạng đóng từ OpenAI, Anthropic, Google, Amazon và xAI, và phát hiện rằng các chuỗi tấn công nhiều lượt có thể đạt tỷ lệ vượt qua cơ chế an toàn lên tới 88%.

According to the Cisco research blog, các phát hiện này mâu thuẫn với các tuyên bố an toàn dựa trên những bài đo một lượt, vốn được nhóm nghiên cứu mô tả là về mặt cấu trúc không đủ để đánh giá rủi ro trong thế giới thực.

Cisco đã kiểm thử gì

Nhóm nghiên cứu đã thiết kế các chuỗi tấn công phân tán một yêu cầu gây hại ra nhiều lượt hội thoại, thay vì đưa tất cả trong một lần nhắc duy nhất.

Cách tiếp cận này khai thác cách các mô hình xử lý việc tích lũy ngữ cảnh.

Một mô hình có thể từ chối một yêu cầu đơn lẻ rõ ràng là gây hại. Nhưng cùng mô hình đó có thể chấp thuận khi yêu cầu được chia thành các bước tăng dần trong một cuộc trao đổi dài hơn.

Cisco đã kiểm thử cả 15 mô hình bằng phương pháp này. Không mô hình nào miễn nhiễm. Tỷ lệ thành công khác nhau, nhưng mọi mô hình trong nghiên cứu đều thất bại tại một ngưỡng nhất định về độ tinh vi của tấn công.

Các nhà nghiên cứu không công bố điểm số của từng mô hình riêng lẻ trong bài viết công khai. Họ nêu con số 88% là tỷ lệ thành công cao nhất quan sát được trong toàn bộ nghiên cứu.

Bối cảnh

Các đánh giá an toàn AI tiêu chuẩn đã dựa vào các bộ đo một lượt ít nhất từ năm 2020. Các nền tảng như MLCommons và các nhóm "đội đỏ" bên thứ ba thường gửi một lời nhắc rồi đánh giá xem mô hình có từ chối hay không. Cách tiếp cận này đã trở thành chuẩn tham chiếu cho các cuộc thảo luận quy định trong Đạo luật AI của EU và sắc lệnh hành pháp thời Biden về an toàn AI, cả hai đều viện dẫn hiệu năng trên benchmark như một tín hiệu tuân thủ. Nghiên cứu của Cisco bổ sung vào khối công trình ngày càng tăng đặt câu hỏi liệu các benchmark tĩnh có phản ánh điều kiện triển khai thực tế hay không.

Một bài viết trước trên Yellow.com đã đề cập cách (see prior Yellow coverage) ngay cả khi các công cụ an toàn vẫn chưa bắt kịp với tốc độ tăng trưởng năng lực.

Ý nghĩa của các phát hiện

Kết quả của Cisco có tác động trực tiếp tới việc triển khai trong doanh nghiệp. Các công ty cấp phép sử dụng các mô hình tiên tiến dựa trên điểm an toàn do nhà cung cấp công bố có thể đang hoạt động trong một cảm giác an toàn sai lầm.

Nghiên cứu không kêu gọi một phản ứng quy định cụ thể nào. Các nhà nghiên cứu khuyến nghị rằng đánh giá an toàn cần bao gồm kiểm thử đối kháng nhiều lượt như một yêu cầu cơ bản.

OpenAI, Anthropic và Google chưa phản hồi công khai trước các phát hiện của Cisco trước thời điểm báo cáo này được công bố. Không có bản vá hay cập nhật mô hình nào được công bố gắn với nghiên cứu.

Đọc tiếp: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors