Nghiên cứu của Cisco cho thấy các mô hình AI tiên tiến thất bại trước các cuộc tấn công nhiều lượt

Nghiên cứu của Cisco cho thấy các mô hình AI tiên tiến thất bại trước các cuộc tấn công nhiều lượt

Nhóm tình báo mối đe dọa AI của Cisco đã đánh giá 15 mô hình chủ lực dạng đóng từ OpenAI, Anthropic, Google, AmazonxAI, và phát hiện rằng các chuỗi tấn công nhiều lượt có thể đạt tỷ lệ vượt qua cơ chế an toàn lên tới 88%.

According to the Cisco research blog, các phát hiện này mâu thuẫn với các tuyên bố an toàn dựa trên những bài đo một lượt, vốn được nhóm nghiên cứu mô tả là về mặt cấu trúc không đủ để đánh giá rủi ro trong thế giới thực.

Cisco đã kiểm thử gì

Nhóm nghiên cứu đã thiết kế các chuỗi tấn công phân tán một yêu cầu gây hại ra nhiều lượt hội thoại, thay vì đưa tất cả trong một lần nhắc duy nhất.

Cách tiếp cận này khai thác cách các mô hình xử lý việc tích lũy ngữ cảnh.

Một mô hình có thể từ chối một yêu cầu đơn lẻ rõ ràng là gây hại. Nhưng cùng mô hình đó có thể chấp thuận khi yêu cầu được chia thành các bước tăng dần trong một cuộc trao đổi dài hơn.

Cisco đã kiểm thử cả 15 mô hình bằng phương pháp này. Không mô hình nào miễn nhiễm. Tỷ lệ thành công khác nhau, nhưng mọi mô hình trong nghiên cứu đều thất bại tại một ngưỡng nhất định về độ tinh vi của tấn công.

Các nhà nghiên cứu không công bố điểm số của từng mô hình riêng lẻ trong bài viết công khai. Họ nêu con số 88% là tỷ lệ thành công cao nhất quan sát được trong toàn bộ nghiên cứu.

Bối cảnh

Các đánh giá an toàn AI tiêu chuẩn đã dựa vào các bộ đo một lượt ít nhất từ năm 2020. Các nền tảng như MLCommons và các nhóm "đội đỏ" bên thứ ba thường gửi một lời nhắc rồi đánh giá xem mô hình có từ chối hay không. Cách tiếp cận này đã trở thành chuẩn tham chiếu cho các cuộc thảo luận quy định trong Đạo luật AI của EU và sắc lệnh hành pháp thời Biden về an toàn AI, cả hai đều viện dẫn hiệu năng trên benchmark như một tín hiệu tuân thủ. Nghiên cứu của Cisco bổ sung vào khối công trình ngày càng tăng đặt câu hỏi liệu các benchmark tĩnh có phản ánh điều kiện triển khai thực tế hay không.

Một bài viết trước trên Yellow.com đã đề cập cách (see prior Yellow coverage) ngay cả khi các công cụ an toàn vẫn chưa bắt kịp với tốc độ tăng trưởng năng lực.

Ý nghĩa của các phát hiện

Kết quả của Cisco có tác động trực tiếp tới việc triển khai trong doanh nghiệp. Các công ty cấp phép sử dụng các mô hình tiên tiến dựa trên điểm an toàn do nhà cung cấp công bố có thể đang hoạt động trong một cảm giác an toàn sai lầm.

Nghiên cứu không kêu gọi một phản ứng quy định cụ thể nào. Các nhà nghiên cứu khuyến nghị rằng đánh giá an toàn cần bao gồm kiểm thử đối kháng nhiều lượt như một yêu cầu cơ bản.

OpenAI, Anthropic và Google chưa phản hồi công khai trước các phát hiện của Cisco trước thời điểm báo cáo này được công bố. Không có bản vá hay cập nhật mô hình nào được công bố gắn với nghiên cứu.

Đọc tiếp: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin tức mới nhất
Xem tất cả tin tức
Tin Tức Liên Quan