Nghiên cứu của Cisco cho thấy các mô hình AI tiên tiến thất bại trước các cuộc tấn công nhiều lượt

profile-alexey-bondarev
Alexey Bondarev1 giờ trước
Nghiên cứu của Cisco cho thấy các mô hình AI tiên tiến thất bại trước các cuộc tấn công nhiều lượt

Nhóm tình báo mối đe dọa AI của Cisco đã đánh giá 15 mô hình đóng hàng đầu từ OpenAI, Anthropic, Google, AmazonxAI, và phát hiện rằng các chuỗi tấn công nhiều lượt có thể đạt tỷ lệ vượt qua lớp an toàn lên tới 88%.

According to the Cisco research blog, các phát hiện này đi ngược lại với các tuyên bố an toàn dựa trên những bộ đánh giá chỉ dùng một yêu cầu (single-prompt), mà các nhà nghiên cứu cho là về cấu trúc không đủ để đánh giá rủi ro trong thế giới thực.

Cisco đã kiểm thử những gì

Nhóm đã thiết kế các chuỗi tấn công phân tán một yêu cầu gây hại thành nhiều lượt hội thoại thay vì đưa ra trong một lần nhắc duy nhất.

Cách tiếp cận này khai thác cách các mô hình xử lý việc tích lũy ngữ cảnh.

Một mô hình có thể từ chối một yêu cầu đơn lẻ rõ ràng là gây hại. Cùng mô hình đó có thể chấp nhận khi yêu cầu được chia nhỏ thành các bước tăng dần trong một phiên trao đổi dài hơn.

Cisco đã kiểm thử cả 15 mô hình bằng phương pháp này. Không mô hình nào miễn nhiễm. Tỷ lệ thành công khác nhau, nhưng mọi mô hình trong nghiên cứu đều thất bại ở một ngưỡng tinh vi tấn công nào đó.

Các nhà nghiên cứu không công bố điểm số riêng lẻ của từng mô hình trong bài viết công khai. Họ xác định con số 88% là tỷ lệ thành công cao nhất được quan sát trong toàn bộ nghiên cứu.

Bối cảnh

Các đánh giá an toàn AI tiêu chuẩn đã dựa vào những bộ kiểm thử một lượt (single-turn benchmarks) ít nhất từ năm 2020. Các nền tảng như MLCommons và các nhóm tấn công thử nghiệm bên thứ ba thường gửi một lời nhắc và đánh giá việc mô hình có từ chối hay không. Cách làm này đã trở thành chuẩn cơ bản cho các thảo luận quy định trong Đạo luật AI của EU và sắc lệnh hành pháp thời Biden về an toàn AI, cả hai đều viện dẫn hiệu suất trên các bộ chuẩn làm tín hiệu tuân thủ. Nghiên cứu của Cisco bổ sung vào một loạt công trình ngày càng nhiều đặt câu hỏi liệu các bộ chuẩn tĩnh có phản ánh điều kiện triển khai thực tế hay không.

Một bài viết trước trên Yellow.com đã đề cập cách (see prior Yellow coverage) ngay cả khi các công cụ an toàn vẫn tụt hậu so với tốc độ phát triển năng lực.

Ý nghĩa của các phát hiện

Các kết quả của Cisco có tác động trực tiếp đến việc triển khai trong doanh nghiệp. Các công ty mua quyền sử dụng những mô hình tiên tiến dựa trên điểm an toàn do nhà cung cấp công bố có thể đang hoạt động với cảm giác an toàn giả tạo.

Nghiên cứu không kêu gọi một phản ứng quản lý cụ thể nào. Các nhà nghiên cứu khuyến nghị rằng các đánh giá an toàn cần phải bao gồm kiểm thử đối kháng nhiều lượt như một yêu cầu nền tảng.

OpenAI, Anthropic và Google không có phản hồi công khai nào về các phát hiện của Cisco trước khi báo cáo này được công bố. Không có bản vá hay cập nhật mô hình nào được thông báo liên quan đến nghiên cứu.

Đọc tiếp: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin tức mới nhất
Xem tất cả tin tức
Tin Tức Liên Quan