Nhóm tình báo mối đe dọa AI của Cisco đã đánh giá 15 mô hình đóng hàng đầu từ OpenAI, Anthropic, Google, Amazon và xAI, và phát hiện rằng các chuỗi tấn công nhiều lượt có thể đạt tỷ lệ vượt qua lớp an toàn lên tới 88%.
According to the Cisco research blog, các phát hiện này đi ngược lại với các tuyên bố an toàn dựa trên những bộ đánh giá chỉ dùng một yêu cầu (single-prompt), mà các nhà nghiên cứu cho là về cấu trúc không đủ để đánh giá rủi ro trong thế giới thực.
Cisco đã kiểm thử những gì
Nhóm đã thiết kế các chuỗi tấn công phân tán một yêu cầu gây hại thành nhiều lượt hội thoại thay vì đưa ra trong một lần nhắc duy nhất.
Cách tiếp cận này khai thác cách các mô hình xử lý việc tích lũy ngữ cảnh.
Một mô hình có thể từ chối một yêu cầu đơn lẻ rõ ràng là gây hại. Cùng mô hình đó có thể chấp nhận khi yêu cầu được chia nhỏ thành các bước tăng dần trong một phiên trao đổi dài hơn.
Cisco đã kiểm thử cả 15 mô hình bằng phương pháp này. Không mô hình nào miễn nhiễm. Tỷ lệ thành công khác nhau, nhưng mọi mô hình trong nghiên cứu đều thất bại ở một ngưỡng tinh vi tấn công nào đó.
Các nhà nghiên cứu không công bố điểm số riêng lẻ của từng mô hình trong bài viết công khai. Họ xác định con số 88% là tỷ lệ thành công cao nhất được quan sát trong toàn bộ nghiên cứu.
Bối cảnh
Các đánh giá an toàn AI tiêu chuẩn đã dựa vào những bộ kiểm thử một lượt (single-turn benchmarks) ít nhất từ năm 2020. Các nền tảng như MLCommons và các nhóm tấn công thử nghiệm bên thứ ba thường gửi một lời nhắc và đánh giá việc mô hình có từ chối hay không. Cách làm này đã trở thành chuẩn cơ bản cho các thảo luận quy định trong Đạo luật AI của EU và sắc lệnh hành pháp thời Biden về an toàn AI, cả hai đều viện dẫn hiệu suất trên các bộ chuẩn làm tín hiệu tuân thủ. Nghiên cứu của Cisco bổ sung vào một loạt công trình ngày càng nhiều đặt câu hỏi liệu các bộ chuẩn tĩnh có phản ánh điều kiện triển khai thực tế hay không.
Một bài viết trước trên Yellow.com đã đề cập cách (see prior Yellow coverage) ngay cả khi các công cụ an toàn vẫn tụt hậu so với tốc độ phát triển năng lực.
Ý nghĩa của các phát hiện
Các kết quả của Cisco có tác động trực tiếp đến việc triển khai trong doanh nghiệp. Các công ty mua quyền sử dụng những mô hình tiên tiến dựa trên điểm an toàn do nhà cung cấp công bố có thể đang hoạt động với cảm giác an toàn giả tạo.
Nghiên cứu không kêu gọi một phản ứng quản lý cụ thể nào. Các nhà nghiên cứu khuyến nghị rằng các đánh giá an toàn cần phải bao gồm kiểm thử đối kháng nhiều lượt như một yêu cầu nền tảng.
OpenAI, Anthropic và Google không có phản hồi công khai nào về các phát hiện của Cisco trước khi báo cáo này được công bố. Không có bản vá hay cập nhật mô hình nào được thông báo liên quan đến nghiên cứu.
Đọc tiếp: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





