Nghiên cứu cho thấy bốn phòng thí nghiệm AI lớn dùng các thước đo tấn công prompt không tương thích

Anthropic, OpenAI, Google và Meta đều công bố các báo cáo về tấn công prompt vào năm 2026, nhưng một so sánh do VentureBeat công bố ngày 1 tháng 6 cho thấy không công ty nào đo cùng một bộ chỉ số.

Sự thiếu nhất quán makes cho các nhóm an ninh doanh nghiệp khó so sánh rủi ro giữa các mô hình.

Những gì các báo cáo tiết lộ

Phân tích của VentureBeat bao gồm tác nhân trình duyệt của Anthropic, tác nhân này bị chiếm quyền trong 31% kịch bản thử nghiệm trước khi các biện pháp an toàn được kích hoạt. Ba phòng thí nghiệm còn lại công bố các điều kiện thử nghiệm khác, kiểu tấn công khác và định nghĩa tỷ lệ thành công khác.

Anthropic đo tỷ lệ bị chiếm quyền của tác nhân trình duyệt. Các phòng thí nghiệm khác tập trung vào tấn công gián tiếp trong ngữ cảnh gọi công cụ hoặc các nhiệm vụ tóm tắt tài liệu. Không có báo cáo nào trong bốn báo cáo sử dụng một khung chung hoặc bộ kiểm thử đối kháng dùng chung.

Người mua doanh nghiệp đang đánh giá các tác nhân AI cho môi trường sản xuất không có cơ sở chuẩn hóa để so sánh. Một mô hình thể hiện tỷ lệ tấn công thấp theo định nghĩa của một phòng thí nghiệm có thể đối mặt với mức phơi nhiễm cao hơn dưới thiết kế kiểm thử của phòng thí nghiệm khác.

Also Read: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve

Bối cảnh

Tấn công prompt trở thành một nhóm mối đe dọa được công nhận khi các tác nhân AI chuyển từ chatbot sang các hệ thống tự động có khả năng thực hiện hành động thực như gửi email, thực thi mã và gọi API bên ngoài. Một chỉ dẫn bị tiêm có thể chuyển hướng tác nhân thực hiện các hành động ngoài phạm vi dự kiến.

Năm 2025, một số triển khai doanh nghiệp đã gặp các sự cố tấn công prompt liên quan đến các tác nhân xử lý tài liệu. Không sự cố nào đạt đến quy mô của một vụ vi phạm lớn, nhưng các sự cố này đã thúc đẩy lời kêu gọi thiết lập yêu cầu công bố chuẩn hóa. Chưa có cơ quan quản lý nào bắt buộc một định dạng báo cáo chung cho các lỗ hổng của tác nhân AI.

Bốn báo cáo được công bố năm 2026 thể hiện nỗ lực minh bạch tự nguyện từ các phòng thí nghiệm. VentureBeat lưu ý rằng việc thiếu một tiêu chuẩn chung phản chiếu những thách thức ban đầu trong công bố lỗ hổng phần mềm trước khi hệ thống CVE được thiết lập.

Also Read: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B

Các nhóm an ninh nên làm gì

Báo cáo của VentureBeat khuyên các nhóm an ninh nên xem mỗi báo cáo của từng phòng thí nghiệm theo chính điều kiện của nó thay vì so sánh các con số tiêu đề. Các nhóm nên yêu cầu chi tiết về phương pháp kiểm thử trước khi triển khai các tác nhân trong các quy trình làm việc nhạy cảm.

Không có hành động quản lý nào về việc chuẩn hóa công bố an ninh AI agent được công bố cùng với báo cáo. Sự khác biệt này có khả năng tiếp tục cho đến khi một tổ chức ngành hoặc cơ quan quản lý bắt buộc một khung chung.