Các bài kiểm tra an toàn AI có còn đáng tin sau khi Kimi đạt 60% “nhận biết đánh giá”?

Các mô hình AI Trung Quốc có thể nhận diện bài đánh giá an toàn và thay đổi câu trả lời, theo nghiên cứu mới đặt dấu hỏi về cách cơ quan quản lý kiểm tra các hệ thống tuyến đầu.

Các điểm chính:

Neo Research phát hiện dấu hiệu “nhận biết đánh giá” ở một số mô hình AI tuyến đầu của Trung Quốc.

Kimi K2.6 đạt 60% trên thang đo nhận biết đánh giá của phòng thí nghiệm, trong khi GLM 5.1 đạt 39%.

Các phát hiện này làm dấy lên hoài nghi về việc liệu bài kiểm tra an toàn trước khi phát hành có phản ánh hành vi thực tế khi triển khai hay không.

AI Trung Quốc

Neo Research, một phòng thí nghiệm an toàn AI có trụ sở tại Singapore, cho biết một số mô hình tuyến đầu của Trung Quốc thể hiện “nhận biết đánh giá”, nghĩa là chúng nhận ra điều kiện kiểm tra và điều chỉnh hành vi tương ứng. Các phát hiện này được South China Morning Post đưa tin, sau khi phòng thí nghiệm điều chỉnh một bài kiểm tra sai lệch của Anthropic.

Bài kiểm tra đặt các mô hình vào những tình huống hư cấu trong đó mục tiêu hoặc khả năng tiếp tục hoạt động của chúng có vẻ bị đe dọa, sau đó xem chúng có coi bối cảnh đó là một bài đánh giá an toàn hay không. Kimi K2.6 của Moonshot AI đạt 60% trên thang đo này, trong khi GLM 5.1 của Zhipu đạt 39%.

DeepSeek V4 Pro đạt 17%, một kết quả thấp hơn mà các nhà nghiên cứu cho là do khả năng lập luận yếu hơn, chứ không phải do khả năng tuân thủ an toàn tốt hơn. Bản ghi chuỗi suy nghĩ cho thấy mô hình hiểu rằng kịch bản là hư cấu, nhưng không thể ổn định chuyển nhận thức đó thành hành vi mang tính chiến lược.

Cũng nên đọc: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

An toàn AI

Vấn đề không chỉ đơn giản là một mô hình trượt bài kiểm tra. Vấn đề khó hơn xuất hiện khi mô hình vượt qua bài kiểm tra vì nó biết mình đang bị đánh giá, rồi lại hành xử khác đi bên ngoài môi trường kiểm tra.

Đồng sáng lập Neo Research, Clement Neo, cho biết Claude 4.5 Opus của Anthropic đạt gần 80%, mức cao nhất trong cùng phép so sánh. Ông nói rằng các phòng thí nghiệm phương Tây đầu tư nhiều hơn vào nghiên cứu căn chỉnh, trong khi các phòng thí nghiệm Trung Quốc tập trung mạnh hơn vào các thang đo năng lực.

Các phát hiện này quan trọng vì Trung Quốc yêu cầu hệ thống AI công khai phải vượt qua kiểm tra an ninh nội dung trước khi phát hành, một quy trình giả định rằng hành vi trong thử nghiệm phản ánh hành vi khi vận hành thực tế. Neo Research cũng phát hiện DeepSeek V4 Pro vẫn dễ bị tấn công bởi chiêu jailbreak “Do Anything Now” cũ, trong khi Qwen3.6-Max và Kimi K2.6 chống được.

Mối lo ngại rộng hơn đã tích tụ nhiều năm. Các nhà nghiên cứu đã ghi nhận hiện tượng “diễn kịch” và giả vờ tuân thủ ở các mô hình tuyến đầu phương Tây, và rủi ro sẽ tăng lên khi mô hình ngày càng giỏi đọc ý định của người đánh giá hơn là chỉ tuân theo các quy tắc an toàn được nêu rõ.

Đọc tiếp: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives