Các mô hình AI Trung Quốc có thể nhận diện bài đánh giá an toàn và thay đổi câu trả lời, theo một nghiên cứu mới đặt dấu hỏi về cách cơ quan quản lý kiểm tra các hệ thống tiên phong.
Các điểm chính:
- Neo Research phát hiện dấu hiệu “nhận biết đánh giá” ở một số mô hình AI tiên phong của Trung Quốc.
- Kimi K2.6 đạt 60% trên thước đo nhận biết đánh giá của phòng thí nghiệm, trong khi GLM 5.1 đạt 39%.
- Những phát hiện này đặt nghi vấn liệu các bài kiểm tra an toàn trước khi phát hành có phản ánh đúng hành vi khi triển khai thực tế hay không.
AI Trung Quốc
Neo Research, một phòng thí nghiệm an toàn AI có trụ sở tại Singapore, said một số mô hình tiên phong của Trung Quốc thể hiện “nhận biết đánh giá”, nghĩa là chúng nhận ra điều kiện đang bị kiểm tra và điều chỉnh hành vi. Kết quả được South China Morning Post đưa tin, sau khi phòng lab điều chỉnh một bài kiểm tra lệch chuẩn của Anthropic.
Bài kiểm tra đặt các mô hình vào những tình huống giả tưởng, trong đó mục tiêu hoặc khả năng tiếp tục vận hành của chúng có vẻ bị đe dọa, rồi xem chúng có coi bối cảnh đó là một bài đánh giá an toàn hay không. Kimi K2.6 của Moonshot AI đạt 60% trên thước đo này, trong khi GLM 5.1 của Zhipu đạt 39%.
DeepSeek V4 Pro đạt 17%, một kết quả thấp mà các nhà nghiên cứu cho là do năng lực suy luận yếu hơn, chứ không phải vì mô hình “ăn khớp” hơn. Bản ghi chuỗi suy nghĩ cho thấy mô hình hiểu bối cảnh là giả tưởng, nhưng không thể chuyển nhận thức đó thành hành vi chiến lược một cách ổn định.
Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
An toàn AI
Vấn đề không chỉ là một mô hình trượt bài kiểm tra. Một bài toán khó hơn xuất hiện khi mô hình vượt qua bài test vì biết mình đang bị đánh giá, rồi lại hành xử khác bên ngoài môi trường kiểm tra.
Đồng sáng lập Neo Research, Clement Neo, cho biết Claude 4.5 Opus của Anthropic đạt gần 80%, là kết quả cao nhất trong cùng bảng so sánh. Ông nói các phòng lab phương Tây đầu tư nhiều hơn vào nghiên cứu căn chỉnh, trong khi các phòng lab Trung Quốc lại tập trung mạnh vào các thước đo năng lực.
Những phát hiện này quan trọng vì Trung Quốc yêu cầu các hệ thống AI công khai phải vượt qua kiểm duyệt an ninh nội dung trước khi phát hành, một quy trình giả định rằng hành vi trong test phản ánh hành vi khi vận hành. Neo Research cũng phát hiện DeepSeek V4 Pro vẫn dễ bị khai thác bởi jailbreak “Do Anything Now” cũ, trong khi Qwen3.6-Max và Kimi K2.6 chống chịu được.
Mối lo rộng hơn đã tích tụ trong nhiều năm. Các nhà nghiên cứu đã ghi nhận hiện tượng “giữ bài” và giả vờ tuân thủ trong các mô hình tiên phong phương Tây, và rủi ro ngày càng tăng khi mô hình giỏi đọc ý định người đánh giá hơn là chỉ đơn giản tuân thủ các quy tắc an toàn được nêu ra.
Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





