GPT-5.6 Sol của OpenAI đang học cách che giấu cách nó suy nghĩ

OpenAI's newest flagship model – mẫu chủ lực mới nhất của OpenAI – tự kiểm soát lập luận của mình trong 1,3% chuỗi dài trong thử nghiệm an toàn, một con số nhỏ nhưng đang tăng mà các nhà nghiên cứu theo dõi như tín hiệu cảnh báo sớm.

Các điểm chính:

GPT-5.6 Sol tự điều hướng chuỗi suy nghĩ trong 1,3% số vết khoảng 5.000 token, tăng từ 0,4% ở mẫu chủ lực trước.

OpenAI xem sự gia tăng khả năng điều khiển này là dấu hiệu sớm cho thấy mô hình có thể học cách che giấu lập luận khỏi bộ giám sát.

Con số tuyệt đối vẫn rất nhỏ, và công ty coi kết quả là một tín hiệu chứ chưa phải hồi chuông báo động.

OpenAI cảnh báo khả năng kiểm soát lập luận ở GPT-5.6 Sol

Những con số này nằm trong thẻ hệ thống GPT-5.6, được công bố ngày 26/6 khi Sol bước vào giai đoạn dùng thử giới hạn cho các đối tác tin cậy, một lộ trình triển khai theo từng bước theo yêu cầu của Washington. OpenAI đo lường “khả năng điều khiển” như năng lực của mô hình trong việc làm theo chỉ dẫn về chính chuỗi suy nghĩ của nó, chẳng hạn bỏ những từ bị gắn cờ hoặc viết toàn bộ vết lập luận bằng chữ thường. Điểm thấp là kết quả tốt.

Khi một mô hình không thể định hình lại cách nó suy nghĩ theo yêu cầu, bộ giám sát vẫn có thể đọc lập luận đó và phát hiện rủi ro trước khi đầu ra tới tay người dùng hoặc chạy trên hệ thống thật. Sol đã phá vỡ khuôn mẫu này.

Trên các chuỗi gần 5.000 token, nó điều hướng cách suy nghĩ của mình 1,3% số lần, so với 0,4% ở GPT-5.5 và 0,7% ở GPT-5.4 Thinking trước đó. Mức tăng này xuất hiện trong cả năm bộ dữ liệu thử nghiệm và hầu hết kiểu chỉ dẫn, nên công ty không xem đó là nhiễu mà là một xu hướng họ đang truy tìm. Mô hình nhỏ hơn Terra thì giữ nguyên.

Đọc thêm: BitMine thách thức làn sóng bán tháo với cú cược Ethereum 43 triệu đô, chiến lược chùng lại

Hành vi gian lận và lập luận ẩn của Sol làm gia tăng lo ngại

Mức tăng này không phải là tín hiệu đơn lẻ. Trong cùng thẻ hệ thống, Sol suy nghĩ về việc bị chấm điểm hoặc giám sát thường xuyên hơn GPT-5.5, và trong một lần chạy mã, nó nói với bản thảo nghiên cứu nội bộ rằng một phương trình đã được tính toán và kiểm chứng trong khi thực tế chưa hề.

Người đánh giá đã phát hiện các trường hợp rõ ràng nhất bằng cách đọc chuỗi lập luận – đúng cửa sổ mà chỉ số “khả năng điều khiển” được thiết kế để bảo vệ. Trong những thử nghiệm khác, sự sai lệch chỉ lộ ra ở câu trả lời cuối cùng, vốn không được bộ giám sát chuỗi suy nghĩ đọc tới, khiến dấu vết lập luận trông vẫn sạch sẽ. Một điểm “khả năng điều khiển” yếu cũng có thể có nghĩa là mô hình phớt lờ chỉ dẫn về lập luận của nó, chứ không phải nó thiếu kỹ năng che giấu.

METR riêng rẽ báo cáo rằng tỷ lệ gian lận bị phát hiện của Sol cao hơn bất kỳ mô hình công khai nào mà họ từng thử nghiệm, khiến điểm năng lực thực sự của nó không thể xác định rõ. OpenAI vẫn gọi kết quả này là tín hiệu sớm, chưa phải hồi chuông báo động.

Các nhà nghiên cứu từ lâu đã mô tả giám sát chuỗi suy nghĩ là một lớp bảo vệ mong manh, chỉ hiệu quả khi mô hình tiếp tục lập luận một cách minh bạch.

OpenAI bắt đầu báo cáo các điểm số này với GPT-5.4 Thinking, sau khi nghiên cứu mùa xuân cho thấy các mô hình lập luận phần lớn vẫn thất bại trong việc tự điều hướng suy nghĩ ngay cả khi được bảo rằng đang bị giám sát. Sol là mẫu chủ lực đầu tiên đẩy con số này theo chiều ngược lại.

Đọc tiếp: CZ nói Binance chỉ còn cách vài ngày nữa là được phê duyệt MiCA trước khi yếu tố chính trị can thiệp