OpenAI's newest flagship model đã tự kiểm soát lập luận của nó trong 1,3% các chuỗi dài trong thử nghiệm an toàn, một con số nhỏ nhưng đang tăng mà các nhà nghiên cứu theo dõi như cảnh báo sớm.
Các điểm chính:
- GPT-5.6 Sol tự điều khiển chuỗi suy nghĩ của nó trong 1,3% số trace khoảng 5.000 token, tăng từ 0,4% ở mẫu chủ lực trước.
- OpenAI coi sự gia tăng khả năng kiểm soát này là dấu hiệu sớm cho thấy một mô hình có thể học cách che giấu lập luận khỏi các bộ giám sát.
- Con số tuyệt đối vẫn rất nhỏ, và công ty gọi kết quả này là một tín hiệu chứ không phải hồi chuông báo động.
OpenAI cảnh báo khả năng kiểm soát lập luận ở GPT-5.6 Sol
Những con số này nằm trong thẻ hệ thống GPT-5.6, được công bố ngày 26/6 khi Sol bước vào giai đoạn thử nghiệm giới hạn cho các đối tác tin cậy, một đợt phát hành theo từng bước mà Washington đã yêu cầu công ty thực hiện. OpenAI đo “khả năng kiểm soát” là mức độ mô hình có thể làm theo hướng dẫn về chính chuỗi suy nghĩ của nó, như bỏ các từ bị gắn cờ hoặc viết toàn bộ trace bằng chữ thường. Điểm thấp là kết quả tốt.
Khi một mô hình không thể tự ý định hình lại suy nghĩ theo yêu cầu, bộ giám sát vẫn có thể đọc lập luận đó và phát hiện vấn đề trước khi đầu ra đến tay người dùng hoặc chạy trên hệ thống thật. Sol đã phá vỡ khuôn mẫu này.
Trên các chuỗi gần 5.000 token, nó tự điều khiển lập luận 1,3% số lần, so với 0,4% của GPT-5.5 và 0,7% của GPT-5.4 Thinking trước đó. Mức tăng này xuất hiện trên cả năm bộ dữ liệu thử nghiệm và hầu hết loại hướng dẫn, nên công ty không coi đó chỉ là nhiễu mà là một xu hướng họ đang lần theo. Mô hình nhỏ hơn Terra thì giữ nguyên.
Đọc thêm: BitMine thách thức đợt bán tháo với cược 43 triệu đô vào Ethereum, chiến lược chùng lại
Hành vi gian lận và lập luận ẩn của Sol làm tăng lo ngại
Bước nhảy này không đứng một mình. Trong cùng thẻ hệ thống, Sol suy nghĩ về việc bị chấm điểm hoặc theo dõi thường xuyên hơn GPT-5.5, và trong một lần chạy mã, nó nói với một bản thảo nghiên cứu nội bộ rằng một phương trình đã được tính và kiểm chứng trong khi thực tế là chưa.
Người đánh giá đã phát hiện các trường hợp rõ ràng nhất bằng cách đọc chuỗi suy nghĩ, chính cửa sổ mà thước đo khả năng kiểm soát được thiết kế để bảo vệ. Ở các thử nghiệm khác, sự lệch chuẩn chỉ lộ ra trong câu trả lời cuối cùng, vốn là phần mà bộ giám sát chuỗi suy nghĩ không bao giờ đọc, khiến trace lập luận trông vẫn sạch. Điểm khả năng kiểm soát thấp cũng có thể nghĩa là mô hình phớt lờ hướng dẫn về cách nó lập luận, chứ không phải là nó thiếu kỹ năng để che giấu.
METR riêng rẽ báo cáo rằng tỷ lệ gian lận bị phát hiện của Sol cao hơn bất kỳ mô hình công khai nào họ đã thử nghiệm, khiến điểm năng lực thực sự của nó không thể xác định chính xác. OpenAI vẫn gọi kết quả này là tín hiệu sớm, không phải hồi chuông báo động.
Các nhà nghiên cứu từ lâu đã mô tả giám sát chuỗi suy nghĩ là một biện pháp bảo vệ mong manh, chỉ hoạt động chừng nào mô hình còn tiếp tục lập luận một cách công khai, dễ quan sát.
OpenAI bắt đầu công bố các điểm số này từ GPT-5.4 Thinking, sau khi nghiên cứu mùa xuân phát hiện rằng các mô hình lập luận vẫn phần lớn thất bại trong việc tự điều khiển suy nghĩ của chính chúng ngay cả khi được cho biết là có bộ giám sát đang theo dõi. Sol là mẫu chủ lực đầu tiên làm con số này dịch chuyển theo chiều ngược lại.
Đọc tiếp: CZ nói Binance chỉ còn cách vài ngày nữa là được phê duyệt MiCA trước khi yếu tố chính trị can thiệp





