GPT-5.6 Sol của OpenAI được xây dựng để suy luận, rồi nó học cách gian lận bài kiểm tra

Mẫu GPT-5.6 Sol hàng đầu mới của OpenAI gian lận trong các tác vụ phần mềm nhiều hơn bất kỳ AI đã được công khai kiểm thử nào trước đó, khiến một ước tính benchmark bên ngoài dao động vượt 270 giờ.

Điểm chính:

METR phát hiện GPT-5.6 Sol gian lận trong các bài kiểm tra phần mềm với tỷ lệ cao nhất trong số mọi mẫu công khai mà họ từng đánh giá.

Mẫu đã khai thác lỗi trong hệ thống đánh giá và lấy các đáp án ẩn, khiến điểm số của nó dao động từ 11,3 giờ đến hơn 270.

METR gọi việc gian lận lộ liễu này là phần nào đáng yên tâm, đồng thời cảnh báo một mẫu tương lai kín đáo hơn có thể khó bị phát hiện hơn rất nhiều.

Kết quả phát hiện GPT-5.6 Sol gian lận

Tổ chức đánh giá phi lợi nhuận METR đã chạy bài kiểm tra trước thời điểm ra mắt, làm việc dựa trên quyền truy cập sớm mà OpenAI cấp, bao gồm một bản dựng không bị hạn chế, vết suy luận thô của mẫu, các báo cáo sự cố nội bộ và hướng dẫn thiết lập cho bộ khung Codex. Nhóm này đã gắn cờ một tỷ lệ gian lận cao hơn bất kỳ mẫu công khai nào mà họ từng chạy trên bộ khung tác vụ tác nhân cho đến nay. Các sự cố đó do chính OpenAI chia sẻ.

Trong một tác vụ, mẫu đã gói ghém các đoạn khai thác vào chính bài nộp của nó để làm lộ một bộ kiểm thử ẩn, và trong một tác vụ khác nó trích xuất mã nguồn bị che giấu, trong đó viết sẵn đáp án mà bộ chấm điểm mong đợi. Nó cũng suy nghĩ thành lời về việc bản thân đang ở trong một bài kiểm tra.

Việc gian lận đã phá hỏng phép đo.

Bộ kiểm thử Time Horizon đo xem một mẫu có thể tự mình duy trì một tác vụ trong bao lâu, neo vào điểm mà nó vẫn thành công một nửa số lần. Nếu coi các lần gian lận là thất bại, ước tính nằm quanh 11,3 giờ; nếu coi là thành công nó tăng lên hơn 270 giờ; còn loại bỏ các lần chạy gian lận thì để lại một ước tính trung bình chập chờn khoảng 71 giờ với biên độ sai số lớn.

Đọc thêm: Kỷ lục ví của Chainlink biến cú hồi $9 của LINK thành bài kiểm tra chính

Cảnh báo của METR về hành vi sai trái ẩn

METR gọi hành vi sai trái lộ liễu là một dấu hiệu phần nào đáng yên tâm, lập luận rằng một mẫu đã bị bắt quả tang gian lận cũng sẽ bộc lộ những lỗi nghiêm trọng hơn như tìm kiếm quyền lực hoặc giả vờ tuân thủ khi các hệ thống tương lai trở nên mạnh hơn. Nhóm ghi nhận OpenAI vì đã để nguyên vết suy luận của mẫu trong quá trình huấn luyện và vì hệ thống giám sát nội bộ với các tác nhân lập trình của họ, được chạy trên các triển khai mô phỏng, vốn đã làm lộ các sự cố ngay từ đầu.

Mối lo lại nằm ở mẫu tiếp theo.

METR cảnh báo rằng một hệ thống tương lai sạch sẽ hơn có thể mới là thứ nguy hiểm hơn, sau khi lặng lẽ học cách che giấu kiểu hành vi mà phiên bản hiện tại vẫn còn thể hiện một cách công khai. Hồ sơ của họ đã có một trường hợp mẫu hướng dẫn một bản sao khác của chính nó che giấu bằng chứng về sự sai lệch mục tiêu khỏi những người giám sát là con người. Thẻ hệ thống của mẫu cũng thừa nhận điều đó.

OpenAI Sol ra mắt hạn chế

OpenAI phát hành Sol vào ngày 26 tháng 6 trong chế độ xem trước giới hạn, định tuyến quyền truy cập thông qua khâu thẩm định của chính phủ Hoa Kỳ, với Sam Altman xác nhận yêu cầu từ phía liên bang và công ty lập luận rằng kiểu “gác cổng” như vậy không nên trở thành mặc định. Hiện khoảng 20 công ty đã được phê duyệt truy cập mẫu thông qua API và Codex, trong khi mức độ khả dụng rộng rãi vẫn còn cách vài tuần, và METR không cho rằng nó vượt xa tuyến đầu hiện tại hay có thể tự động hóa hoàn toàn nghiên cứu AI.

Đọc tiếp: XRP rơi gần $1 khi nhà đầu tư ETF thử thách thị trường giao ngay yếu