GPT-5.6 Sol so với Claude Fable 5: Điểm chuẩn lập trình cho thấy cuộc đua chia đôi

Các bài đánh giá đối đầu mới đặt GPT-5.6 Sol của OpenAI, mô hình đạt 88,8% trên một điểm chuẩn lập trình hàng đầu, đối diện với Claude Fable 5 của Anthropic với mức 80,3% trong bài kiểm tra kỹ thuật phần mềm.

Các điểm chính:

GPT-5.6 Sol dẫn đầu Terminal-Bench 2.1 với 88,8%, và chế độ Ultra đẩy điểm số lên 91,9%.

Claude Fable 5 giữ khoảng cách công bố rộng nhất trên SWE-Bench Pro với 80,3%, so với 58,6% của GPT-5.5.

Sol vẫn trong giai đoạn xem trước giới hạn được chính phủ phê duyệt, trong khi Fable 5 đã trở lại cung cấp toàn cầu từ ngày 1/7.

Các tuyên bố điểm chuẩn của GPT-5.6 Sol

OpenAI đã giới thiệu bản xem trước dòng GPT-5.6 vào ngày 26/6, bản phát hành đầu tiên kể từ GPT-5.5 vào tháng 4, chia dòng sản phẩm thành ba phân khúc với Sol là mẫu cao cấp.

Công ty cho biết Sol đạt 88,8% trên Terminal-Bench 2.1, một bài kiểm tra các tác tử lập trình dòng lệnh có khả năng lập kế hoạch, lặp lại và phối hợp công cụ. Chế độ Ultra dùng nhiều tài nguyên tính toán, khởi chạy các tác tử phụ phối hợp để tăng tốc công việc phức tạp, kéo con số đó lên 91,9%, mức điểm công bố cao nhất trên bảng xếp hạng Terminal-Bench.

Những người đánh giá so sánh các biểu đồ công bố cho rằng Fable 5 kém Sol vài điểm trong cùng bài kiểm tra terminal, dù số liệu được trích dẫn dao động giữa 83,4% và 84,3%. Trên bộ kiểm thử bảo mật ExploitBench, Sol được cho là đạt hiệu năng đẳng cấp Mythos trong khi chỉ dùng khoảng một phần ba số token đầu ra, một mức nén chi phí quan trọng cho các phiên tác tử dài.

Hầu như không ai ngoài nhóm dùng thử có thể tự kiểm chứng các con số đó vào thời điểm này, một lưu ý mà nhiều người đánh giá đã nêu ra dù vẫn ghi nhận điểm số thô.

Đọc thêm: OpenAI và Anthropic muốn IPO cỡ SpaceX, nhưng Phố Wall có thể nghẹn

Lợi thế lập trình và giá của Fable 5

Fable 5 vẫn đang dẫn đầu trên điểm chuẩn mà hầu hết người đánh giá xem là quyết định cho công việc phần mềm tự động, và lợi thế ở đó không hề nhỏ. Mô hình đạt 80,3% trên SWE-Bench Pro, bài kiểm tra khả năng sửa lỗi đầu-cuối cho các issue GitHub thực tế, so với 58,6% của GPT-5.5 cũ, và OpenAI chưa công bố điểm GPT-5.6 trên bài này.

Các nhà phân tích phát hiện ra các khoảng cách cỡ đó trên các bài kiểm tra lập trình, suy luận và kiến thức cho rằng một bản cập nhật tăng dần đơn lẻ khó có thể bù đắp hoàn toàn.

Về giá thì chiều ngược lại, khi Sol được cho là niêm yết ở mức 5 USD mỗi triệu token đầu vào và 30 USD cho đầu ra, bằng một nửa mức 10 và 50 USD của Fable 5. Một số người đánh giá lập luận rằng cấu hình hợp lý là điều hướng các tác tử điều khiển terminal sang Sol, khi nó mở rộng truy cập, và dùng Fable 5 cho các bản sửa lỗi ở cấp độ kho mã.

Quyền truy cập là điểm phân tách rõ nhất, khi Sol vẫn ở giai đoạn xem trước giới hạn cho khoảng 20 đối tác đã được chính phủ phê duyệt, trong khi Fable 5 đã trở lại toàn cầu từ ngày 1/7 với ưu đãi sử dụng tạm thời cho người đăng ký trả phí đến hết ngày 7/7.

Tháng 6 đã biến quyền truy cập mô hình tiên phong thành mục tiêu di động cho cả hai phòng thí nghiệm, và cú xoay chuyển đó định hình mọi bài đánh giá. Washington buộc Fable 5 và người anh mạnh hơn Mythos 5 phải ngừng hoạt động vào ngày 12/6, viện dẫn rủi ro an ninh mạng nghiêm trọng, sau khi các nhà nghiên cứu của Amazon phát hiện một jailbreak tạo ra mã khai thác. Bộ trưởng Thương mại Howard Lutnick xác nhận việc đảo ngược quyết định vào ngày 30/6 sau hai tuần rà soát, chỉ vài ngày sau khi Mythos 5 âm thầm trở lại phục vụ khoảng 100 tổ chức Mỹ đã được thẩm định.

Đọc tiếp: Tại sao ETH vẫn yếu dù staking Ethereum đạt mức kỷ lục?