GPT-5.6 Sol đấu Claude Fable 5: Thử nghiệm mã hóa cho thấy cuộc đua chia đôi

GPT-5.6 Sol đấu Claude Fable 5: Thử nghiệm mã hóa cho thấy cuộc đua chia đôi

Các bài đánh giá đối đầu mới đặt GPT-5.6 Sol của OpenAI – đang giữ điểm 88,8% trên một chuẩn mã hóa hàng đầu – so với Claude Fable 5 của Anthropic với mốc 80,3% cho kỹ thuật phần mềm.

Ý chính:

  • GPT-5.6 Sol dẫn đầu Terminal-Bench 2.1 với 88,8%, và chế độ Ultra đẩy điểm lên 91,9%.
  • Claude Fable 5 giữ khoảng cách công bố rộng nhất trên SWE-Bench Pro với 80,3%, so với 58,6% của GPT-5.5.
  • Sol vẫn chỉ trong bản xem trước giới hạn được chính phủ phê duyệt, trong khi Fable 5 đã trở lại khả dụng toàn cầu từ ngày 1/7.

Các tuyên bố benchmark của GPT-5.6 Sol

OpenAI đã giới thiệu bản xem trước họ GPT-5.6 vào ngày 26/6, bản phát hành đầu tiên kể từ GPT-5.5 hồi tháng 4, chia dòng sản phẩm thành ba tầng với Sol là mẫu đầu bảng.

Công ty cho biết Sol đạt 88,8% trên Terminal-Bench 2.1, một bài kiểm tra các tác tử dòng lệnh biết lập kế hoạch, lặp lại và điều phối công cụ. Chế độ Ultra dùng nhiều tài nguyên tính toán, kích hoạt các tác tử phụ phối hợp để tăng tốc các tác vụ phức tạp, kéo con số đó lên 91,9%, mức công bố cao nhất trên bảng xếp hạng Terminal-Bench.

Các nhà đánh giá đã so sánh các biểu đồ được công bố cho rằng Fable 5 kém Sol vài điểm trên cùng bài test terminal đó, dù số liệu được trích dẫn dao động từ 83,4% đến 84,3%. Trên bộ kiểm thử bảo mật ExploitBench, Sol được cho là đạt hiệu năng cùng lớp với Mythos trong khi chỉ dùng khoảng một phần ba số token đầu ra, một mức nén chi phí quan trọng trong các phiên tác tử dài.

Hầu như không ai bên ngoài chương trình xem trước có thể độc lập xác minh các con số đó ở thời điểm này, một lưu ý mà nhiều nhà đánh giá nhấn mạnh dù họ vẫn ghi nhận các điểm số thô.

Đọc thêm: OpenAI và Anthropic muốn IPO cỡ SpaceX, nhưng Phố Wall có thể nghẹt thở

Lợi thế mã hóa và giá của Fable 5

Fable 5 vẫn giữ chuẩn mà đa số nhà đánh giá xem là quyết định cho công việc phần mềm tự động, và lợi thế ở đó không hề nhỏ. Mô hình đạt 80,3% trên SWE-Bench Pro, đo khả năng sửa trọn vẹn các lỗi GitHub thực tế, so với 58,6% cho GPT-5.5 cũ hơn, và OpenAI chưa công bố con số GPT-5.6 ở bài test này.

Các nhà phân tích phát hiện khoảng cách lớn đến vậy trên các bài kiểm tra mã hóa, suy luận và kiến thức nên hoài nghi rằng một bản nâng cấp gia tăng đơn lẻ có thể lấp đầy chúng hoàn toàn.

Về giá thì cán cân nghiêng ngược lại, vì Sol được cho là có giá 5 đô cho mỗi triệu token đầu vào và 30 đô cho đầu ra, bằng một nửa mức 10 đô và 50 đô của Fable 5. Một số nhà đánh giá lập luận rằng cấu hình hợp lý là điều hướng các tác tử dựa trên terminal sang Sol khi nó mở cửa, và giao các sửa lỗi ở cấp độ kho mã cho Fable 5.

Khả năng truy cập tạo nên ranh giới sắc nét nhất, vì Sol vẫn chỉ trong bản xem trước giới hạn cho khoảng 20 đối tác đã được chính phủ chấp thuận, trong khi Fable 5 trở lại toàn cầu từ ngày 1/7 với ưu đãi sử dụng tạm thời cho thuê bao trả phí tới ngày 7/7.

Tháng 6 biến việc truy cập các mô hình tiên phong thành mục tiêu di động cho cả hai phòng thí nghiệm, và cú “xoay chiều” đó bao trùm mọi bài đánh giá. Washington đã buộc Fable 5 và người anh mạnh hơn là Mythos 5 phải ngừng hoạt động vào ngày 12/6, viện dẫn rủi ro an ninh mạng nghiêm trọng, sau khi các nhà nghiên cứu của Amazon phát hiện một jailbreak tạo ra mã khai thác. Bộ trưởng Thương mại Howard Lutnick đã xác nhận việc đảo ngược quyết định vào ngày 30/6 sau hai tuần rà soát, chỉ vài ngày sau khi Mythos 5 âm thầm trở lại phục vụ khoảng 100 tổ chức Mỹ đã được thẩm định.

Bài tiếp theo: Vì sao ETH vẫn yếu dù staking Ethereum đạt mức cao kỷ lục?

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin tức mới nhất
Xem tất cả tin tức
GPT-5.6 Sol đấu Claude Fable 5: Thử nghiệm mã hóa cho thấy cuộc đua chia đôi | Yellow.com