OpenAI released GPT-5.5 vào thứ Tư, nhưng dữ liệu benchmark mới cho thấy Anthropic's gated Claude Mythos Preview vẫn dẫn đầu trong sáu trên chín bài kiểm tra có thể so sánh trực tiếp.
Điểm benchmark của GPT-5.5
GPT-5.5 arrived trong ChatGPT và Codex vào ngày 23 tháng 4, với giá 5 USD cho mỗi triệu token đầu vào và 30 USD cho đầu ra, gấp đôi mức giá của phiên bản tiền nhiệm.
Mô hình này scored 82,7% trên Terminal-Bench 2.0, nhỉnh hơn Mythos 0,7 điểm trong bài benchmark duy nhất mà nó thắng rõ rệt.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, dẫn đầu trên SWE-bench Pro với 77,8% so với 58,6%.
Nó cũng tops GPT-5.5 trong Humanity's Last Exam không dùng công cụ, đạt 56,8% so với 41,4%. Mô hình có cổng này cũng dẫn trước trên CyberGym, OSWorld-Verified và các tác vụ long-context GraphWalks.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Các lưu ý từ giới phân tích là quan trọng
So sánh vẫn chưa chính xác vì không phòng thí nghiệm nào benchmark hai mô hình trực tiếp với nhau. OpenAI chose Claude Opus 4.7 làm đối chứng công khai, trong khi system card dài 245 trang của Anthropic so Mythos với GPT-5.4.
Bộ khung kiểm thử cũng khác nhau. OpenAI dùng thiết lập Codex CLI trên Terminal-Bench, trong khi Terminus-2 scaffold của Anthropic đẩy Mythos lên 92,1% theo luật thời gian của Terminal-Bench 2.1.
Quyết định đặt cổng Mythos của Anthropic, được công bố ngày 7 tháng 4, được cho là đã kích hoạt các cuộc họp với Ủy ban Châu Âu và một cảnh báo từ Thống đốc Ngân hàng Anh rằng mô hình này có thể phá vỡ rủi ro an ninh mạng.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






