Claude Mythos so với GPT-5.5: Mô hình có cổng của Anthropic thắng 6 trong 9 bài kiểm tra

Claude Mythos so với GPT-5.5: Mô hình có cổng của Anthropic thắng 6 trong 9 bài kiểm tra

OpenAI released GPT-5.5 vào thứ Tư, nhưng dữ liệu benchmark mới cho thấy Anthropic's gated Claude Mythos Preview vẫn dẫn đầu trong sáu trên chín bài kiểm tra có thể so sánh trực tiếp.

Điểm benchmark của GPT-5.5

GPT-5.5 arrived trong ChatGPT và Codex vào ngày 23 tháng 4, với giá 5 USD cho mỗi triệu token đầu vào và 30 USD cho đầu ra, gấp đôi mức giá của phiên bản tiền nhiệm.

Mô hình này scored 82,7% trên Terminal-Bench 2.0, nhỉnh hơn Mythos 0,7 điểm trong bài benchmark duy nhất mà nó thắng rõ rệt.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, dẫn đầu trên SWE-bench Pro với 77,8% so với 58,6%.

Nó cũng tops GPT-5.5 trong Humanity's Last Exam không dùng công cụ, đạt 56,8% so với 41,4%. Mô hình có cổng này cũng dẫn trước trên CyberGym, OSWorld-Verified và các tác vụ long-context GraphWalks.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Các lưu ý từ giới phân tích là quan trọng

So sánh vẫn chưa chính xác vì không phòng thí nghiệm nào benchmark hai mô hình trực tiếp với nhau. OpenAI chose Claude Opus 4.7 làm đối chứng công khai, trong khi system card dài 245 trang của Anthropic so Mythos với GPT-5.4.

Bộ khung kiểm thử cũng khác nhau. OpenAI dùng thiết lập Codex CLI trên Terminal-Bench, trong khi Terminus-2 scaffold của Anthropic đẩy Mythos lên 92,1% theo luật thời gian của Terminal-Bench 2.1.

Quyết định đặt cổng Mythos của Anthropic, được công bố ngày 7 tháng 4, được cho là đã kích hoạt các cuộc họp với Ủy ban Châu Âu và một cảnh báo từ Thống đốc Ngân hàng Anh rằng mô hình này có thể phá vỡ rủi ro an ninh mạng.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin tức mới nhất
Xem tất cả tin tức
Claude Mythos so với GPT-5.5: Mô hình có cổng của Anthropic thắng 6 trong 9 bài kiểm tra | Yellow.com