Tin tức Tìm hiểu Nghiên cứu Xếp hạng Hệ sinh thái

NỀN TẢNG ĐÃ HOẠT ĐỘNG

yellow bottom left star road

BẮT ĐẦU NGAY

Claude Mythos so với GPT-5.5: Mô hình có cổng của Anthropic thắng 6 trong 9 bài kiểm tra

Alexey BondarevApr, 24 2026 5:36

#AI #OpenAI #ChatGPT #Anthropic #Claude Mythos

Claude Mythos so với GPT-5.5: Mô hình có cổng của Anthropic thắng 6 trong 9 bài kiểm tra

OpenAI released GPT-5.5 vào thứ Tư, nhưng dữ liệu benchmark mới cho thấy Anthropic's gated Claude Mythos Preview vẫn dẫn đầu trong sáu trên chín bài kiểm tra có thể so sánh trực tiếp.

Điểm benchmark của GPT-5.5

GPT-5.5 arrived trong ChatGPT và Codex vào ngày 23 tháng 4, với giá 5 USD cho mỗi triệu token đầu vào và 30 USD cho đầu ra, gấp đôi mức giá của phiên bản tiền nhiệm.

Mô hình này scored 82,7% trên Terminal-Bench 2.0, nhỉnh hơn Mythos 0,7 điểm trong bài benchmark duy nhất mà nó thắng rõ rệt.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, dẫn đầu trên SWE-bench Pro với 77,8% so với 58,6%.

Nó cũng tops GPT-5.5 trong Humanity's Last Exam không dùng công cụ, đạt 56,8% so với 41,4%. Mô hình có cổng này cũng dẫn trước trên CyberGym, OSWorld-Verified và các tác vụ long-context GraphWalks.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Các lưu ý từ giới phân tích là quan trọng

So sánh vẫn chưa chính xác vì không phòng thí nghiệm nào benchmark hai mô hình trực tiếp với nhau. OpenAI chose Claude Opus 4.7 làm đối chứng công khai, trong khi system card dài 245 trang của Anthropic so Mythos với GPT-5.4.

Bộ khung kiểm thử cũng khác nhau. OpenAI dùng thiết lập Codex CLI trên Terminal-Bench, trong khi Terminus-2 scaffold của Anthropic đẩy Mythos lên 92,1% theo luật thời gian của Terminal-Bench 2.1.

Quyết định đặt cổng Mythos của Anthropic, được công bố ngày 7 tháng 4, được cho là đã kích hoạt các cuộc họp với Ủy ban Châu Âu và một cảnh báo từ Thống đốc Ngân hàng Anh rằng mô hình này có thể phá vỡ rủi ro an ninh mạng.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.

Tin Tức Liên Quan

Claude Opus 4.8 vượt Gemini và GPT trên nhiều bài kiểm tra lập trình

Anthropic phát hành Claude Opus 4.8, tuyên bố vượt GPT-5.5 và Gemini 3.1 Pro trên nhiều benchmark lập trình, cải thiện tốc độ và chi phí.

Claude Opus 4.8 dẫn đầu Chỉ số Trí tuệ nhưng Mythos thống trị mảng hack

Opus 4.8 dẫn đầu chỉ số trí tuệ nhưng kém xa Mythos trong viết khai thác bảo mật; Mythos bị hạn chế truy cập và đắt gấp 5 lần.

GPT-5.5 sánh ngang Claude Mythos trong cuộc tấn công mạng 32 bước, AISI Vương quốc Anh báo cáo

GPT-5.5 là mô hình thứ hai hoàn thành mô phỏng hack 32 bước và giải bài toán đảo ngược 12 giờ trong 10 phút, sánh ngang Claude Mythos.

Fable 5 đánh bại GPT 5.5 trước khi lệnh của Mỹ buộc gỡ xuống

Fable 5 từng vượt GPT 5.5 trên benchmark nhưng bị lệnh của Mỹ buộc gỡ xuống, khiến GPT 5.5 thành mô hình mạnh nhất còn lại theo mặc định.

Claude Mythos AI vượt mặt đối thủ trong kiểm toán mã, hụt hơi vì mức giá cao gấp 5 lần

Kiểm thử XBOW cho thấy Mythos dẫn đầu tìm lỗi bảo mật nhưng giá cao gấp 5 lần và phán đoán chưa hoàn hảo, khiến lợi thế bị thu hẹp.

Bài viết nghiên cứu liên quan

Cách Claude Mythos Có Thể Tái Định Hình Tài Chính Và Ngành Crypto

Bài phân tích cách Claude Mythos, mẫu AI “tiền tuyến” tập trung vào khai thác lỗ hổng, có thể làm rung chuyển an ninh mạng, tài chính và hạ tầng crypto.

Claude Mythos và Crypto: Mối đe dọa AI mới có ý nghĩa gì với giao dịch

Claude Mythos tìm ra hàng nghìn lỗ hổng zero-day, đe dọa tăng tốc tấn công vào sàn crypto và DeFi, đẩy nhanh nhu cầu phòng thủ bằng AI.

Sàn giao dịch crypto như ngân hàng bóng tối: 10 rủi ro cấu trúc mà báo cáo BIS phơi bày năm 2026

Phân tích cảnh báo 2026 của BIS về việc sàn crypto hoạt động như ngân hàng bóng tối với 10 rủi ro cấu trúc cho nhà đầu tư.

42 bang ở Mỹ đã điều tra OpenAI trong khi Phố Wall dõi theo thương vụ IPO

42 bang điều tra OpenAI ngay sau hồ sơ IPO 852 tỷ USD, gây rủi ro pháp lý kéo dài cho định giá và kế hoạch niêm yết của hãng.

Token AI có phải là xu hướng crypto lớn tiếp theo sau memecoin?

Token AI nổi lên cạnh tranh memecoin nhưng cũng biến động mạnh, đặc biệt nhóm AI agent sụt tới 85%, làm tăng lo ngại bong bóng đầu cơ mới.

Bài viết học tập liên quan

Vì sao AI Agent không thể mở rộng nếu thiếu lớp blockchain riêng

Giải thích lý do AI agent không thể dùng ví crypto truyền thống và vì sao cần lớp blockchain, ví và hạ tầng thực thi chuyên biệt cho AI trong crypto.

Cách Sử Dụng Bot Giao Dịch Cổ Phiếu AI: Công Cụ Miễn Phí Và Rủi Ro Thực Sự

Hướng dẫn bot giao dịch cổ phiếu AI cho người mới, cách dùng công cụ miễn phí và các rủi ro thực tế; backtest không phản ánh hiệu suất thật.

AI phi tập trung có giữ kín được prompt của bạn không?

Mạng AI riêng tư dùng node phi tập trung, mật mã và phần cứng an toàn để ẩn prompt và phản hồi, với token như VVV cấp quyền truy cập và khuyến khích trung thực.

Cách sử dụng công cụ AI cho nghiên cứu đầu tư tiền mã hóa: Hướng dẫn đầy đủ 2025

Hướng dẫn toàn diện về cảnh quan AI hiện nay cho nghiên cứu tiền mã hóa từ mô hình ngôn ngữ tổng quát tới nền tảng blockchain chuyên biệt.

Các chợ dữ liệu AI phi tập trung bắt đầu đi vào hoạt động, đây là những điều bạn cần biết

Cách các chợ dữ liệu AI phi tập trung dùng tiền mã hóa để trả trực tiếp cho người đóng góp dữ liệu, kèm cơ chế kiểm chứng, quyền riêng tư và token.

Claude Mythos so với GPT-5.5: Mô hình có cổng của Anthropic thắng 6 trong 9 bài kiểm tra | Yellow