Claude Opus 4.8 dẫn đầu Chỉ số Trí tuệ nhưng Mythos thống trị mảng hack

Anthropic released its newest model, Claude Opus 4.8, được phát hành trong tuần này với lợi thế nhỏ trên một bảng xếp hạng trí tuệ, nhưng lại thua kém hệ thống Mythos bị giới hạn của hãng trong khả năng viết khai thác phần mềm.

Key Points:

Claude Opus 4.8 chiếm vị trí đầu bảng Artificial Analysis Intelligence Index với 61,4 điểm, nhỉnh hơn GPT-5.5 ở mức 60,2.

Trong các thử nghiệm nội bộ của Anthropic, Mythos tạo được khai thác Firefox hoạt động trên 70,8% mục tiêu, so với 8,8% của Opus 4.8.

Mythos chỉ dành cho các đối tác đã được thẩm định trong Project Glasswing, trong khi Opus 4.8 được phát hành với cùng mức giá như bản tiền nhiệm.

Opus 4.8 dẫn đầu benchmark

Công ty đã ra mắt Opus 4.8 trong tuần này và priced ở mức 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra, giữ nguyên mức giá so với Opus 4.7 trước đó.

Các bên kiểm thử độc lập report rằng mô hình hiện dẫn đầu Artificial Analysis Intelligence Index với 61,4 điểm, tổng hợp từ mười bài đánh giá, nhỉnh hơn GPT-5.5 ở mức 60,2. Anthropic mô tả bản nâng cấp này là một bước tiến khiêm tốn, tăng dần, chứ không phải cú nhảy thế hệ như tên gọi có thể gợi ra.

Về lập trình tác vụ tự động, Opus 4.8 scores 69,2% trên SWE-bench Pro, một benchmark yêu cầu mô hình sửa các lỗi thực trong những kho mã lớn, trong khi GPT-5.5 đạt 58,6%.

Hai hệ thống gần như ngang nhau ở các câu hỏi khoa học trình độ sau đại học, đều quanh mức 94%, và Opus 4.8 nhỉnh hơn trong một bài kiểm tra suy luận rộng nơi các tiền nhiệm từng tụt lại.

Mythos đứng trên cả hai ở những công việc kỹ thuật khó nhất, đạt 77,8% trên cùng benchmark lập trình đó và dẫn trước rộng hơn trong các tác vụ kết hợp mã với ảnh chụp màn hình. Anthropic restricts Mythos to a vetted set of partners trong chương trình Project Glasswing, thay vì bán rộng rãi. Hãng charges 25 USD và 125 USD cho mỗi triệu token trong giai đoạn dùng thử, gấp năm lần mức giá của Opus.

Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Sự thống trị mạng của Mythos

Khoảng cách lớn nhất xuất hiện trong mảng an ninh tấn công.

Khi các biện pháp bảo vệ bị tắt, Mythos produced được một khai thác hoàn chỉnh hoạt động trên 70,8% mục tiêu Firefox trong các đánh giá của chính Anthropic, trong khi Opus 4.8 chỉ đạt 8,8%.

Trong một bài kiểm tra riêng dựa trên mã nguồn mở, Opus 4.8 không ghi điểm trên 61,5% mục tiêu, hơn gấp đôi tỷ lệ trượt 23,3% của Mythos.

Một thử nghiệm liên mô hình công khai do Berkeley RDI thực hiện ghép mỗi hệ thống với tác nhân lập trình riêng trên 898 lỗ hổng thực tế, nơi Mythos viết được 157 khai thác hoạt động so với 120 của GPT-5.5.

GPT-5.5 vẫn có lợi thế trong khai thác cấp nhân hệ điều hành, dẫn Mythos 22 so với 12 ở lát cắt hẹp này. UK AI Security Institute xếp GPT-5.5 nhỉnh hơn Mythos đôi chút về các tác vụ an ninh mạng chuyên gia, ở mức 71,4% so với 68,6%.

Anthropic giới thiệu Mythos vào tháng 4 sau khi mô hình này found thousands of previously unknown flaws trên các hệ điều hành lớn và mọi trình duyệt web hàng đầu, với hàng trăm lỗ hổng được báo cáo chỉ riêng ở Firefox. Công ty sau đó đã giữ lại, không phát hành rộng rãi, vì lo ngại kỹ năng viết khai thác đó có thể hỗ trợ kẻ tấn công dễ dàng như hỗ trợ các nhà phòng thủ mà nó được tạo ra để giúp đỡ.