Claude Opus 4.8 dẫn đầu Chỉ số Trí tuệ nhưng Mythos lại thống trị mảng hack

Claude Opus 4.8 dẫn đầu Chỉ số Trí tuệ nhưng Mythos lại thống trị mảng hack

Anthropic released its newest model, Claude Opus 4.8, trong tuần này với lợi thế nhỏ trên một thang đo trí tuệ, nhưng lại thua hệ thống Mythos bị hạn chế của hãng về khả năng viết mã khai thác phần mềm.

Các điểm chính:

  • Claude Opus 4.8 nhỉnh hơn đôi chút trên Artificial Analysis Intelligence Index với 61,4 điểm, ngay phía trước GPT-5.5 ở mức 60,2.
  • Trong các bài kiểm thử nội bộ của Anthropic, Mythos tạo ra khai thác Firefox hoạt động được trên 70,8% mục tiêu, so với 8,8% của Opus 4.8.
  • Mythos vẫn bị giới hạn cho các đối tác Project Glasswing đã được thẩm định, trong khi Opus 4.8 được tung ra với mức giá như người tiền nhiệm.

Opus 4.8 dẫn đầu benchmark

Công ty triển khai Opus 4.8 trong tuần này và định giá ở mức 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra, giữ nguyên mức giá so với Opus 4.7 trước đó.

Các bên kiểm thử độc lập cho biết mô hình này hiện dẫn đầu Artificial Analysis Intelligence Index với 61,4 điểm, tổng hợp từ mười bài đánh giá, nhỉnh hơn GPT-5.5 ở mức 60,2. Anthropic mô tả bản nâng cấp này là một bước tiến khiêm tốn, tăng dần hơn là bước nhảy thế hệ như cái tên có thể gợi ý.

Ở mảng lập trình tác vụ (agentic coding), Opus 4.8 đạt 69,2% trên SWE-bench Pro, một bộ đo kiểm yêu cầu mô hình sửa lỗi thực trong các kho mã lớn, trong khi GPT-5.5 đạt 58,6%.

Hai hệ thống gần như ngang nhau ở các câu hỏi khoa học trình độ sau đại học, đều quanh mức 94%, và Opus 4.8 nhỉnh hơn đôi chút trên một bài thi lập luận tổng quát mà các phiên bản trước từng tụt lại.

Mythos nằm trên cả hai ở những công việc kỹ thuật khó nhất, đạt 77,8% trên cùng benchmark lập trình đó và dẫn trước nhiều hơn ở các nhiệm vụ kết hợp mã với ảnh chụp màn hình. Anthropic giới hạn Mythos cho một nhóm đối tác đã được thẩm định trong chương trình Project Glasswing, thay vì bán rộng rãi. Hãng tính phí 25 USD và 125 USD cho mỗi triệu token ở giai đoạn thử nghiệm, gấp năm lần mức giá của Opus.

Cũng nên đọc: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Sự thống trị mạng của Mythos

Khoảng cách lớn nhất xuất hiện trong mảng an ninh tấn công.

Khi tắt các biện pháp bảo vệ, Mythos tạo ra khai thác hoàn chỉnh hoạt động được trên 70,8% mục tiêu Firefox trong các đánh giá nội bộ của Anthropic, trong khi Opus 4.8 chỉ đạt 8,8%.

Ở một bài kiểm thử khác lấy từ mã nguồn mở, Opus 4.8 không ghi điểm trên 61,5% mục tiêu, hơn gấp đôi tỷ lệ trượt 23,3% của Mythos.

Một thử nghiệm công khai đa mô hình do Berkeley RDI thực hiện ghép mỗi hệ thống với tác nhân lập trình riêng trên 898 lỗ hổng thực tế, trong đó Mythos viết được 157 khai thác hoạt động, so với 120 của GPT-5.5.

GPT-5.5 vẫn nhỉnh hơn ở khai thác cấp độ nhân (kernel), dẫn Mythos 22 so với 12 trên lát cắt hẹp này. Viện An ninh AI Vương quốc Anh (UK AI Security Institute) xếp GPT-5.5 nhỉnh hơn đôi chút so với Mythos trong các nhiệm vụ an ninh mạng cấp chuyên gia, với 71,4% so với 68,6%.

Anthropic giới thiệu Mythos vào tháng Tư sau khi mô hình này phát hiện hàng nghìn lỗ hổng chưa từng được biết tới trên các hệ điều hành lớn và mọi trình duyệt web hàng đầu, với hàng trăm lỗi chỉ riêng trên Firefox. Sau đó công ty giữ lại, không phát hành công khai, vì lo ngại rằng chính kỹ năng viết khai thác đó có thể hỗ trợ kẻ tấn công dễ dàng như hỗ trợ người phòng thủ mà nó được tạo ra để giúp đỡ.

Đọc tiếp: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin tức mới nhất
Xem tất cả tin tức
Claude Opus 4.8 dẫn đầu Chỉ số Trí tuệ nhưng Mythos lại thống trị mảng hack | Yellow.com