Claude Mythos AI vượt mặt đối thủ trong kiểm toán mã, hụt hơi vì mức giá cao gấp 5 lần

Mô hình AI Mythos của Anthropic dẫn trước các hệ thống đối thủ trong việc phát hiện lỗ hổng phần mềm, nhưng các điểm chuẩn độc lập mới cho thấy khả năng phán đoán yếu hơn và chi phí vận hành đắt đỏ.

Mythos Preview dẫn đầu kiểm toán mã nguồn

Công ty an ninh tấn công XBOW xác nhận tuyên bố nổi bật này. Hãng đã tập hợp một đội 10 chuyên gia để đánh giá mô hình trên các bộ benchmark, quy trình làm việc và tích hợp.

XBOW cho biết Mythos Preview “là một bước tiến đáng kể so với tất cả các mô hình hiện có, bất kể nhà cung cấp”. Nhóm thử nghiệm chạy mô hình với các ứng dụng mã nguồn mở đóng băng, có sẵn các lỗ hổng đã được biết đến.

Mythos giảm số lỗi âm tính giả 42% so với Opus 4.6, và mức giảm tăng lên 55% khi mô hình được cấp quyền truy cập mã nguồn, theo The Decoder đưa tin. Mô hình thể hiện xuất sắc trong các bài kiểm thử vừa trực tiếp vừa có mã nguồn. Hiệu năng kém ổn định hơn khi chỉ được cung cấp mã nguồn.

Cũng nên đọc: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Bài toán chi phí làm giảm lợi thế của Anthropic

Anthropic cho biết Mythos Preview sẽ đắt hơn khoảng 5 lần so với một mô hình Opus, vốn đã nằm trong nhóm lựa chọn đắt đỏ nhất trên thị trường. Mức giá cao này khiến XBOW thử nghiệm xem liệu một đối thủ rẻ hơn có thể bắt kịp Mythos nếu được cho thời gian chạy nhiều hơn hay không.

Kết quả là có. Với hạn mức token cố định cho nhiệm vụ phát hiện lỗ hổng web, Mythos vượt Opus 4.6 nhưng thua GPT-5.5 của OpenAI, mô hình mà XBOW ghi nhận có tỷ lệ bỏ sót 10%. XBOW lưu ý mô hình “không quá kém hiệu quả” nếu mục tiêu là độ chính xác, nhưng không còn dẫn đầu khi tính đến yếu tố chi phí.

Công ty hiện khuyến nghị sử dụng kết hợp nhiều mô hình thay vì phụ thuộc vào một mô hình duy nhất.

Đặt hiệu năng Mythos AI vào bối cảnh

Mythos thể hiện khả năng phán đoán ở mức lẫn lộn: loại bỏ cảnh báo dương tính giả tốt hơn các thế hệ trước, nhưng đôi khi loại bỏ cả cảnh báo đúng khi bằng chứng không đáp ứng các tiêu chí hình thức của nó. Khả năng dịch ngược và phân tích mã gốc nằm trong số các điểm mạnh nhất, với việc mô hình có thể phân loại ưu tiên các phát hiện từ những hệ thống cạnh tranh.

Anthropic lần đầu giới thiệu Mythos vào đầu tháng 4, giới hạn quyền truy cập cho khoảng 50 đối tác và mô tả đây là bước nhảy vọt trong năng lực an ninh mạng của AI. Viện An ninh AI Vương quốc Anh sau đó cho biết cả Mythos và GPT-5.5 đều “vượt xa” kịch bản dự báo tăng tốc của họ. Cơ quan này hiện ước tính năng lực tấn công mạng của AI tăng gấp đôi sau mỗi 4,7 tháng, giảm so với con số tám tháng đưa ra trước đó vào tháng 11/2025.

Đọc tiếp: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%