Mô hình AI Mythos của Anthropic vượt các hệ thống đối thủ trong việc phát hiện lỗ hổng phần mềm, nhưng các bài kiểm thử độc lập mới đã chỉ ra điểm yếu về năng lực đánh giá và chi phí vận hành cao.
Mythos Preview dẫn đầu kiểm thử mã nguồn
Công ty an ninh tấn công XBOW xác nhận tuyên bố tiêu đề này. Họ tập hợp một nhóm 10 chuyên gia để đánh giá mô hình trên các bộ chuẩn, quy trình làm việc và tích hợp.
XBOW cho biết Mythos Preview “là một bước tiến đáng kể so với mọi mô hình hiện có, bất kể nhà cung cấp”. Nhóm thử nghiệm chạy mô hình trên các ứng dụng mã nguồn mở đã được “đóng băng” với những lỗ hổng đã biết.
So với Opus 4.6, Mythos cắt giảm 42% số lỗi âm tính giả, và mức giảm đạt 55% khi mô hình được cấp quyền truy cập mã nguồn, theo The Decoder tường thuật. Mô hình tỏ ra xuất sắc khi kiểm thử kết hợp chạy trực tiếp với mã nguồn. Tuy nhiên, hiệu quả kém ổn định hơn khi chỉ được cung cấp mã nguồn.
Cũng nên đọc: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
Câu hỏi về chi phí làm giảm lợi thế của Anthropic
Anthropic cho biết Mythos Preview sẽ đắt gấp khoảng 5 lần một mô hình Opus, vốn đã thuộc nhóm đắt nhất thị trường. Mức giá cao này khiến XBOW thử nghiệm xem một đối thủ rẻ hơn có thể bắt kịp Mythos nếu được cấp thêm thời gian chạy hay không.
Kết quả là có. Với ngân sách token cố định cho bài toán tìm lỗ hổng web, Mythos đánh bại Opus 4.6 nhưng lại thua GPT-5.5 của OpenAI, vốn được XBOW ghi nhận với tỷ lệ bỏ sót 10%. XBOW nhận xét mô hình “không quá kém hiệu quả” nếu mục tiêu là độ chính xác, nhưng không còn đứng đầu khi tính đến yếu tố chi phí.
Công ty hiện khuyến nghị sử dụng kết hợp nhiều mô hình thay vì phụ thuộc vào một mô hình duy nhất.
Đặt hiệu năng của Mythos AI vào bối cảnh
Mythos thể hiện năng lực đánh giá ở mức độ pha tạp: mô hình loại bỏ cảnh báo dương tính giả tốt hơn các thế hệ trước, nhưng đôi khi lại loại bỏ cả cảnh báo đúng nếu bằng chứng không đáp ứng được các tiêu chí hình thức của nó. Khả năng dịch ngược và phân tích mã gốc nằm trong số những kỹ năng sắc bén nhất, với việc mô hình có thể phân loại mức độ ưu tiên các phát hiện do hệ thống khác tạo ra.
Anthropic lần đầu giới thiệu Mythos vào đầu tháng 4, giới hạn quyền truy cập cho khoảng 50 đối tác và mô tả đây là một bước nhảy vọt về năng lực an ninh mạng của AI. Viện An ninh AI của Vương quốc Anh sau đó cho biết cả Mythos và GPT-5.5 đều “vượt xa” kịch bản dự báo tăng tốc của họ. Cơ quan này hiện ước tính năng lực mạng của AI tăng gấp đôi sau mỗi 4,7 tháng, rút ngắn đáng kể so với con số tám tháng được đưa ra trước đó vào tháng 11 năm 2025.
Đọc tiếp: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





