Claude Mythos AI vượt đối thủ trong kiểm thử mã, hụt hơi vì mức giá cao gấp 5 lần

Claude Mythos AI vượt đối thủ trong kiểm thử mã, hụt hơi vì mức giá cao gấp 5 lần

Mô hình AI Mythos của Anthropic vượt các hệ thống đối thủ trong việc phát hiện lỗ hổng phần mềm, nhưng các bài kiểm thử độc lập mới đã chỉ ra điểm yếu về năng lực đánh giá và chi phí vận hành cao.

Mythos Preview dẫn đầu kiểm thử mã nguồn

Công ty an ninh tấn công XBOW xác nhận tuyên bố tiêu đề này. Họ tập hợp một nhóm 10 chuyên gia để đánh giá mô hình trên các bộ chuẩn, quy trình làm việc và tích hợp.

XBOW cho biết Mythos Preview “là một bước tiến đáng kể so với mọi mô hình hiện có, bất kể nhà cung cấp”. Nhóm thử nghiệm chạy mô hình trên các ứng dụng mã nguồn mở đã được “đóng băng” với những lỗ hổng đã biết.

So với Opus 4.6, Mythos cắt giảm 42% số lỗi âm tính giả, và mức giảm đạt 55% khi mô hình được cấp quyền truy cập mã nguồn, theo The Decoder tường thuật. Mô hình tỏ ra xuất sắc khi kiểm thử kết hợp chạy trực tiếp với mã nguồn. Tuy nhiên, hiệu quả kém ổn định hơn khi chỉ được cung cấp mã nguồn.

Cũng nên đọc: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Câu hỏi về chi phí làm giảm lợi thế của Anthropic

Anthropic cho biết Mythos Preview sẽ đắt gấp khoảng 5 lần một mô hình Opus, vốn đã thuộc nhóm đắt nhất thị trường. Mức giá cao này khiến XBOW thử nghiệm xem một đối thủ rẻ hơn có thể bắt kịp Mythos nếu được cấp thêm thời gian chạy hay không.

Kết quả là có. Với ngân sách token cố định cho bài toán tìm lỗ hổng web, Mythos đánh bại Opus 4.6 nhưng lại thua GPT-5.5 của OpenAI, vốn được XBOW ghi nhận với tỷ lệ bỏ sót 10%. XBOW nhận xét mô hình “không quá kém hiệu quả” nếu mục tiêu là độ chính xác, nhưng không còn đứng đầu khi tính đến yếu tố chi phí.

Công ty hiện khuyến nghị sử dụng kết hợp nhiều mô hình thay vì phụ thuộc vào một mô hình duy nhất.

Đặt hiệu năng của Mythos AI vào bối cảnh

Mythos thể hiện năng lực đánh giá ở mức độ pha tạp: mô hình loại bỏ cảnh báo dương tính giả tốt hơn các thế hệ trước, nhưng đôi khi lại loại bỏ cả cảnh báo đúng nếu bằng chứng không đáp ứng được các tiêu chí hình thức của nó. Khả năng dịch ngược và phân tích mã gốc nằm trong số những kỹ năng sắc bén nhất, với việc mô hình có thể phân loại mức độ ưu tiên các phát hiện do hệ thống khác tạo ra.

Anthropic lần đầu giới thiệu Mythos vào đầu tháng 4, giới hạn quyền truy cập cho khoảng 50 đối tác và mô tả đây là một bước nhảy vọt về năng lực an ninh mạng của AI. Viện An ninh AI của Vương quốc Anh sau đó cho biết cả Mythos và GPT-5.5 đều “vượt xa” kịch bản dự báo tăng tốc của họ. Cơ quan này hiện ước tính năng lực mạng của AI tăng gấp đôi sau mỗi 4,7 tháng, rút ngắn đáng kể so với con số tám tháng được đưa ra trước đó vào tháng 11 năm 2025.

Đọc tiếp: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin tức mới nhất
Xem tất cả tin tức
Claude Mythos AI vượt đối thủ trong kiểm thử mã, hụt hơi vì mức giá cao gấp 5 lần | Yellow.com