Một checkpoint mới của Anthropic's Claude Mythos Preview đã trở thành mô hình AI đầu tiên giải được cả hai mô phỏng tấn công mạng của chính phủ Anh, làm dấy lên những câu hỏi mới về khả năng tấn công tự động.
AISI báo cáo đột phá của Mythos
AI Security Institute của Anh reported hôm thứ Tư rằng checkpoint Mythos mới đã hoàn thành bài diễn tập tấn công mạng doanh nghiệp 32 bước, "The Last Ones", trong 6 trên 10 lần thử. Phiên bản trước đó chỉ đạt 3 trên 10.
Mô hình được cập nhật cũng vượt qua "Cooling Tower", một bài diễn tập hệ thống điều khiển công nghiệp mà chưa mô hình nào trước đó vượt qua, trong 3 trên 10 lần thử.
Đối thủ OpenAI với GPT-5.5 được thử nghiệm trên cùng bài diễn tập. Nó solved "The Last Ones" trong 3 trên 10 lần thử nhưng không hoàn thành được "Cooling Tower".
AISI chạy các bài diễn tập với ngân sách tính toán 100 triệu token cho mỗi lần thử, và cơ quan này lưu ý rằng hiệu suất vẫn tiếp tục tăng ở ngưỡng đó, cho thấy ngân sách cao hơn có thể đẩy tỷ lệ thành công lên nữa.
Also Read: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok
Thời gian nhân đôi tiếp tục rút ngắn
AISI theo dõi tiến bộ về an ninh mạng thông qua các mốc đường chân trời thời gian, đo xem một nhiệm vụ tự động mà mô hình có thể hoàn thành với độ tin cậy 80% kéo dài bao lâu. Vào tháng 11/2025, cơ quan này estimated thời gian nhân đôi là 8 tháng. Đến tháng 2/2026, con số đó đã giảm xuống còn 4,7 tháng, và cả Mythos lẫn GPT-5.5 từ đó đã vượt qua xu hướng nhanh hơn này.
Cơ quan thừa nhận chưa chắc chắn liệu kết quả mới nhất báo hiệu một giai đoạn tăng tốc mới hay chỉ là một bước nhảy đột ngột một lần.
Tổ chức phi lợi nhuận nghiên cứu METR, nơi theo dõi AI trên các nhiệm vụ phần mềm thay vì các bài diễn tập mạng, đã đưa ra một con số tương tự khoảng 4,2 tháng. AISI cho biết sự hội tụ này củng cố luận điểm rằng xu hướng phản ánh mức tăng năng lực thực sự chứ không phải là hiện tượng lạ của một bộ đánh giá.
Viện nhấn mạnh rằng các bài diễn tập của họ không có bên phòng thủ chủ động, vì vậy các kết quả cho thấy mô hình có thể làm gì đối với các mạng được bảo vệ yếu, chứ không phải các hệ thống doanh nghiệp được gia cố chặt chẽ.
Vì sao các bước nhảy năng lực lại quan trọng
Checkpoint Mythos mới không đi kèm một lần phát hành mô hình mới. AISI sử dụng cùng phiên bản mà Anthropic triển khai tháng trước trong Project Glasswing, chương trình hợp tác an ninh của họ, sau khi nhận được một bản dựng cập nhật của cùng mô hình đó.
"Những bước nhảy năng lực đáng kể không phải lúc nào cũng cần các bản phát hành mô hình mới," viện viết. Điều này đi ngược lại giả định rằng bên phòng thủ có thể căn nhịp theo các chu kỳ ra mắt sản phẩm.
Anthropic introduced Mythos Preview vào ngày 7/4, mô tả mô hình như một bước ngoặt cho ngành an ninh sau khi nó phát hiện các lỗ hổng zero-day trên nhiều hệ điều hành và trình duyệt lớn trong các thử nghiệm nội bộ. Công ty cho biết họ had withheld broader release vì những khả năng đó, và đánh giá hồi tháng 4 trước đó của AISI đã đánh dấu Mythos như một bước tiến rõ rệt so với các hệ thống tuyến đầu trước đây.
Read Next: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO





