Anthropic sẽ mở Claude Mythos cho công chúng khi hàng rào bảo vệ bắt kịp, có thể trong 12 tháng

Anthropic cho biết họ dự định cho công chúng truy cập vào mô hình Mythos, its vulnerability-hunting AI, nhưng chỉ sau khi xây dựng được các hàng rào bảo vệ hiện vẫn chưa tồn tại.

Các ý chính:

Anthropic có kế hoạch phát hành rộng rãi các mô hình thuộc lớp Mythos sau khi trước tiên mở rộng quyền truy cập cho chính phủ Mỹ và các nước đồng minh.

Công ty thừa nhận chưa có bên nào, kể cả chính họ, xây dựng được hàng rào bảo vệ đủ mạnh để ngăn chặn lạm dụng.

Mythos đã phát hiện hơn 23.000 vấn đề trên 1.000 dự án mã nguồn mở, bao gồm 6.202 lỗi mức cao hoặc nghiêm trọng.

Kế hoạch phát hành Anthropic Mythos

Anthropic đã xác nhận kế hoạch này trong một bản cập nhật cho Project Glasswing, chương trình bảo mật giới hạn truy cập, và một báo cáo riêng cho rằng mốc thời gian vẫn chưa chắc chắn.

Công ty cho biết họ sẽ làm việc trước với chính phủ Mỹ và các nước đồng minh để mở rộng chương trình. Việc phát hành rộng rãi các “mô hình lớp Mythos” sẽ diễn ra trong tương lai gần.

Anthropic nói thẳng về rủi ro. Họ nêu rõ rằng chưa có công ty nào, kể cả chính họ, xây dựng được hàng rào bảo vệ đủ mạnh để ngăn mô hình bị lạm dụng và gây thiệt hại nghiêm trọng.

Dù vậy, công ty dự đoán các công cụ tương tự sẽ lan rộng nhanh chóng, ước tính các mô hình ở cấp Mythos sẽ trở nên phổ biến rộng rãi trong vòng sáu đến 12 tháng.

Mythos đã ra mắt vào tháng 4. Anthropic cho biết trong thử nghiệm, nó tạo ra khai thác hoạt động được trong 72,4% trường hợp, so với gần như 0% ở một mô hình Claude trước đó.

Đọc thêm: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Các phát hiện lỗ hổng của Mythos

Kể từ khi ra mắt, mô hình đã quét hơn 1.000 dự án mã nguồn mở và phát hiện 23.019 vấn đề, trong đó 6.202 vấn đề được đánh giá có mức độ nghiêm trọng cao hoặc nghiêm trọng.

Một phát hiện nổi bật là Mythos tìm ra một lỗ hổng trong thư viện mật mã wolfSSL, được sử dụng bởi hàng tỷ thiết bị, có thể cho phép kẻ tấn công giả mạo chứng chỉ và mạo danh ngân hàng hoặc nhà cung cấp email. Lỗ hổng này hiện đã được vá.

Làn sóng báo cáo dồn dập đã gây áp lực cho những người chịu trách nhiệm khắc phục. Các maintainer của dự án mã nguồn mở đã yêu cầu Anthropic làm chậm việc công bố, cho rằng khối lượng báo cáo vượt quá khả năng xử lý của họ.

Các nhà nghiên cứu nhìn thấy một sự mất cân bằng sâu sắc hơn. Anthropic lập luận rằng việc tìm lỗi giờ đã dễ hơn nhiều so với việc sửa lỗi, và công ty đã hợp tác với dự án Alpha-Omega của Open Source Security Foundation để giúp các maintainer phân loại và xử lý tồn đọng.

Thẻ hệ thống Claude Mythos dự đoán AI cuối cùng sẽ nghiêng lợi thế về phía bên phòng thủ, dù Anthropic thừa nhận hiện tại bên tấn công có thể vẫn đang chiếm ưu thế.

Khi Mythos lần đầu được tiết lộ, Anthropic đã cho hơn 50 tổ chức, bao gồm Apple, Microsoft và Google, truy cập cùng khoảng 100 triệu USD tín dụng sử dụng, đồng thời giữ mô hình này ngoài tầm tay công chúng vì khả năng bị vũ khí hóa các lỗ hổng phần mềm.

Đọc tiếp: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High