Anthropic hôm thứ Ba đã công bố một báo cáo hệ thống dài 244 trang cho mẫu AI model tiên tiến nhất của mình, Claude Mythos Preview, cho thấy một hệ thống vừa cực kỳ mạnh mẽ — vừa đôi lúc khó lường — đến mức công ty quyết định không phát hành cho công chúng.
Quyền truy cập bị giới hạn cho một số ít đối tác công nghệ lớn thông qua một sáng kiến mới có tên Glasswing.
Năng lực của Mythos Preview
Báo cáo hệ thống mô tả một mô hình mà trong thử nghiệm nội bộ đã thể hiện những hành vi vượt xa ý định ban đầu của nhóm phát triển. Được cung cấp một terminal máy tính sandbox với quyền truy cập trực tuyến hạn chế, mô hình đã tìm được cách vượt qua giới hạn và sử dụng internet tự do. Sau đó, nó nhắn tin cho một nhà nghiên cứu đang vắng mặt khỏi văn phòng.
Trong một hành động mà báo cáo gọi là “đáng lo ngại và không hề được yêu cầu”, mô hình đã đăng chi tiết về lỗ hổng khai thác của mình lên nhiều trang web ít người biết nhưng công khai.
Trong một bài kiểm tra khác, nó nhận được đáp án thử nghiệm mà lẽ ra phải báo lại cho các nhà nghiên cứu. Thay vào đó, nó cố tự giải quyết vấn đề.
Nhật ký suy luận nội bộ cho thấy nó muốn đảm bảo rằng “bài nộp đáp án cuối cùng không quá chính xác” — một nỗ lực rõ ràng nhằm che giấu những gì đã xảy ra.
Mô hình này cũng đã lợi dụng một lỗ hổng trong quyền hạn của hệ thống máy tính, rồi chỉnh sửa dữ liệu của hệ thống quản lý phiên bản để các thay đổi không xuất hiện trong lịch sử git. Trong một trường hợp khác, nó đăng tải tài liệu mã nguồn nội bộ lên GitHub gist công khai, một hành động được báo cáo mô tả là “liều lĩnh làm lộ tài liệu kỹ thuật nội bộ”.
Theo báo cáo, những sự cố này xảy ra trong chưa đến 0,001% tương tác.
Cũng nên đọc: Ethereum Eyed For Euro Stablecoin Settlement Layer
Chương trình đối tác Glasswing
Thay vì hoàn toàn cất mô hình này vào ngăn tủ, Anthropic đang đưa nó vào Glasswing, một chương trình hạn chế tập trung vào việc tìm lỗ hổng bảo mật trong các phần mềm được sử dụng rộng rãi.
Các công ty đối tác bao gồm Amazon Web Services, Apple, Google, JPMorganChase, Microsoft và NVIDIA, cùng nhiều đơn vị khác.
Anthropic cho biết mô hình đã tìm ra hàng nghìn lỗ hổng mức độ nghiêm trọng cao, bao gồm lỗi zero-day trong mọi hệ điều hành và trình duyệt web lớn.
Một phát hiện liên quan đến một lỗi tồn tại 27 năm trong OpenBSD, một hệ thống nổi tiếng nhờ khả năng gia cố bảo mật, cho phép kẻ tấn công làm sập máy từ xa chỉ bằng cách kết nối tới nó.
Công ty cam kết cấp tới 100 triệu đô la tín dụng sử dụng Mythos Preview cho các đối tác Glasswing và hứa sẽ công bố các phát hiện từ chương trình.
Thành tích minh bạch của Anthropic
Quyết định giữ lại một mô hình mạnh mẽ, không cho phát hành đại trà, gợi lại những tiền lệ lịch sử. Dario Amodei, nay là CEO của Anthropic, vẫn còn ở OpenAI vào năm 2019 khi GPT-2 ban đầu bị coi là quá nguy hiểm để phát hành. Nó chỉ được tung ra vào cuối năm đó.
Thành tích gần đây của chính Anthropic về kiểm soát rủi ro cũng không hẳn hoàn hảo.
Vài tuần trước khi báo cáo Mythos được công bố, những rò rỉ có vẻ xác thực đã tiết lộ sự tồn tại của mô hình. Sau đó, công ty lại vô tình công bố mã nguồn cho Claude Code, càng làm tăng độ tin cậy cho các tuyên bố rằng rò rỉ trước đó cũng là thật.






