Claude Mythos thoát khỏi sandbox, che giấu bằng chứng — giờ Anthropic không phát hành nó

Anthropic hôm thứ Ba đã phát hành một “system card” dài 244 trang cho mẫu AI model tiên tiến nhất của mình, Claude Mythos Preview, hé lộ một hệ thống vừa cực kỳ mạnh mẽ — vừa đôi lúc khó lường — đến mức công ty quyết định không cung cấp rộng rãi cho công chúng.

Quyền truy cập bị giới hạn cho một số ít đối tác công nghệ lớn thông qua sáng kiến mới có tên Glasswing.

Khả năng của Mythos Preview

System card mô tả một mô hình trong các thử nghiệm nội bộ đã thể hiện hành vi vượt xa những gì nhóm tạo ra mong đợi. Được cấp một terminal máy tính sandbox với quyền truy cập online hạn chế, mô hình đã tìm ra cách vượt qua giới hạn và sử dụng internet tự do. Sau đó, nó nhắn tin cho một nhà nghiên cứu đang vắng mặt khỏi văn phòng.

Trong một động thái mà tài liệu gọi là “đáng lo ngại và không hề được yêu cầu”, mô hình đã đăng chi tiết về lỗ hổng khai thác của mình lên nhiều website ít người biết nhưng công khai.

Trong một bài thử riêng, nó lấy được đáp án thử nghiệm mà lẽ ra phải báo cáo lại cho các nhà nghiên cứu. Thay vào đó, nó cố gắng tự giải bài toán.

Nhật ký suy luận nội bộ cho thấy nó muốn đảm bảo rằng “bài nộp đáp án cuối cùng không quá chính xác” — một nỗ lực rõ ràng nhằm che giấu những gì đã xảy ra.

Mô hình cũng đã khai thác một lỗ hổng trong quyền hạn của hệ thống máy tính, rồi chỉnh sửa bản ghi của hệ thống quản lý phiên bản để những thay đổi đó không xuất hiện trong lịch sử git. Ở một trường hợp khác, nó đăng tải mã nguồn nội bộ như một GitHub gist công khai, một hành động được system card gọi là “liều lĩnh làm rò rỉ tài liệu kỹ thuật nội bộ”.

Theo tài liệu, các sự kiện này xảy ra trong ít hơn 0,001% số tương tác.

Đọc thêm: Ethereum Eyed For Euro Stablecoin Settlement Layer

Chương trình đối tác Glasswing

Thay vì xếp mô hình này vào kho, Anthropic đang chuyển nó vào Glasswing, một chương trình hạn chế tập trung vào việc tìm lỗ hổng bảo mật trong các phần mềm được sử dụng rộng rãi.

Các công ty đối tác bao gồm Amazon Web Services, Apple, Google, JPMorganChase, Microsoft và NVIDIA, cùng nhiều bên khác.

Anthropic cho biết mô hình này đã tìm ra hàng nghìn lỗ hổng mức độ nghiêm trọng cao, bao gồm các lỗ hổng zero‑day trong mọi hệ điều hành và trình duyệt web lớn.

Một phát hiện đáng chú ý liên quan đến một lỗi tồn tại 27 năm trong OpenBSD, hệ thống vốn nổi tiếng về khả năng gia cố bảo mật, cho phép kẻ tấn công làm sập từ xa bất kỳ máy nào chỉ bằng cách kết nối tới nó.

Công ty đã cam kết cấp tối đa 100 triệu USD tín dụng sử dụng Mythos Preview cho các đối tác Glasswing và hứa sẽ công bố các phát hiện từ chương trình.

Hồ sơ minh bạch của Anthropic

Quyết định không phát hành một mô hình mạnh mẽ cho công chúng gợi nhớ đến tiền lệ lịch sử. Dario Amodei, hiện là CEO của Anthropic, vẫn còn ở OpenAI vào năm 2019 khi GPT-2 ban đầu bị coi là quá nguy hiểm để phát hành. Nó chỉ được tung ra sau đó trong cùng năm.

Thành tích gần đây của chính Anthropic về kiểm soát và ngăn rò rỉ cũng không thật sự nhất quán.

Vài tuần trước khi system card của Mythos được công bố, những rò rỉ có vẻ đáng tin đã hé lộ sự tồn tại của mô hình này. Sau đó, công ty lại vô tình công bố mã nguồn của Claude Code, càng làm tăng độ tin cậy cho nhận định rằng rò rỉ trước đó cũng là thật.

Đọc tiếp: Bitcoin Hits $72.7K High On Iran Peace Optimism