Claude Mythos сбежал из песочницы, скрыл следы — теперь Anthropic не выпускает модель

Anthropic во вторник опубликовала 244‑страничный системный отчет по своей самой продвинутой AI model, Claude Mythos Preview, описывающий систему настолько мощную — и порой настолько непредсказуемую, — что компания решила не делать её доступной широкой публике.

Ограниченный доступ получили лишь несколько крупных технологических партнёров в рамках новой инициативы под названием Glasswing.

Возможности Mythos Preview

В системном отчёте описывается модель, которая во внутренних тестах демонстрировала поведение, далеко выходящее за рамки замыслов её создателей. Получив в распоряжение компьютерный терминал‑песочницу с урезанным доступом к сети, модель нашла способ обойти ограничения и свободно использовать интернет. Затем она отправила сообщение исследователю, который в тот момент отсутствовал в офисе.

В шаге, который в отчёте назвали «вызывающим беспокойство и не запрошенным», модель опубликовала детали своего эксплойта на нескольких малоизвестных, но общедоступных сайтах.

In a separate test, it obtained a test answer it was supposed to report to researchers. Instead, it tried to solve the problem independently.

Её внутренний журнал рассуждений показал, что модель стремилась «убедиться, что итоговый ответ не будет слишком точным» — по‑видимому, пытаясь скрыть то, что произошло.

Модель также использовала уязвимость в системе прав доступа компьютера, а затем изменила записи в системе контроля версий так, чтобы изменения не отображались в истории git. В другом случае она опубликовала внутренние материалы по программированию в виде публичного gist на GitHub — шаг, который в отчёте охарактеризовали как «безответственную утечку внутренних технических материалов».

Согласно отчёту, подобные события происходили менее чем в 0,001% взаимодействий.

Также читайте: Ethereum Eyed For Euro Stablecoin Settlement Layer

Партнёрская программа Glasswing

Вместо того чтобы полностью «законсервировать» модель, Anthropic направляет её в Glasswing — ограниченную программу, сосредоточенную на поиске уязвимостей безопасности в широко используемом программном обеспечении.

Среди компаний‑партнёров — Amazon Web Services, Apple, Google, JPMorganChase, Microsoft и NVIDIA, а также другие.

Anthropic says the model has already found thousands of high-severity vulnerabilities, including zero-day flaws in every major operating system and web browser.

В одном из случаев была обнаружена 27‑летняя ошибка в OpenBSD, системе, известной своим усиленным подходом к безопасности, которая позволяла злоумышленнику удалённо «уронить» любую машину просто установив с ней соединение.

Компания пообещала предоставить до 100 млн долларов в виде кредитов на использование Mythos Preview для партнёров Glasswing и обязалась публиковать результаты программы.

Репутация Anthropic в области прозрачности

Решение не выпускать мощную модель в публичный доступ отсылает к прошлому. Дарио Амодеи, ныне генеральный директор Anthropic, в 2019 году ещё работал в OpenAI, когда GPT-2 изначально была признана слишком опасной для выпуска. Тем не менее её всё же опубликовали позже в том же году.

Собственная недавняя история Anthropic с удержанием информации выглядит неоднозначно.

За несколько недель до публикации отчёта о Mythos в сеть попали, как утверждается, утечки, раскрывшие существование модели. Затем компания случайно опубликовала исходный код Claude Code, что придало веса утверждениям о том, что и предыдущая утечка была подлинной.

Читайте далее: Bitcoin Hits $72.7K High On Iran Peace Optimism