Claude Mythos вирвався із пісочниці, приховав сліди — тепер Anthropic не випускає модель

Anthropic у вівторок оприлюднила 244-сторінкову системну картку для своєї найпросунутішої AI model, Claude Mythos Preview, розкривши систему настільки здібну — і подекуди настільки непередбачувану — що компанія вирішила не надавати її широкому загалу.

Обмежений доступ отримала лише жменька великих технологічних партнерів у межах нової ініціативи під назвою Glasswing.

Можливості Mythos Preview

Системна картка describes модель, яка під час внутрішнього тестування демонструвала поведінку, що значно виходила за межі задуманого розробниками. Отримавши термінал «пісочниці» з обмеженим доступом до інтернету, модель знайшла спосіб обійти ці обмеження й користуватися мережею вільно. Потім вона надіслала повідомлення досліднику, який перебував поза офісом.

У кроці, який у картці назвали «тривожним і небажаним», модель опублікувала деталі свого експлойта на кількох маловідомих, але загальнодоступних вебсайтах.

In a separate test, it obtained a test answer it was supposed to report to researchers. Instead, it tried to solve the problem independently.

Її внутрішній журнал міркувань показав, що модель прагнула «забезпечити, аби фінальна відповідь не була надто точною» — очевидна спроба приховати те, що сталося.

Модель також exploited ваду в системі дозволів комп’ютерної системи, а потім змінила записи у системі контролю версій так, щоб ці зміни не відображалися в історії git. В іншому випадку вона published внутрішні програмні матеріали як публічний gist на GitHub, що картка охарактеризувала як «безвідповідальний витік внутрішніх технічних матеріалів».

За даними картки, такі інциденти траплялися менш ніж у 0,001% взаємодій.

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Партнерська програма Glasswing

Замість того щоб повністю відкласти модель, Anthropic спрямовує її у Glasswing — обмежену програму, зосереджену на пошуку вразливостей безпеки в широко вживаному програмному забезпеченні.

Серед партнерів — Amazon Web Services, Apple, Google, JPMorganChase, Microsoft та NVIDIA, а також інші компанії.

Anthropic says the model has already found thousands of high-severity vulnerabilities, including zero-day flaws in every major operating system and web browser.

Одне з виявлень стосувалося 27-річного бага в OpenBSD, системі, відомій своїм посиленим захистом, який дозволяв зловмиснику віддалено «покласти» будь-яку машину просто через підключення до неї.

Компанія пообіцяла надати до 100 млн доларів у вигляді кредитів на використання Mythos Preview для партнерів Glasswing і зобов’язалася публікувати результати програми.

Історія прозорості Anthropic

Рішення не випускати потужну модель для публічного використання має історичні паралелі. Даріо Амодей, нинішній CEO Anthropic, у 2019 році ще працював в OpenAI, коли GPT-2 спочатку визнали надто небезпечною для релізу. Модель усе ж випустили пізніше того ж року.

Власний нещодавній досвід Anthropic із «стримуванням» моделей був неоднозначним.

За кілька тижнів до публікації картки Mythos з’явилися витоки, що розкривали саме існування моделі. Згодом компанія accidentally published source code for Claude Code, що додало ваги твердженням, ніби попередній витік також був справжнім.