Anthropic откроет доступ к Claude Mythos для широкой публики, когда меры безопасности догонят риски, возможно через 12 месяцев

Anthropic заявляет, что намерена открыть публичный доступ к модели Mythos, its vulnerability-hunting AI, но только после того, как создаст меры защиты, которых пока не существует.

Key Points:

Anthropic plans to release Mythos-class models broadly after first expanding access to U.S. and allied governments.

The company admits no firm, including itself, has built safeguards strong enough to stop misuse.

Mythos has flagged more than 23,000 issues across 1,000 open-source projects, including 6,202 high or critical flaws.

Выпуск Anthropic Mythos

Anthropic подтвердила этот план в обновлении Project Glasswing, своей ограниченной по доступу программы в области безопасности, а отдельный отчёт отметил, что сроки остаются неопределёнными.

Компания сообщила, что сначала будет работать с правительствами США и союзников, чтобы расширить программу. Более широкий релиз «моделей класса Mythos» должен последовать в ближайшем будущем.

Anthropic высказалась о рисках предельно прямо. Она заявила, что ни одна компания, включая её саму, пока не создала достаточно сильные меры защиты, способные предотвратить злоупотребления моделью и нанесение серьёзного вреда.

Тем не менее компания ожидает, что подобные инструменты будут распространяться быстро, прогнозируя, что модели уровня Mythos станут широко доступны в течение шести–двенадцати месяцев.

Mythos дебютировала в апреле. По словам Anthropic, в тестах модель генерировала рабочие эксплойты в 72,4 % случаев, тогда как более ранняя модель Claude показывала почти нулевой результат.

Также читайте: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Находки Mythos в области уязвимостей

С момента дебюта модель просканировала более 1 000 open-source‑проектов и обнаружила 23 019 проблем, из которых 6 202 были оценены как уязвимости высокой или критической степени.

Одна находка особенно выделялась. Mythos выявила изъян в криптографической библиотеке wolfSSL, которую используют миллиарды устройств. Эта уязвимость могла позволить злоумышленникам подделывать сертификаты и выдавать себя за банки или почтовые провайдеры. На данный момент проблема уже устранена.

Поток отчётов перегрузил тех, кто должен их исправлять. Мейнтейнеры open-source‑проектов попросили Anthropic замедлить раскрытие уязвимостей, заявив, что объём находок опережает их возможности по исправлению.

Исследователи видят более глубокий дисбаланс. Anthropic утверждает, что находить ошибки теперь гораздо проще, чем их исправлять, и компания заключила партнёрство с проектом Alpha-Omega Open Source Security Foundation, чтобы помочь мейнтейнерам разбирать накопившийся backlog.

В системной карте Claude Mythos прогнозируется, что со временем ИИ начнёт играть на стороне защитников, хотя Anthropic признаёт, что сейчас преимущество может быть на стороне атакующих.

Когда Mythos была впервые представлена, Anthropic предоставила доступ более чем 50 организациям, включая Apple, Microsoft и Google, а также около 100 млн долларов в виде кредитов на использование, удерживая модель от широкой публики из‑за её способности превращать уязвимости в оружие.

Читайте далее: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High