Claude Fable 5 может тихо саботировать вашу работу с ИИ

Anthropic в модели Claude Fable 5 может тихо снижать свою эффективность по части продвинутых запросов на разработку ИИ, не предупреждая об этом пользователей. Это создаёт новую проблему доверия для разработчиков, которые всё больше полагаются на ИИ‑ассистентов как часть их процесса разработки ПО.

Согласно выдержке из карточки модели Fable 5, циркулирующей на этой неделе, Anthropic внедрила новые вмешательства, ограничивающие эффективность Claude для запросов, нацеленных на разработку передовых больших языковых моделей. В том числе по работе над пайплайнами предпреобучения, распределённой инфраструктурой обучения и проектированием ML‑акселераторов.

Компания утверждает, что использование Claude для разработки конкурирующих моделей уже нарушает её условия обслуживания. Но более существенная деталь — то, как реализовано это ограничение. В отличие от защит для кибербезопасности, биологии, химии и попыток дистилляции, Anthropic заявляет, что эти вмешательства не будут видимы для пользователей.

Claude не будет переключаться на другую модель. Вместо этого меры безопасности могут снижать эффективность через такие методы, как модификация промпта, управляющие векторы или параметро‑эффективный дообучающий тюнинг.

Это означает, что Claude может и не отклонить запрос. Он может просто стать менее полезным.

Скрытые меры безопасности создают проблему отладки

Вопрос не только в том, должна ли Anthropic мешать своим моделям помогать конкурентам строить передовые ИИ‑системы. Более остро стоит проблема: могут ли разработчики доверять ИИ‑ассистенту, если не знают, когда тот перестал оптимизироваться под их успех.

Если Claude даёт слабый ответ на задачу по обучению модели, разработчик не понимает, неправильно ли модель поняла задачу, не хватило ли контекста, упёрлась ли она в реальное техническое ограничение или была тихо ограничена политикой.

Эта неоднозначность важна, поскольку ИИ‑ассистенты больше не просто чат‑боты. Они становятся частью программной цепочки поставок. Разработчики используют их для написания кода, отладки инфраструктуры, анализа проблем деплоя и проектирования систем, основанных на моделях.

Как только инструмент разработки может тихо снижать качество вывода, отладка усложняется. Пользователь остаётся гадать, в чём проблема — в его коде, в рассуждениях модели или в невидимом вмешательстве провайдера.

Граница вокруг передового ИИ размывается

Примеры Anthropic сосредоточены на разработке передовых LLM, но линия между работой на фронтире ИИ и обычной продуктовой разработкой становится всё менее чёткой.

Современные софтверные компании всё чаще строят собственные системы эмбеддингов, реранкеры, рекомендательные модели и пайплайны из небольших языковых моделей. Стартапы дообучают модели, разворачивают их локально и адаптируют open‑source‑системы под конкретные продукты.

То, что раньше выглядело как передовые исследования, теперь стало частью обычной разработки ПО. Пять лет назад создание или адаптация моделей вроде CLIP в основном относилась к исследовательским лабораториям. Сегодня небольшие команды могут дообучать vision‑language‑модели для тревела, коммерции, поиска, соцприложений и аналитических продуктов.

Also Read: Anthropic Prices Claude Mythos 5 At $10 Per Million Tokens, Claims It's The Most Powerful Model Ever

Это делает невидимые ограничения более значимыми. Небольшой стартап может вовсе не пытаться построить передовую модель. Он может всего лишь улучшать продукт поиска или обучать кастомную ранжирующую систему. Но если его работа пересекается с политической границей, которая не раскрывается явно во время запроса, ответы Claude могут стать ненадёжными без какого‑либо предупреждения.

Стратегия безопасности Anthropic становится многоуровневой

Спор разгорелся на фоне более широкого запуска Anthropic вокруг Claude Fable и Claude Mythos.

Yellow ранее сообщал, что Anthropic выпустила Claude Mythos 5 как ограниченную систему для партнёров по Project Glasswing и киберзащитников правительства США, в то время как Fable 5 был доступен публично, но с дополнительными уровнями безопасности. По сообщениям, Fable 5 перенаправляет чувствительные запросы по кибербезопасности и биологии в Claude Opus 4.8, причём защитные механизмы срабатывают менее чем в 5% сессий.

Такая архитектура показывает стремление Anthropic балансировать возможности и риски: самая мощная модель для кибербезопасности остаётся ограниченной, а публичная модель несёт дополнительные контуры контроля.

Yellow также сообщал, что профессор Уортона Итан Моллик протестировал раннюю версию Claude Fable и назвал её реальным скачком. По его словам, модель создавала сложные академические работы и справлялась с комплексными задачами, но при этом вызывала беспокойство тем, что почти ничего не раскрывала о множестве решений, которые принимала по ходу их выполнения.

Новая тревога вокруг тихих ограничений для запросов по разработке ИИ укладывается в ту же схему. По мере роста возможностей модели её непрозрачность становится всё важнее.

Команды из крипто и DeFi сталкиваются с похожим риском

Для разработчиков в крипто и DeFi проблема имеет дополнительный слой.

Yellow ранее сообщал, что крипторынки уже присматривались к Claude Fable из‑за опасений, что более сильные ИИ‑модели могут ускорить поиск эксплойтов. Речь шла не только о смарт‑контрактах, которые крупные протоколы тщательно аудируют, но и о фронтендах, браузерных расширениях, мостах и серверах, где хранятся приватные ключи.

На этом фоне ограничения Anthropic выглядят понятными с точки зрения безопасности. Высокоспособная модель, помогающая строить или атаковать ИИ‑системы, может создавать новые риски для безопасности.

Но та же непрозрачность создаёт проблемы и для защиты. Если DeFi‑команда использует Claude для укрепления инфраструктуры, аудита кода, созданного с помощью моделей, или улучшения внутренних ИИ‑инструментов, нечёткие границы вмешательства могут сделать ассистента менее надёжным именно в тот момент, когда точность критически важна.

Следующая битва — за раскрытие информации

Anthropic утверждает, что меры безопасности затрагивают лишь небольшую долю разработчиков. Но более важен не нынешний процент, а будущее: должны ли ИИ‑провайдеры раскрывать моменты, когда системы безопасности существенно меняют качество ответов.

Отказ в ответе понятен. Предупреждение понятно. Модель, которая тихо становится менее эффективной, гораздо сложнее для оценки.

Это различие может стать ключевым по мере того, как ИИ‑ассистенты глубже встраиваются в разработку ПО. Предприятия могут согласиться на ограничения опасных ответов, но, вероятнее всего, будут требовать прозрачности, когда эти ограничения влияют на надёжность.