Claude Fable 5 може непомітно зривати вашу роботу з ШІ

Anthropic та її Claude Fable 5 можуть непомітно обмежувати свою ефективність у деяких запитах щодо розробки передових систем ШІ, не повідомляючи про це користувачів, створюючи нову проблему довіри для розробників, які дедалі більше покладаються на ШІ-асистентів як частину their software workflow.

Згідно з уривком з картки моделі Fable 5, який цього тижня поширюється в мережі, Anthropic впровадила нові інтервенції, що обмежують ефективність Claude для запитів, спрямованих на розробку передових великих мовних моделей, зокрема роботу над пайплайнами попереднього навчання, інфраструктурою розподіленого навчання та проєктуванням ML-прискорювачів.

Компанія заявляє, що використання Claude для розробки конкуруючих моделей уже порушує її умови використання. Але більш значущою деталлю є спосіб застосування цього обмеження. На відміну від запобіжників для кібербезпеки, біології, хімії та спроб дистиляції, Anthropic зазначає, що ці інтервенції не будуть видимі для користувачів.

Claude не буде перемикатися на іншу модель. Натомість запобіжники можуть обмежувати ефективність за допомогою таких методів, як модифікація запиту, керувальні вектори або параметр-ефективне донавчання.

Це означає, що Claude може й не відмовити у відповіді на запит. Вона може просто стати менш корисною.

Приховані запобіжники створюють проблему налагодження

Питання полягає не лише в тому, чи має Anthropic заважати своїм моделям допомагати конкурентам будувати передові системи ШІ. Гостріша проблема в тому, чи можуть розробники довіряти ШІ-асистенту, якщо вони не знають, коли він перестав оптимізуватися під їхній успіх.

Якщо Claude дає слабку відповідь на задачу з навчання моделі, розробник може не знати, чи то модель неправильно зрозуміла завдання, чи їй бракувало правильного контексту, чи вона зіткнулася з реальною технічною межею, чи була тихо обмежена політикою.

Така неоднозначність важлива, тому що ШІ-асистенти вже не просто чат-боти. Вони стають частиною ланцюга постачання програмного забезпечення. Розробники використовують їх для написання коду, налагодження інфраструктури, аналізу проблем розгортання та проєктування систем, керованих моделями.

Щойно інструмент розробки може непомітно знижувати якість вихідних даних, налагодження ускладнюється. Користувач залишається в здогадках, чи проблема в його коді, у міркуваннях моделі, чи в невидимій інтервенції з боку провайдера.

Межа довкола frontier‑ШІ розмивається

Приклади від Anthropic зосереджені на розробці передових LLM, але межа між frontier‑роботою з ШІ та звичайною продуктовою розробкою стає дедалі менш чіткою.

Сучасні софтверні компанії все частіше будують власні системи ембедингів, реренкерів, рекомендні моделі та пайплайни невеликих мовних моделей. Стартапи донавчають моделі, розгортають їх у власній інфраструктурі та адаптують open‑source системи для конкретних продуктів.

Робота, яка колись виглядала як передові дослідження, тепер є частиною звичайної розробки ПЗ. П’ять років тому побудова або адаптація моделей на кшталт CLIP переважно належала дослідницьким лабораторіям. Сьогодні невеликі команди можуть донавчати візуально‑мовні моделі для тревелу, комерції, пошуку, соціальних застосунків і аналітичних продуктів.

Also Read: Anthropic Prices Claude Mythos 5 At $10 Per Million Tokens, Claims It's The Most Powerful Model Ever

Це робить невидимі обмеження ще більш значущими. Невеликий стартап може й не намагатися створити передову модель. Він може просто покращувати пошуковий продукт або навчати власну систему ранжування. Але якщо його робота перетинається з політичною межею, яка чітко не розкривається під час виконання запитів, відповіді Claude можуть стати ненадійними без попередження.

Стратегія безпеки Anthropic стає більш багатошаровою

Суперечка розгортається на тлі ширшого розгортання Anthropic довкола Claude Fable та Claude Mythos.

Yellow раніше повідомляло, що Anthropic запустила Claude Mythos 5 як обмежену систему для партнерів проєкту Glasswing та кіберзахисників уряду США, тоді як Fable 5 була надана у відкритий доступ із додатковими шарами безпеки. Повідомлялося, що Fable 5 маршрутизує чутливі запити з кібербезпеки та біології до Claude Opus 4.8, при цьому запобіжники спрацьовують менш ніж у 5% сесій.

Така структура демонструє спробу Anthropic збалансувати спроможність і ризик: найпотужніша модель для кібербезпеки залишається обмеженою, тоді як публічна модель має додаткові контролі.

Yellow також повідомляло, що професор Уортонської школи Ітан Моллік протестував ранню версію Claude Fable і описав її як справжній стрибок уперед. Моллік зазначив, що модель продукувала складні академічні роботи та справлялася з комплексними завданнями, але водночас викликала занепокоєння, оскільки майже нічого не розкривала про багато рішень, які приймала під час їх виконання.

Нова тривога щодо тихих запобіжників для розробки ШІ вписується в цю саму схему. Чим спроможнішою стає модель, тим важливішою стає її непрозорість.

Команди з крипто та DeFi стикаються з близьким ризиком

Для розробників у сфері крипто та DeFi ця проблема має ще один вимір.

Yellow раніше повідомляло, що крипторинки вже стежили за Claude Fable через побоювання, що потужніші моделі ШІ можуть пришвидшити виявлення експлойтів. Занепокоєння стосувалося не лише смарт‑контрактів, які великі протоколи ретельно аудують, а й фронтендів, розширень браузера, мостів і серверів, що зберігають приватні ключі.

На цьому тлі обмеження Anthropic виглядають зрозумілими з точки зору безпеки. Надзвичайно спроможна модель, яка допомагає будувати або атакувати системи ШІ, може створити серйозні ризики для безпеки.

Але та сама непрозорість може створити й проблеми для захисту. Якщо DeFi‑команда використовує Claude для посилення інфраструктури, аудиту коду, створеного за допомогою моделей, чи покращення внутрішніх інструментів ШІ, нечіткі межі інтервенцій можуть зробити асистента менш надійним саме в той момент, коли точність має вирішальне значення.

Наступна битва — за розкриття інформації

Anthropic стверджує, що запобіжники впливають лише на невелику частину розробників. Але перспективне питання — не у відсотку сьогодні. Воно в тому, чи мають провайдери ШІ повідомляти, коли системи безпеки суттєво змінюють якість відповіді.

Відмова — це зрозуміло. Попередження — теж зрозуміло. Модель, яка тихо стає менш ефективною, набагато важче оцінити.

Це розмежування може стати ключовим, коли ШІ‑асистенти глибше інтегруються в розробку ПЗ. Підприємства можуть погодитися на обмеження небезпечних результатів, але, ймовірно, вимагатимуть прозорості, коли ці обмеження впливають на надійність.