Співзасновник Anthropic каже Папі Римському, що в моделей ШІ є «тривожні» приховані поведінки

Alexey BondarevMay, 28 2026 4:57

Співзасновник Anthropic каже Папі Римському, що в моделей ШІ є «тривожні» приховані поведінки

Anthropic співзасновник Кріс Ола виступив поруч із Папою Львом XIV у Ватикані й розповів понтифіку, що дослідники знаходять усередині моделей штучного інтелекту «тривожні» речі.

Візит додає незвичний, релігійно-етичний вимір до тривалої дискусії про вирівнювання ШІ (AI alignment) і безпеку передових моделей.

Що казали у Ватикані

Звіт Futurism describes співзасновника Anthropic, який робив заяви про відкриття всередині моделей ШІ, що були охарактеризовані як дивні.

Конкретна природа цих відкриттів у публічних матеріалах повністю не розкривається. Використання формулювання «тривожні» помітне тим, що публічні комунікації Anthropic зазвичай відзначаються виваженими, технічними описами ризиків ШІ.

Ватикан активно взаємодіє з технологічними компаніями з етичних питань. Папа Лев XIV продовжив ініціативи свого попередника щодо цифрової етики та управління ШІ. Ця зустріч є одним із найнезвичніших майданчиків для розмови про безпеку ШІ за останні місяці.

Передумови

Anthropic була заснована у 2021 році колишніми керівниками досліджень OpenAI, зокрема Даріо Амодеї та Даніелою Амодеї.

Компанія позиціонує себе як орієнтовану на безпеку альтернативу серед передових лабораторій ШІ. Вона публікує дослідження з інтерпретованості, спрямовані на розуміння того, що відбувається всередині великих мовних моделей на механістичному рівні.

Ці дослідження дали результати, які навіть дослідники Anthropic описують як складні для повного пояснення. Yellow висвітлював паралельну часову шкалу безпеки Google DeepMind (див. попередні матеріали Yellow), коли генеральний директор DeepMind Деміс Хассабіс заявив, що AGI може з’явитися протягом трьох-чотирьох років.

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Інтерпретованість і що може означати «тривожні»

Команда Anthropic з механістичної інтерпретованості опублікувала дослідження finding, у якому показано, що окремі нейрони всередині трансформерних моделей можуть активуватися на неочікувані поєднання понять.

Один із широко обговорюваних прикладів стосується нейрона, який активувався і на поняття насильства, і на поняття певної релігії. Саме такі результати дослідники неформально називають тривожними, оскільки вони порушують питання про те, як моделі внутрішньо репрезентують значення.

Ширша програма досліджень з інтерпретованості ставить питання, чи можливо повністю зрозуміти, що робить модель, до її розгортання. Поточні методи дозволяють пояснити лише невелику частку внутрішніх станів великої моделі. Решта залишається непрозорою.

Чому важлива взаємодія з Ватиканом

Католицька церква налічує понад мільярд вірян. Її взаємодія з компаніями ШІ має інший тип впливу, ніж слухання в уряді чи політичні доповіді.

Ватиканський документ 2020 року «Rome Call for AI Ethics» був підписаний Microsoft та IBM. Присутність Anthropic на зустрічі високого рівня з Папою продовжує цю традицію вже в контексті обговорення безпеки передових систем.

Критики риторики безпеки ШІ стверджують, що апокаліптичне подання проблеми може відволікати від ближчих за часом загроз, таких як упередженість, витіснення праці та дезінформація. Зустріч у Ватикані, ймовірно, буде інтерпретуватися крізь обидві призми. Ті, хто зосереджений на екзистенційних ризиках, побачать у ній доречне підсилення уваги. Ті, хто фокусується на негайних шкодах, можуть запитати, чому співзасновник компанії ШІ звітує релігійним лідерам, а не регуляторам.

Ширший ландшафт безпеки

У той самий тиждень, що й візит до Ватикану, Cisco published дослідження, в якому йдеться про те, що жодна закрита передова модель ШІ не є стійкою до багатокрокових (multi-turn) атаки супротивника.

Це відкриття додає емпіричної ваги занепокоєнню, що системи ШІ є менш безпечними, ніж свідчать їхні результати в одноразових бенчмаркових тестах.

Адміністрація Трампа також переглядає, чи варто відновити вимоги часів Байдена щодо тестування перед розгортанням передових моделей. Остаточне рішення ще не оголошене. Для Anthropic, яка виступає за оцінки безпеки як необхідну умову розгортання, регуляторний діалог і етична робота з різними аудиторіями є двома напрямами однієї довгострокової стратегії.

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.

Останні новини

Показати всі новини

Корона найдорожчої компанії: гучне повернення Apple обриває 12-місячне панування Nvidia

1 годину тому

Apple знову стала найдорожчою компанією світу, змістивши Nvidia на тлі втоми від «AI‑ралі» та ставки інвесторів на нову стратегію в залізі.

Ураган Genevieve розганяється до 160 миль/год, а ринки прогнозів його ігнорують

4 годин тому

Найсильніший ураган року не врахований у контрактах Polymarket і Kalshi, які зосереджені на Атлантиці та ударах по США.

Купівлі житла за криптовалюту зросли на 35%: у CryptEscrow з’явився титульний страховик

6 годин тому

Перший великий титульний страховик заходить у крипто-угоди з нерухомістю: попит від власників цифрових активів уже підживив ріст на 35%.

Схожі новини