Anthropic співзасновник Кріс Ола виступив поруч із Папою Львом XIV у Ватикані й розповів понтифіку, що дослідники знаходять усередині моделей штучного інтелекту «тривожні» речі.
Візит додає незвичний, релігійно-етичний вимір до тривалої дискусії про вирівнювання ШІ (AI alignment) і безпеку передових моделей.
Що казали у Ватикані
Звіт Futurism describes співзасновника Anthropic, який робив заяви про відкриття всередині моделей ШІ, що були охарактеризовані як дивні.
Конкретна природа цих відкриттів у публічних матеріалах повністю не розкривається. Використання формулювання «тривожні» помітне тим, що публічні комунікації Anthropic зазвичай відзначаються виваженими, технічними описами ризиків ШІ.
Ватикан активно взаємодіє з технологічними компаніями з етичних питань. Папа Лев XIV продовжив ініціативи свого попередника щодо цифрової етики та управління ШІ. Ця зустріч є одним із найнезвичніших майданчиків для розмови про безпеку ШІ за останні місяці.
Передумови
Anthropic була заснована у 2021 році колишніми керівниками досліджень OpenAI, зокрема Даріо Амодеї та Даніелою Амодеї.
Компанія позиціонує себе як орієнтовану на безпеку альтернативу серед передових лабораторій ШІ. Вона публікує дослідження з інтерпретованості, спрямовані на розуміння того, що відбувається всередині великих мовних моделей на механістичному рівні.
Ці дослідження дали результати, які навіть дослідники Anthropic описують як складні для повного пояснення. Yellow висвітлював паралельну часову шкалу безпеки Google DeepMind (див. попередні матеріали Yellow), коли генеральний директор DeepMind Деміс Хассабіс заявив, що AGI може з’явитися протягом трьох-чотирьох років.
Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers
Інтерпретованість і що може означати «тривожні»
Команда Anthropic з механістичної інтерпретованості опублікувала дослідження finding, у якому показано, що окремі нейрони всередині трансформерних моделей можуть активуватися на неочікувані поєднання понять.
Один із широко обговорюваних прикладів стосується нейрона, який активувався і на поняття насильства, і на поняття певної релігії. Саме такі результати дослідники неформально називають тривожними, оскільки вони порушують питання про те, як моделі внутрішньо репрезентують значення.
Ширша програма досліджень з інтерпретованості ставить питання, чи можливо повністю зрозуміти, що робить модель, до її розгортання. Поточні методи дозволяють пояснити лише невелику частку внутрішніх станів великої моделі. Решта залишається непрозорою.
Чому важлива взаємодія з Ватиканом
Католицька церква налічує понад мільярд вірян. Її взаємодія з компаніями ШІ має інший тип впливу, ніж слухання в уряді чи політичні доповіді.
Ватиканський документ 2020 року «Rome Call for AI Ethics» був підписаний Microsoft та IBM. Присутність Anthropic на зустрічі високого рівня з Папою продовжує цю традицію вже в контексті обговорення безпеки передових систем.
Критики риторики безпеки ШІ стверджують, що апокаліптичне подання проблеми може відволікати від ближчих за часом загроз, таких як упередженість, витіснення праці та дезінформація. Зустріч у Ватикані, ймовірно, буде інтерпретуватися крізь обидві призми. Ті, хто зосереджений на екзистенційних ризиках, побачать у ній доречне підсилення уваги. Ті, хто фокусується на негайних шкодах, можуть запитати, чому співзасновник компанії ШІ звітує релігійним лідерам, а не регуляторам.
Ширший ландшафт безпеки
У той самий тиждень, що й візит до Ватикану, Cisco published дослідження, в якому йдеться про те, що жодна закрита передова модель ШІ не є стійкою до багатокрокових (multi-turn) атаки супротивника.
Це відкриття додає емпіричної ваги занепокоєнню, що системи ШІ є менш безпечними, ніж свідчать їхні результати в одноразових бенчмаркових тестах.
Адміністрація Трампа також переглядає, чи варто відновити вимоги часів Байдена щодо тестування перед розгортанням передових моделей. Остаточне рішення ще не оголошене. Для Anthropic, яка виступає за оцінки безпеки як необхідну умову розгортання, регуляторний діалог і етична робота з різними аудиторіями є двома напрямами однієї довгострокової стратегії.
Read Next: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind





