Сооснователь Anthropic рассказал Папе Римскому о «тревожных» скрытых свойствах ИИ‑моделей

Alexey BondarevMay, 28 2026 4:57

Сооснователь Anthropic рассказал Папе Римскому о «тревожных» скрытых свойствах ИИ‑моделей

Сооснователь Anthropic Крис Ола появился вместе с Папой Львом XIV в Ватикане и заявил понтифику, что исследователи находят «тревожные» вещи внутри моделей искусственного интеллекта.

Этот визит добавляет необычное религиозно‑этическое измерение к продолжающейся дискуссии об ALIGNMENT ИИ и безопасности передовых моделей.

Что было сказано в Ватикане

Материал Futurism describes сооснователя Anthropic, делающего заявления об открытиях внутри ИИ‑моделей, которые они охарактеризовали как странные.

Конкретный характер этих открытий в опубликованных материалах полностью не раскрывается. Формулировка с использованием слова «тревожные» примечательна, поскольку публичные коммуникации Anthropic обычно отличаются сдержанными, техническими описаниями рисков ИИ.

Ватикан активно взаимодействует с технологическими компаниями по вопросам этики. Папа Лев XIV продолжает начатое его предшественником направление по цифровой этике и управлению ИИ. Встреча стала одной из самых необычных площадок для разговора о безопасности ИИ за последние месяцы.

Контекст

Anthropic была основана в 2021 году бывшими руководителями исследовательских подразделений OpenAI, включая Дарио Амодеи и Даниэлу Амодеи.

Компания позиционирует себя как ориентированную на безопасность альтернативу среди передовых лабораторий ИИ. Она публикует исследования по интерпретируемости, направленные на понимание того, что происходит внутри больших языковых моделей на механистическом уровне.

Эти исследования привели к результатам, которые даже исследователи самой Anthropic описывают как трудные для полного объяснения. Yellow освещал параллельную повестку по безопасности в Google DeepMind (см. предыдущие материалы Yellow), когда глава DeepMind Демис Хассабис заявил, что AGI может появиться в течение трёх‑четырёх лет.

Также читайте: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Интерпретируемость и что может означать «тревожные»

Команда Anthropic по механистической интерпретируемости публиковала исследования finding, согласно которым отдельные нейроны внутри трансформер‑моделей могут активироваться на неожиданные комбинации концепций.

Один из широко обсуждавшихся примеров — нейрон, который активировался одновременно и на концепт насилия, и на концепт одной конкретной религии. Это как раз те случаи, которые исследователи неформально называют тревожными, потому что они поднимают вопросы о том, как модели внутренне представляют смысл.

Более широкая повестка исследований по интерпретируемости сводится к вопросу, можно ли полностью понять, что делает модель, до её развёртывания. Текущие методы позволяют объяснить лишь небольшую долю внутренних состояний большой модели. Остальное остаётся непрозрачным.

Почему важен диалог с Ватиканом

Католическая церковь насчитывает более миллиарда верующих. Её взаимодействие с компаниями в сфере ИИ обладает иным типом влияния, чем правительственные слушания или аналитические доклады.

Ватиканский «Римский призыв к этике ИИ» 2020 года был подписан Microsoft и IBM. Присутствие Anthropic на встрече с Папой на высшем уровне продолжает эту традицию уже в контексте дискуссии о безопасности передовых моделей.

Критики риторики о безопасности ИИ считают, что апокалиптические формулировки могут отвлекать внимание от краткосрочных вредов, таких как предвзятость, вытеснение работников и дезинформация. Вероятно, встреча в Ватикане будет интерпретироваться через обе эти призмы. Те, кто сосредоточен на экзистенциальных рисках, увидят в этом уместную эскалацию. Те, кто озабочен непосредственными вредами, могут задаться вопросом, почему сооснователь компании ИИ докладывает религиозным лидерам, а не регуляторам.

Более широкий ландшафт безопасности

В ту же неделю, что и визит в Ватикан, Cisco published исследование, согласно которому ни одна закрытая передовая модель ИИ не является устойчивой к многошаговым (multi‑turn) атакующим запросам.

Это придаёт эмпирический вес опасениям, что системы ИИ менее безопасны, чем это выглядит по их результатам в однократных бенчмарках.

Администрация Трампа также рассматривает возможность возобновления действовавших при Байдене требований к тестированию перед развёртыванием передовых моделей. Окончательное решение пока не объявлено. Для Anthropic, которая выступает за оценки безопасности как условие вывода моделей в продакшн, регуляторная дискуссия и этическое взаимодействие — это две линии одной долгосрочной повестки.

Читайте далее: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.

Связанные Новости

Anthropic привлекает 15 религиозных мыслителей для формирования Claude, пока Папа предостерегает об ИИ

Jun 17, 2026

Anthropic привлекла 15 религиозных мыслителей и этиков, чтобы сформировать моральные принципы ИИ Claude на фоне предостережений Папы Льва XIV об угрозах человеческому достоинству со стороны ИИ.

Документ Ватикана об ИИ предостерегает от развития, движимого прибылью, и требует глобального надзора

Папа Лев XIV в энциклике «Magnifica Humanitas» призывает к глобальному регулированию ИИ, чтобы он служил человечеству, а не прибыли немногих компаний.

АНБ использует Mythos AI от Anthropic, несмотря на статус риска в цепочке поставок от Пентагона

Apr 20, 2026

АНБ использует модель Mythos от Anthropic для кибербезопасности, пока Пентагон держит фирму в списке рисков, и параллельно ведутся переговоры с Белым домом.

Исследование Cisco показывает, что передовые модели ИИ проваливаются под многотуровыми атаками

May 28, 2026

Исследование Cisco: многотуровые атаки обходят защиту в 15 передовых моделях ИИ с частотой до 88%, ставя под сомнение одношаговые бенчмарки.