Сооснователь Anthropic рассказал Папе Римскому о «тревожных» скрытых свойствах ИИ‑моделей

Сооснователь Anthropic рассказал Папе Римскому о «тревожных» скрытых свойствах ИИ‑моделей

Сооснователь Anthropic Крис Ола появился вместе с Папой Львом XIV в Ватикане и заявил понтифику, что исследователи находят «тревожные» вещи внутри моделей искусственного интеллекта.

Этот визит добавляет необычное религиозно‑этическое измерение к продолжающейся дискуссии об ALIGNMENT ИИ и безопасности передовых моделей.

Что было сказано в Ватикане

Материал Futurism describes сооснователя Anthropic, делающего заявления об открытиях внутри ИИ‑моделей, которые они охарактеризовали как странные.

Конкретный характер этих открытий в опубликованных материалах полностью не раскрывается. Формулировка с использованием слова «тревожные» примечательна, поскольку публичные коммуникации Anthropic обычно отличаются сдержанными, техническими описаниями рисков ИИ.

Ватикан активно взаимодействует с технологическими компаниями по вопросам этики. Папа Лев XIV продолжает начатое его предшественником направление по цифровой этике и управлению ИИ. Встреча стала одной из самых необычных площадок для разговора о безопасности ИИ за последние месяцы.

Контекст

Anthropic была основана в 2021 году бывшими руководителями исследовательских подразделений OpenAI, включая Дарио Амодеи и Даниэлу Амодеи.

Компания позиционирует себя как ориентированную на безопасность альтернативу среди передовых лабораторий ИИ. Она публикует исследования по интерпретируемости, направленные на понимание того, что происходит внутри больших языковых моделей на механистическом уровне.

Эти исследования привели к результатам, которые даже исследователи самой Anthropic описывают как трудные для полного объяснения. Yellow освещал параллельную повестку по безопасности в Google DeepMind (см. предыдущие материалы Yellow), когда глава DeepMind Демис Хассабис заявил, что AGI может появиться в течение трёх‑четырёх лет.

Также читайте: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Интерпретируемость и что может означать «тревожные»

Команда Anthropic по механистической интерпретируемости публиковала исследования finding, согласно которым отдельные нейроны внутри трансформер‑моделей могут активироваться на неожиданные комбинации концепций.

Один из широко обсуждавшихся примеров — нейрон, который активировался одновременно и на концепт насилия, и на концепт одной конкретной религии. Это как раз те случаи, которые исследователи неформально называют тревожными, потому что они поднимают вопросы о том, как модели внутренне представляют смысл.

Более широкая повестка исследований по интерпретируемости сводится к вопросу, можно ли полностью понять, что делает модель, до её развёртывания. Текущие методы позволяют объяснить лишь небольшую долю внутренних состояний большой модели. Остальное остаётся непрозрачным.

Почему важен диалог с Ватиканом

Католическая церковь насчитывает более миллиарда верующих. Её взаимодействие с компаниями в сфере ИИ обладает иным типом влияния, чем правительственные слушания или аналитические доклады.

Ватиканский «Римский призыв к этике ИИ» 2020 года был подписан Microsoft и IBM. Присутствие Anthropic на встрече с Папой на высшем уровне продолжает эту традицию уже в контексте дискуссии о безопасности передовых моделей.

Критики риторики о безопасности ИИ считают, что апокалиптические формулировки могут отвлекать внимание от краткосрочных вредов, таких как предвзятость, вытеснение работников и дезинформация. Вероятно, встреча в Ватикане будет интерпретироваться через обе эти призмы. Те, кто сосредоточен на экзистенциальных рисках, увидят в этом уместную эскалацию. Те, кто озабочен непосредственными вредами, могут задаться вопросом, почему сооснователь компании ИИ докладывает религиозным лидерам, а не регуляторам.

Более широкий ландшафт безопасности

В ту же неделю, что и визит в Ватикан, Cisco published исследование, согласно которому ни одна закрытая передовая модель ИИ не является устойчивой к многошаговым (multi‑turn) атакующим запросам.

Это придаёт эмпирический вес опасениям, что системы ИИ менее безопасны, чем это выглядит по их результатам в однократных бенчмарках.

Администрация Трампа также рассматривает возможность возобновления действовавших при Байдене требований к тестированию перед развёртыванием передовых моделей. Окончательное решение пока не объявлено. Для Anthropic, которая выступает за оценки безопасности как условие вывода моделей в продакшн, регуляторная дискуссия и этическое взаимодействие — это две линии одной долгосрочной повестки.

Читайте далее: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Последние новости
Показать все новости
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи
Сооснователь Anthropic рассказал Папе Римскому о «тревожных» скрытых свойствах ИИ‑моделей | Yellow.com