Cofundador de Anthropic dice al Papa que los modelos de IA contienen comportamientos ocultos "inquietantes"

El cofundador de Anthropic, Chris Olah, apareció junto al papa León XIV en el Vaticano y le dijo al pontífice que los investigadores están encontrando cosas "inquietantes" dentro de los modelos de inteligencia artificial.

La visita añade una inusual dimensión religiosa y ética al debate en curso sobre alineación de la IA y seguridad de los modelos frontera.

Lo que se dijo en el Vaticano

El reporte de Futurism describes al cofundador de Anthropic haciendo afirmaciones sobre descubrimientos dentro de los modelos de IA que calificaron como extraños.

La naturaleza específica de esos descubrimientos no se detalló por completo en las crónicas publicadas. El encuadre del lenguaje, utilizando la palabra "inquietante", es notable porque las comunicaciones públicas de Anthropic suelen inclinarse hacia descripciones mesuradas y técnicas del riesgo de la IA.

El Vaticano ha estado participando activamente con empresas tecnológicas en cuestiones éticas. El papa León XIV ha continuado el acercamiento iniciado por su predecesor sobre ética digital y gobernanza de la IA. La reunión representa uno de los escenarios más inusuales para una conversación sobre seguridad de la IA en los últimos meses.

Contexto

Anthropic fue fundada en 2021 por antiguos directivos de investigación de OpenAI, incluidos Dario Amodei y Daniela Amodei.

La empresa se ha posicionado como la alternativa centrada en la seguridad entre los laboratorios de IA de frontera. Publica investigación en interpretabilidad orientada a entender qué está sucediendo dentro de los grandes modelos de lenguaje a un nivel mecanicista.

Esa investigación ha producido hallazgos que incluso los propios investigadores de Anthropic describen como difíciles de explicar por completo. Yellow cubrió en paralelo la cronología de seguridad de Google DeepMind (ver cobertura previa de Yellow), cuando el CEO de DeepMind, Demis Hassabis, dijo que la AGI podría llegar en tres a cuatro años.

También lee: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretabilidad y qué podría significar "inquietante"

El equipo de interpretabilidad mecanicista de Anthropic ha publicado investigaciones finding que muestran que neuronas individuales dentro de modelos transformadores pueden activarse ante combinaciones inesperadas de conceptos.

Un ejemplo muy discutido involucró una neurona que se activaba tanto para el concepto de violencia como para el concepto de una religión específica. Este tipo de hallazgos son los que los investigadores describen informalmente como inquietantes, porque plantean interrogantes sobre cómo representan internamente el significado los modelos.

La agenda más amplia de investigación en interpretabilidad pregunta si es posible entender por completo lo que hace un modelo antes de desplegarlo. Las técnicas actuales pueden explicar pequeñas fracciones de los estados internos de un modelo grande. El resto sigue siendo opaco.

Por qué importa el acercamiento del Vaticano

La Iglesia católica tiene más de mil millones de fieles. Su interacción con empresas de IA tiene un tipo de influencia diferente a una audiencia gubernamental o a un documento de política pública.

El "Llamamiento de Roma por una Ética de la IA" de 2020 fue firmado por Microsoft e IBM. La presencia de Anthropic en una reunión de alto nivel con el Papa amplía esa tradición a la conversación sobre seguridad en la frontera.

Los críticos de la retórica sobre seguridad de la IA sostienen que un marco apocalíptico puede distraer de los daños de corto plazo, como el sesgo, el desplazamiento laboral y la desinformación. Es probable que la reunión en el Vaticano se lea a través de ambos lentes. Quienes se centran en el riesgo existencial la verán como una escalada apropiada. Quienes se concentran en los daños inmediatos pueden cuestionar por qué el cofundador de una empresa de IA informa a líderes religiosos en lugar de a reguladores.

El panorama más amplio de seguridad

La misma semana de la visita al Vaticano, Cisco published una investigación que concluye que ningún modelo cerrado de IA de frontera es inmune a ataques adversarios de múltiples turnos.

Ese hallazgo añade peso empírico a la preocupación de que los sistemas de IA son menos seguros de lo que sugieren sus puntuaciones de referencia basadas en un único mensaje.

La administración Trump también ha estado revisando si reactivar los requisitos de prueba previa al despliegue para modelos de frontera de la era Biden. No se ha anunciado ninguna decisión final. Para Anthropic, que ha defendido las evaluaciones de seguridad como condición previa para el despliegue, la conversación regulatoria y el trabajo de divulgación ética son dos vías del mismo plan a largo plazo.

Lee a continuación: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind