Cofundador da Anthropic diz ao Papa que modelos de IA contêm comportamentos ocultos "perturbadores"

O cofundador da Anthropic, Chris Olah, apareceu ao lado do Papa Leão XIV no Vaticano e disse ao pontífice que pesquisadores estão encontrando coisas "perturbadoras" dentro de modelos de inteligência artificial.

A visita acrescenta uma dimensão incomum de ética religiosa ao debate em andamento sobre alinhamento de IA e segurança de modelos de fronteira.

O que foi dito no Vaticano

A reportagem da Futurism describes o cofundador da Anthropic fazendo declarações sobre descobertas dentro de modelos de IA que foram caracterizadas como estranhas.

A natureza específica dessas descobertas não foi detalhada por completo nos relatos publicados. A forma de enquadrar a linguagem, usando a palavra "perturbadoras", é notável porque as comunicações públicas da Anthropic tendem a descrições ponderadas e técnicas de risco de IA.

O Vaticano tem se engajado ativamente com empresas de tecnologia em questões de ética. O Papa Leão XIV deu continuidade à aproximação iniciada por seu predecessor sobre ética digital e governança de IA. A reunião representa um dos ambientes mais incomuns para uma conversa sobre segurança em IA nos últimos meses.

Contexto

A Anthropic foi fundada em 2021 por antigos executivos de pesquisa da OpenAI, incluindo Dario Amodei e Daniela Amodei.

A empresa se posicionou como a alternativa focada em segurança entre os laboratórios de IA de fronteira. Ela publica pesquisas de interpretabilidade voltadas a entender o que está acontecendo dentro de grandes modelos de linguagem em um nível mecanicista.

Essa pesquisa produziu achados que até os próprios pesquisadores da Anthropic descrevem como difíceis de explicar completamente. A Yellow acompanhou a linha do tempo paralela de segurança do Google DeepMind (ver cobertura anterior da Yellow), quando o CEO do DeepMind, Demis Hassabis, disse que a AGI poderia chegar em três a quatro anos.

Também leia: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretabilidade e o que "perturbador" pode significar

A equipe de interpretabilidade mecanicista da Anthropic publicou pesquisas finding mostrando que neurônios individuais dentro de modelos transformer podem ativar para combinações inesperadas de conceitos.

Um exemplo amplamente discutido envolveu um neurônio que ativava tanto para o conceito de violência quanto para o conceito de uma religião específica. Esses são os tipos de achados que os pesquisadores descrevem informalmente como perturbadores, porque levantam questões sobre como os modelos representam significado internamente.

A agenda mais ampla de pesquisa em interpretabilidade pergunta se é possível entender totalmente o que um modelo está fazendo antes de implantá‑lo. As técnicas atuais conseguem explicar pequenas frações dos estados internos de um grande modelo. O restante permanece opaco.

Por que o engajamento do Vaticano importa

A Igreja Católica tem mais de um bilhão de fiéis. Seu engajamento com empresas de IA carrega um tipo de influência diferente de uma audiência governamental ou de um documento de política pública.

O "Rome Call for AI Ethics" de 2020, do Vaticano, foi assinado pela Microsoft e pela IBM. A presença da Anthropic em uma reunião de alto nível com o Papa estende essa tradição para a conversa sobre segurança de fronteira.

Críticos da retórica de segurança em IA argumentam que um enquadramento apocalíptico pode desviar a atenção de danos de curto prazo, como vieses, deslocamento de trabalho e desinformação. A reunião no Vaticano provavelmente será lida pelas duas lentes. Aqueles focados em risco existencial a verão como uma escalada apropriada. Aqueles focados em danos imediatos podem questionar por que o cofundador de uma empresa de IA está informando líderes religiosos em vez de reguladores.

O panorama mais amplo de segurança

Na mesma semana da visita ao Vaticano, a Cisco published pesquisas concluindo que nenhum modelo fechado de IA de fronteira é imune a ataques adversariais de múltiplas interações.

Essa constatação acrescenta peso empírico à preocupação de que sistemas de IA sejam menos seguros do que sugerem suas pontuações de benchmark de único prompt.

A administração Trump também vem analisando se deve reativar as exigências, da era Biden, de testes prévios à implantação para modelos de fronteira. Nenhuma decisão final foi anunciada. Para a Anthropic, que tem defendido avaliações de segurança como pré‑condição para implantação, a conversa regulatória e a aproximação ética são dois trilhos de uma mesma agenda de longo prazo.

Leia a seguir: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind