Cofundador da Anthropic diz ao Papa que modelos de IA contêm comportamentos ocultos "desconcertantes"

Anthropic cofundador Chris Olah apareceu ao lado do Papa Leão XIV no Vaticano e disse ao pontífice que pesquisadores estão encontrando coisas "desconcertantes" dentro de modelos de inteligência artificial.

A visita adiciona uma dimensão incomum de ética religiosa ao debate em andamento sobre alinhamento de IA e segurança de modelos de fronteira.

O que foi dito no Vaticano

A reportagem da Futurism describes o cofundador da Anthropic fazendo declarações sobre descobertas dentro de modelos de IA que foram caracterizadas como estranhas.

A natureza específica dessas descobertas não foi totalmente detalhada nos relatos publicados. A forma de enquadrar a linguagem, usando a palavra "desconcertante", é notável porque as comunicações públicas da Anthropic tendem a descrições ponderadas e técnicas de risco de IA.

O Vaticano vem se envolvendo ativamente com empresas de tecnologia em questões de ética. O Papa Leão XIV deu continuidade à aproximação iniciada por seu predecessor sobre ética digital e governança de IA. A reunião representa um dos espaços mais incomuns para uma conversa sobre segurança de IA nos últimos meses.

Contexto

A Anthropic foi fundada em 2021 por ex-executivos de pesquisa da OpenAI, incluindo Dario Amodei e Daniela Amodei.

A empresa se posicionou como a alternativa focada em segurança entre os laboratórios de IA de fronteira. Ela publica pesquisas de interpretabilidade voltadas a entender o que está acontecendo dentro de grandes modelos de linguagem em um nível mecanicista.

Essa pesquisa produziu resultados que até os próprios pesquisadores da Anthropic descrevem como difíceis de explicar completamente. A Yellow cobriu a linha do tempo paralela de segurança do Google DeepMind (veja a cobertura anterior da Yellow), quando o CEO do DeepMind, Demis Hassabis, disse que a AGI poderia chegar em três a quatro anos.

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretabilidade e o que "desconcertante" pode significar

A equipe de interpretabilidade mecanicista da Anthropic publicou pesquisas finding mostrando que neurônios individuais dentro de modelos transformadores podem ser ativados por combinações inesperadas de conceitos.

Um exemplo amplamente discutido envolveu um neurônio que era ativado tanto para o conceito de violência quanto para o conceito de uma religião específica. São esse tipo de achados que pesquisadores descrevem informalmente como desconcertantes, porque levantam questões sobre como os modelos representam significado internamente.

A agenda mais ampla de pesquisa em interpretabilidade pergunta se é possível entender plenamente o que um modelo está fazendo antes de implantá-lo. As técnicas atuais conseguem explicar pequenas frações dos estados internos de um grande modelo. O restante permanece opaco.

Por que o envolvimento do Vaticano importa

A Igreja Católica tem mais de um bilhão de fiéis. Seu envolvimento com empresas de IA exerce um tipo de influência diferente de uma audiência governamental ou de um documento de políticas públicas.

O "Chamado de Roma para a Ética da IA" de 2020 foi assinado pela Microsoft e pela IBM. A presença da Anthropic em uma reunião de alto nível com o Papa estende essa tradição para a conversa sobre segurança de fronteira.

Críticos da retórica de segurança em IA argumentam que uma abordagem apocalíptica pode desviar a atenção de danos de curto prazo, como viés, deslocamento de trabalho e desinformação. A reunião no Vaticano provavelmente será lida pelas duas lentes. Aqueles focados em risco existencial a verão como uma escalada apropriada. Aqueles focados em danos imediatos podem questionar por que o cofundador de uma empresa de IA está informando líderes religiosos em vez de reguladores.

O panorama mais amplo de segurança

Na mesma semana da visita ao Vaticano, a Cisco published uma pesquisa constatando que nenhum modelo fechado de IA de fronteira é imune a ataques adversariais em múltiplas interações.

Essa constatação acrescenta peso empírico à preocupação de que sistemas de IA sejam menos seguros do que seus resultados de benchmarks de um único prompt sugerem.

A administração Trump também vem revisando se deve reativar exigências, da era Biden, de testes pré-implantação para modelos de fronteira. Nenhuma decisão final foi anunciada. Para a Anthropic, que defende avaliações de segurança como pré-condição para implantação, a conversa regulatória e a aproximação ética são dois trilhos de uma mesma agenda de longo prazo.