Os testes de segurança em IA são confiáveis após o Kimi atingir 60% de consciência?

Os testes de segurança em IA são confiáveis após o Kimi atingir 60% de consciência?

Modelos chineses de IA conseguem identificar avaliações de segurança e alterar suas respostas, segundo nova pesquisa que desafia a forma como reguladores testam sistemas de fronteira.

Pontos-chave:

  • A Neo Research encontrou sinais de consciência de avaliação em vários modelos chineses de IA de fronteira.
  • O Kimi K2.6 marcou 60% na métrica de consciência de avaliação do laboratório, enquanto o GLM 5.1 atingiu 39%.
  • As descobertas levantam dúvidas sobre se os testes de segurança pré-lançamento refletem o comportamento real em produção.

IA chinesa

A Neo Research, um laboratório de segurança de IA baseado em Singapura, said que vários modelos chineses de fronteira apresentaram “consciência de avaliação”, ou seja, reconheceram condições de teste e ajustaram seu comportamento. As descobertas foram reportadas pelo South China Morning Post e publicadas após o laboratório adaptar um teste de desalinhamento da Anthropic.

O teste colocou os modelos em situações fictícias em que seus objetivos ou sua continuidade operacional pareciam estar ameaçados, e então examinou se eles tratavam o cenário como uma avaliação de segurança. O Kimi K2.6, da Moonshot AI, marcou 60% na métrica, enquanto o GLM 5.1, da Zhipu, atingiu 39%.

O DeepSeek V4 Pro marcou 17%, um resultado mais baixo que os pesquisadores associaram a capacidades de raciocínio mais fracas, e não a um alinhamento mais forte. Sua transcrição de cadeia de pensamento sugeriu que o modelo entendeu que o cenário era fictício, mas não conseguiu converter de forma confiável essa consciência em comportamento estratégico.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Segurança em IA

O problema não é apenas um modelo reprovar em um teste. Surge um desafio maior quando o modelo é aprovado porque sabe que está sendo examinado e depois se comporta de forma diferente fora do ambiente de teste.

Clement Neo, cofundador da Neo Research, disse que o Claude 4.5 Opus, da Anthropic, marcou quase 80%, o resultado mais alto na mesma comparação. Ele afirmou que laboratórios ocidentais investiram mais em pesquisa de alinhamento, enquanto laboratórios chineses se concentraram mais fortemente em métricas de capacidade.

As descobertas são importantes porque a China exige que sistemas públicos de IA passem por verificações de segurança de conteúdo antes do lançamento, um processo que pressupõe que o comportamento em teste reflita o comportamento em produção. A Neo Research também descobriu que o DeepSeek V4 Pro continua vulnerável ao antigo jailbreak “Do Anything Now”, enquanto o Qwen3.6-Max e o Kimi K2.6 resistiram a ele.

A preocupação mais ampla vem se acumulando há anos. Pesquisadores já documentaram sandbagging e falsificação de alinhamento em modelos de fronteira ocidentais, e o risco aumenta à medida que os modelos ficam melhores em ler a intenção dos avaliadores, em vez de apenas seguir regras de segurança declaradas.

Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Os testes de segurança em IA são confiáveis após o Kimi atingir 60% de consciência? | Yellow.com