OpenAI testa discretamente o Bidi 1 enquanto o ChatGPT aprende a ouvir enquanto fala

OpenAI está testando um modelo de voz bidirecional não anunciado chamado Bidi 1 que permite ao ChatGPT ouvir e falar ao mesmo tempo.

Pontos-chave:

O Bidi 1 pode ouvir, falar e absorver interrupções no meio da frase sem travar a conversa.

Referências no código surgiram em meados de junho, e a OpenAI não fez nenhum anúncio formal.

O modelo começou a chegar a alguns usuários do app, indicando um lançamento já nesta semana.

Bidi 1 aparece no código do ChatGPT

Código e elementos de interface ligados ao modelo apareceram pela primeira vez dentro do app do ChatGPT por volta de 16 de junho, semanas antes de qualquer revelação formal de uma empresa que não disse nada publicamente. A nova opção fica no seletor de modelos em configurações, ao lado dos modos de voz padrão e avançado que os usuários já conhecem. Ao escolhê-la, o balão de voz fica amarelo.

O nome é uma abreviação de design bidirecional, uma abordagem que permite ao assistente falar, ouvir e escutar ao mesmo tempo, em vez de esperar educadamente por cada turno. O código interno supostamente o enquadra como a próxima geração de voz e um grande salto em inteligência.

Testadores iniciais dizem que o modelo já começou a chegar a um subconjunto de usuários na web e no mobile, o que sinaliza um lançamento já nesta semana, embora o nome final ainda possa mudar.

Bidi 1 lida com interrupções e memória

O modelo oferece pequenos reconhecimentos, como um discreto “ok”, quando o usuário faz uma pausa ou diminui o ritmo, e consegue fazer isso sem cortar quem está falando. Ele consegue mudar de tarefa na hora, revertendo uma contagem no momento em que o usuário interrompe. Relatos descrevem níveis de inteligência selecionáveis rotulados como Alto, Médio e Instantâneo, espelhando as opções já oferecidas no lado de texto, em que os usuários escolhem respostas mais rápidas ou mais cuidadosas.

A memória pode ser a maior mudança, já que o Bidi 1 mantém o fio de uma conversa longa em vez de descartar o contexto de áudio anterior, o ponto fraco que há muito tempo prejudica a atual pilha de voz do ChatGPT. Um relato chegou até a apontar para tradução em tempo real, um recurso que pode desbloquear novos casos de uso quando o modelo chegar à interface para desenvolvedores e passar a abastecer apps externos.

Acelerada da OpenAI em voz

A atualização parece uma tentativa de fechar a lacuna entre os fortes modelos de texto da OpenAI e uma camada de voz mais antiga que ficou para trás por meses. Essa camada se apoiava no GPT-4o, um modelo que nunca foi construído do zero para áudio bidirecional. A empresa está apostando que a fala, e não a digitação, se torne a principal porta de entrada para IA para a maioria das pessoas.

A OpenAI vem refinando os recursos de voz do ChatGPT de forma constante ao longo do último ano, e o modelo estaria em desenvolvimento desde o começo de 2026, fruto de meses de trabalho em vez de um lançamento apressado. O vazamento também chega enquanto a empresa planeja uma reformulação mais ampla do ChatGPT em torno de sua ferramenta de código Codex e de recursos agentes, embora nada disso seja oficial ainda.

Leia em seguida: Mane City Mobile chega ao iOS e Android em mais de 100 países