OpenAI testa discretamente o Bidi 1 enquanto o ChatGPT aprende a ouvir enquanto fala

OpenAI está testando um modelo de voz bidirecional não anunciado chamado Bidi 1 que permite ao ChatGPT ouvir e falar ao mesmo tempo.

Pontos principais:

O Bidi 1 consegue ouvir, falar e absorver interrupções no meio da frase sem travar a conversa.

Referências em código surgiram em meados de junho, e a OpenAI não fez nenhum anúncio formal.

O modelo começou a chegar a alguns usuários do app, indicando um lançamento já nesta semana.

Bidi 1 aparece no código do ChatGPT

Elementos de código e interface ligados ao modelo apareceram pela primeira vez dentro do app do ChatGPT por volta de 16 de junho, semanas antes de qualquer revelação formal por parte de uma empresa que não disse nada em público. A nova opção fica no seletor de modelo em configurações, ao lado dos modos de voz padrão e avançado que os usuários já conhecem. Ao escolhê-la, o balão de voz fica amarelo.

O nome é uma abreviação de “design bidirecional”, uma abordagem que permite ao assistente falar, ouvir e escutar ao mesmo tempo em vez de esperar educadamente por cada turno. O código interno supostamente o descreve como a próxima geração de voz e um grande salto em inteligência.

Testadores iniciais dizem que o modelo já começou a chegar a um subconjunto de usuários na web e no celular, o que sinaliza um lançamento já nesta semana, embora o nome final ainda possa mudar.

Veja também: A venda de perpétuos da Anthropic é um alerta para apostas cripto pré-IPO?

Bidi 1 lida com interrupções e memória

O modelo oferece pequenos reconhecimentos, como um discreto “ok”, quando o usuário faz uma pausa ou desacelera, e faz isso sem cortar quem está falando. Ele pode mudar de tarefa em tempo real, invertendo uma contagem no momento em que o usuário o interrompe. Relatos descrevem níveis de inteligência selecionáveis chamados High, Medium e Instant, espelhando as escolhas já oferecidas no lado de texto, onde o usuário escolhe respostas mais rápidas ou mais cuidadosas.

A memória pode ser a mudança maior, já que o Bidi 1 mantém o fio de uma conversa longa em vez de descartar o contexto de áudio anterior, o ponto fraco que há muito tempo prejudica a pilha de voz atual do ChatGPT. Um relato chegou a apontar para tradução em tempo real, recurso que pode destravar novos casos de uso quando o modelo chegar à interface para desenvolvedores e passar a equipar apps externos.

A aposta da OpenAI em voz ganha ritmo

A atualização soa como uma tentativa de fechar a lacuna entre os fortes modelos de texto da OpenAI e uma camada de voz mais antiga que ficou para trás por meses. Essa camada se apoiava no GPT-4o, um modelo que nunca foi construído do zero para áudio bidirecional. A empresa está apostando que a fala, e não a digitação, se tornará a principal porta de entrada para a IA para a maioria das pessoas.

A OpenAI vem aprimorando os recursos de voz do ChatGPT de forma constante ao longo do último ano, e o modelo estaria em desenvolvimento desde o início de 2026, resultado de meses de trabalho e não de um lançamento apressado. O vazamento também chega enquanto a empresa planeja uma reformulação mais ampla do ChatGPT em torno de sua ferramenta de código Codex e recursos agentes, embora nada disso seja oficial ainda.

Leia a seguir: Mane City Mobile chega ao iOS e Android em mais de 100 países