OpenAI prueba en silencio Bidi 1 mientras ChatGPT aprende a escuchar mientras habla

OpenAI está probando un modelo de voz bidireccional no anunciado llamado Bidi 1 que permite que ChatGPT escuche y hable al mismo tiempo.

Puntos clave:

Bidi 1 puede escuchar, hablar y absorber interrupciones a mitad de frase sin congelar la conversación.

Las referencias en el código aparecieron a mediados de junio y OpenAI no ha hecho ningún anuncio formal.

El modelo ha empezado a llegar a algunos usuarios de la app, lo que apunta a un lanzamiento tan pronto como esta semana.

Bidi 1 aparece en el código de ChatGPT

Fragmentos de código y elementos de interfaz vinculados al modelo aparecieron por primera vez dentro de la app de ChatGPT alrededor del 16 de junio, semanas antes de cualquier presentación formal por parte de una empresa que no ha dicho nada públicamente. La nueva opción se encuentra en el selector de modelos dentro de la configuración, junto a los modos de voz estándar y avanzado que los usuarios ya conocen. Al elegirla, la burbuja de voz se ilumina en amarillo.

El nombre es una abreviatura de diseño bidireccional, un enfoque que permite que el asistente hable, oiga y escuche a la vez en lugar de esperar educadamente cada turno. Según se informa, el código interno lo presenta como la próxima generación de voz y un gran salto en inteligencia.

Los primeros evaluadores dicen que el modelo ya ha comenzado a llegar a un subconjunto de usuarios en la web y en dispositivos móviles, lo que señala un lanzamiento tan pronto como esta semana, aunque el nombre final aún podría cambiar.

También lee: ¿Es la venta masiva de Anthropic perp una advertencia para las apuestas cripto pre-IPO?

Bidi 1 gestiona interrupciones y memoria

El modelo ofrece pequeños reconocimientos, como un suave «okay», cuando un usuario hace una pausa o reduce la velocidad, y lo gestiona sin interrumpir al hablante. Puede cambiar de tarea sobre la marcha, invirtiendo un conteo en el momento en que el usuario interrumpe. Los informes describen niveles de inteligencia seleccionables etiquetados como Alto, Medio e Instantáneo, que reflejan las opciones ya ofrecidas en el lado de texto, donde los usuarios eligen respuestas más rápidas o más cuidadosas.

La memoria podría suponer el mayor cambio, ya que Bidi 1 mantiene el hilo de una conversación larga en lugar de perder el contexto de audio anterior, el punto débil que ha afectado durante mucho tiempo a la pila de voz actual de ChatGPT. Un avistamiento incluso apuntó a traducción en tiempo real, una función que podría desbloquear nuevos casos de uso una vez que el modelo llegue a la interfaz para desarrolladores y alimente aplicaciones externas.

La apuesta de OpenAI por la voz gana impulso

La actualización parece un intento de cerrar la brecha entre los sólidos modelos de texto de OpenAI y una capa de voz más antigua que se ha quedado rezagada durante meses. Esa capa se apoyaba en GPT-4o, un modelo que nunca se construyó desde cero para audio bidireccional. La empresa apuesta a que la voz, y no la escritura, se convierta en la vía principal de acceso a la IA para la mayoría de las personas.

OpenAI ha ido perfeccionando las funciones de voz de ChatGPT de forma constante durante el último año, y según se informa el modelo ha estado en desarrollo desde principios de 2026, fruto de meses de trabajo y no de un lanzamiento apresurado. La filtración también llega mientras la empresa traza una renovación más amplia de ChatGPT en torno a su herramienta de programación Codex y funciones agénticas, aunque nada de ello es todavía oficial.

Lee también: Mane City Mobile llega a iOS y Android en más de 100 países