OpenAI testa in silenzio Bidi 1 mentre ChatGPT impara ad ascoltare mentre parla

OpenAI sta testando un modello vocale bidirezionale non annunciato chiamato Bidi 1 che consente a ChatGPT di ascoltare e parlare allo stesso tempo.

Punti chiave:

Bidi 1 può ascoltare, parlare e assorbire interruzioni a metà frase senza bloccare la conversazione.

I riferimenti nel codice sono emersi a metà giugno e OpenAI non ha fatto alcun annuncio formale.

Il modello ha iniziato a raggiungere alcuni utenti dell’app, suggerendo un rilascio già da questa settimana.

Bidi 1 emerge nel codice di ChatGPT

Codice ed elementi dell’interfaccia collegati al modello sono apparsi per la prima volta all’interno dell’app ChatGPT intorno al 16 giugno, settimane prima di qualsiasi presentazione formale da parte di un’azienda che non ha detto nulla pubblicamente. La nuova opzione si trova nel selettore dei modelli sotto le impostazioni, accanto alle modalità vocali standard e avanzata che gli utenti già conoscono. Se la si seleziona, il fumetto della voce diventa giallo.

Il nome è una abbreviazione di progettazione bidirezionale, un approccio che consente all’assistente di parlare, sentire e ascoltare contemporaneamente invece di attendere educatamente ogni turno. Il codice interno lo descrive come la nuova generazione della voce e un grande salto in avanti in termini di intelligenza.

I primi tester affermano che il modello ha già iniziato a raggiungere un sottoinsieme di utenti su web e mobile, il che segnala un rilascio già da questa settimana, anche se il nome finale potrebbe ancora cambiare.

Bidi 1 gestisce interruzioni e memoria

Il modello offre piccoli riconoscimenti, come un leggero «okay», quando un utente si ferma o rallenta, e lo fa senza interrompere chi parla. Può cambiare compito al volo, invertendo per esempio un conteggio nel momento in cui l’utente lo interrompe. I resoconti descrivono livelli di intelligenza selezionabili etichettati High, Medium e Instant, che rispecchiano le scelte già offerte sul lato testuale, dove gli utenti selezionano risposte più veloci o più accurate.

La memoria potrebbe rivelarsi il cambiamento più grande, poiché Bidi 1 mantiene il filo di una lunga conversazione invece di perdere il contesto audio precedente, il punto debole che ha a lungo penalizzato l’attuale stack vocale di ChatGPT. Un avvistamento ha persino indicato la traduzione in tempo reale, una funzione che potrebbe sbloccare nuovi casi d’uso una volta che il modello raggiungerà l’interfaccia per sviluppatori e alimenterà app esterne.

La spinta di OpenAI sulla voce accelera

L’aggiornamento sembra un tentativo di colmare il divario tra i solidi modelli testuali di OpenAI e un vecchio livello vocale rimasto indietro per mesi. Quel livello si basava su GPT-4o, un modello che non è mai stato progettato da zero per l’audio bidirezionale. L’azienda punta sul fatto che la voce, e non la digitazione, diventi il canale principale di accesso all’IA per la maggior parte delle persone.

OpenAI ha perfezionato costantemente le funzionalità vocali di ChatGPT nell’ultimo anno e, secondo quanto riferito, il modello è in sviluppo dall’inizio del 2026, frutto di mesi di lavoro e non di un rilascio affrettato. Il leak inoltre arriva mentre l’azienda progetta un più ampio rinnovamento di ChatGPT attorno al suo strumento di coding Codex e a funzionalità agentiche, anche se nulla è ancora ufficiale.

Da leggere dopo: Mane City Mobile arriva su iOS e Android in oltre 100 paesi