OpenAI testet stillschweigend Bidi 1, während ChatGPT lernt, beim Sprechen zuzuhören

OpenAI testet ein nicht angekündigtes bidirektionales Sprachmodell namens Bidi 1, das ChatGPT gleichzeitig zuhören und sprechen lässt.

Wichtige Punkte:

Bidi 1 kann zuhören, sprechen und Unterbrechungen mitten im Satz aufnehmen, ohne das Gespräch einfrieren zu lassen.

Codereferenzen tauchten Mitte Juni auf, und OpenAI hat keine formelle Ankündigung gemacht.

Das Modell erreicht bereits erste App-Nutzer und deutet damit auf eine Veröffentlichung schon in dieser Woche hin.

Bidi 1 taucht im ChatGPT‑Code auf

Code- und Interface-Elemente, die mit dem Modell verbunden sind, sind erstmals um den 16. Juni in der ChatGPT‑App aufgetaucht, Wochen vor einer formellen Enthüllung durch ein Unternehmen, das sich öffentlich bislang nicht dazu geäußert hat. Die neue Option befindet sich im Modellwähler unter den Einstellungen, direkt neben den Standard- und erweiterten Sprachmodi, die Nutzer bereits kennen. Wählt man sie aus, leuchtet die Sprechblase gelb.

Der Name ist eine Kurzform für bidirektionales Design – ein Ansatz, bei dem der Assistent gleichzeitig sprechen, hören und zuhören kann, statt höflich auf jeden Gesprächszug zu warten. Interner Code beschreibt es offenbar als die nächste Generation von Voice und als großen Sprung in der Intelligenz.

Frühe Tester berichten, dass das Modell bereits damit begonnen hat, eine Teilmenge von Nutzern im Web und auf Mobilgeräten zu erreichen, was auf eine Veröffentlichung schon in dieser Woche hindeutet, auch wenn sich der endgültige Name noch ändern kann.

Auch lesenswert: Ist der Anthropic-Perp‑Ausverkauf eine Warnung für Pre‑IPO‑Krypto‑Wetten?

Bidi 1 meistert Unterbrechungen und Speicher

Das Modell bietet kleine Bestätigungen, etwa ein leises „okay“, wenn ein Nutzer pausiert oder langsamer spricht – und schafft das, ohne den Sprecher zu unterbrechen. Es kann Aufgaben im laufenden Betrieb wechseln und etwa ein Zählen sofort umkehren, sobald der Nutzer dazwischengrätscht. Berichten zufolge gibt es auswählbare Intelligenzstufen mit den Bezeichnungen High, Medium und Instant, entsprechend den Optionen auf der Textseite, wo Nutzer zwischen schnelleren oder sorgfältigeren Antworten wählen.

Der Speicher könnte sich als der größere Umbruch erweisen, da Bidi 1 den Faden eines langen Gesprächs hält, statt den früheren Audiokontext abzuwerfen – eine Schwäche, die die aktuelle Spracharchitektur von ChatGPT schon lange plagt. Eine Sichtung deutete sogar auf Echtzeitübersetzung hin, ein Feature, das neue Anwendungsfälle eröffnen könnte, sobald das Modell die Entwickler-Schnittstelle erreicht und externe Apps antreibt.

OpenAIs Voice-Offensive gewinnt an Tempo

Das Upgrade liest sich wie der Versuch, die Lücke zwischen OpenAIs starken Textmodellen und einer älteren Sprachschicht zu schließen, die seit Monaten hinterherhinkt. Diese Schicht stützte sich auf GPT‑4o, ein Modell, das nie von Grund auf für bidirektionales Audio gebaut wurde. Das Unternehmen setzt darauf, dass Sprache und nicht Tippen für die meisten Menschen zum Hauptzugang zu KI wird.

OpenAI hat die Sprachfunktionen von ChatGPT im vergangenen Jahr stetig verfeinert, und das Modell soll seit Anfang 2026 in Entwicklung sein – das Ergebnis monatelanger Arbeit statt eines überstürzten Releases. Der Leak trifft auch zu einem Zeitpunkt, an dem das Unternehmen eine umfassendere Überarbeitung von ChatGPT rund um sein Codex‑Coding‑Tool und agentische Funktionen plant, auch wenn davon bislang nichts offiziell ist.

Als Nächstes lesen: Mane City Mobile erscheint auf iOS und Android in über 100 Ländern