OpenAI、ChatGPTが「話しながら聞く」双方向音声モデル Bidi 1 を極秘テスト中

OpenAI は、ChatGPT が同時に聞きながら話すことを可能にする、未発表の双方向音声モデル「Bidi 1」をテストしている。

主なポイント:

Bidi 1 は、会話を止めることなく、聞き取り・発話・文中での割り込み吸収を同時にこなせる。

コード上の参照は6月中旬に浮上したが、OpenAI は正式発表を行っていない。

一部のアプリユーザーにモデルが届き始めており、早ければ今週中のリリースを示唆している。

ChatGPT のコードに現れた Bidi 1

モデルに紐づくコードやインターフェース要素は、企業側が一切公にしていない段階で、6月16日前後に ChatGPT アプリ内へ登場した。新オプションは、設定内のモデルセレクターにあり、既存の標準音声モードと高度音声モードの横に並んでいる。これを選ぶと、音声バブルが黄色く光る。

名称は「双方向（bidirectional）」設計の略称であり、アシスタントが順番を待つのではなく、同時に話し、聞き、傾聴できるアプローチを指す。内部コードでは、次世代の音声機能であり、インテリジェンスの大きな飛躍として位置づけられているとされる。

早期テスターによれば、このモデルはすでに Web とモバイルの一部ユーザーに届き始めており、最終的な名称は変わる可能性があるものの、早ければ今週にもリリースされる兆しだ。

Bidi 1 は割り込みとメモリを処理

このモデルは、ユーザーが話すのを一時的に止めたり、スローダウンしたりした際に、話者を遮らず、静かな「うん」や「オーケー」といった小さな相づちを返すことができる。さらに、ユーザーが途中で割り込んだ瞬間に、カウントを逆方向に切り替えるなど、タスクを即座に切り替えられるという。知能レベルは High、Medium、Instant とラベル付けされた階層として選択でき、テキスト側で提供されている「高速か、慎重か」という選択肢をなぞっているようだ。

より大きな変化となり得るのがメモリだ。Bidi 1 は、これまでの ChatGPT の音声スタックが弱点としてきた「以前の音声コンテキストを落としてしまう」状態を避け、長い対話の“糸”を保持し続ける。一部の目撃情報では、リアルタイム翻訳への対応も示されており、このモデルが開発者向けインターフェースに到達し外部アプリを動かすようになれば、新たなユースケースを解放する可能性がある。

加速する OpenAI の音声強化

このアップグレードは、OpenAI の強力なテキストモデルと、数カ月遅れ気味だった旧来の音声レイヤーとのギャップを埋める試みと読める。従来のレイヤーは、双方向音声を前提に設計されていない GPT-4o に依存していた。OpenAI は、多くの人にとって AI への主要な入り口が「タイピング」ではなく「音声」になると見込んでいる。

OpenAI はこの一年で ChatGPT の音声機能を着実に磨いており、Bidi 1 は拙速なリリースではなく、2026年初頭から続く数カ月にわたる開発の成果だと言われている。このリークはまた、同社が Codex コーディングツールやエージェント機能を軸にした、より広範な ChatGPT の刷新を描くさなかに浮上しているものの、そのいずれもまだ正式発表には至っていない。

次に読む: Mane City Mobile が 100 以上の国の iOS と Android に登場