OpenAI 低調測試 Bidi 1：ChatGPT 邊說話邊學會「一心多用」聽你說

OpenAI 正在測試一款尚未公開的雙向語音模型，名為 Bidi 1，讓 ChatGPT 能夠同時聽與說。

重點摘要：

Bidi 1 能一邊聽一邊說，並在不中斷對話的情況下吸收句中打斷。

程式碼參考在 6 月中旬浮現，OpenAI 迄今尚未正式發表。

模型已開始向部分 App 使用者推送，暗示最快本週就可能發布。

Bidi 1 首度現身於 ChatGPT 程式碼中

與該模型相關的程式碼與介面元素，首先在約 6 月 16 日出現在 ChatGPT App 內部，早於公司任何正式公開說明數週，而且 OpenAI 至今未對外發聲。新的選項位在設定裡的模型選擇器中，與使用者已熟悉的標準與進階語音模式並列。選取後，語音氣泡會亮起黃色。

這個名稱是「雙向」（bidirectional）設計的縮寫，這種設計讓助理能同時說話、接收與傾聽，而不是禮貌地等待每一輪說完才換手。內部程式碼據稱把它定位為下一代語音技術，也是智慧程度的一大飛躍。

早期測試者表示，該模型已經開始推送給部分 Web 與行動端使用者，這通常意味著最快本週就會正式上線，儘管最終名稱可能仍有變動。

延伸閱讀：Anthropic 永續合約拋售，是否是 Pre-IPO 加密投資的警訊？

Bidi 1 如何處理打斷與記憶

當使用者停頓或放慢語速時，模型會給出些微回應，例如輕聲說一句「好的」，但又不會打斷說話的人。它可以在進行中途即時切換任務，例如在使用者插話時立刻反轉正在進行的計數。報告指出，它提供可選的智慧等級，標示為 High、Medium 和 Instant，呼應文字模式中已經存在的選項，讓使用者可在速度與審慎程度間取捨。

記憶功能可能是更大的變化，因為 Bidi 1 能維持長對話的脈絡，而不是像以往那樣丟失較早的音訊背景——這一直是 ChatGPT 目前語音系統的弱點。有目擊者甚至提到即時翻譯功能，一旦模型進入開發者介面並為外部 App 提供動力，可能解鎖全新的使用情境。

OpenAI 語音布局加速推進

這項升級可以被視為 OpenAI 嘗試縮小其強大文字模型與落後多月的舊語音層之間差距的行動。過去這一層主要倚賴 GPT-4o，而 GPT-4o 並非自底向上專為雙向音訊打造。公司押注的是，對多數人而言，語音而非打字，將成為進入 AI 的主要方式。

過去一年裡，OpenAI 持續打磨 ChatGPT 的語音功能，而據傳 Bidi 1 自 2026 年初便開始開發，是數個月工作累積的成果，而非倉促上線。這次洩漏也恰逢公司規劃更廣泛的 ChatGPT 全面改版，包括其 Codex 程式碼工具與「代理型」功能，儘管目前都尚未正式確認。

下一篇：Mane City Mobile 登陸 iOS 與 Android，覆蓋 100+ 個國家