OpenAI 正在測試一款尚未公開嘅雙向語音模型,名叫 Bidi 1,容許 ChatGPT 可以同時聽同講。
重點摘要:
- Bidi 1 可以一邊聽一邊講,仲可以喺句子中間被人打斷都唔會令對話「定格」。
- 程式碼引用喺 6 月中浮面,而 OpenAI 暫時未有任何正式公布。
- 呢個模型已經開始向部分 App 用戶推出,意味住最快可能今個星期就會正式發佈。
Bidi 1 首次現身 ChatGPT 程式碼
與呢個模型相關嘅程式碼同介面元素,首先喺大約 6 月 16 號左右出現喺 ChatGPT App 入面,比公司任何正式公布早咗幾個星期,而 OpenAI 對外一直未有提及。新選項會顯示喺設定入面嘅模型選擇器之中,擺喺現有標準同進階語音模式旁邊。揀咗之後,語音對話氣泡會變成黃色發光。
呢個名稱係「雙向」(bidirectional)設計嘅簡稱,指一種可以令助手同時講、聽同接收輸入,而唔需要每次乖乖等你講完先再回應嘅方式。有傳內部程式碼將佢定位為下一代語音技術,同時亦係智能水平嘅一大飛躍。
早期測試者表示,呢個模型已經開始逐步推送畀部分網頁版同流動版用戶,暗示最快可能喺今個星期內正式推出,不過最終定案嘅名稱仍然有機會改。
延伸閱讀: Anthropic 永續合約拋售事件,係咪預 IPO 加密投資嘅警號?
Bidi 1 應付打斷同加強記憶
呢個模型會喺用戶停頓或者講慢咗嘅時候,作出細微回應,例如輕聲講句「ok」,而又唔會搶住打斷你。同時佢可以即時轉換任務,例如你中途打斷,佢就可以立即由數數目轉做另一個指令。相關報告指,模型提供唔同智能層級選項,高(High)、中(Medium)同即時(Instant),同而家文字模式入面,畀你喺「快啲」同「謹慎啲」回覆之間揀擇嘅設計相似。
記憶能力可能係更大嘅改變,因為 Bidi 1 會一路維持長對話嘅主線,而唔會好似之前咁容易「甩咗」早期嘅語音內容——呢個一直都係 ChatGPT 現有語音功能嘅弱點。有報告甚至提到實時翻譯功能,一旦模型開放到開發者介面並支援外部 App,就可能解鎖更多全新嘅應用場景。
OpenAI 語音攻勢加速
呢次升級睇落係想拉近 OpenAI 強勁文字模型,同相對落後、已經追唔上節奏嘅舊語音層之間嘅差距。之前嗰層主要倚賴 GPT-4o,而 GPT-4o 本身並唔係由零開始為雙向音頻而設計。公司押注未來大部分人會以講嘢,而唔係打字,作為進入人工智能嘅主要途徑。
過去一年,OpenAI 一直穩步改良 ChatGPT 嘅語音功能,而據報 Bidi 1 由 2026 年初已經開始開發,係經過多個月打磨,而唔係倉卒推出嘅產品。呢次洩漏亦剛好出現,配合公司為 ChatGPT 設計更大規模改版,包括整合 Codex 編碼工具同各種代理式(agentic)功能,雖然依家全部都仍然未有官方確認。





