OpenAI 正在测试一款尚未公开的双向语音模型 Bidi 1,它能让 ChatGPT 同时聆听与说话。
要点概览:
- Bidi 1 可以同时听、说,并在不中断对话的情况下吸收句中打断。
- 代码引用在 6 月中旬浮现,OpenAI 尚未正式对外公布。
- 该模型已开始触达部分应用用户,暗示最快可能在本周发布。
Bidi 1 出现在 ChatGPT 代码中
与该模型相关的代码和界面元素最早在 6 月 16 日左右出现在 ChatGPT 应用中,比任何正式发布消息早了数周,而公司在公开层面一直保持沉默。这一新选项位于设置中的模型选择器下,与用户已熟悉的标准和高级语音模式并列。选择它后,语音气泡会呈现黄色发光效果。
这个名字是“双向(bidirectional)设计”的缩写,这种设计让助手可以同时说话、听见和倾听,而不必在每一轮对话中“礼貌地等候”。据报道,内部代码将其定位为下一代语音能力,也是智能水平的一次重大飞跃。
早期测试者表示,该模型已经开始陆续向部分网页和移动端用户推送,这意味着最快可能在本周发布,尽管最终名称仍可能调整。
代码相关内容最初在 ChatGPT 应用中被发现,显示这是一次重要的语音升级。
延伸阅读:Anthropic 永续合约抛售,是否预示 Pre‑IPO 加密押注的风险?
Bidi 1 处理打断与记忆能力
该模型会在用户停顿或放慢语速时给出轻微反馈,比如轻声说一声“好的”,同时又不会打断说话者。它可以即时切换任务,例如在用户中途打断时马上反向重新计数。有报告称,它提供“高”、“中”、“即时”三档可选智能等级,对应文本模式中用户在“更快”与“更谨慎”回答之间的类似选择。
记忆功能可能是更大的变化:Bidi 1 能在长对话中保持上下文线索,而不是像以往那样丢失早期的音频信息——这一直是 ChatGPT 现有语音方案的弱点。有目击者甚至提到实时翻译能力,一旦该模型开放到开发者接口、为外部应用提供支持,这项功能可能解锁全新的使用场景。
OpenAI 语音布局加速推进
此次升级被视为尝试缩小 OpenAI 强大的文本模型与其相对落后的语音层之间差距的一步。之前的语音层依赖 GPT-4o,这一模型并非从一开始就为双向音频交互而设计。公司正在押注,对大多数人而言,与 AI 交互的主要入口将从打字转向语音。
过去一年里,OpenAI 一直在持续打磨 ChatGPT 的语音功能,而据报道,Bidi 1 自 2026 年初起便已开始开发,是数月打磨的产物,而非仓促上线的项目。这次泄露也正值公司规划更大范围的 ChatGPT 改版之际,其中包括围绕 Codex 编码工具和智能体功能的升级,不过这些目前都尚未官方确认。





