当 ChatGPT 学会一边说一边听时，OpenAI 悄然测试双向语音模型 Bidi 1

OpenAI 正在测试一款尚未公开的双向语音模型 Bidi 1，它能让 ChatGPT 同时聆听与说话。

要点概览：

Bidi 1 可以同时听、说，并在不中断对话的情况下吸收句中打断。

代码引用在 6 月中旬浮现，OpenAI 尚未正式对外公布。

该模型已开始触达部分应用用户，暗示最快可能在本周发布。

Bidi 1 出现在 ChatGPT 代码中

与该模型相关的代码和界面元素最早在 6 月 16 日左右出现在 ChatGPT 应用中，比任何正式发布消息早了数周，而公司在公开层面一直保持沉默。这一新选项位于设置中的模型选择器下，与用户已熟悉的标准和高级语音模式并列。选择它后，语音气泡会呈现黄色发光效果。

这个名字是“双向（bidirectional）设计”的缩写，这种设计让助手可以同时说话、听见和倾听，而不必在每一轮对话中“礼貌地等候”。据报道，内部代码将其定位为下一代语音能力，也是智能水平的一次重大飞跃。

早期测试者表示，该模型已经开始陆续向部分网页和移动端用户推送，这意味着最快可能在本周发布，尽管最终名称仍可能调整。

代码相关内容最初在 ChatGPT 应用中被发现，显示这是一次重要的语音升级。

延伸阅读：Anthropic 永续合约抛售，是否预示 Pre‑IPO 加密押注的风险？

Bidi 1 处理打断与记忆能力

该模型会在用户停顿或放慢语速时给出轻微反馈，比如轻声说一声“好的”，同时又不会打断说话者。它可以即时切换任务，例如在用户中途打断时马上反向重新计数。有报告称，它提供“高”、“中”、“即时”三档可选智能等级，对应文本模式中用户在“更快”与“更谨慎”回答之间的类似选择。

记忆功能可能是更大的变化：Bidi 1 能在长对话中保持上下文线索，而不是像以往那样丢失早期的音频信息——这一直是 ChatGPT 现有语音方案的弱点。有目击者甚至提到实时翻译能力，一旦该模型开放到开发者接口、为外部应用提供支持，这项功能可能解锁全新的使用场景。

OpenAI 语音布局加速推进

此次升级被视为尝试缩小 OpenAI 强大的文本模型与其相对落后的语音层之间差距的一步。之前的语音层依赖 GPT-4o，这一模型并非从一开始就为双向音频交互而设计。公司正在押注，对大多数人而言，与 AI 交互的主要入口将从打字转向语音。

过去一年里，OpenAI 一直在持续打磨 ChatGPT 的语音功能，而据报道，Bidi 1 自 2026 年初起便已开始开发，是数月打磨的产物，而非仓促上线的项目。这次泄露也正值公司规划更大范围的 ChatGPT 改版之际，其中包括围绕 Codex 编码工具和智能体功能的升级，不过这些目前都尚未官方确认。

接着看：Mane City Mobile 已在 100+ 国家登陆 iOS 与 Android