OpenAI тихо тестирует Bidi 1, пока ChatGPT учится слушать и говорить одновременно

OpenAI тестирует неанонсированную двунаправленную голосовую модель под названием Bidi 1, которая позволяет ChatGPT одновременно слушать и говорить.

Ключевые моменты:

Bidi 1 может слушать, говорить и воспринимать перебивания посреди фразы, не «замораживая» диалог.

Ссылки в коде появились в середине июня, при этом OpenAI не делала официальных заявлений.

Модель уже начала доходить до части пользователей приложения, что намекает на релиз уже на этой неделе.

Bidi 1 появляется в коде ChatGPT

Код и элементы интерфейса, связанные с моделью, впервые появились в приложении ChatGPT около 16 июня — за недели до какой‑либо официальной презентации со стороны компании, которая публично ничего не сообщала. Новый вариант находится в селекторе моделей в настройках, рядом со стандартным и продвинутым голосовыми режимами, к которым пользователи уже привыкли. При его выборе голосовой «пузырь» подсвечивается жёлтым.

Название — сокращение от «bidirectional» (двунаправленный) — указывает на подход, при котором ассистент одновременно говорит, слышит и слушает, а не ждёт вежливо своей очереди. По внутреннему коду сообщается, что это следующее поколение голосовых возможностей и крупный скачок в интеллекте.

Ранние тестировщики говорят, что модель уже начала доходить до части пользователей в веб‑версии и на мобильных устройствах, что указывает на возможный релиз уже на этой неделе, хотя финальное название ещё может измениться.

Также читайте: Является ли распродажа Anthropic Perp предупреждением для криптобетов до IPO?

Bidi 1 справляется с перебиваниями и запоминает контекст

Модель даёт небольшие подтверждения, вроде тихого «окей», когда пользователь делает паузу или замедляется, причём делает это, не перебивая говорящего. Она может мгновенно переключаться на новые задачи, например сразу разворачивать счёт в обратную сторону, как только пользователь вмешивается. В отчётах упоминаются уровни интеллекта на выбор — High, Medium и Instant, отражающие схему, уже знакомую по текстовому режиму, где можно выбирать между более быстрыми и более аккуратными ответами.

Память может оказаться ещё более значимым сдвигом, поскольку Bidi 1 удерживает нить долгого разговора вместо того, чтобы терять ранний аудиоконтекст — слабое место, которое давно преследует нынешний голосовой стек ChatGPT. В одном из свидетельств упоминался даже перевод в реальном времени — функция, которая может открыть новые сценарии использования, когда модель доберётся до интерфейсов для разработчиков и начнёт работать в сторонних приложениях.

Голосовое направление OpenAI набирает обороты

Обновление выглядит как попытка сократить разрыв между сильными текстовыми моделями OpenAI и устаревшим голосовым слоем, который отставал последние месяцы. Этот слой опирался на GPT-4o — модель, изначально не спроектированную для полноценного двустороннего аудио. Компания делает ставку на то, что для большинства людей голос, а не набор текста, станет основным способом взаимодействия с ИИ.

OpenAI последовательно улучшает голосовые функции ChatGPT на протяжении последнего года, а новая модель, по сообщениям, разрабатывается с начала 2026 года и является результатом многомесячной работы, а не спешного релиза. Утечка также происходит на фоне того, как компания планирует более широкую переработку ChatGPT вокруг инструмента кодинга Codex и агентных возможностей, хотя пока ничего из этого не подтверждено официально.

Читайте далее: Mane City Mobile выходит на iOS и Android в более чем 100 странах