OpenAI тихо тестує Bidi 1, тоді як ChatGPT вчиться слухати, розмовляючи

OpenAI тестує неанонсовану бінапрямлену голосову модель під назвою Bidi 1, яка дозволяє ChatGPT одночасно слухати й говорити.

Основні моменти:

Bidi 1 може слухати, говорити й сприймати перебивання посеред фрази, не «заморожуючи» розмову.

Посилання в коді з’явилися в середині червня, а OpenAI не робила жодних офіційних заяв.

Модель уже почала доходити до частини користувачів застосунку, що натякає на реліз уже цього тижня.

Bidi 1 з’являється в коді ChatGPT

Код і елементи інтерфейсу, пов’язані з моделлю, вперше з’явилися у застосунку ChatGPT приблизно 16 червня, за кілька тижнів до будь-якого формального анонсу від компанії, яка публічно нічого не сказала. Нова опція розташована в селекторі моделей у налаштуваннях поруч зі стандартними та розширеними голосовими режимами, до яких користувачі вже звикли. Якщо її обрати, голосова «бульбашка» світиться жовтим.

Назва є скороченням від «бінапрямлений дизайн» — підходу, який дозволяє асистенту одночасно говорити, чути й слухати, а не чемно чекати на свою чергу. За повідомленнями, внутрішній код описує її як «наступне покоління голосу» та великий стрибок в інтелектуальних можливостях.

Ранні тестувальники кажуть, що модель уже почала діставатися до частини користувачів у вебі й мобільних застосунках, що сигналізує про реліз уже цього тижня, хоча фінальна назва ще може змінитися.

Також читайте: Чи є розпродаж Anthropic Perp попередженням для крипто-ставок до IPO?

Bidi 1 обробляє перебивання та пам’ять

Модель дає невеликі підтвердження — на кшталт тихого «гаразд», коли користувач робить паузу чи сповільнюється, і при цьому не перебиває співрозмовника. Вона може миттєво перемикати завдання, наприклад розвернути зворотний відлік у той момент, коли користувач її переб’є. У звітах описані вибірні «рівні інтелекту» з мітками High, Medium та Instant, що віддзеркалюють уже наявні текстові режими, де користувачі обирають між швидшими або більш обережними відповідями.

Пам’ять може виявитися більшим зрушенням, адже Bidi 1 тримає нитку довгої розмови, не втрачаючи попередній аудіоконтекст — слабке місце, яке давно переслідує поточний голосовий стек ChatGPT. Один зі звітів навіть указував на можливість синхронного перекладу в реальному часі — функцію, що може відкрити нові сценарії використання, коли модель дістанеться інтерфейсу для розробників і почне живити сторонні застосунки.

Голосовий наступ OpenAI набирає обертів

Оновлення виглядає як спроба скоротити розрив між сильними текстовими моделями OpenAI та старішим голосовим шаром, який відставав протягом місяців. Цей шар спирався на GPT-4o — модель, яку спочатку не проєктували саме для двостороннього аудіо. Компанія робить ставку на те, що для більшості людей саме голос, а не введення тексту, стане головним шляхом взаємодії зі ШІ.

За минулий рік OpenAI поступово вдосконалювала голосові можливості ChatGPT, і, за повідомленнями, модель перебуває в розробці з початку 2026 року — це результат місяців роботи, а не поспішний реліз. Витік також накладається у часі з тим, як компанія готує ширшу перебудову ChatGPT навколо інструмента кодування Codex і «агентних» функцій, хоча поки що нічого з цього не підтверджено офіційно.

Читайте далі: Mane City Mobile виходить на iOS та Android у 100+ країнах