OpenAI testuje niezapowiedziany dwukierunkowy model głosowy o nazwie Bidi 1, który pozwala ChatGPT jednocześnie słuchać i mówić.
Kluczowe punkty:
- Bidi 1 potrafi słuchać, mówić i przyjmować przerwania w połowie zdania bez zamrażania rozmowy.
- Odniesienia w kodzie pojawiły się w połowie czerwca, a OpenAI nie wydało żadnego oficjalnego ogłoszenia.
- Model zaczął docierać do części użytkowników aplikacji, co sugeruje premierę już w tym tygodniu.
Bidi 1 pojawia się w kodzie ChatGPT
Elementy kodu i interfejsu powiązane z tym modelem po raz pierwszy pojawiły się w aplikacji ChatGPT około 16 czerwca, na kilka tygodni przed jakimkolwiek oficjalnym ujawnieniem ze strony firmy, która publicznie nic nie powiedziała. Nowa opcja znajduje się w selektorze modeli w ustawieniach, obok standardowych i zaawansowanych trybów głosowych, które użytkownicy już znają. Po jej wybraniu dymek głosowy świeci na żółto.
Nazwa jest skrótem od „dwukierunkowości” (bidirectional), podejścia, które pozwala asystentowi mówić, słyszeć i słuchać jednocześnie, zamiast grzecznie czekać na swoją kolej. Wewnętrzny kod określa go podobno jako następną generację głosu i duży skok w inteligencji.
Wczesni testerzy twierdzą, że model już zaczął trafiać do części użytkowników w sieci i na urządzeniach mobilnych, co sygnalizuje premierę nawet w tym tygodniu, choć ostateczna nazwa może się jeszcze zmienić.
Przeczytaj także: Czy wyprzedaż Anthropic Perp to ostrzeżenie dla przed-IPO zakładów na krypto?
Bidi 1 radzi sobie z przerwaniami i pamięcią
Model oferuje drobne potwierdzenia, jak ciche „okej”, gdy użytkownik robi pauzę lub zwalnia, i robi to bez przerywania mówiącemu. Potrafi zmieniać zadania w locie, odwracając odliczanie w momencie, gdy użytkownik mu przerwie. Relacje opisują wybieralne poziomy inteligencji oznaczone jako High, Medium i Instant, odzwierciedlające wybory oferowane już po stronie tekstowej, gdzie użytkownicy decydują się na odpowiedzi szybsze lub bardziej ostrożne.
Pamięć może okazać się większą zmianą, ponieważ Bidi 1 utrzymuje wątek długiej rozmowy zamiast porzucać wcześniejszy kontekst audio – słaby punkt, który od dawna ciążył na obecnym stosie głosowym ChatGPT. Jedna obserwacja wskazywała nawet na tłumaczenie w czasie rzeczywistym, funkcję, która mogłaby odblokować nowe zastosowania, gdy model trafi do interfejsu deweloperskiego i zacznie zasilać zewnętrzne aplikacje.
OpenAI przyspiesza rozwój głosu
Aktualizacja wygląda na próbę zamknięcia luki między silnymi modelami tekstowymi OpenAI a starszą warstwą głosową, która od miesięcy pozostaje w tyle. Ta warstwa opierała się na GPT-4o, modelu, który nigdy nie był tworzony od podstaw do dwukierunkowego audio. Firma stawia na to, że mowa, a nie pisanie, stanie się dla większości ludzi główną drogą dostępu do AI.
OpenAI stopniowo udoskonala funkcje głosowe ChatGPT przez ostatni rok, a model podobno rozwijany jest od początku 2026 roku, będąc efektem miesięcy pracy, a nie pośpiesznego wydania. Wycieki także pojawiają się w momencie, gdy firma planuje szerszą przebudowę ChatGPT wokół narzędzia kodującego Codex i funkcji agentowych, choć nic z tego nie jest jeszcze oficjalne.
Przeczytaj następną wiadomość: Mane City Mobile trafia na iOS i Android w ponad 100 krajach





