OpenAI가 ChatGPT가 동시에 듣고 말할 수 있게 해주는, 아직 발표되지 않은 양방향 음성 모델 ‘Bidi 1’을 테스트 중이다.
핵심 포인트:
- Bidi 1은 대화가 멈추지 않도록, 끼어들기가 문장 중간에 들어와도 듣고 말하며 흡수할 수 있다.
- 코드 레퍼런스는 6월 중순에 포착됐고, OpenAI는 아직 공식 발표를 하지 않았다.
- 이 모델은 일부 앱 사용자들에게 이미 도달하기 시작했으며, 이르면 이번 주 중 출시 가능성을 시사한다.
ChatGPT 코드에 등장한 Bidi 1
모델과 연결된 코드 및 인터페이스 요소는, 회사가 어떤 공개적인 발표도 하기 몇 주 전인 6월 16일경 처음 등장 했다. 새로운 옵션은 설정의 모델 선택기 안에 위치하며, 사용자가 이미 알고 있는 표준 및 고급 음성 모드 옆에 자리 잡고 있다. 이를 선택하면 말풍선이 노란색으로 빛난다.
이름은 양방향(bidirectional) 설계를 뜻하는 약칭으로, 이는 어시스턴트가 매 차례를 예의 바르게 기다리는 대신, 말하기·듣기·청취를 동시에 할 수 있게 해주는 접근 방식이다. 내부 코드는 이를 차세대 음성 모델이자 지능에서의 큰 도약으로 설명하는 것으로 알려졌다.
초기 테스터들에 따르면 이 모델은 이미 웹과 모바일 전반의 일부 사용자에게 도달하기 시작 했으며, 이르면 이번 주에도 출시될 수 있음을 시사한다. 다만 최종 명칭은 여전히 바뀔 수 있다.
관련 기사: Anthropic 무기한 선물 투매, 프리 IPO 크립토 베팅에 대한 경고일까?
Bidi 1, 끼어들기와 메모리 처리
이 모델은 사용자가 멈추거나 말이 느려질 때 조용한 “알겠어요” 같은 작은 반응을 보이지만, 화자를 끊지 않고 이를 처리한다. 사용자가 끼어드는 순간 바로 숫자 세기를 거꾸로 돌리는 등, 작업을 즉석에서 전환할 수도 있다. 리포트에 따르면 높은(High), 보통(Medium), 즉시(Instant) 등으로 표시된 지능 단계 선택지도 제공되는데, 이는 텍스트 쪽에서 이미 제공되는 옵션과 비슷하게, 더 빠른 답변과 더 신중한 답변 사이를 고르게 하는 구조다.
메모리는 더 큰 변화가 될 수 있다. Bidi 1은 기존 ChatGPT 음성 스택의 오랜 약점이던 초기 오디오 맥락 손실 대신, 긴 대화의 실마리를 계속 유지하도록 설계된 것으로 보인다. 한 목격담에서는 실시간 번역 가능성까지 거론됐는데, 이 기능이 개발자 인터페이스에 도달해 외부 앱을 구동하게 되면 새로운 활용 사례를 열 수 있다.
속도 붙는 OpenAI의 음성 전략
이번 업그레이드는 수개월 동안 뒤처져 온 구형 음성 레이어와 OpenAI의 강력한 텍스트 모델 사이의 격차를 좁히려는 시도로 읽힌다. 그 음성 레이어는 애초에 양방향 오디오를 위해 처음부터 설계된 모델이 아닌 GPT-4o에 의존해 왔다. 회사는 대부분의 사람들에게는 타이핑이 아니라 음성이 AI에 접근하는 주된 경로가 될 것이라 보고 있다.
OpenAI는 지난 1년간 ChatGPT의 음성 기능을 꾸준히 다듬어 왔으며, 이 모델은 졸속이 아닌 수개월에 걸친 작업의 산물로, 2026년 초부터 개발이 진행된 것으로 전해진다. 이번 유출은 또한 회사가 Codex 코딩 도구와 에이전트형 기능을 중심으로 더 큰 ChatGPT 개편을 구상하는 와중에 나왔으며, 아직 어떤 것도 공식화되지는 않았다.





