OpenAI đang thử nghiệm một mô hình giọng nói hai chiều chưa công bố tên là Bidi 1, cho phép ChatGPT vừa lắng nghe vừa nói cùng lúc.
Các điểm chính:
- Bidi 1 có thể lắng nghe, nói và hấp thụ các lần ngắt lời giữa câu mà không làm “đóng băng” cuộc trò chuyện.
- Tham chiếu trong mã xuất hiện từ giữa tháng 6, và OpenAI vẫn chưa có thông báo chính thức.
- Mô hình đã bắt đầu đến tay một số người dùng ứng dụng, gợi ý thời điểm phát hành sớm ngay trong tuần này.
Bidi 1 xuất hiện trong mã ChatGPT
Mã và các thành phần giao diện liên quan đến mô hình lần đầu xuất hiện bên trong ứng dụng ChatGPT khoảng ngày 16/6, nhiều tuần trước bất kỳ tiết lộ chính thức nào từ công ty vốn vẫn chưa nói gì công khai. Tùy chọn mới nằm trong trình chọn mô hình ở phần cài đặt, cạnh các chế độ giọng nói tiêu chuẩn và nâng cao mà người dùng đã quen thuộc. Khi chọn, bong bóng giọng nói sẽ phát sáng màu vàng.
Tên gọi là viết tắt của thiết kế hai chiều (bidirectional), một cách tiếp cận cho phép trợ lý nói, nghe và lắng nghe cùng lúc thay vì phải chờ lịch sự đến lượt. Theo báo cáo, mã nội bộ xem đây là thế hệ tiếp theo của tính năng giọng nói và là một bước nhảy vọt lớn về trí tuệ.
Những người thử nghiệm sớm cho biết mô hình đã bắt đầu đến tay một nhóm người dùng trên web và di động, báo hiệu việc phát hành có thể sớm ngay trong tuần này, dù tên gọi cuối cùng vẫn có thể thay đổi.
Đọc thêm: Đợt bán tháo Anthropic perp có phải lời cảnh báo cho các cược crypto tiền IPO?
Bidi 1 xử lý ngắt lời và ghi nhớ
Mô hình đưa ra các phản hồi nhỏ, như một tiếng “được rồi” nhẹ khi người dùng tạm ngưng hoặc nói chậm lại, và làm được điều đó mà không cắt lời người nói. Nó có thể chuyển đổi nhiệm vụ ngay lập tức, đảo ngược việc đếm số ngay khi người dùng ngắt lời. Các báo cáo mô tả các mức “trí tuệ” có thể chọn được với nhãn Cao, Trung bình và Tức thời, phản chiếu các lựa chọn đã có ở phía văn bản, nơi người dùng chọn câu trả lời nhanh hơn hoặc cẩn thận hơn.
Khả năng ghi nhớ có thể là thay đổi lớn hơn, vì Bidi 1 giữ được mạch một cuộc trò chuyện dài thay vì đánh rơi các ngữ cảnh âm thanh trước đó, điểm yếu đã làm khổ lớp giọng nói hiện tại của ChatGPT từ lâu. Một lần quan sát thậm chí còn chỉ ra khả năng dịch theo thời gian thực, một tính năng có thể mở khóa nhiều cách dùng mới khi mô hình được đưa lên giao diện dành cho nhà phát triển và cung cấp sức mạnh cho các ứng dụng bên ngoài.
Nỗ lực đẩy mạnh giọng nói của OpenAI tăng tốc
Bản nâng cấp này giống như một nỗ lực thu hẹp khoảng cách giữa các mô hình văn bản mạnh mẽ của OpenAI và lớp giọng nói cũ đã tụt lại nhiều tháng. Lớp đó dựa trên GPT-4o, một mô hình chưa từng được xây dựng từ đầu cho âm thanh hai chiều. Công ty đang đặt cược rằng nói, chứ không phải gõ phím, sẽ trở thành con đường chính để đa số người dùng tiếp cận AI.
OpenAI đã liên tục cải tiến các tính năng giọng nói của ChatGPT trong năm qua, và theo báo cáo, mô hình đã được phát triển từ đầu năm 2026, là sản phẩm của nhiều tháng làm việc chứ không phải bản phát hành vội vàng. Vụ rò rỉ cũng xảy ra đúng lúc công ty đang vạch ra một cuộc đại tu ChatGPT rộng hơn xoay quanh công cụ lập trình Codex và các tính năng “agentic”, dù đến nay vẫn chưa có gì chính thức.
Đọc tiếp: Mane City Mobile ra mắt trên iOS và Android tại hơn 100 quốc gia





