OpenAI ทดสอบโมเดลเสียงสองทิศทาง Bidi 1 แบบเงียบ ๆ ขณะที่ ChatGPT เรียนรู้การฟังไปพร้อมกับการพูด

OpenAI กำลังทดสอบโมเดลเสียงสองทิศทางที่ยังไม่ประกาศชื่อว่า Bidi 1 ซึ่งช่วยให้ ChatGPT ฟังและพูดได้พร้อมกัน

ประเด็นสำคัญ:

Bidi 1 สามารถฟัง พูด และรับมือกับการขัดจังหวะกลางประโยคได้โดยไม่ทำให้การสนทนาค้าง

การอ้างอิงในโค้ดเริ่มโผล่มาช่วงกลางเดือนมิถุนายน และ OpenAI ยังไม่ได้ประกาศอย่างเป็นทางการ

โมเดลเริ่มถูกปล่อยให้ผู้ใช้บางส่วนในแอปแล้ว บ่งชี้ว่าอาจเปิดตัวเร็วสุดภายในสัปดาห์นี้

Bidi 1 โผล่ในโค้ดของ ChatGPT

โค้ดและส่วนติดต่อผู้ใช้ที่ผูกกับโมเดลนี้เริ่มปรากฏในแอป ChatGPT ราววันที่ 16 มิ.ย. ก่อนการเปิดตัวอย่างเป็นทางการจากบริษัทที่ยังไม่พูดอะไรต่อสาธารณะ ตัวเลือกใหม่ถูกเพิ่มในเมนูเลือกโมเดลใต้การตั้งค่า อยู่ข้างโหมดเสียงมาตรฐานและโหมดเสียงขั้นสูงที่ผู้ใช้คุ้นเคย เมื่อเลือกแล้ว ฟองเสียงจะเรืองแสงเป็นสีเหลือง

ชื่อ Bidi เป็นตัวย่อของการออกแบบแบบสองทิศทาง แนวทางที่ช่วยให้ผู้ช่วยสามารถพูด ฟัง และได้ยินพร้อมกัน แทนที่จะต้องรอให้แต่ละฝ่ายพูดจบอย่างเป็นคิว โค้ดภายในมีรายงานว่ามองมันเป็นเจเนอเรชันถัดไปของเสียง และเป็นก้าวกระโดดครั้งใหญ่ด้านความฉลาดของระบบ

ผู้ทดสอบกลุ่มแรกระบุว่าโมเดลนี้เริ่มถูกปล่อยให้ผู้ใช้บางส่วนทั้งบนเว็บและมือถือแล้ว ซึ่งเป็นสัญญาณว่าอาจเปิดตัวเร็วสุดภายในสัปดาห์นี้ แม้ชื่อสุดท้ายอาจเปลี่ยนได้

อ่านเพิ่มเติม: การเทขาย Anthropic Perp คือสัญญาณเตือนสำหรับการเก็งกำไรคริปโตก่อน IPO หรือไม่?

Bidi 1 รับมือการขัดจังหวะและหน่วยความจำ

โมเดลนี้จะตอบสนองเล็กน้อย เช่น พูดว่า "โอเค" เบา ๆ เมื่อผู้ใช้หยุดหรือพูดช้าลง และทำได้โดยไม่ตัดคำพูดของผู้ใช้ สามารถสลับงานทันที เช่น เปลี่ยนจากการนับขึ้นเป็นนับถอยหลังทันทีที่ผู้ใช้ขัดจังหวะ รายงานระบุว่ามีระดับความฉลาดให้เลือกได้ เช่น High, Medium และ Instant คล้ายกับตัวเลือกฝั่งข้อความที่ให้ผู้ใช้เลือกระหว่างคำตอบที่เร็วหรือพิถีพิถันกว่า

ด้านหน่วยความจำอาจเป็นจุดเปลี่ยนที่ใหญ่กว่า เพราะ Bidi 1 สามารถรักษาเส้นเรื่องของการสนทนายาว ๆ ได้ แทนที่จะทิ้งบริบทเสียงก่อนหน้า ซึ่งเป็นจุดอ่อนที่ตามหลอกหลอนสแตกเสียงปัจจุบันของ ChatGPT มานาน มีรายงานหนึ่งระบุถึงความสามารถในการแปลแบบเรียลไทม์ ซึ่งอาจเปิดเคสการใช้งานใหม่ ๆ เมื่อโมเดลถูกนำขึ้นสู่ส่วนสำหรับนักพัฒนาและใช้ขับเคลื่อนแอปภายนอก

การผลักดันด้านเสียงของ OpenAI เร่งตัว

การอัปเกรดนี้ถูกมองว่าเป็นความพยายามปิดช่องว่างระหว่างโมเดลข้อความที่แข็งแกร่งของ OpenAI กับเลเยอร์เสียงรุ่นเก่าที่ตามหลังมาหลายเดือน เลเยอร์นั้นอาศัย GPT-4o ซึ่งไม่ใช่โมเดลที่ถูกออกแบบจากศูนย์สำหรับเสียงสองทิศทาง บริษัทกำลังเดิมพันว่าการพูด ไม่ใช่การพิมพ์ จะกลายเป็นช่องทางหลักในการเข้าถึง AI สำหรับคนส่วนใหญ่

OpenAI ปรับปรุงความสามารถด้านเสียงของ ChatGPT อย่างต่อเนื่องตลอดปีที่ผ่านมา และมีรายงานว่าโมเดลนี้ถูกพัฒนามาตั้งแต่ต้นปี 2026 เป็นผลจากการทำงานหลายเดือน ไม่ใช่การปล่อยแบบเร่งรีบ การรั่วไหลนี้ยังเกิดขึ้นในจังหวะที่บริษัทกำลังวางแผนยกเครื่อง ChatGPT ครั้งใหญ่รอบเครื่องมือเขียนโค้ด Codex และฟีเจอร์แบบเอเจนต์ แม้ว่าทั้งหมดยังไม่เป็นทางการ

อ่านต่อ: Mane City Mobile เปิดให้เล่นบน iOS และ Android แล้วในกว่า 100 ประเทศ