تختبر OpenAI بهدوء النموذج الصوتي ثنائي الاتجاه Bidi 1 بينما يتعلم ChatGPT الإصغاء أثناء التحدث

تختبر OpenAI نموذجًا صوتيًا ثنائي الاتجاه غير مُعلن يسمى Bidi 1 يتيح لـ ChatGPT الإصغاء والتحدث في الوقت نفسه.

النقاط الرئيسية:

يمكن لـ Bidi 1 الاستماع والتحدث واستيعاب المقاطعات في منتصف الجملة دون تجميد المحادثة.

ظهرت إشارات إلى الشيفرة في منتصف يونيو، ولم تصدر OpenAI أي إعلان رسمي بعد.

بدأ النموذج بالوصول إلى بعض مستخدمي التطبيق، في إشارة إلى طرح محتمل في وقت مبكر من هذا الأسبوع.

ظهور Bidi 1 في شيفرة ChatGPT

ظهرت الشيفرة وعناصر الواجهة المرتبطة بالنموذج أولًا داخل تطبيق ChatGPT حوالي 16 يونيو، قبل أسابيع من أي كشف رسمي من شركة لم تقل شيئًا علنًا بعد. يوجد الخيار الجديد في منتقي النماذج ضمن الإعدادات، إلى جانب أوضاع الصوت القياسية والمتقدمة التي يعرفها المستخدمون بالفعل. عند اختياره، تتوهج فقاعة الصوت باللون الأصفر.

الاسم اختصار لتصميم ثنائي الاتجاه، وهو نهج يتيح للمساعد التحدث والإصغاء والاستماع في آن واحد بدلًا من الانتظار المهذب لكل دور. وتشير التقارير إلى أن الشيفرة الداخلية تصفه على أنه الجيل التالي من الصوت وقفزة كبرى في الذكاء.

ويقول مختبِرون مبكرون إن النموذج بدأ بالفعل بالوصول إلى مجموعة فرعية من المستخدمين عبر الويب والجوال، ما يشير إلى طرح محتمل في غضون هذا الأسبوع، رغم أن الاسم النهائي قد يتغير لاحقًا.

Bidi 1 يتعامل مع المقاطعات والذاكرة

يقدّم النموذج إشارات تأكيد صغيرة، مثل قول "حسنًا" بهدوء عندما يتوقف المستخدم أو يبطئ حديثه، ويتمكن من ذلك دون مقاطعة المتحدث. يمكنه تبديل المهام فورًا، مثل عكس عدٍّ ما في اللحظة التي يقاطِع فيها المستخدم. وتصف التقارير مستويات ذكاء قابلة للاختيار تحمل تسميات مرتفع ومتوسط وفوري، ما يعكس الخيارات المتاحة بالفعل في جانب النص، حيث يختار المستخدمون بين إجابات أسرع أو أكثر تأنّيًا.

قد تكون الذاكرة التحوّل الأهم، إذ يحتفظ Bidi 1 بخيط محادثة طويلة بدلًا من إسقاط سياق الصوت السابق، وهو نقطة الضعف التي أزعجت طبقة الصوت الحالية في ChatGPT منذ مدة. وأشار رصد آخر حتى إلى الترجمة الفورية، وهي ميزة يمكن أن تفتح حالات استخدام جديدة بمجرد وصول النموذج إلى واجهة المطوّرين وتشغيله تطبيقات خارجية.

تسارع دفع OpenAI نحو الصوت

يبدو هذا التحديث محاولة لسد الفجوة بين نماذج OpenAI النصية القوية وطبقة صوت أقدم تأخرت لأشهر. كانت تلك الطبقة تعتمد على GPT-4o، وهو نموذج لم يُبنَ من البداية للصوت ثنائي الاتجاه. تراهن الشركة على أن الكلام، وليس الكتابة، سيصبح المسار الرئيسي للوصول إلى الذكاء الاصطناعي لمعظم الناس.

حسَّنت OpenAI قدرات الصوت في ChatGPT بشكل مستمر خلال العام الماضي، ويُقال إن النموذج قيد التطوير منذ أوائل 2026، ما يجعله ثمرة أشهر من العمل بدلًا من إصدار متعجّل. كما أن التسريب يأتي بينما ترسم الشركة ملامح إعادة تصميم أوسع لـ ChatGPT حول أداة الترميز Codex وميزات الوكلاء، رغم أن أيًّا من ذلك لم يُعلَن رسميًا بعد.

اقرأ التالي: لعبة Mane City Mobile تصل إلى iOS وAndroid في أكثر من 100 دولة