نماذج الصوت الجديدة من OpenAI تدعم مساعدين صوتيين في الوقت الحقيقي مع ترجمة متعددة اللغات وذكاء تدفق البيانات

ملخص سريع

أطلقت OpenAI نماذج GPT-Realtime-2 و Translate و Whisper، موسعة قدرات الذكاء الاصطناعي الصوتي في الوقت الحقيقي مع القدرة على التفكير، الترجمة، والنصوص للمحادثات المتقدمة.

New OpenAI Audio Models Power Real-Time Voice Assistants With Multilingual Translation And Streaming Intelligenceأعلنت OpenAI عن مجموعة جديدة من نماذج الصوت ضمن نظام API الخاص بها، مما يمثل توسعًا في قدرات الصوت في الوقت الحقيقي للمطورين والتطبيقات المدعومة بالذكاء الاصطناعي. يتضمن الإصدار نماذج GPT-Realtime-2 و GPT-Realtime-Translate و GPT-Realtime-Whisper، كل منها مصمم لتمكين تفاعلات صوتية أكثر تقدمًا واستجابة ووعيًا بالسياق عبر مجموعة من الاستخدامات.

يُعتبر GPT-Realtime-2 النموذج الصوتي الأكثر تقدمًا للشركة حتى الآن، حيث يقدم قدرات استدلال من فئة GPT-5 في المحادثات الصوتية المباشرة. تم تصميم النموذج للتعامل مع طلبات المستخدم المعقدة، والحفاظ على استمرارية السياق، ودعم الاستدلال متعدد الخطوات أثناء التفاعل في الوقت الحقيقي. وهو مخصص للتطبيقات التي يجب أن يرد فيها وكلاء الصوت بسرعة، بالإضافة إلى تفسير النية، وإدارة المقاطعات، وتنفيذ المهام من خلال استخدام الأدوات المدمجة.

إلى جانبه، يتيح GPT-Realtime-Translate الترجمة الحية للكلام عبر أكثر من 70 لغة إدخال إلى 13 لغة إخراج. تم بناء النظام للحفاظ على تدفق المحادثة مع الحفاظ على المعنى والتوقيت، مما يسمح للمتحدثين بالتواصل بلغات مختلفة دون تأخيرات ملحوظة. تستهدف هذه القدرة دعم العملاء العالميين، والتعليم، والسفر، وخدمات التواصل عبر الحدود.

النموذج الثالث، GPT-Realtime-Whisper، يركز على النسخ الصوتي المباشر من الكلام إلى نص. يوفر نسخًا مستمرًا منخفض الكمون أثناء تحدث المستخدمين، مما يمكّن من الترجمة الفورية، والتوثيق المباشر، والمعالجة الفورية للمحتوى المنطوق. تم تصميم النموذج لبيئات تتطلب تحويل الكلام إلى نص بسرعة، مثل الاجتماعات، والبث الإعلامي، وسير العمل المؤسسي.

وصفت OpenAI الإصدار المشترك بأنه خطوة نحو واجهات صوتية تتجاوز أنظمة الأوامر والاستجابة الأساسية. بدلاً من مجرد التعرف على الكلام وتوليد الردود، تهدف النماذج إلى دعم التفكير المستمر، والترجمة، والنسخ، وتنفيذ الإجراءات ضمن تدفق محادثة واحد. الهدف هو تمكين أنظمة صوتية يمكنها العمل بشكل أكثر كوظائف مساعدة تفاعلية قادرة على إكمال المهام مع الحفاظ على حوار طبيعي.

GPT-Realtime-2 يطور بنية الذكاء الاصطناعي الصوتي مع أنظمة الصوت إلى إجراء ونوافذ سياق موسعة

سلطت الشركة الضوء على عدة أنماط تصميم ناشئة تمكنت من خلال التقنية. تشمل هذه أنظمة الصوت إلى إجراء، حيث يمكن للمستخدمين وصف المهام التي يتم تنفيذها من خلال التفكير الآلي وتكامل الأدوات؛ وأنظمة إلى صوت، حيث تولد البرمجيات إرشادات منطوقة استنادًا إلى البيانات السياقية؛ وأنظمة الترجمة من صوت إلى صوت، التي تتيح التواصل متعدد اللغات في الوقت الحقيقي بين المتحدثين.

يقدم GPT-Realtime-2 تحسينات معمارية إضافية للاستخدام الإنتاجي. تشمل هذه نوافذ سياق أطول تم توسيعها إلى 128 ألف رمز، وتحسين سلوك الاسترداد أثناء الانقطاعات أو الأخطاء، وتنفيذ الأدوات بشكل متوازي مع ملاحظات شفافة، وضبط نغمة أكثر قابلية للتحكم اعتمادًا على سياق المحادثة. يمكن للمطورين أيضًا ضبط مستويات الاستدلال لتحقيق توازن بين السرعة والتعقيد وفقًا لاحتياجات التطبيق.

تشير معايير الأداء التي استشهدت بها OpenAI إلى نتائج محسنة في مهام الاستدلال الصوتي واتباع التعليمات مقارنة بالإصدارات السابقة من نماذجها في الوقت الحقيقي. كما يظهر النظام قدرة أقوى على التعامل مع المصطلحات الخاصة بالمجال وسلوك أكثر استقرارًا في إعدادات المحادثة متعددة الأدوار.

كما يتضمن الإصدار آليات أمان، بما في ذلك المراقبة في الوقت الحقيقي وتصنيف المحتوى ضمن الجلسات النشطة، إلى جانب ضوابط على مستوى المطور لضمانات إضافية. تتوفر النماذج عبر واجهة برمجة التطبيقات في الوقت الحقيقي، وتستهدف النشر عبر المؤسسات، والمستهلكين، والمطورين، مع هيكل تسعير يعتمد على مقاييس معالجة الصوت حسب الاستخدام.

يعكس تقديم GPT-Realtime-2 والنماذج المصاحبة له تحولًا أوسع نحو أنظمة الحوسبة الصوتية القادرة على التفكير، والترجمة، والنسخ في الوقت الحقيقي، بهدف جعل التفاعل المنطوق مع البرمجيات أكثر فاعلية، وتكيفًا، وقابلية للتشغيل.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت