8 مايو، أضافت OpenAI ثلاثة نماذج صوتية من الجيل الجديد في واجهة برمجة التطبيقات: GPT‑Realtime‑2، الذي يركز على الاستنتاج والحوار الصوتي، وRealtime‑Translate، الذي يبرز الترجمة متعددة اللغات في الوقت الحقيقي، وRealtime‑Whisper، الذي يركز على تحويل الصوت إلى نص.

يعد GPT‑Realtime‑2 أول نموذج صوتي من OpenAI يمتلك قدرات استنتاج من مستوى GPT‑5. أظهر تقدمًا ملحوظًا في الاختبارات المعيارية: حيث بلغت دقته 96.6% في تقييم الذكاء الصوتي في Big Bench Audio، ومتوسط معدل النجاح 48.5% في تقييم الالتزام بالأوامر في Audio MultiChallenge، بزيادة قدرها 15.2 و13.8 نقطة مئوية على التوالي عن الجيل السابق GPT‑Realtime‑1.5.

استنادًا إلى GPT‑Realtime‑2، تطور الذكاء الاصطناعي الصوتي من مجرد أسئلة وأجوبة دورية بسيطة إلى شكل يمكنه خلال الحوار أن يستمع ويستنتج ويستدعي أدوات ويكمل المهام بشكل مستمر.

مساعد صوتي “يملك” القدرة على التفكير

هدف تصميم GPT‑Realtime‑2 هو جعل النموذج الصوتي قادرًا على معالجة المهام المعقدة مع الحفاظ على سلاسة الحوار.

وفيما يتعلق بالطبيعة الطبيعية للمحادثة، أدخل النموذج آلية التوجيه المسبق.

يمكن للمطورين تفعيل عبارات قصيرة مثل “دعني أتحقق” أو “انتظر قليلاً، أنا أراجع” قبل توليد الاستجابة الرسمية، لإبلاغ المستخدم بأن الطلب قد تم استلامه ويجري معالجته.

وبما يتوافق مع ذلك، يتمتع النموذج بقدرة على استدعاء أدوات متعددة بشكل متزامن وشفافية في استخدام الأدوات، حيث يمكنه استدعاء أدوات خارجية متعددة في آن واحد، وإبلاغ المستخدم عبر الصوت عن التقدم، مثل قول “جارٍ التحقق من تقويمك” أو “جارٍ البحث”، مما يحافظ على استجابة الذكاء الاصطناعي خلال إنجاز المهمة بدلاً من الصمت.

عندما يواجه النموذج صعوبة في المعالجة، يقدم بشكل استباقي رسائل مثل “أواجه بعض المشاكل الآن” ويحاول استعادة الأداء، بدلاً من الصمت أو إنهاء الحوار بشكل مفاجئ.

بالإضافة إلى ذلك، تم توسيع نافذة السياق من 32 ألف إلى 128 ألف، مما يعني أنه يمكنه الحفاظ على تماسك الحوار في محادثات أطول وأكثر تعقيدًا، ودعم سير عمل أكثر تكاملًا للذكاء الاصطناعي.

وفيما يخص تطبيقه في المجالات المتخصصة، عزز النموذج فهمه للمصطلحات الفنية، مع القدرة على الاحتفاظ بدقة بالمصطلحات المهنية والأسماء الخاصة والمصطلحات الطبية، مما يضيف قيمة كبيرة لنشره في بيئات الإنتاج. وعلى مستوى التعبير، يمتلك النموذج قدرة على ضبط نغمة الأداء والتعبير بشكل أكثر تحكمًا، ويمكنه التبديل بين الأساليب حسب السياق.

ومن الترقيات المهمة أيضًا، إمكانية ضبط قوة الاستنتاج. حيث يمكن للمطورين الاختيار من بين خمسة مستويات: minimal، low، medium، high، وxhigh (الافتراضي هو low)، لتحقيق توازن بين التأخير وعمق الاستنتاج.

لا حديث فارغ

GPT‑Realtime‑2 يتفوق بشكل كامل على الجيل السابق في الاختبارات المعيارية

في تقييم Big Bench Audio، الذي يقيس القدرة على الاستنتاج التحدي في النماذج الصوتية، حقق GPT‑Realtime‑2 (مستوى استنتاج عالي) دقة بنسبة 96.6%، مقابل 81.4% لـ GPT‑Realtime‑1.5، بزيادة قدرها 15.2 نقطة مئوية.

وفي تقييم التفاعل متعدد الأدوار في نظام الحوار الصوتي، وهو تقييم يشمل الالتزام بالأوامر، ودمج السياق، والاتساق الذاتي، وتصحيح الأخطاء الطبيعية، ارتفعت نسبة النجاح المتوسط لـ GPT‑Realtime‑2 (مستوى استنتاج xhigh) من 34.7% لـ GPT‑Realtime‑1.5 إلى 48.5%، بزيادة نسبتها 13.8 نقطة مئوية.

وفي الواقع، لقياس مدى ذكاء النموذج الصوتي الحقيقي، فإن أكثر السيناريوهات إقناعًا ليست الدردشة العادية، بل معالجة مشكلة معقدة تتطلب استنتاجات متدرجة.

ملاحظة: قدمت OpenAI في وثائق العرض اختبارًا محددًا: حيث وصف المستخدم لنموذجه مشروعه التجاري، وقدم النموذجان من الجيل السابق GPT‑Realtime‑1.5 وGPT‑Realtime‑2 استنتاجات صوتية ونصوصًا مطابقة.

هذه الحالة تمثل مهمة مركبة تتطلب قدرات استنتاج عالية: حيث يحتاج النموذج إلى فهم علاقات متبادلة بين متغيرات متعددة، مثل توزيع حركة العملاء غير المتساوي، وتكاليف الإيجار الثابتة المرتفعة، وتحديدًا نوع الأعمال مثل المقاهي ذات معدل التبديل المنخفض، وإجراء استنتاجات منطقية ضمن هذه القيود.

استخدم GPT‑Realtime‑2 دقيقة و4 ثوانٍ لتقديم إجابة منظمة ومتدرجة، حيث حل التناقض بين تدفق الزبائن وهيكل الإيجار، وأشار إلى أن ذروة العمل قد تؤدي إلى ضعف الكفاءة الإجمالية التي تغطي الإيجار، وقدم مسار اختبار خفيف الوزن محدد.

أما النموذج السابق GPT‑Realtime‑1.5، فاستغرق 51 ثانية للرد، مع عمق أقل بشكل واضح. هذا الاختبار المقارن يوضح بشكل مباشر الفجوة بين الجيلين في قدرات الاستنتاج الاستراتيجي.

03 الترجمة الفورية والتحويل إلى نص

بالإضافة إلى GPT‑Realtime‑2، أطلقت OpenAI في نفس الوقت نموذجين مخصصين لمهام محددة.

GPT‑Realtime‑Translate يركز على الترجمة متعددة اللغات في الوقت الحقيقي، ويدعم أكثر من 70 لغة إدخال، ويصدر مباشرة إلى 13 لغة هدف، مع توفير النصوص المنسوخة أيضًا. تشمل سيناريوهات الاستخدام دعم العملاء، والتجارة عبر الحدود، والتعليم، والفعاليات، ومنصات المبدعين الموجهة للجمهور العالمي.

شارك ألبرتو بارافيتشيني، مسؤول الذكاء الاصطناعي في منصة Vimeo، تجربتهم: حيث قاموا بدمج GPT‑Realtime‑Translate أثناء تشغيل الفيديو، مما سمح للمبدعين بالتواصل عبر اللغات مع الجمهور العالمي على الفور.

عرض Vimeo قدرة الترجمة الفورية لـ GPT‑Realtime‑Translate

أما GPT‑Realtime‑Whisper فهي نموذج تحويل الصوت إلى نص بتدفق مستمر، مصمم لسيناريوهات النسخ ذات التأخير المنخفض.

يمكنه بدء توليد النص بمجرد أن يبدأ المتحدث الكلام، مما يجعله مناسبًا للترجمة الفورية في الاجتماعات، وملاحظات الصف، والترجمة التلفزيونية، وسيناريوهات التفاعل الصوتي التي تتطلب تدفق عمل فوري. تكمن قيمته الأساسية في قدرته على تحويل محتوى الصوت إلى نص منظم يمكن استخدامه مباشرة من قبل أنظمة الأعمال الفرعية خلال الحوار.

الأمان والتسعير

من ناحية الأمان، تم تفعيل طبقات حماية متعددة في واجهة برمجة التطبيقات Realtime — حيث نظام التصنيف المدمج يراقب المحادثات بشكل مباشر، وإذا تم التعرف على محتوى مخالف لإرشادات المحتوى الضار، يتم إنهاء الجلسة على الفور. كما يمكن للمطورين استخدام SDK الخاص بـ Agents لإضافة طبقات أمان مخصصة.

سياسات الاستخدام من OpenAI تمنع بشكل واضح استخدام المخرجات في الرسائل المزعجة، الاحتيال، أو الأغراض الضارة الأخرى.

وفقًا للتوجيهات الرسمية، ما لم يكن واضحًا أن الطرف الآخر هو AI، يجب على المطورين إبلاغ المستخدمين بشكل واضح بأنهم يتفاعلون مع ذكاء اصطناعي (مثل تذكير المستخدم: “الآن يتحدث AI”). بالإضافة إلى ذلك، يدعم هذا API بشكل كامل استضافة البيانات داخل الاتحاد الأوروبي، ويخضع لالتزامات حماية الخصوصية للشركات.

ثلاثة نماذج متاحة الآن للمطورين عبر واجهة Realtime API.

أما من ناحية التسعير، فإن GPT‑Realtime‑2 يُحتسب على أساس رموز الصوت، حيث يبلغ سعر 32 دولارًا لكل مليون رمز إدخال (مع تخزين الإدخال مقابل 0.40 دولار لكل مليون رمز)، و64 دولارًا لكل مليون رمز إخراج. وGPT‑Realtime‑Translate يُحتسب حسب مدة الاستخدام، حيث يكلف 0.034 دولار لكل دقيقة. وGPT‑Realtime‑Whisper يُحتسب أيضًا حسب المدة، ويبلغ سعره 0.017 دولار لكل دقيقة.

وللدعم في تقديم “عائلة الصوت” الجديدة، قال الرئيس التنفيذي لـ OpenAI، سام ألتمان، على X: “بدأ الناس بالفعل في التفاعل صوتيًا مع الذكاء الاصطناعي، خاصة عندما يحتاج الأمر إلى إدخال كمية كبيرة من المعلومات في مرة واحدة.”

وأشار أيضًا إلى أن الشباب يفضلون التواصل مع AI عبر الصوت، بينما يميل كبار السن إلى الكتابة، وطرح سؤالًا مفتوحًا حول ما إذا كانت هذه العادة ستتغير في المستقبل.

السؤال الآن: من سيكون التالي بعد تحديث قدرات OpenAI الصوتية؟

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
800.71K درجة الشعبية
#
BitcoinFallsBelow80K
95.04M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
44.41K درجة الشعبية
#
IranUSConflictEscalates
98.18K درجة الشعبية
#
OilPriceRollerCoaster
309.69K درجة الشعبية

تثبيت

خريطة الموقع

OpenAI تجعل النموذج "يفتح فمه" ويشتم، وقال إن الذكاء الاصطناعي غالي جدًا

مساعد صوتي “يملك” القدرة على التفكير

لا حديث فارغ

03 الترجمة الفورية والتحويل إلى نص

الأمان والتسعير

المواضيع الرائجة

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

تثبيت