العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
OpenAI تجعل النموذج "يفتح فمه" ويشتم، وقال إن الذكاء الاصطناعي غالي جدًا
المؤلف: سويانغ، تينسنت تكنولوجي
8 مايو، أضافت OpenAI ثلاثة نماذج صوتية من الجيل الجديد في واجهة برمجة التطبيقات: GPT‑Realtime‑2، الذي يركز على الاستنتاج والحوار الصوتي، وRealtime‑Translate، الذي يبرز الترجمة متعددة اللغات في الوقت الحقيقي، وRealtime‑Whisper، الذي يركز على تحويل الصوت إلى نص.
يعد GPT‑Realtime‑2 أول نموذج صوتي من OpenAI يمتلك قدرات استنتاج من مستوى GPT‑5. أظهر تقدمًا ملحوظًا في الاختبارات المعيارية: حيث بلغت دقته 96.6% في تقييم الذكاء الصوتي في Big Bench Audio، ومتوسط معدل النجاح 48.5% في تقييم الالتزام بالأوامر في Audio MultiChallenge، بزيادة قدرها 15.2 و13.8 نقطة مئوية على التوالي عن الجيل السابق GPT‑Realtime‑1.5.
استنادًا إلى GPT‑Realtime‑2، تطور الذكاء الاصطناعي الصوتي من مجرد أسئلة وأجوبة دورية بسيطة إلى شكل يمكنه خلال الحوار أن يستمع ويستنتج ويستدعي أدوات ويكمل المهام بشكل مستمر.
مساعد صوتي “يملك” القدرة على التفكير
هدف تصميم GPT‑Realtime‑2 هو جعل النموذج الصوتي قادرًا على معالجة المهام المعقدة مع الحفاظ على سلاسة الحوار.
وفيما يتعلق بالطبيعة الطبيعية للمحادثة، أدخل النموذج آلية التوجيه المسبق.
يمكن للمطورين تفعيل عبارات قصيرة مثل “دعني أتحقق” أو “انتظر قليلاً، أنا أراجع” قبل توليد الاستجابة الرسمية، لإبلاغ المستخدم بأن الطلب قد تم استلامه ويجري معالجته.
وبما يتوافق مع ذلك، يتمتع النموذج بقدرة على استدعاء أدوات متعددة بشكل متزامن وشفافية في استخدام الأدوات، حيث يمكنه استدعاء أدوات خارجية متعددة في آن واحد، وإبلاغ المستخدم عبر الصوت عن التقدم، مثل قول “جارٍ التحقق من تقويمك” أو “جارٍ البحث”، مما يحافظ على استجابة الذكاء الاصطناعي خلال إنجاز المهمة بدلاً من الصمت.
عندما يواجه النموذج صعوبة في المعالجة، يقدم بشكل استباقي رسائل مثل “أواجه بعض المشاكل الآن” ويحاول استعادة الأداء، بدلاً من الصمت أو إنهاء الحوار بشكل مفاجئ.
بالإضافة إلى ذلك، تم توسيع نافذة السياق من 32 ألف إلى 128 ألف، مما يعني أنه يمكنه الحفاظ على تماسك الحوار في محادثات أطول وأكثر تعقيدًا، ودعم سير عمل أكثر تكاملًا للذكاء الاصطناعي.
وفيما يخص تطبيقه في المجالات المتخصصة، عزز النموذج فهمه للمصطلحات الفنية، مع القدرة على الاحتفاظ بدقة بالمصطلحات المهنية والأسماء الخاصة والمصطلحات الطبية، مما يضيف قيمة كبيرة لنشره في بيئات الإنتاج. وعلى مستوى التعبير، يمتلك النموذج قدرة على ضبط نغمة الأداء والتعبير بشكل أكثر تحكمًا، ويمكنه التبديل بين الأساليب حسب السياق.
ومن الترقيات المهمة أيضًا، إمكانية ضبط قوة الاستنتاج. حيث يمكن للمطورين الاختيار من بين خمسة مستويات: minimal، low، medium، high، وxhigh (الافتراضي هو low)، لتحقيق توازن بين التأخير وعمق الاستنتاج.
لا حديث فارغ
GPT‑Realtime‑2 يتفوق بشكل كامل على الجيل السابق في الاختبارات المعيارية
في تقييم Big Bench Audio، الذي يقيس القدرة على الاستنتاج التحدي في النماذج الصوتية، حقق GPT‑Realtime‑2 (مستوى استنتاج عالي) دقة بنسبة 96.6%، مقابل 81.4% لـ GPT‑Realtime‑1.5، بزيادة قدرها 15.2 نقطة مئوية.
وفي تقييم التفاعل متعدد الأدوار في نظام الحوار الصوتي، وهو تقييم يشمل الالتزام بالأوامر، ودمج السياق، والاتساق الذاتي، وتصحيح الأخطاء الطبيعية، ارتفعت نسبة النجاح المتوسط لـ GPT‑Realtime‑2 (مستوى استنتاج xhigh) من 34.7% لـ GPT‑Realtime‑1.5 إلى 48.5%، بزيادة نسبتها 13.8 نقطة مئوية.
وفي الواقع، لقياس مدى ذكاء النموذج الصوتي الحقيقي، فإن أكثر السيناريوهات إقناعًا ليست الدردشة العادية، بل معالجة مشكلة معقدة تتطلب استنتاجات متدرجة.
ملاحظة: قدمت OpenAI في وثائق العرض اختبارًا محددًا: حيث وصف المستخدم لنموذجه مشروعه التجاري، وقدم النموذجان من الجيل السابق GPT‑Realtime‑1.5 وGPT‑Realtime‑2 استنتاجات صوتية ونصوصًا مطابقة.
هذه الحالة تمثل مهمة مركبة تتطلب قدرات استنتاج عالية: حيث يحتاج النموذج إلى فهم علاقات متبادلة بين متغيرات متعددة، مثل توزيع حركة العملاء غير المتساوي، وتكاليف الإيجار الثابتة المرتفعة، وتحديدًا نوع الأعمال مثل المقاهي ذات معدل التبديل المنخفض، وإجراء استنتاجات منطقية ضمن هذه القيود.
استخدم GPT‑Realtime‑2 دقيقة و4 ثوانٍ لتقديم إجابة منظمة ومتدرجة، حيث حل التناقض بين تدفق الزبائن وهيكل الإيجار، وأشار إلى أن ذروة العمل قد تؤدي إلى ضعف الكفاءة الإجمالية التي تغطي الإيجار، وقدم مسار اختبار خفيف الوزن محدد.
أما النموذج السابق GPT‑Realtime‑1.5، فاستغرق 51 ثانية للرد، مع عمق أقل بشكل واضح. هذا الاختبار المقارن يوضح بشكل مباشر الفجوة بين الجيلين في قدرات الاستنتاج الاستراتيجي.
03 الترجمة الفورية والتحويل إلى نص
بالإضافة إلى GPT‑Realtime‑2، أطلقت OpenAI في نفس الوقت نموذجين مخصصين لمهام محددة.
GPT‑Realtime‑Translate يركز على الترجمة متعددة اللغات في الوقت الحقيقي، ويدعم أكثر من 70 لغة إدخال، ويصدر مباشرة إلى 13 لغة هدف، مع توفير النصوص المنسوخة أيضًا. تشمل سيناريوهات الاستخدام دعم العملاء، والتجارة عبر الحدود، والتعليم، والفعاليات، ومنصات المبدعين الموجهة للجمهور العالمي.
شارك ألبرتو بارافيتشيني، مسؤول الذكاء الاصطناعي في منصة Vimeo، تجربتهم: حيث قاموا بدمج GPT‑Realtime‑Translate أثناء تشغيل الفيديو، مما سمح للمبدعين بالتواصل عبر اللغات مع الجمهور العالمي على الفور.
عرض Vimeo قدرة الترجمة الفورية لـ GPT‑Realtime‑Translate
أما GPT‑Realtime‑Whisper فهي نموذج تحويل الصوت إلى نص بتدفق مستمر، مصمم لسيناريوهات النسخ ذات التأخير المنخفض.
يمكنه بدء توليد النص بمجرد أن يبدأ المتحدث الكلام، مما يجعله مناسبًا للترجمة الفورية في الاجتماعات، وملاحظات الصف، والترجمة التلفزيونية، وسيناريوهات التفاعل الصوتي التي تتطلب تدفق عمل فوري. تكمن قيمته الأساسية في قدرته على تحويل محتوى الصوت إلى نص منظم يمكن استخدامه مباشرة من قبل أنظمة الأعمال الفرعية خلال الحوار.
الأمان والتسعير
من ناحية الأمان، تم تفعيل طبقات حماية متعددة في واجهة برمجة التطبيقات Realtime — حيث نظام التصنيف المدمج يراقب المحادثات بشكل مباشر، وإذا تم التعرف على محتوى مخالف لإرشادات المحتوى الضار، يتم إنهاء الجلسة على الفور. كما يمكن للمطورين استخدام SDK الخاص بـ Agents لإضافة طبقات أمان مخصصة.
سياسات الاستخدام من OpenAI تمنع بشكل واضح استخدام المخرجات في الرسائل المزعجة، الاحتيال، أو الأغراض الضارة الأخرى.
وفقًا للتوجيهات الرسمية، ما لم يكن واضحًا أن الطرف الآخر هو AI، يجب على المطورين إبلاغ المستخدمين بشكل واضح بأنهم يتفاعلون مع ذكاء اصطناعي (مثل تذكير المستخدم: “الآن يتحدث AI”). بالإضافة إلى ذلك، يدعم هذا API بشكل كامل استضافة البيانات داخل الاتحاد الأوروبي، ويخضع لالتزامات حماية الخصوصية للشركات.
ثلاثة نماذج متاحة الآن للمطورين عبر واجهة Realtime API.
أما من ناحية التسعير، فإن GPT‑Realtime‑2 يُحتسب على أساس رموز الصوت، حيث يبلغ سعر 32 دولارًا لكل مليون رمز إدخال (مع تخزين الإدخال مقابل 0.40 دولار لكل مليون رمز)، و64 دولارًا لكل مليون رمز إخراج. وGPT‑Realtime‑Translate يُحتسب حسب مدة الاستخدام، حيث يكلف 0.034 دولار لكل دقيقة. وGPT‑Realtime‑Whisper يُحتسب أيضًا حسب المدة، ويبلغ سعره 0.017 دولار لكل دقيقة.
وللدعم في تقديم “عائلة الصوت” الجديدة، قال الرئيس التنفيذي لـ OpenAI، سام ألتمان، على X: “بدأ الناس بالفعل في التفاعل صوتيًا مع الذكاء الاصطناعي، خاصة عندما يحتاج الأمر إلى إدخال كمية كبيرة من المعلومات في مرة واحدة.”
وأشار أيضًا إلى أن الشباب يفضلون التواصل مع AI عبر الصوت، بينما يميل كبار السن إلى الكتابة، وطرح سؤالًا مفتوحًا حول ما إذا كانت هذه العادة ستتغير في المستقبل.
السؤال الآن: من سيكون التالي بعد تحديث قدرات OpenAI الصوتية؟