أصدرت OpenAI جيلًا جديدًا من نماذج الصوت في واجهتها البرمجية يوم الأربعاء، مما يمنح المطورين أدوات لبناء تطبيقات يمكنها التفكير من خلال الطلبات المنطوقة، والترجمة عبر أكثر من 70 لغة، وتحويل الكلام إلى نص أثناء حدوثه.

تُسمى النماذج الثلاثة GPT-Realtime-2، GPT-Realtime-Translate، و GPT-Realtime-Whisper. فهي ترفع واجهات الصوت الذكية إلى ما بعد التبادلات البسيطة من نوع سؤال وجواب إلى منطقة يمكن لوكيل ذكاء اصطناعي أن يستمع، ويفكر، ويتصرف أثناء المحادثة.

يقدم GPT-Realtime-2 تفكيرًا أكثر حدة في الصوت

يعد GPT-Realtime-2 النموذج الرائد. تقول OpenAI إنه يوفر تفكيرًا من فئة GPT-5، وهو خطوة مهمة من النموذج السابق، GPT-Realtime-1.5.

حصل النموذج على زيادة قدرها 15.2% في تقييم Big Bench Audio، وهو معيار للذكاء الصوتي، و13.8% في Audio MultiChallenge، الذي يختبر اتباع التعليمات في حوار منطوق متعدد الأدوار.

الترقيات العملية تستهدف المطورين الذين يبنون وكلاء صوتيين للإنتاج. يدعم النموذج الآن نافذة سياق بحجم 128 ألف، أي أربعة أضعاف الحد السابق البالغ 32 ألف، ويقدم خمسة مستويات من جهد التفكير القابل للتعديل من “محدود” إلى “xعالي”.

يمكنه استدعاء أدوات متعددة في وقت واحد، والتعافي من الأخطاء مع اعترافات منطوقة، وإنتاج عبارات قصيرة للربط مثل “دعني أتحقق من ذلك” أثناء معالجة الطلب.

يُعالج GPT-Realtime-Translate ترجمة الكلام المباشرة. يقبل أكثر من 70 لغة إدخال ويخرج بـ 13 لغة، مصمم لمواكبة المتحدث في الوقت الحقيقي.

يوفر GPT-Realtime-Whisper تحويل الكلام إلى نص (STT) بالبث، مع نسخ الكلمات كما تُقال بدلاً من الانتظار حتى اكتمال العبارة.

تختبر Zillow و Deutsche Telekom النماذج في الإنتاج

حصلت عدة شركات على وصول مبكر. تبني Zillow مساعد صوت يمكنه معالجة استفسارات العقارات المعقدة، واستخدام أدوات للبحث عن القوائم، والامتثال للوائح الإسكان العادل.

أبلغت الشركة عن تحسن بمقدار 26 نقطة في معدل نجاح المكالمات على أصعب معيار خصم بعد تحسين الطلب باستخدام GPT-Realtime-2، ليصل إلى 95% مقارنة بـ 69% سابقًا.

تختبر Deutsche Telekom الترجمة الفورية في الوقت الحقيقي لدعم العملاء، مما يسمح للمتصلين بالتحدث بلغتهم المفضلة بينما يتولى النموذج التحويل على الجانبين.

تستكشف Priceline مساعد سفر يعتمد على الصوت يمكنه إدارة بحث الرحلات، وتغييرات الفنادق، والترجمة الميدانية في جلسة واحدة.

تهدف النماذج إلى الشركات التي تتطلع إلى توسيع قدرات خدمة العملاء، ولكنها أشارت أيضًا إلى تطبيقات محتملة عبر التعليم، والإعلام، والفعاليات، ومنصات المبدعين.

قالت OpenAI إنها دمجت مراقبة المحتوى في النماذج الجديدة، مع محفزات يمكنها إيقاف المحادثات التي تُكتشف أنها تنتهك إرشادات المحتوى الضار. وصفت الشركة الحواجز بأنها حماية ضد البريد المزعج، والاحتيال، وأشكال الإساءة الأخرى.

بالنسبة للتسعير، فإن نماذجي الترجمة و Whisper يتم احتسابهما بالدقيقة. أما GPT-Realtime-2 فيتم احتسابه حسب استهلاك الرمز. جميعها متاحة عبر واجهة برمجة التطبيقات Realtime من OpenAI، ويمكن الوصول إليها عبر طرق اتصال WebRTC، وWebSocket، وSIP.

إذا كنت تقرأ هذا، فأنت بالفعل في المقدمة. حافظ على ذلك مع نشرتنا الإخبارية.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
767.85K درجة الشعبية
#
BitcoinFallsBelow80K
95.03M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
44.31K درجة الشعبية
#
IranUSConflictEscalates
92.42K درجة الشعبية
#
OilPriceRollerCoaster
307.53K درجة الشعبية

تثبيت

خريطة الموقع

يقدم GPT-Realtime-2 ذكاء GPT-5 لواجهة برمجة التطبيقات الصوتية

المواضيع الرائجة

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

تثبيت