أصدرت OpenAI نموذج gpt-realtime لتحويل الكلام إلى كلام بدعم متعدد الوسائط، ومهارات محادثة متقدمة، وأداء قوي في معالجة الصوت.
أعلنت منظمة أبحاث الذكاء الاصطناعي OpenAI عن التوفر العام لواجهة برمجة التطبيقات Realtime الخاصة بها، والتي تم تحسينها الآن مع ميزات تتيح للمطورين والشركات بناء وكلاء صوتيين قويين جاهزين للإنتاج. تدعم واجهة برمجة التطبيقات خوادم MCP عن بُعد، ومدخلات الصور، وإجراء المكالمات الهاتفية عبر بروتوكول بدء الجلسة (SIP)، مما يتيح تطبيقات صوتية أكثر قدرة ووعياً بالسياق.
بالإضافة إلى واجهة برمجة التطبيقات، أصدرت OpenAI نموذجها الأكثر تقدمًا لتحويل الكلام إلى كلام، gpt-realtime، المصمم لتحسين اتباع التعليمات، واستدعاء الوظائف، والكلام الطبيعي. يمكن للنموذج تفسير الطلبات المعقدة، وتغيير اللغات في منتصف الجملة، وإعادة إنتاج التسلسلات الأبجدية الرقمية بدقة، والتقاط الإشارات غير اللفظية. تتوفر أيضًا صوتان جديدان، سيدار ومارين، مما يوفر تعبيرًا أكثر وتغييرًا بشريًا في النغمة. تم تحديث الأصوات الحالية لتضمين هذه التحسينات.
تقوم واجهة برمجة التطبيقات الفورية بمعالجة الصوت مباشرةً من خلال نموذج واحد، مما يقلل من زمن الانتقال ويحافظ على الفروق الدقيقة، على عكس الأنظمة التقليدية التي تربط نماذج تحويل الكلام إلى نص ونماذج تحويل النص إلى كلام بشكل منفصل. تم تدريب gpt-realtime بالتعاون مع المستخدمين للتفوق في التطبيقات الواقعية مثل دعم العملاء، والمساعدة الشخصية، والتعليم. تُظهر التقييمات القياسية تحسينات كبيرة في التفكير، والامتثال للتعليمات، ودقة استدعاء الوظائف مقارنة بالنماذج السابقة.
تشمل التحديثات الإضافية استدعاء الدوال غير المتزامنة، مما يسمح بإجراء العمليات الطويلة دون مقاطعة المحادثات الجارية، مما يدعم بشكل أكبر تجارب الصوت الجاهزة للإنتاج بسلاسة.
OpenAI توسع واجهة برمجة التطبيقات في الوقت الحقيقي بدعم MCP، ومدخلات الصور، ودمج SIP، وأدوات التحكم لتوفير التكاليف لوكلاء الصوت
يشتمل واجهة برمجة التطبيقات في OpenAI في الوقت الحقيقي الآن على ميزات جديدة مصممة لتبسيط التكامل وتوسيع القدرات لوكلاء الصوت الجاهزين للإنتاج. يمكن للمطورين تمكين دعم MCP عن بُعد من خلال ربط جلسة بعنوان URL لخادم MCP، مما يسمح لواجهة برمجة التطبيقات بإدارة استدعاءات الأدوات تلقائيًا والوصول إلى وظائف إضافية دون إعداد يدوي.
نموذج gpt-realtime يدعم الآن إدخال الصور، مما يتيح للنظام دمج الصور، لقطات الشاشة، وغيرها من الصور مع الصوت أو النص. وهذا يسمح للمستخدمين بطرح أسئلة خاصة بالسياق حول ما يرونه، بينما يحتفظ المطورون بالتحكم في الصور التي تتم مشاركتها ومتى.
تشمل التحسينات الإضافية دعم بروتوكول بدء الجلسة (SIP) لربط التطبيقات بشبكات الهاتف وأنظمة PBX، بالإضافة إلى المطالبات القابلة لإعادة الاستخدام التي تتيح للمطورين حفظ ونشر التعليمات والأدوات والرسائل النموذجية المهيأة مسبقًا عبر جلسات متعددة.
تتوفر الآن واجهة برمجة التطبيقات في الوقت الفعلي ونموذج gpt-realtime عمومًا لجميع المطورين، مع تخفيض الأسعار بنسبة 20% مقارنةً بالنسخة السابقة gpt-4o-realtime-preview. تسمح عناصر التحكم الجديدة في سياق المحادثة بإدارة أكثر ذكاءً للرموز، مما يقلل التكاليف للجلسات الطويلة. تتوفر الوثائق، ومنطقة اختبار لاختبار الميزات، ودليل لتحفيز واجهة برمجة التطبيقات في الوقت الفعلي لدعم المطورين في اعتماد هذه الميزات.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أوبن إيه آي تكشف النقاب عن نموذج تحويل الكلام إلى كلام GPT-Realtime مع دعم متعدد الوسائط وقدرات محادثة متقدمة
باختصار
أصدرت OpenAI نموذج gpt-realtime لتحويل الكلام إلى كلام بدعم متعدد الوسائط، ومهارات محادثة متقدمة، وأداء قوي في معالجة الصوت.
أعلنت منظمة أبحاث الذكاء الاصطناعي OpenAI عن التوفر العام لواجهة برمجة التطبيقات Realtime الخاصة بها، والتي تم تحسينها الآن مع ميزات تتيح للمطورين والشركات بناء وكلاء صوتيين قويين جاهزين للإنتاج. تدعم واجهة برمجة التطبيقات خوادم MCP عن بُعد، ومدخلات الصور، وإجراء المكالمات الهاتفية عبر بروتوكول بدء الجلسة (SIP)، مما يتيح تطبيقات صوتية أكثر قدرة ووعياً بالسياق.
بالإضافة إلى واجهة برمجة التطبيقات، أصدرت OpenAI نموذجها الأكثر تقدمًا لتحويل الكلام إلى كلام، gpt-realtime، المصمم لتحسين اتباع التعليمات، واستدعاء الوظائف، والكلام الطبيعي. يمكن للنموذج تفسير الطلبات المعقدة، وتغيير اللغات في منتصف الجملة، وإعادة إنتاج التسلسلات الأبجدية الرقمية بدقة، والتقاط الإشارات غير اللفظية. تتوفر أيضًا صوتان جديدان، سيدار ومارين، مما يوفر تعبيرًا أكثر وتغييرًا بشريًا في النغمة. تم تحديث الأصوات الحالية لتضمين هذه التحسينات.
تقوم واجهة برمجة التطبيقات الفورية بمعالجة الصوت مباشرةً من خلال نموذج واحد، مما يقلل من زمن الانتقال ويحافظ على الفروق الدقيقة، على عكس الأنظمة التقليدية التي تربط نماذج تحويل الكلام إلى نص ونماذج تحويل النص إلى كلام بشكل منفصل. تم تدريب gpt-realtime بالتعاون مع المستخدمين للتفوق في التطبيقات الواقعية مثل دعم العملاء، والمساعدة الشخصية، والتعليم. تُظهر التقييمات القياسية تحسينات كبيرة في التفكير، والامتثال للتعليمات، ودقة استدعاء الوظائف مقارنة بالنماذج السابقة.
تشمل التحديثات الإضافية استدعاء الدوال غير المتزامنة، مما يسمح بإجراء العمليات الطويلة دون مقاطعة المحادثات الجارية، مما يدعم بشكل أكبر تجارب الصوت الجاهزة للإنتاج بسلاسة.
OpenAI توسع واجهة برمجة التطبيقات في الوقت الحقيقي بدعم MCP، ومدخلات الصور، ودمج SIP، وأدوات التحكم لتوفير التكاليف لوكلاء الصوت
يشتمل واجهة برمجة التطبيقات في OpenAI في الوقت الحقيقي الآن على ميزات جديدة مصممة لتبسيط التكامل وتوسيع القدرات لوكلاء الصوت الجاهزين للإنتاج. يمكن للمطورين تمكين دعم MCP عن بُعد من خلال ربط جلسة بعنوان URL لخادم MCP، مما يسمح لواجهة برمجة التطبيقات بإدارة استدعاءات الأدوات تلقائيًا والوصول إلى وظائف إضافية دون إعداد يدوي.
نموذج gpt-realtime يدعم الآن إدخال الصور، مما يتيح للنظام دمج الصور، لقطات الشاشة، وغيرها من الصور مع الصوت أو النص. وهذا يسمح للمستخدمين بطرح أسئلة خاصة بالسياق حول ما يرونه، بينما يحتفظ المطورون بالتحكم في الصور التي تتم مشاركتها ومتى.
تشمل التحسينات الإضافية دعم بروتوكول بدء الجلسة (SIP) لربط التطبيقات بشبكات الهاتف وأنظمة PBX، بالإضافة إلى المطالبات القابلة لإعادة الاستخدام التي تتيح للمطورين حفظ ونشر التعليمات والأدوات والرسائل النموذجية المهيأة مسبقًا عبر جلسات متعددة.
تتوفر الآن واجهة برمجة التطبيقات في الوقت الفعلي ونموذج gpt-realtime عمومًا لجميع المطورين، مع تخفيض الأسعار بنسبة 20% مقارنةً بالنسخة السابقة gpt-4o-realtime-preview. تسمح عناصر التحكم الجديدة في سياق المحادثة بإدارة أكثر ذكاءً للرموز، مما يقلل التكاليف للجلسات الطويلة. تتوفر الوثائق، ومنطقة اختبار لاختبار الميزات، ودليل لتحفيز واجهة برمجة التطبيقات في الوقت الفعلي لدعم المطورين في اعتماد هذه الميزات.