الرئيس التنفيذي السابق لـOpenAI يتحدى صاحب العمل السابق: النموذج الجديد يستجيب في 200 مللي ثانية، والتأخير يتفوق على GPT-Realtime

وفقًا لمراقبة Beating، أصدرت مختبرات Thinking Machines التي أسسها المدير التنفيذي السابق لـ OpenAI ميرا موراتي عرضًا أوليًا لبحث “نموذج التفاعل”. يتخلى النظام الجديد عن الأسلوب التقليدي الذي يعتمد على تجميع الصوت والنص باستخدام أدوات خارجية، ويعالج التفاعل الصوتي والمرئي في الوقت الحقيقي بشكل أصلي. يمكن للنموذج استقبال المعلومات باستمرار خلال “جولة صغيرة” مدتها 200 مللي ثانية، مما يتيح له الاستماع، والمشاهدة، والتحدث في آن واحد، ويدعم أيضًا تدخل المستخدم في الوقت الحقيقي.

النموذج المعروض الأول، TML-Interaction-Small، يستخدم بنية MoE تحتوي على 276 مليار معلمة، حيث يتم تفعيل 12 مليار معلمة في كل مرة. بهدف تغيير عيب النموذج الكبير التقليدي “الذي يتوقف عن الإدراك عند توليد الإجابة”، قام فريق التطوير بتقسيم النظام إلى واجهة أمامية وخلفية: حيث تحافظ الواجهة الأمامية على حوار مستمر، بينما تتولى الواجهة الخلفية المعالجة المعقدة للاستنتاج، والبحث عبر الإنترنت، أو توليد واجهات المستخدم، ثم تعيد النتائج بسلاسة إلى الواجهة الأمامية.

هذه البنية تتفوق مباشرة على المنافسين في سرعة الاستجابة. تظهر البيانات الرسمية أن زمن استجابة الصوت يبلغ فقط 0.40 ثانية، وحصلت على 77.8 نقطة في اختبار FD-bench V1.5، مع تفوق في كلا المعيارين الأساسيين على GPT-realtime-2.0 و Gemini 3.1 Flash Live. لكن المعالجة المستمرة للفيديو والصوت ستستهلك بسرعة سعة السياق، ويعتمد الأداء منخفض التأخير بشكل كبير على بيئة الشبكة. تخطط Thinking Machines لفتح معاينة محدودة خلال الأشهر القادمة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت