دعم 3500 زوجًا لغويًا! علي بابا تطلق أول نموذج ضخم للترجمة الفورية المعززة بالرؤية Qwen3.5-LiveTranslate

robot
إنشاء الملخص قيد التقدم
AIMPACT أخبار، 20 مايو (UTC+8)، وفقًا لرصد Beating، يتطور نظام الترجمة الفورية من ترجمة صوتية رتيبة إلى مترجم رقمي متعدد الوسائط قادر على رؤية الصور واستنساخ الأصوات البشرية. في 19 مايو، أعلن مختبر تونغي التابع لشركة علي بابا رسميًا عن إطلاق نموذج الترجمة الفورية الصوتية والفيديو الجديد من الجيل التالي Qwen3.5-LiveTranslate، والذي يرفع قدرات الترجمة الفورية بشكل كبير إلى أكثر من 3500 زوج لغوي، ويدعم لأول مرة استنساخ الصوت في الوقت الفعلي، وتخصيص الكلمات الساخنة، والفهم البصري. يعتمد النموذج الجديد على بنية Qwen3.5-Omni، ويدعم الآن فهم وكتابة 60 لغة، وإخراج صوتي بـ 29 لغة. على عكس برامج الترجمة الفورية التقليدية التي تسمع الصوت فقط، يقدم النموذج الجديد سياقًا بصريًا في الوقت الفعلي لإزالة الغموض الدلالي. على سبيل المثال، عند ظهور قناع معين في مقطع فيديو، يمكن للنظام الجمع بين الميزات البصرية لتمييز بدقة بين القناع الطبي وقناع الحفلة التنكرية باللغة الإنجليزية، لتعويض نقص المعلومات الصوتية. للقضاء على انحرافات النسخ الناتجة عن الضوضاء واللهجات، يقدم النموذج الجديد أيضًا آلية حقن ديناميكية للكلمات الساخنة. والسبب بسيط: يمكن للمستخدم تحديد أسماء أشخاص أو علامات تجارية أو مصطلحات صناعية معينة مباشرة في تيار الترجمة، لفرض الترجمة الصحيحة ومنع انحراف المصطلحات الخاصة أثناء الترجمة الفورية. عند الترجمة الفورية بين اللغات، يدعم النموذج أيضًا استنساخ الصوت البشري في الوقت الفعلي، مما يمكنه من إعادة إنتاج نبرة ونغمة صوت المتحدث الأصلي في الوقت الفعلي داخل تيار الترجمة الفورية. حاليًا، النموذج الجديد متاح على منصة التجربة Qwen Omni، وفي المستقبل ستتوفر واجهة API على منصة Alibaba Cloud Bailian. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت