ترقية ترجمة جوجل: جيميني 3.5 تجعل الترجمة الفورية للصوت لا تتوقف عن الحرج

جوجل تعلن عن إطلاق Gemini 3.5 Live Translate، نموذج صوتي فوري يمكنه ترجمة أكثر من 70 لغة بشكل متزامن، مع الاحتفاظ بنغمة وإيقاع المتحدث، وقد تم إطلاقه بالفعل في معاينة المطورين، ونسخة الشركات من Meet، وتطبيق ترجمة جوجل.
(ملخص سابق: ترجمة جوجل الفورية أصبحت متاحة لجميع ماركات السماعات: أكثر من 70 لغة، أندرويد في المكسيك والولايات المتحدة، إصدار أولي)
(معلومات إضافية: مقال المحامي لينغ شانلون» عندما تسأل الذكاء الاصطناعي عن غداء اليوم، العالم يعيد رسم خريطة الطاقة لهذا السؤال)

كل شهر، مليار كلمة. هذا هو حجم المعالجة اليومي لترجمة جوجل، وهو نتاج عشرين عامًا من العمل. في 9 يونيو، أعلنت جوجل في مدونتها الرسمية عن أحدث نموذج صوتي لواجهة برمجة التطبيقات Gemini Live API: Gemini 3.5 Live Translate. هدفه واحد فقط، جعل اللغة لم تعد توقفًا في الحوار.

بداية ونهاية مليار كلمة

الجوهر في Gemini 3.5 Live Translate هو «الترجمة من صوت إلى صوت»، مع ضرورة الاحتفاظ بنغمة المتحدث (الانتوناشن)، والإيقاع (البيسينج)، وارتفاع الصوت (البيتش).

الأنظمة السابقة كانت تنتظر حتى ينهي المتحدث جملة ليبدأ الترجمة، مما يقطع إيقاع الحوار تمامًا. أما Gemini 3.5 Live Translate فتعتمد على «الاستمرار في التوليد»، وتقوم بالتعديل الفوري بين «انتظار مزيد من السياق لتحسين الدقة» و«الإخراج الفوري لمواكبة المتحدث»، بحيث يكون الفرق الزمني فقط بضع ثوانٍ، وتقوم تلقائيًا بكشف أكثر من 70 لغة، دون الحاجة للتبديل اليدوي.

جوجل تتيح الآن ثلاثة طرق للوصول: عبر Gemini Live API ومعاينة المطورين في Google AI Studio؛ ومعاينة خاصة للشركات عبر Google Meet بدءًا من هذا الشهر؛ وتحديث عالمي لتطبيق ترجمة جوجل على أندرويد وiOS.

كما أضافت أندرويد «وضع الاستماع»، حيث يمكن وضع الهاتف بالقرب من الأذن، ليتم ترجمة الصوت وتشغيله من خلال السماعة، دون الحاجة إلى سماعة رأس، ودون إزعاج الآخرين، وهو مناسب للجولات السياحية في المتاحف، أو للمكالمات الأجنبية في الأماكن الهادئة.

الطريق هو الحصن المنيع

الترجمة الصوتية الفورية ليست حكرًا على جوجل. هناك منافسون مثل SeamlessM4T من ميتا، وترجمة المكالمات الفورية من Galaxy AI من سامسونج، وLive Translation من أبل، وReatime API من OpenAI، وقد ملأ هذا المجال بالفعل بمنافسين يمتلكون التقنية والتمويل.

الفرق يكمن في التوزيع. تطبيق ترجمة جوجل لديه مليار مستخدم نشط شهريًا، ووجوده في سوق الشركات عبر Google Meet هو أساس جاهز، وشحنات أجهزة أندرويد العالمية تضمن الوصول إلى عدد كبير من المستخدمين. كل ميزة جديدة تُحدث مباشرة في الأدوات التي يستخدمها مليارات الناس، بدلاً من أن يضطروا لتحميل تطبيق جديد.

حالة Grab توضح مدى واقعية هذا الحصن المنيع. هذه المنصة التايلاندية للنقل والطعام، تختبر حاليًا تمكين السائقين والركاب من التواصل الفوري متعدد اللغات عبر Gemini 3.5 Live Translate. يستخدم عملاء Grab أكثر من 10 ملايين مكالمة صوتية شهريًا عبر منصتها، مما يعني أن الترجمة الفورية، في سوق متعدد اللغات بشكل كبير (التايلاندية، الفيتنامية، الملاوية، الإندونيسية، الفلبينية)، أصبحت بنية أساسية بدلاً من وظيفة إضافية.

كما أن شركاء مبكرين مثل CJ ENM وLiveKit أبدوا رضاهم عن جودة الترجمة، ودقتها، وانخفاض تأخرها المتوقع.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت