ترجمة كلود الصينية: السؤال نفسه يتطلب 65٪ رموز أكثر من الإنجليزية، وOpenAI فقط 15٪ أكثر

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، قام الباحث في الذكاء الاصطناعي أرن كوماتسوزاكي بترجمة الورقة الشهيرة لريتش ساتون «الدروس المريرة» إلى 9 لغات، وأدخلها إلى أدوات تقسيم الكلمات (tokenizer) الخاصة بـ OpenAI و Gemini و Qwen و DeepSeek و Kimi و Claude 6 نماذج، بحيث يكون عدد الرموز في النص الأصلي باللغة الإنجليزية على أداة تقسيم الكلمات في OpenAI هو المعيار، وقياس كم مرة تستخدم كل لغة على كل نموذج. النتيجة: نفس المحتوى عند سؤال كلود باللغة الصينية يستهلك 1.65 ضعف المعيار؛ وعند استخدام OpenAI فقط 1.15 ضعف. الهندية على كلود أكثر تطرفًا، حيث تتجاوز 3 أضعاف المعيار. في التقييمات الستة، كانت شركة أنثروبيك في القاع.

الترجمة ستغير طول النص، لذلك النسب مقارنة بالإنجليزية ليست دقيقة تمامًا. لكن الأكثر إقناعًا هو أداء نفس المقطع الصيني على نماذج مختلفة (مع نفس المعيار): Kimi يستخدم فقط 0.81 ضعف (أقل من الإنجليزية)، Qwen 0.85 ضعف، وعند الوصول إلى كلود يصبح 1.65 ضعف. النص هو نفسه تمامًا، والفارق هو ببساطة كفاءة أدوات التقسيم. نماذج الصين تتعامل مع الصينية بشكل أكثر كفاءة من الإنجليزية، مما يدل على أن المشكلة ليست في اللغة الصينية نفسها، بل في مدى تحسين أدوات التقسيم لهذه اللغة.

بالنسبة للمستخدم، كلما زاد عدد الرموز، زادت تكلفة API مباشرة، وانتظار النموذج للإجابة يطول، وتستهلك نافذة السياق بسرعة أكبر. تعتمد كفاءة أدوات التقسيم على نسبة اللغات في بيانات التدريب: كلما زادت البيانات الإنجليزية، يتم ضغط الكلمات الإنجليزية بكفاءة أكبر؛ البيانات غير الإنجليزية أقل، ولا يمكن إلا تقسيمها إلى أجزاء صغيرة جدًا. استنتاج أرن: من يملك سوقًا أكبر، يوفر استهلاك الرموز بشكل أكثر اقتصادًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت