أران ترجم "الدروس المريرة" إلى 9 لغات، لاختبار أدوات تقسيم الكلمات في النماذج المختلفة، مع الاعتماد على عدد الرموز في النص الأصلي باللغة الإنجليزية كمرجع. أظهرت النتائج أن نفس النص الصيني يختلف بشكل كبير في عدد الرموز عبر النماذج المختلفة: كلود 1.65 مرة، أوبن إيه آي 1.15 مرة، كيمي 0.81 مرة، كويين 0.85 مرة؛ الهندية تجاوزت أكثر من 3 مرات مع كلود، وأنتروبيك كانت الأدنى. الخلاصة: كلما زاد عدد الرموز، زادت التكلفة، ودرجة تحسين أدوات التقسيم للغة تحدد الكفاءة، واللغات التي لها حصة سوقية أكبر توفر رموزًا أقل.

BlockBeatNews

2026-04-29 08:22:06

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، قام الباحث في الذكاء الاصطناعي أرن كوماتسوزاكي بترجمة الورقة الشهيرة لريتش ساتون «الدروس المريرة» إلى 9 لغات، وأدخلها إلى أدوات تقسيم الكلمات (tokenizer) الخاصة بـ OpenAI و Gemini و Qwen و DeepSeek و Kimi و Claude 6 نماذج، بحيث يكون عدد الرموز في النص الأصلي باللغة الإنجليزية على أداة تقسيم الكلمات في OpenAI هو المعيار، وقياس كم مرة تستخدم كل لغة على كل نموذج. النتيجة: نفس المحتوى عند سؤال كلود باللغة الصينية يستهلك 1.65 ضعف المعيار؛ وعند استخدام OpenAI فقط 1.15 ضعف. الهندية على كلود أكثر تطرفًا، حيث تتجاوز 3 أضعاف المعيار. في التقييمات الستة، كانت شركة أنثروبيك في القاع.

الترجمة ستغير طول النص، لذلك النسب مقارنة بالإنجليزية ليست دقيقة تمامًا. لكن الأكثر إقناعًا هو أداء نفس المقطع الصيني على نماذج مختلفة (مع نفس المعيار): Kimi يستخدم فقط 0.81 ضعف (أقل من الإنجليزية)، Qwen 0.85 ضعف، وعند الوصول إلى كلود يصبح 1.65 ضعف. النص هو نفسه تمامًا، والفارق هو ببساطة كفاءة أدوات التقسيم. نماذج الصين تتعامل مع الصينية بشكل أكثر كفاءة من الإنجليزية، مما يدل على أن المشكلة ليست في اللغة الصينية نفسها، بل في مدى تحسين أدوات التقسيم لهذه اللغة.

بالنسبة للمستخدم، كلما زاد عدد الرموز، زادت تكلفة API مباشرة، وانتظار النموذج للإجابة يطول، وتستهلك نافذة السياق بسرعة أكبر. تعتمد كفاءة أدوات التقسيم على نسبة اللغات في بيانات التدريب: كلما زادت البيانات الإنجليزية، يتم ضغط الكلمات الإنجليزية بكفاءة أكبر؛ البيانات غير الإنجليزية أقل، ولا يمكن إلا تقسيمها إلى أجزاء صغيرة جدًا. استنتاج أرن: من يملك سوقًا أكبر، يوفر استهلاك الرموز بشكل أكثر اقتصادًا.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
356.25K درجة الشعبية
#
CryptoMarketsDipSlightly
260.45K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
35.88K درجة الشعبية
#
#DailyPolymarketHotspot
694.16K درجة الشعبية
#
StrategyAccumulates2xMiningRate
139.47M درجة الشعبية

تثبيت

خريطة الموقع

ترجمة كلود الصينية: السؤال نفسه يتطلب 65٪ رموز أكثر من الإنجليزية، وOpenAI فقط 15٪ أكثر

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

تثبيت