الرمز ليس هو الأصل الحقيقي، وإنما هو الكيان الذكي هو الحقيقي

المؤلف: Zhang Feng

أولاً، استهلاك التوكن الضخم لموظفي الشركات التقنية

في مايو 2026، أثارت تقريرات اهتمام واسع في الصناعة: شركة تكنولوجيا لم تحدد حدًا لاستخدام الموظفين لترخيص Claude، وبلغ استهلاك التوكن الشهري ما يعادل حوالي 5 مليارات دولار. لا يُعنى هذا المثال المتطرف بحجمه بحد ذاته، بل يكشف عن فجوة في منطق القياس: حيث اعتبرت الشركة استهلاك التوكن بمثابة مقياس لشدة استخدام الموظفين للذكاء الاصطناعي، دون أن تبني آلية تحكم مرتبطة بالإنتاجية أو الأعمال.

إذا كانت هذه "الفوضى في الفواتير" ناتجة عن إهمال إداري، فإن ممارسات شركات وادي السيليكون الكبرى مثل Meta وأمازون تكشف عن مشكلة أعمق. فقد أطلقت Meta تصنيفًا باسم "Claudeonomics" يتابع استهلاك التوكن لأكثر من 85,000 موظف، ويشجع على الترتيب عبر ألقاب مثل "أسطورة التوكن" و"محب النماذج". تظهر البيانات أن إجمالي استهلاك الموظفين خلال 30 يومًا بلغ حوالي 60 تريليون توكن، ويُقدّر أن فاتورة ذلك وفقًا لأسعار Anthropic المعلنة تقترب من 900 مليون دولار؛ وأعلى موظف استهلك حوالي 281 مليار توكن في شهر واحد، بما يعادل أكثر من 140 ألف دولار. أما في أمازون، فكان تصنيف "Kirorank" يهدف في البداية لتعزيز تطبيق الذكاء الاصطناعي في سيناريوهات العمل، لكنه أدى إلى ظاهرة الموظفين الذين ينفذون عمليات بلا معنى لرفع النقاط، وأُبلغ من قبل نائب رئيس عليا بعدم "استخدام الذكاء الاصطناعي لمجرد الاستخدام". بعد أن أصبح استهلاك التوكن وحدة قياس فنية، وتحول إلى معيار تقييم إداري، بدأ يخلق تحفيزات خاطئة على نطاق واسع.

والنتيجة الأساسية هنا: هل يمكن أن يكون استهلاك التوكن معيارًا لتقييم الذكاء الاصطناعي، أو الشركات، أو الموظفين؟ وإذا كانت الإجابة لا، فما هو المقياس الحقيقي ذو القيمة التقييمية؟

نعتقد أن الاعتماد على استهلاك التوكن كمؤشر خطير، لأنه يخلط بين "التكلفة" و"القيمة"، ويخلط بين "العملية" و"النتيجة". في زمن أصبح فيه الوكيل الذكي هو السائد في تطبيقات الذكاء الاصطناعي، فإن الأصل الحقيقي ليس التوكن، بل هو الوكيل الذكي نفسه.

ثانياً، كيف نشأت أصول التوكن؟

2.1 نضوج تسعير التوكن في السوق التجارية

التوكن، كوحدة أدنى لمعالجة النصوص في النماذج الكبيرة، أصبح الوحدة الأساسية لتسعير صناعة الذكاء الاصطناعي. في مارس 2026، قرر مجلس المصطلحات العلمية والتقنية الوطني رسمياً تسمية التوكن بـ"كلمة أساسية"، وأطلق نسخة تجريبية للجمهور، فيما عرّفته الهيئة الوطنية للبيانات على أنه "وحدة تسوية" في العصر الذكي. وفقًا للهيئة، بلغ متوسط استدعاء التوكن اليومي في الصين خلال الربع الأول من 2026 أكثر من 140 تريليون، بزيادة تفوق ألف مرة عن بداية 2024. هذا التوحيد للمصطلح يعكس توافقًا صناعيًا على نظام تسعير التوكن.

من ناحية تحديد الأسعار، يظهر السوق حاليًا تباينًا شديدًا. على مستوى النماذج العالمية، سعر إدخال GPT-4o من OpenAI هو 2.5 دولار لكل مليون توكن، والإخراج 10 دولارات؛ وClaude Sonnet 4.6، سعر الإدخال 3 دولارات، والإخراج 15 دولارًا. في أبريل 2026، أطلقت OpenAI سلسلة GPT-5.5 والإصدار المتقدم GPT-5.5 Pro، حيث يبلغ سعر API لـ GPT-5.5 Pro إدخال 30 دولارًا، وإخراج 180 دولارًا لكل مليون توكن. وفي الوقت نفسه، تتنافس النماذج المحلية بأسعار منخفضة جدًا: في 27 مايو 2026، أعلنت Xiaomi عن تخفيض دائم لأسعار API من سلسلة MiMo-V2.5 بنسبة تصل إلى 99%، حيث انخفض سعر الإدخال إلى 0.025 يوان لكل مليون توكن؛ وطرحت DeepSeek سلسلة V4، حيث انخفض سعر الإدخال في الإصدار V4-Pro خلال العروض الترويجية إلى 0.025 يوان لكل مليون توكن. لا يوجد سعر عادل موحد لوحدة التوكن، فبسبب اختلاف النماذج والسيناريوهات، قد يتفاوت سعر التوكن نفسه بمئات أو آلاف المرات.

2.2 ظهور ظاهرة "تضخيم التوكن" والمشكلات المرتبطة بها

الجدل حول مدى ملاءمة التوكن كوحدة قياس، يرتبط بشكل خطير بفجوة بين التقنية والتنظيم. بدأ مصطلح "تضخيم التوكن" في الانتشار داخل الشركات منذ 2025، ويعتمد على منطق إداري أساسي: بما أن الشركة اشترت أدوات ذكاء اصطناعي، فيجب على الموظفين استخدامها بأقصى قدر ممكن لتحقيق عائد الاستثمار.

لكن البيانات تكشف هشاشة هذا المنطق. تقدر دراسات أن تكلفة شراء توكن واحد بقيمة دولار واحد قد تصاحبها خسائر غير مباشرة تتراوح بين 0.5 و0.8 دولار، تشمل تصحيح الأخطاء، وإعادة كتابة الكود، وتأخير المراجعة. وأشار تحليل إلى أن أعلى 10% من المستخدمين الكثيفين لـClaude Code يستهلكون توكنات بمعدل عشرة أضعاف المستخدمين العاديين، لكن نتائجهم الإنتاجية لا تتجاوز ضعفهم. قامت شركات مثل أمازون وMeta بإيقاف لوائح الترتيب الداخلية للتوكن، وUber استهلكت ميزانية التوكن السنوية خلال أربعة أشهر. يتجه القطاع من سردية "استخدام الذكاء الاصطناعي بشكل أكثر" إلى مرحلة أكثر حذرًا، تركز على مدى جدوى الإنفاق.

2.3 ظهور اقتصاد الوكيل الذكي

لكن النقاش حول استهلاك التوكن يتجاهل بشكل شبه كامل التغيرات الهيكلية التي حدثت في ذات الوقت: حيث ينمو الوكيل الذكي من قدرات إضافية في النماذج الكبيرة ليصبح كيانًا تقنيًا واقتصاديًا مستقلًا. في مايو 2026، أصدرت الهيئة الوطنية للإنترنت والتنمية والإصلاح، ووزارة الصناعة وتكنولوجيا المعلومات، معًا، "توجيهات تطبيق وتطوير الوكيل الذكي"، مؤكدة أن الوكيل الذكي هو شكل مهم لمنتجات وخدمات الذكاء الاصطناعي. في مؤتمر المطورين في مايو 2026، عرضت Anthropic أنشطة Claude Code، من "مساعد برمجي AI في النهاية" إلى "بنية أساسية للأتمتة غير المتزامنة لفرق الهندسة"، وبدأت تتبنى نظام تسعير هجين يعتمد على "رسوم أساسية + دفع حسب استهلاك القدرة الحاسوبية". استراتيجية "العملاء المدارة" التي تتبعها Anthropic تمثل تحولًا أعمق: حيث بدأت الشركات المصنعة تبيع البنية التحتية لتشغيل الوكيل مباشرة، وتحول النموذج التجاري من بيع التوكن إلى بيع قدرات تشغيل الوكيل.

وفي ظل هذا السياق، أصبح من الواضح أن قياس استهلاك التوكن محدود، وأن البحث عن أنظمة تقييم بديلة يتسارع.

ثالثًا، هل أن مقياس التوكن مناسب حقًا؟

3.1 العيوب الهيكلية الأربعة لمؤشر التوكن

أولاً، يخلط التوكن بين التكلفة والقيمة. قال يان هونغ، في مؤتمر Create2026 لمطوري الذكاء الاصطناعي في Baidu: "التوكن مجرد تمثيل للتكلفة، وليس تمثيلًا للأرباح؛ هو يقيس المدخلات، وليس المخرجات". وشرح البروفيسور Ma Shaoping من جامعة Tsinghua أن "التوكن لا يحمل ذكاءً في ذاته، هو مجرد حاملة للمعلومات؛ الذكاء في الوكيل يأتي من نمذجة علاقات تسلسل التوكن". الاعتماد على استهلاك التوكن كمؤشر للأداء، يشبه أن تقيم مصنعًا باستخدام استهلاك الكهرباء كمقياس للإنتاج — فكلما زاد استهلاك الكهرباء، لا يعني بالضرورة أن الإنتاج أعلى، بل قد يدل على كفاءة منخفضة أو إدارة غير فعالة.

ثانيًا، يفتقر التوكن إلى معيار قياس عبر نماذج ومهام مختلفة. تختلف طرق حساب التوكن بين النماذج، وقد تؤدي تعديلات في أدوات التجزئة في Anthropic إلى تغييرات كبيرة في عدد التوكنات المستهلكة لنفس النص. كما أن المهام المختلفة تتطلب كميات مختلفة من التوكنات لتحقيق نفس الهدف. والأهم، أن وجود تفاوت بمئات أو آلاف المرات في أسعار التوكن بين الشركات المصنعة، يجعل الاعتماد على استهلاك التوكن كمؤشر للأداء غير منطقي.

ثالثًا، يؤدي تقييم التوكن إلى تحفيزات خاطئة. عندما يُدمج استهلاك التوكن في تقييم الأداء، يصبح الهدف هو زيادة استهلاك التوكن، وليس تحسين الجودة أو الكفاءة. فالمهندسون قد يطيلون سلاسل المهام، أو يضيفون خطوات زائدة لزيادة استهلاك التوكن، وهو ما يُعرف بـ"تضخيم المؤشر"، وهو ما ظهر بوضوح في ممارسات Meta وأمازون.

رابعًا، يصعب على التوكن أن يعبر عن جودة الإنجاز. قد يستهلك وكيل ذكي قادر على حل مشكلة معقدة بشكل صحيح كمية توكن أقل بكثير من وكيل أقل كفاءة يتطلب تكرار التجارب والخطوات. فكلما زاد استهلاك التوكن، غالبًا ما يدل على ضعف الكفاءة، وهو عكس الهدف من التقييم.

3.2 إعادة تعريف الوكيل الذكي كأصل أساسي

التحليل السابق يقود إلى استنتاج جوهري: التوكن هو مورد يُستهلك، والوكيل الذكي هو الكيان الذي يخلق القيمة. العلاقة بينهما تشبه العلاقة بين استهلاك الكهرباء والمحرك الذي يدفعها — يمكن قياس إجمالي الاستهلاك، لكن القيمة الحقيقية تأتي من مدى العمل الذي أنجزه الوكيل أو المنتج الناتج.

دعمًا لهذا، استراتيجية Anthropic تظهر ذلك بوضوح. في مايو 2026، أطلقت نسخة جديدة من Claude تركز على "البرمجة الوكيلة، استخدام الحاسوب، العمل المعرفي، التحليل المالي" — أي أن الوكيل يمكنه التدخل في سيناريوهات عمل حقيقية. والأهم، أن Anthropic في استراتيجية "العملاء المدارة" تعرض الآن خدمات البنية التحتية لتشغيل الوكيل، بدلاً من بيع نماذج الاستخدام، مما يعكس انتقال القيمة من استهلاك القدرة الحاسوبية إلى تقديم قدرات الوكيل.

وفقًا لمسؤول Claude Code، فإن المنتج لا يحقق أرباحًا عند الاعتماد على التسعير القائم على الاشتراك فقط، مما يدل على أن الاعتماد على التوكن كمقياس لا يغطي التكاليف الحقيقية للوكيل، والتي تتعلق بمدى إتمام المهام، وعمق الأتمتة، ومدى تكامل سير العمل — وهي أمور لا يمكن قياسها بشكل فعال عبر التوكن.

3.3 ظهور معايير تقييم جديدة

عندما ثبت أن قياس التوكن غير كافٍ، بدأ القطاع في استكشاف بدائل. من معايير إتمام المهام، أصبح SWE-bench Verified معيارًا صارمًا لتقييم الوكلاء البرمجيين، حيث يتطلب من النموذج تحديد وإصلاح الأخطاء في قواعد بيانات GitHub الحقيقية. تظهر نتائج التصنيف أن Claude Sonnet 4 حصل على حوالي 80.20% في هذا المعيار، وClaude Opus 4.6 بين 78% و80%. والمهم أن هذه المعايير لا تعتمد على استهلاك التوكن، بل على مدى إتمام الوكيل لمهام محددة.

أما من ناحية تقييم القيمة التجارية، فاقترحت Baidu معيار DAA (عدد الوكلاء النشط يوميًا)، والذي يُعرف بأنه "عدد الوكلاء الذين يعملون بجد ويقدمون نتائج يوميًا". يركز هذا المعيار على قياس مدى إنجاز الوكيل لمهامه، وليس على كمية الموارد المستهلكة.

وفي داخل الشركات، تستكشف مؤشرات مثل "التوزيع الموحد" لقياس مدى قدرة المهندسين على توليد رموز ذات قيمة فعلية باستخدام الذكاء الاصطناعي. وفقًا لتقرير FinOps لعام 2026، فإن 98% من الشركات تتبع تكاليف الذكاء الاصطناعي، مقابل 31% قبل عامين، مما يعكس رغبة في تقييم دقيق للإنفاق. هذا الاتجاه يعزز الفكرة أن المقياس الحقيقي هو جودة وكمية المهام التي ينفذها الوكيل، وليس استهلاك الموارد.

الخلاصة، أن الأصل الحقيقي ليس التوكن، بل هو الوكيل الذكي نفسه. التوكن هو وقود تشغيل الوكيل، لكن القدرة التنافسية تعتمد على كفاءة المحرك، وليس على حجم الخزان. التحول من قياس التوكن إلى قياس الوكيل هو أحد الاتجاهات الرئيسية لإعادة بناء أنظمة تقييم صناعة الذكاء الاصطناعي خلال السنوات الثلاث إلى الخمس القادمة.

رابعًا، هل أن مقياس التوكن مناسب حقًا؟

4.1 العيوب الأربعة لمؤشر التوكن

أولاً، يخلط التوكن بين التكاليف والقيمة. قال يان هونغ في مؤتمر Create2026 لمطوري Baidu: "التوكن يمثل فقط التكاليف، وليس الأرباح؛ هو يقيس المدخلات، وليس المخرجات". وشرح البروفيسور Ma Shaoping أن "التوكن لا يحمل ذكاءً، هو مجرد حاملة للمعلومات؛ الذكاء يأتي من نمذجة علاقات تسلسل التوكن". الاعتماد على استهلاك التوكن كمؤشر للأداء يشبه أن تقيم مصنعًا باستخدام استهلاك الكهرباء كمقياس للإنتاج — فكلما زاد استهلاك الكهرباء، لا يعني بالضرورة أن الإنتاج أعلى، بل قد يدل على كفاءة منخفضة أو إدارة غير فعالة.

ثانيًا، يفتقر التوكن إلى معيار قياس عبر نماذج ومهام مختلفة. تختلف طرق حساب التوكن بين النماذج، وقد تؤدي تعديلات أدوات التجزئة في Anthropic إلى تغييرات كبيرة في عدد التوكنات المستهلكة لنفس النص. كما أن المهام المختلفة تتطلب كميات مختلفة من التوكنات لتحقيق نفس الهدف. والأهم، أن وجود تفاوت بمئات أو آلاف المرات في أسعار التوكن بين الشركات المصنعة، يجعل الاعتماد على استهلاك التوكن كمؤشر للأداء غير منطقي.

ثالثًا، يؤدي تقييم التوكن إلى تحفيزات خاطئة. عندما يُدمج استهلاك التوكن في تقييم الأداء، يصبح الهدف هو زيادة استهلاك التوكن، وليس تحسين الجودة أو الكفاءة. فالمهندسون قد يطيلون سلاسل المهام، أو يضيفون خطوات زائدة لزيادة استهلاك التوكن، وهو ما يُعرف بـ"تضخيم المؤشر"، وهو ما ظهر بوضوح في ممارسات Meta وأمازون.

رابعًا، يصعب على التوكن أن يعبر عن جودة الإنجاز. قد يستهلك وكيل ذكي قادر على حل مشكلة معقدة بشكل صحيح كمية توكن أقل بكثير من وكيل أقل كفاءة يتطلب تكرار التجارب والخطوات. فكلما زاد استهلاك التوكن، غالبًا ما يدل على ضعف الكفاءة، وهو عكس الهدف من التقييم.

4.2 إعادة تعريف الوكيل الذكي كأصل أساسي

التحليل السابق يقود إلى استنتاج جوهري: التوكن هو مورد يُستهلك، والوكيل الذكي هو الكيان الذي يخلق القيمة. العلاقة بينهما تشبه العلاقة بين استهلاك الكهرباء والمحرك الذي يدفعها — يمكن قياس إجمالي الاستهلاك، لكن القيمة الحقيقية تأتي من مدى العمل الذي أنجزه الوكيل أو المنتج الناتج.

دعمًا لهذا، استراتيجية Anthropic تظهر ذلك بوضوح. في مايو 2026، أطلقت نسخة جديدة من Claude تركز على "البرمجة الوكيلة، استخدام الحاسوب، العمل المعرفي، التحليل المالي" — أي أن الوكيل يمكنه التدخل في سيناريوهات عمل حقيقية. والأهم، أن Anthropic في استراتيجية "العملاء المدارة" تعرض الآن خدمات البنية التحتية لتشغيل الوكيل، بدلاً من بيع نماذج الاستخدام، مما يعكس انتقال القيمة من استهلاك القدرة الحاسوبية إلى تقديم قدرات الوكيل.

وفقًا لمسؤول Claude Code، فإن المنتج لا يحقق أرباحًا عند الاعتماد على التسعير القائم على الاشتراك فقط، مما يدل على أن الاعتماد على التوكن كمقياس لا يغطي التكاليف الحقيقية للوكيل، والتي تتعلق بمدى إتمام المهام، وعمق الأتمتة، ومدى تكامل سير العمل — وهي أمور لا يمكن قياسها بشكل فعال عبر التوكن.

4.3 ظهور معايير تقييم جديدة

عندما ثبت أن قياس التوكن غير كافٍ، بدأ القطاع في استكشاف بدائل. من معايير إتمام المهام، أصبح SWE-bench Verified معيارًا صارمًا لتقييم الوكلاء البرمجيين، حيث يتطلب من النموذج تحديد وإصلاح الأخطاء في قواعد بيانات GitHub الحقيقية. تظهر نتائج التصنيف أن Claude Sonnet 4 حصل على حوالي 80.20% في هذا المعيار، وClaude Opus 4.6 بين 78% و80%. والمهم أن هذه المعايير لا تعتمد على استهلاك التوكن، بل على مدى إتمام الوكيل لمهام محددة.

أما من ناحية تقييم القيمة التجارية، فاقترحت Baidu معيار DAA (عدد الوكلاء النشط يوميًا)، والذي يُعرف بأنه "عدد الوكلاء الذين يعملون بجد ويقدمون نتائج يوميًا". يركز هذا المعيار على قياس مدى إنجاز الوكيل لمهامه، وليس على كمية الموارد المستهلكة.

وفي داخل الشركات، تستكشف مؤشرات مثل "التوزيع الموحد" لقياس مدى قدرة المهندسين على توليد رموز ذات قيمة فعلية باستخدام الذكاء الاصطناعي. وفقًا لتقرير FinOps لعام 2026، فإن 98% من الشركات تتبع تكاليف الذكاء الاصطناعي، مقابل 31% قبل عامين، مما يعكس رغبة في تقييم دقيق للإنفاق. هذا الاتجاه يعزز الفكرة أن المقياس الحقيقي هو جودة وكمية المهام التي ينفذها الوكيل، وليس استهلاك الموارد.

الخلاصة، أن الأصل الحقيقي ليس التوكن، بل هو الوكيل الذكي نفسه. التوكن هو وقود تشغيل الوكيل، لكن القدرة التنافسية تعتمد على كفاءة المحرك، وليس على حجم الخزان. التحول من قياس التوكن إلى قياس الوكيل هو أحد الاتجاهات الرئيسية لإعادة بناء أنظمة تقييم صناعة الذكاء الاصطناعي خلال السنوات الثلاث إلى الخمس القادمة.

خامسًا، هل أن مقياس التوكن مناسب حقًا؟

4.1 العيوب الأربعة لمؤشر التوكن

أولاً، يخلط التوكن بين التكاليف والقيمة. قال يان هونغ في مؤتمر Create2026 لمطوري Baidu: "التوكن يمثل فقط التكاليف، وليس الأرباح؛ هو يقيس المدخلات، وليس المخرجات". وشرح البروفيسور Ma Shaoping أن "التوكن لا يحمل ذكاءً، هو مجرد حاملة للمعلومات؛ الذكاء يأتي من نمذجة علاقات تسلسل التوكن". الاعتماد على استهلاك التوكن كمؤشر للأداء يشبه أن تقيم مصنعًا باستخدام استهلاك الكهرباء كمقياس للإنتاج — فكلما زاد استهلاك الكهرباء، لا يعني بالضرورة أن الإنتاج أعلى، بل قد يدل على كفاءة منخفضة أو إدارة غير فعالة.

ثانيًا، يفتقر التوكن إلى معيار قياس عبر نماذج ومهام مختلفة. تختلف طرق حساب التوكن بين النماذج، وقد تؤدي تعديلات أدوات التجزئة في Anthropic إلى تغييرات كبيرة في عدد التوكنات المستهلكة لنفس النص. كما أن المهام المختلفة تتطلب كميات مختلفة من التوكنات لتحقيق نفس الهدف. والأهم، أن وجود تفاوت بمئات أو آلاف المرات في أسعار التوكن بين الشركات المصنعة، يجعل الاعتماد على استهلاك التوكن كمؤشر للأداء غير منطقي.

ثالثًا، يؤدي تقييم التوكن إلى تحفيزات خاطئة. عندما يُدمج استهلاك التوكن في تقييم الأداء، يصبح الهدف هو زيادة استهلاك التوكن، وليس تحسين الجودة أو الكفاءة. فالمهندسون قد يطيلون سلاسل المهام، أو يضيفون خطوات زائدة لزيادة استهلاك التوكن، وهو ما يُعرف بـ"تضخيم المؤشر"، وهو ما ظهر بوضوح في ممارسات Meta وأمازون.

رابعًا، يصعب على التوكن أن يعبر عن جودة الإنجاز. قد يستهلك وكيل ذكي قادر على حل مشكلة معقدة بشكل صحيح كمية توكن أقل بكثير من وكيل أقل كفاءة يتطلب تكرار التجارب والخطوات. فكلما زاد استهلاك التوكن، غالبًا ما يدل على ضعف الكفاءة، وهو عكس الهدف من التقييم.

4.2 إعادة تعريف الوكيل الذكي كأصل أساسي

التحليل السابق يقود إلى استنتاج جوهري: التوكن هو مورد يُستهلك، والوكيل الذكي هو الكيان الذي يخلق القيمة. العلاقة بينهما تشبه العلاقة بين استهلاك الكهرباء والمحرك الذي يدفعها — يمكن قياس إجمالي الاستهلاك، لكن القيمة الحقيقية تأتي من مدى العمل الذي أنجزه الوكيل أو المنتج الناتج.

دعمًا لهذا، استراتيجية Anthropic تظهر ذلك بوضوح. في مايو 2026، أطلقت نسخة جديدة من Claude تركز على "البرمجة الوكيلة، استخدام الحاسوب، العمل المعرفي، التحليل المالي" — أي أن الوكيل يمكنه التدخل في سيناريوهات عمل حقيقية. والأهم، أن Anthropic في استراتيجية "العملاء المدارة" تعرض الآن خدمات البنية التحتية لتشغيل الوكيل، بدلاً من بيع نماذج الاستخدام، مما يعكس انتقال القيمة من استهلاك القدرة الحاسوبية إلى تقديم قدرات الوكيل.

وفقًا لمسؤول Claude Code، فإن المنتج لا يحقق أرباحًا عند الاعتماد على التسعير القائم على الاشتراك فقط، مما يدل على أن الاعتماد على التوكن كمقياس لا يغطي التكاليف الحقيقية للوكيل، والتي تتعلق بمدى إتمام المهام، وعمق الأتمتة، ومدى تكامل سير العمل — وهي أمور لا يمكن قياسها بشكل فعال عبر التوكن.

4.3 ظهور معايير تقييم جديدة

عندما ثبت أن قياس التوكن غير كافٍ، بدأ القطاع في استكشاف بدائل. من معايير إتمام المهام، أصبح SWE-bench Verified معيارًا صارمًا لتقييم الوكلاء البرمجيين، حيث يتطلب من النموذج تحديد وإصلاح الأخطاء في قواعد بيانات GitHub الحقيقية. تظهر نتائج التصنيف أن Claude Sonnet 4 حصل على حوالي 80.20% في هذا المعيار، وClaude Opus 4.6 بين 78% و80%. والمهم أن هذه المعايير لا تعتمد على استهلاك التوكن، بل على مدى إتمام الوكيل لمهام محددة.

أما من ناحية تقييم القيمة التجارية، فاقترحت Baidu معيار DAA (عدد الوكلاء النشط يوميًا)، والذي يُعرف بأنه "عدد الوكلاء الذين يعملون بجد ويقدمون نتائج يوميًا". يركز هذا المعيار على قياس مدى إنجاز الوكيل لمهامه، وليس على كمية الموارد المستهلكة.

وفي داخل الشركات، تستكشف مؤشرات مثل "التوزيع الموحد" لقياس مدى قدرة المهندسين على توليد رموز ذات قيمة فعلية باستخدام الذكاء الاصطناعي. وفقًا لتقرير FinOps لعام 2026، فإن 98% من الشركات تتبع تكاليف الذكاء الاصطناعي، مقابل 31% قبل عامين، مما يعكس رغبة في تقييم دقيق للإنفاق. هذا الاتجاه يعزز الفكرة أن المقياس الحقيقي هو جودة وكمية المهام التي ينفذها الوكيل، وليس استهلاك الموارد.

الخلاصة، أن الأصل الحقيقي ليس التوكن، بل هو الوكيل الذكي نفسه. التوكن هو وقود تشغيل الوكيل، لكن القدرة التنافسية تعتمد على كفاءة المحرك، وليس على حجم الخزان. التحول من قياس التوكن إلى قياس الوكيل هو أحد الاتجاهات الرئيسية لإعادة بناء أنظمة تقييم صناعة الذكاء الاصطناعي خلال السنوات الثلاث إلى الخمس القادمة.

سادسًا، هل أن مقياس التوكن مناسب حقًا؟

4.1 العيوب الأربعة لمؤشر التوكن

أولاً، يخلط التوكن بين التكاليف والقيمة. قال يان هونغ في مؤتمر Create2026 لمطوري Baidu: "التوكن يمثل فقط التكاليف، وليس الأرباح؛ هو يقيس المدخلات، وليس المخرجات". وشرح البروفيسور Ma Shaoping أن "التوكن لا يحمل ذكاءً، هو مجرد حاملة للمعلومات؛ الذكاء يأتي من نمذجة علاقات تسلسل التوكن". الاعتماد على استهلاك التوكن كمؤشر للأداء يشبه أن تقيم مصنعًا باستخدام استهلاك الكهرباء كمقياس للإنتاج — فكلما زاد استهلاك الكهرباء، لا يعني بالضرورة أن الإنتاج أعلى، بل قد يدل على كفاءة منخفضة أو إدارة غير فعالة.

ثانيًا، يفتقر التوكن إلى معيار قياس عبر نماذج ومهام مختلفة. تختلف طرق حساب التوكن بين النماذج، وقد تؤدي تعديلات أدوات التجزئة في Anthropic إلى تغييرات كبيرة في عدد التوكنات المستهلكة لنفس النص. كما أن المهام المختلفة تتطلب كميات مختلفة من التوكنات لتحقيق نفس الهدف. والأهم، أن وجود تفاوت بمئات أو آلاف المرات في أسعار التوكن بين الشركات المصنعة، يجعل الاعتماد على استهلاك التوكن كمؤشر للأداء غير منطقي.

ثالثًا، يؤدي تقييم التوكن إلى تحفيزات خاطئة. عندما يُدمج استهلاك التوكن في تقييم الأداء، يصبح الهدف هو زيادة استهلاك التوكن، وليس تحسين الجودة أو الكفاءة. فالمهندسون قد يطيلون سلاسل المهام، أو يضيفون خطوات زائدة لزيادة استهلاك التوكن، وهو ما يُعرف بـ"تضخيم المؤشر"، وهو ما ظهر بوضوح في ممارسات Meta وأمازون.

رابعًا، يصعب على التوكن أن يعبر عن جودة الإنجاز. قد يستهلك وكيل ذكي قادر على حل مشكلة معقدة بشكل صحيح كمية توكن أقل بكثير من وكيل أقل كفاءة يتطلب تكرار التجارب والخطوات. فكلما زاد استهلاك التوكن، غالبًا ما يدل على ضعف الكفاءة، وهو عكس الهدف من التقييم.

4.2 إعادة تعريف الوكيل الذكي كأصل أساسي

التحليل السابق يقود إلى استنتاج جوهري: التوكن هو مورد يُستهلك، والوكيل الذكي هو الكيان الذي يخلق القيمة. العلاقة بينهما تشبه العلاقة بين استهلاك الكهرباء والمحرك الذي يدفعها — يمكن قياس إجمالي الاستهلاك، لكن القيمة الحقيقية تأتي من مدى العمل الذي أنجزه الوكيل أو المنتج الناتج.

دعمًا لهذا، استراتيجية Anthropic تظهر ذلك بوضوح. في مايو 2026، أطلقت نسخة جديدة من Claude تركز على "البرمجة الوكيلة، استخدام الحاسوب، العمل المعرفي، التحليل المالي" — أي أن الوكيل يمكنه التدخل في سيناريوهات عمل حقيقية. والأهم، أن Anthropic في استراتيجية "العملاء المدارة" تعرض الآن خدمات البنية التحتية لتشغيل الوكيل، بدلاً من بيع نماذج الاستخدام، مما يعكس انتقال القيمة من استهلاك القدرة الحاسوبية إلى تقديم قدرات الوكيل.

وفقًا لمسؤول Claude Code، فإن المنتج لا يحقق أرباحًا عند الاعتماد على التسعير القائم على الاشتراك فقط، مما يدل على أن الاعتماد على التوكن كمقياس لا يغطي التكاليف الحقيقية للوكيل، والتي تتعلق بمدى إتمام المهام، وعمق الأتمتة، ومدى تكامل سير العمل — وهي أمور لا يمكن قياسها بشكل فعال عبر التوكن.

4.4 الخلاصة: الانتقال من التوكن إلى الوكيل

بناءً على ما سبق، يتضح أن الاتجاهات السائدة تتجه نحو:

  • أن قياس استهلاك التوكن كمؤشر للأداء يعاني من عيوب هيكلية، لأنه يخلط بين المدخلات والمخرجات، ويقصي معايير قياس عبر سيناريوهات مختلفة، ويشجع على تحفيزات خاطئة، ويصعب ربطه بجودة الإنجاز.

  • أن الوكيل الذكي هو الأصل الحقيقي في اقتصاد الذكاء الاصطناعي، حيث يُقاس بمدى إتمام المهام، وليس باستهلاك القدرة الحاسوبية.

  • أن القطاع يتجه من نظام تقييم مركزي على التوكن إلى نظام يعتمد على قدرات الوكيل، عبر معايير مثل SWE-bench وDAA، ومبادرات داخلية لقياس جودة الإنجاز.

وفي النهاية، أن الأصل الحقيقي هو الوكيل الذكي، وليس التوكن. التوكن هو وقود التشغيل، لكنه لا يحدد مدى كفاءة أو قيمة الوكيل. التحول من قياس التوكن إلى قياس الوكيل هو أحد الاتجاهات الرئيسية لإعادة بناء أنظمة تقييم صناعة الذكاء الاصطناعي خلال السنوات الثلاث إلى الخمس القادمة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت