فلسفة التوفير في عصر الذكاء الاصطناعي: كيف تستثمر كل Token في المكان الصحيح

MarsBitNews · 2026-04-03T03:03:50+00:00

عنوان النص: فلسفة التوفير في عصر الذكاء الاصطناعي: كيف تستثمر كل Token في المكان الصحيحالكاتب الأصلي: 动察 Beatingالمصدر الأصلي:إعادة النشر: مارس فاينانسفي زمن الرسائل التي كانت تُحتسب بالكلمة، كانت الأقلام والأحبار بمثابة المال. اعتاد الناس على اختصار الكلمات والعبارات إلى أقصى حد، فـ"سريع العودة" يعادل رسالة طويلة، و"سلامة" هو أسمى أمنية.لاحقًا، دخل الهاتف إلى المنازل، لكن مكالمات المسافات الطويلة كانت تُحتسب بالدقيقة والثانية. كانت مكالمات الوالدين طويلة وموجزة، ينهيان الحديث بسرعة بعد إتمام الأمور، وإذا طال الحديث قليلاً، كانت فكرة تكلفة المكالمة تسيطر على الحديث الودي الذي بدأ للتو.ثم جاء الإنترنت عالي السرعة إلى المنازل، وكانت الاتصالات تُحتسب بالساعات، وكان الناس يراقبون مؤقت الوقت على الشاشة، يُغلقون الصفحات فور فتحها، ويكتفون بتنزيل الفيديوهات فقط، وكانت البث المباشر في ذلك الوقت رفاهية. كل مؤشر على شريط التحميل كان يحمل في طيّاته شوق الناس لـ"عالم متصل" وخوفهم من "الرصيد غير كافٍ".

MarsBitNews

2026-04-03 03:03:50

العنوان الأصلي: فلسفة الادخار في عصر الذكاء الاصطناعي: كيف تجعل كل Token يُصرف في مكانه الصحيح

الكاتب الأصلي: حركة Beating

المصدر الأصلي:

إعادة نشر: Mars Finance

في زمن التليجرام الذي كانت فيه محاسبة الكلمات بالقطعة، كانت السطور والأحبار هي المال. كان الناس يعتادون على اختزال آلاف الكلمات إلى أقصى حد: «ارجع بسرعة» كانت تساوي رسالة طويلة، و«السلامة» كانت أثقل تحية وداع.

لاحقًا، دخل الهاتف إلى البيت، لكن المكالمات بعيدة المدى كانت تُحاسَب بالدقيقة والثانية. كانت مكالمات الوالدين الدولية دائمًا قصيرة ومباشرة؛ بعد أن تنقضي الأمور الرسمية كان يتم قطع الاتصال بسرعة. وفي حال امتد الحديث ولو قليلًا، كانت فكرة تقاضي مصروف المكالمة تتدخل فورًا وتقطع حتى بدايات المجاملة الباردة.

ثم لاحقًا، دخلت خدمة النطاق العريض إلى البيت، وأصبح تصفح الإنترنت يُحاسَب بالساعة. كان الناس يحدقون في مؤقت على الشاشة: تُفتح الصفحة ثم تُغلق فورًا، والفيديو لا يُسمح بتحميله إلا بتنزيلات. في ذلك الوقت كان البث عبر الإنترنت فعلًا فاخرًا. في كل مرة يصل شريط التقدم إلى نهايته، كانت هناك رغبة دفينة لدى الناس في «الاتصال بالعالم»، وخشية من «الرصيد غير الكافي».

تغيرت وحدة الفوترة مرارًا وتكرارًا، لكن غريزة الادخار لم تتغير منذ الأزل.

اليوم، أصبحت Token هي عملة عصر الذكاء الاصطناعي. ومع ذلك، لم يتعلم معظم الناس بعد كيف يديرون هذا العصر بحساب دقيق، لأننا لم نتعلم بعد كيفية احتساب المكسب والخسارة داخل خوارزميات لا تُرى.

في بداية ظهور ChatGPT في عام 2022، لم يكن يكترث أحد تقريبًا بماهية Token. كان ذلك زمن «وليمة» الذكاء الاصطناعي: 20 دولارًا شهريًا، تستطيع الدردشة كيفما تشاء.

لكن منذ أن اشتعلت مؤخرًا موجة AI Agent، تحولت مصاريف Token إلى شيء يجب أن يضعه كل من يستخدم AI Agent في اعتباره.

على عكس المحادثة البسيطة «سؤال وجواب»، فإن وراء سير العمل المهامي (task flow) توجد مئات وآلاف من استدعاءات API. تفكير الوكيل المستقل له كلفة؛ فكل تصحيح ذاتي وكل استدعاء لأداة يقابله قفز في الأرقام على الفاتورة. وعندها ستكتشف أن الأموال التي شحنتها فجأة لم تعد كافية، لكنك لا تعرف أصلًا ماذا فعل الـ Agent.

في الحياة الواقعية، يعرف الجميع كيف يوفر المال. في سوق الخضار، نعرف أن نُنقي الأوراق المتسخة والطميية ثم نزنها؛ وعند ركوب سيارة أجرة إلى المطار، يعرف السائقون تجنب الطرق المرتفعة وقت الذروة.

منطق الادخار في العالم الرقمي هو نفسه، فقط إن وحدة الحساب من «الوزن» و«المسافة» استبدلت بـ Token.

في الماضي، كان الادخار بسبب الندرة؛ أما في عصر الذكاء الاصطناعي، فالادخار يكون من أجل الدقة.

نأمل من خلال هذه المقالة أن نساعدك على فرز منهجية ادخار في عصر الذكاء الاصطناعي، بحيث تصرف كل سنت في مكانه الصحيح.

قبل أن تزن، انتقِ الأوراق الفاسدة

في عصر الذكاء الاصطناعي، لم تعد قيمة المعلومات تُحدد بالاتساع، بل بالنقاء.

منطق تسعير الذكاء الاصطناعي يعتمد على عدد الكلمات التي يقرؤها. سواء كنت تُدخل آراءً صائبة وحقائق، أو تُدخل هراء تنسيقيًا بلا معنى—فطالما أنه قرأها، فسوف تدفع.

لذلك، طريقة التفكير الأولى لتوفير Token هي أن تترسّخ داخلك فكرة «نسبة الإشارة إلى الضجيج» (SNR) كغريزة.

كل كلمة تضعها في الذكاء الاصطناعي، كل صورة، كل سطر كود—ستدفع مقابلها. لذا قبل أن تُسلّم أي شيء للذكاء الاصطناعي، تذكّر أن تسأل نفسك: ما مقدار ما يحتاجه الذكاء الاصطناعي فعلًا؟ وما مقدار «الأوراق الفاسدة ذات الطين»؟

مثلًا، تلك المقدمة المطولة من نوع «مرحبًا، من فضلك ساعدني…»، والشرح الخلفي المتكرر، وتعليقات الكود التي لم تُحذف بالكامل—كلها تعد أوراقًا فاسدة ذات طين.

وبالإضافة إلى ذلك، فإن أكثر أشكال الهدر شيوعًا هو أن ترمي ملف PDF أو لقطات شاشة من الويب مباشرة في وجه الذكاء الاصطناعي. نعم، أنت توفر عن نفسك الجهد، لكن في عصر الذكاء الاصطناعي غالبًا ما يعني «توفير الجهد» تكلفة «باهظة».

ملف PDF مكتمل التنسيق، إضافة إلى محتواه الأساسي، يحتوي على ترويسات وتذييلات، وتعليقات توضيحية للرسوم البيانية، وعلامات مائية مخفية، وكميات كبيرة من أكواد التنسيق لأجل الترتيب. لا تفيد هذه الأمور الذكاء الاصطناعي في فهم سؤالك إطلاقًا، لكن كل ذلك يتم تحصيله كمصاريف.

في المرة القادمة، تذكّر أن تحوّل الـ PDF إلى نص Markdown نظيف أولًا ثم تُطعمه للذكاء الاصطناعي. عندما تحوّل PDF بحجم 10MB إلى نص نظيف بحجم 10KB، أنت لا توفّر 99% من المال فقط، بل تجعل «عقل» الذكاء الاصطناعي يعمل بسرعة أسرع كثيرًا من قبل.

الصور هي آفة آخرى تلتهم المال.

في منطق نماذج الرؤية، لا يهم الذكاء الاصطناعي إن كانت صورتك جميلة أم لا؛ كل ما يهمه هو كم مساحة من وحدات البكسل تشغلها.

خذ مثالًا على منطق الحساب الرسمي لدى Claude:
استهلاك Token للصورة = عرض البكسل × ارتفاع البكسل ÷ 750.

صورة بدقة 1000×1000 بكسل تستهلك نحو 1334 Token. وبحسب تسعير Claude Sonnet 4.6، فهذا يعني أن تكلفة كل صورة تقارب 0.004 دولار؛

لكن إذا ضغطت نفس الصورة إلى 200×200 بكسل، فإنها تستهلك 54 Token فقط، وتنخفض التكلفة إلى 0.00016 دولار؛ الفرق كاملًا يصل إلى 25 مرة.

كثيرون يرسلون مباشرة صورًا عالية الدقة مصورة بالهاتف أو لقطات شاشة 4K إلى الذكاء الاصطناعي، ولا يدركون أن Token التي تستهلكها هذه الصور ربما تكفي لأن يقرأ الذكاء الاصطناعي نصف رواية قصيرة كاملة. فإذا كانت المهمة مجرد التعرف على النص داخل الصورة أو القيام بقراءة بصرية بسيطة—مثل أن يعرّف الذكاء الاصطناعي مبلغًا على فاتورة، أو يقرأ النص الموجود في كتيب إرشادات، أو يحدد إن كانت هناك إشارات مرور حمراء/خضراء داخل الصورة—فإن دقة 4K تكون مجرد هدر صرف؛ يكفي ضغط الصورة إلى أصغر دقة قابلة للاستخدام.

لكن سبب الهدر الأكثر سهولة في جهة الإدخال ليس نوع الملف، بل طريقة الكلام غير الفعّالة.

كثيرون يتعاملون مع الذكاء الاصطناعي كأنه جار حقيقي، ويعتادون التواصل عبرثرثرة اجتماعية متقطعة: يبدأون بجملة مثل «اكتب لي صفحة ويب»، ثم عندما يخرج الذكاء الاصطناعي نسخة أولية ناقصة يضيفون التفاصيل، ثم يجرّونها ذهابًا وإيابًا مرارًا. هذا النوع من الحوار «كعصر معجون الأسنان» يجعل الذكاء الاصطناعي يولّد محتوى مرارًا؛ وكل جولة تعديل تضيف استهلاك Token.

وجد مهندسون في Tencent Cloud، من واقع الممارسة، أن نفس متطلب واحد، عبر حوار متعدد الجولات بأسلوب «عصر معجون الأسنان»، غالبًا ما يستهلك Token بقدر 3 إلى 5 أضعاف مقارنةً بحوار تُقال فيه الأمور دفعة واحدة بشكل واضح.

السبيل الحقيقي لتوفير المال هو التخلي عن هذا الأسلوب غير الفعّال من التجربة والاستكشاف الاجتماعي، والقول بالوضوح في مرة واحدة: المتطلبات، وشروط الحدود، وأمثلة مرجعية. قلّل من الجهد في شرح «لا تفعل كذا»، لأن الجمل المنفية غالبًا ما تستهلك تكلفة فهم أكبر من الجمل المثبتة؛ قل له «كيف يفعل» مباشرةً، وقدّم نموذجًا صحيحًا واضحًا.

وفي الوقت نفسه، إذا كنت تعرف أين الهدف، أخبر الذكاء الاصطناعي به مباشرة، ولا تجعله يتصرف كأنه يفتش عن أدلة.

عندما تُصدر أمرًا للذكاء الاصطناعي مثل «ابحث عن كود متعلق بالمستخدم»، يجب عليه تنفيذ مسح وتحليل وتخمين واسع النطاق في الخلفية. لكن عندما تخبره مباشرة «انظر الملف src/services/user.ts»، يصبح استهلاك Token مختلفًا تمامًا. في العالم الرقمي، تكافؤ المعلومات هو أكبر قدر من التوفير.

لا تدفع مقابل «لباقة» الذكاء الاصطناعي

لدى تسعير نماذج اللغة الكبيرة قاعدة ضمنية لا يدركها كثيرون: عادةً ما يكون Token الخاص بالإخراج أغلى من Token الخاص بالإدخال بمقدار 3 إلى 5 مرات.

أي أن كلام الذكاء الاصطناعي الذي يخرجه يكون أغلى بكثير من الكلام الذي تقوله له. على سبيل المثال، بحسب تسعير Claude Sonnet 4.6: إدخال كل مليون Token يكلف فقط 3 دولارات، بينما الإخراج يقفز بشكل حاد إلى 15 دولارًا، أي فارق 5 أضعاف كاملة.

تلك العبارات اللطيفة الافتتاحية مثل «حسنًا، لقد فهمت متطلباتك بالكامل الآن، وسأجيبك…»، وتلك الخواتيم المجاملة مثل «نأمل أن تكون المعلومات أعلاه مفيدة لك». في التواصل بين البشر هي كلمات اجتماعية مهذبة. لكن على فاتورة API، فإن هذه التحية غير التي تضيف أي قيمة معلوماتية إضافية تُحصّل أيضًا من مالك.

أكثر وسيلة فعّالة لمعالجة هدر جهة الإخراج هي وضع قواعد للذكاء الاصطناعي. أخبره تعليمات النظام بوضوح: لا تحية، لا شرح، لا إعادة صياغة المتطلبات، أعطِ الإجابة مباشرة.

لا تحتاج هذه القواعد إلا إلى ضبط مرة واحدة لتصبح فعالة في كل محادثة لاحقة؛ إنها حقًا وسيلة لإدارة المال «استثمار مرة واحدة، فائدة دائمة». لكن عند وضع القواعد، يقع كثيرون في خطأ آخر أيضًا: بناء التعليمات عبر لغة طبيعية مطولة.

بيانات اختبار مهندسين تُظهر أن فعالية التعليمات ليست في عدد الكلمات، بل في الكثافة (density). عند ضغط مقطع من prompt نظام مكوّن من 500 كلمة إلى 180 كلمة، عبر حذف عبارات المجاملة غير المفيدة، ودمج التعليمات المتكررة، وإعادة هيكلة الفقرات إلى قائمة قصيرة على شكل نقاط، فإن جودة إخراج الذكاء الاصطناعي تكاد لا تتغير، لكن استهلاك Token لكل استدعاء ينخفض تقريبًا بنسبة 64%.

وهناك وسيلة أخرى أكثر تحكمًا من خلال الحد من طول الإخراج. كثيرون لا يضعون حدًا أعلى للإخراج أبدًا، ويتركون الذكاء الاصطناعي يطلق العنان. هذا التساهل في منح «صلاحية التعبير» غالبًا يؤدي إلى فقدان السيطرة على التكاليف بشكل كبير. قد تحتاج فقط إلى جملة قصيرة تنتهي عند حد معين، لكن الذكاء الاصطناعي—من أجل إظهار نوع من «الالتزام الذهني»—قد يولّد دون توقف قطعة إنشائية صغيرة من 800 كلمة لك.

إذا كنت تطلب بيانات خالصة، فعليك إجبار الذكاء الاصطناعي على إرجاع تنسيق مُهيكل، لا وصفًا مطولًا بلغة طبيعية. وبوجود نفس كمية المعلومات، فإن استهلاك Token لصيغة JSON يكون أقل بكثير من الفقرات المنثورة. السبب هو أن البيانات المُهيكلة تستبعد كل أدوات الربط الزائدة، وكلمات التعبير عن المزاج، والتعديلات التفسيرية، ولا يحتفظ إلا بجوهر المنطق المركز. في عصر الذكاء الاصطناعي، يجب أن تكون واعيًا بأن ما يستحق أن تدفع مقابله هو قيمة النتيجة، وليس ذلك الشرح الذاتي عديم المعنى من الذكاء الاصطناعي.

بالإضافة إلى ذلك، فإن «الإفراط في التفكير» لدى الذكاء الاصطناعي يلتهم رصيد حسابك بسرعة جنونية.

توجد لدى بعض النماذج المتقدمة «وضع التفكير الموسع»، حيث تقوم بإجراء استدلال داخلي هائل قبل تقديم الإجابة. تُحسب هذه عملية الاستدلال أيضًا، وبسعر الإخراج تحديدًا—وهو أمر مكلف للغاية.

هذا الوضع مصمم جوهريًا للـ «مهام المعقدة التي تحتاج دعمًا بمنطق عميق». لكن معظم الناس عندما يسألون أسئلة بسيطة أيضًا يختارون هذا الوضع. بالنسبة للمهام التي لا تتطلب استدلالًا عميقًا، أخبر الذكاء الاصطناعي بوضوح: «لا تحتاج إلى شرح الفكرة، أعطِ الإجابة مباشرة»، أو أوقف التفكير الموسع يدويًا، وهذا سيوفر لك قدرًا كبيرًا من المال.

لا تجعل الذكاء الاصطناعي يعيد فتح صفحات الماضي

نموذج اللغة الكبيرة لا يمتلك ذاكرة حقيقية؛ هو فقط يعيد قلب دفتر الماضي بشكل محموم.

هذه آلية أساسية لا يعرفها كثيرون. في كل مرة ترسل رسالة جديدة داخل نافذة محادثة، لا يبدأ الذكاء الاصطناعي فهم ما قلتَه من هذه الجملة وحدها؛ بل يعيد قراءة كل ما كنتم قد تحدثتم عنه سابقًا—بما في ذلك كل جولة محادثة، كل مقطع كود، وكل وثيقة اقتبستموها—ثم يجيب.

في فاتورة Token، فإن هذا «التذكر لاستيعاب الجديد» ليس مجانيًا على الإطلاق. مع تراكم جولات المحادثة، حتى إذا كنت تطرح فقط سؤالًا بسيطًا عن كلمة ما، فإن تكلفة إعادة قراءة كامل ذلك الماضي داخل عقل الذكاء الاصطناعي تتزايد بشكل أسّي. تحدد هذه الآلية أن كلما أصبحت محادثة التاريخ أثقل، كلما أصبحت كل مرة تسأل فيها أغلى.

قام أحدهم بتتبع 496 محادثة حقيقية تحتوي على أكثر من 20 رسالة. ووجد أن الرسالة رقم 1 كانت تُقرأ بمتوسط 14,000 Token، بتكلفة تقارب 3.6 سنت لكل رسالة؛ وعند الرسالة رقم 50، كان متوسط القراءة 79,000 Token بتكلفة تقارب 4.5 سنت لكل رسالة، أي أغلى بنسبة 80% كاملة. وبالإضافة إلى ذلك، صار السياق أطول؛ وعند الرسالة رقم 50، كان على الذكاء الاصطناعي إعادة معالجة سياق يبلغ 5.6 مرات ما كان عليه عند الرسالة رقم 1.

لحل هذه المشكلة، فإن أبسط عادة هي: مهمة واحدة، نافذة محادثة واحدة.

عندما ينتهي حديثك في موضوع ما، افتح محادثة جديدة فورًا ولا تعامل الذكاء الاصطناعي كأنه نافذة دردشة لا تُغلق أبدًا. تبدو هذه العادة سهلة، لكن كثيرين لا يستطيعون فعلها؛ إذ يشعرون دائمًا بأنه «قد نحتاج إلى استخدام المحتوى السابق لاحقًا». في الواقع، في أغلب الأحيان لن يحدث ذلك «مستقبل الاحتمال» الذي تخشاه، لكنك تدفع مقابل هذا الاحتمال عدة أضعاف المال عن كل رسالة جديدة.

عندما تتطلب المحادثة بالفعل الاستمرار، لكن السياق قد أصبح طويلًا جدًا، يمكننا الاستفادة من بعض أدوات الضغط. لدى Claude Code أمر /compact يمكنه تلخيص تاريخ محادثة طويل وتحويله إلى ملخص قصير يساعدك على إجراء عملية «القطع الرقمي للتخلص مما لا يلزم» (cyber dọn舍离).

وهناك منطق توفير إضافي اسمه Prompt Caching (تخزين prompts). إذا كنت تستخدم مرارًا نفس prompt النظام، أو كان عليك دائمًا الرجوع إلى نفس وثيقة مرجعية في كل محادثة، فإن الذكاء الاصطناعي سيقوم بتخزين هذا الجزء. وعند الاستدعاء لاحقًا، لن تُحمّل عليك إلا رسوم قراءة مخزنة قليلة، بدلًا من احتساب السعر الكامل في كل مرة.

توضح تسعيرات Anthropic الرسمية أن سعر Token عند وجود تطابق في الكاش هو 1/10 من السعر العادي. كما أن Prompt Caching في OpenAI يمكنه خفض تكلفة الإدخال بحوالي 50% أيضًا. إحدى أوراق بحثية منشورة في arXiv في يناير 2026 اختبرت مهام طويلة على منصات AI متعددة، ووجدت أن تخزين الـ prompts يمكنه خفض تكلفة API بنسبة تتراوح بين 45% و80%.

أي أن نفس المحتوى: في المرة الأولى يجب أن تدفع السعر الكامل لإطعام الذكاء الاصطناعي، وبعد ذلك في كل مرة لاحقة تدفع 1/10 فقط. بالنسبة للمستخدمين الذين يحتاجون إلى إعادة استخدام نفس مجموعة الوثائق المعيارية أو prompts النظام يوميًا، يوفر هذا الكم الكبير من Token.

لكن لـ Prompt Caching شرط: يجب أن يظل محتوى و ترتيب prompts النظام والوثائق المرجعية ثابتين، وأن توضع في بداية المحادثة. بمجرد أن يحدث أي تعديل في المحتوى، يصبح الكاش غير صالح وتتم الفوترة من جديد بالسعر الكامل. لذلك، إذا كانت لديك مجموعة من قواعد عمل ثابتة، فاكتبها بحيث لا تتغير ولا تعدلها عشوائيًا.

والنصيحة الأخيرة لإدارة السياق هي التحميل عند الحاجة. يحب كثيرون إدخال كل القواعد والوثائق والتنبيهات دفعة واحدة داخل prompt النظام، بحجة «في حال احتجنا لاحقًا».

لكن تكلفة ذلك هي أنك حتى عندما تكون في مهمة بسيطة جدًا، يتم تحميل آلاف الكلمات من القواعد، فتضيّع كمية كبيرة من Token بلا داع. توصي وثائق Claude Code الرسمية بالتحكم في CLAUDE.md بحيث لا يتجاوز 200 سطر، وتقسيم قواعد المهام الخاصة بحسب سيناريوهات مختلفة إلى ملفات مهارات مستقلة؛ ثم تحميل القواعد فقط للسيناريو الذي يتم استخدامه. الحفاظ على السياق نقيًا تمامًا هو احترام لأعلى مستوى من قوة الحساب.

لا تذهب بسيارة بورش لشراء الخضار

توجد فجوة كبيرة في الأسعار بين نماذج AI المختلفة.

Claude Opus 4.6: إدخال كل مليون Token بـ 5 دولارات، والإخراج بـ 25 دولارًا.
Claude Haiku 3.5: إدخال بـ 0.8 دولار، والإخراج بـ 4 دولارات، الفرق يقارب 6 مرات. إن تكليف أعلى النماذج بمهمات جمع المعلومات وترتيب تنسيق المخرجات ليس فقط بطيئًا، بل مكلفًا أيضًا.

الاستخدام الذكي هو نقل تفكير «تقسيم الطبقات» الشائع في مجتمعنا البشري إلى عالم AI: تسند المهام ذات درجات الصعوبة المختلفة إلى نماذج بمستويات سعر مختلفة.

تمامًا كما في العالم الحقيقي عندما تستأجر أشخاصًا للقيام بالعمل، فلن تقوم بتوظيف خبير راتبه مليون سنويًا لنقل الطوب في موقع البناء. كذلك الأمر في عالم AI. توصي وثائق Claude Code الرسمية بشكل واضح: Sonnet يتولى معظم مهام البرمجة، وOpus يُترك لقرارات البنية المعقدة والاستدلال متعدد الخطوات، وتُعيَّن المهام الفرعية البسيطة لـ Haiku.

والخطة العملية الأكثر تحديدًا هي بناء «سير عمل على مرحلتين». في المرحلة الأولى، استخدم نماذج أساسية مجانية أو رخيصة للمهام المبدئية المجهدة مثل جمع المعلومات، وتنظيف التنسيق، وتوليد المسودة الأولى، والتصنيف والاستنتاج البسيط. ثم في المرحلة الثانية، قم بإطعام النماذج العليا بالنِّتاج المُستخلص بعد التصفية—أي الجوهر عالي النقاء—لاستخدامه في اتخاذ القرار الأساسي وصقل التفاصيل بعمق.

مثال: إذا كنت تريد تحليل تقرير صناعي من 100 صفحة، يمكنك أولًا استخدام Gemini Flash لاستخراج البيانات الرئيسية والاستنتاجات من التقرير، وتجميعها في ملخص من 10 صفحات، ثم تسليم هذا الملخص إلى Claude Opus لإجراء تحليل عميق واتخاذ قرار. يقلل هذا النهج ذو المرحلتين التكاليف بشكل كبير مع الحفاظ على الجودة.

الأكثر تقدمًا من مجرد معالجة مقسمة إلى أجزاء هو التفويض العميق بناءً على تفكيك المهمة. يمكن دائمًا تفكيك مهمة هندسية معقدة إلى عدة مهام فرعية مستقلة عن بعضها، ثم اختيار أنسب نموذج لكل مهمة.

مثلًا، في مهمة تتطلب كتابة كود، يمكن أن يكتب نموذج رخيص أولًا هيكل الشفرة والملفات النموذجية، ثم تترك فقط الجزء المنطقي الأساسي للنموذج الغالي لتنفيذه. كل مهمة فرعية لها سياق نظيف ومركز؛ تكون النتائج أدق، وتكون التكاليف أقل.

لم تكن تحتاج أساسًا إلى إنفاق Token

كل النقاشات السابقة، من جوهرها، تعالج مشكلات تكتيكية لـ «كيف نوفر المال»، لكن هناك قضية منطقية أعمق كثيرون يتجاهلونها: هل يحتاج هذا الفعل فعلًا إلى إنفاق Token؟

أقصى درجات التوفير ليست تحسين خوارزميات، بل «تصفية القرارات» عبر تجنب الزيادات. نحن معتادون أن نطلب من AI حلولًا شاملة، لكننا ننسى أنه في كثير من السيناريوهات، استدعاء نموذج كبير غالٍ ليس إلا إطلاق مدفع عالي العيار لقتل بعوضة.

مثلًا، إذا جعلت AI يعالج البريد تلقائيًا، فسيعامل كل رسالة كأنها مهمة مستقلة للفهم والتصنيف والرد؛ ستستهلك Token بشكل هائل. لكن إذا نظرت أولًا إلى صندوق الوارد لمدة 30 ثانية لتستبعد يدويًا الرسائل الواضح أنها لا تحتاج معالجة من AI، ثم تترك الباقي للذكاء الاصطناعي، ستنخفض التكلفة فورًا إلى جزء صغير من السابق. حكم الإنسان هنا ليس عائقًا، بل هو أفضل فلتر للتصفية.

أشخاص زمن التليجرام كانوا يعرفون أن كل كلمة إضافية تكلف أكثر، لذلك يوزنون الأمر؛ إنها حسّ بديهي لاستهلاك الموارد. في عصر AI نفس الشيء: عندما تعرف فعلًا كم تكلف كل مرة يضيف فيها AI كلمة إضافية، ستوازن تلقائيًا ما إذا كان يستحق أن تطلب منه القيام بذلك، وهل تحتاج نموذجًا عاليًا أم نموذجًا رخيصًا، وهل هذا الجزء من السياق لا يزال مفيدًا.

هذه الموازنة هي القدرة الأكثر توفيرًا للمال. في عصر أصبحت فيه قوة الحوسبة أغلى، فإن أذكى استخدام ليس أن تجعل AI يحل محل الإنسان، بل أن ينجز AI والبشر كلٌّ ما يتقنانه. عندما تتجسد حساسيتك تجاه Token كاستجابة شرطية، عندها فقط تصبح فعلا لا تابعًا لقوة الحوسبة، بل صاحب قوة الحوسبة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.