علامات واضحة أن عصر المجانية قد انتهى. قبل عامين كنا نعيش في وهم جميل، حيث كانت قدرة الحوسبة تبدو كأنها ماء الصنبور الذي يمكن أن يتدفق بلا توقف. الآن؟ كل رمز له سعر، وسعره يرتفع بشكل حاد.



ما يثير الاهتمام هو كيف بدأ كل هذا. عندما كانت تكلفة واجهة برمجة التطبيقات لا تزال رخيصة جدًا، كان بإمكان الجميع استخدامها بشكل عشوائي. كنا نرمي مستندات من آلاف الكلمات إلى الموجه دون تفكير. نطلب من النموذج الأذكى أداء مهام سخيفة مثل تكبير الحرف الأول من الجملة. لماذا؟ لأنه رخيص جدًا، مدعوم من قبل المستثمرين الكبار. لكن هذا الدعم انتهى الآن.

هذا التغيير ليس مجرد ارتفاع في السعر على لوحة التحكم. إنه تحول جذري في كيفية تفكيرنا حول بنية الذكاء الاصطناعي. استهلاك الرموز الذي كان يُتجاهل سابقًا أصبح الآن عنصرًا حاسمًا في مركز التكلفة في أي مكان. مكالمة واحدة لواجهة برمجة التطبيقات يمكن أن تساوي آلاف الروبيات إذا كانت الحجم كبيرًا. تخيل شركة ناشئة تتعامل مع ملايين الطلبات يوميًا—لم يعد الأمر اختيارياً، بل مسألة بقاء.

هناك ثلاثة أماكن حيث تختفي رموزنا دون أن نشعر. أولاً، الموجه النظامي الذي يكون طويلًا جدًا. نحن نحب كتابة تعليمات مفصلة جدًا لضمان استقرار المخرجات، لكن كل تعليم هو رمز يُدفع مقابله. كل محادثة يجب أن تعيد حساب آلاف الرموز هذه. ثانيًا، نظام استرجاع المعرفة (RAG) خارج السيطرة. الصورة المثالية لنظام RAG هو أن يأخذ ثلاثة جمل الأكثر صلة ويسأل النموذج. الواقع؟ قاعدة البيانات تأخذ عشر ملفات PDF طويلة من آلاف الكلمات ثم تفرغها في النموذج. كنا نظن أن الأمر مجرد سؤال بسيط، لكن النموذج يُطلب منه قراءة نصف مكتبة. ثالثًا، الوكيل الذي يتوقف في حلقة لا نهائية. إذا كانت المنطق سيئًا وواجهات برمجة التطبيقات معطلة، يمكن للوكيل أن يستمر في الدوران، وكل تكرار ينفد من الرموز المكلفة جدًا.

الآن نصل إلى الجزء المثير—كيف نخرج من هذا المأزق؟ هناك ثلاثة أسلحة أصبحت الآن ضرورية، وليست اختيارية بعد الآن. ذاكرة التخزين المؤقت الدلالية يمكن أن تكون مغير اللعبة لأنها تتكرر أسئلة المستخدم. إذا سأل المستخدم "كيف أعيد تعيين كلمة المرور" مرارًا وتكرارًا، يمكننا تخزين الإجابة والرد مباشرة بدون استدعاء النموذج الكبير. من ثوانٍ إلى ميلي ثانية، وبدون تكلفة رمزية. ضغط الموجه باستخدام خوارزمية تعتمد على الإنتروبيا يمكن أن يضغط النص من 1000 رمز إلى 300 بدون فقدان المعنى. دع الآلة تتواصل مع الآلة بلغة غريبة لا يفهمها البشر. آلية انتباه النموذج قوية بما يكفي للفهم. نحن نوفر 70% من التكاليف.

لكن الأكثر تطورًا هو توجيه النموذج (model routing). لا ترسل كل مهمة إلى أغلى نموذج. استخراج الكيانات البسيطة؟ وجهها إلى لاما 3 8B أو كلود هايكو الرخيص جدًا. التفكير المعقد والبرمجة؟ استخدم GPT-4o أو كلود سونيت. هذا يشبه شركة فعالة—السكرتير لا يحتاج لإزعاج المدير التنفيذي للأمور البسيطة. من يستطيع تنفيذ آلية التوجيه بسلاسة، يمكنه تقليل تكلفة الرموز إلى ثلثي المنافسين.

إذا نظرنا إلى أطر عمل الوكيل الرائدة مثل OpenClaw و Hermes، فهم متقدمون على المنحنى. OpenClaw مهووس بالتحكم في الرموز. بدلاً من تراكم السياق الكامل، يجبر النموذج على إخراج مخطط JSON صارم أو تنسيق أكثر ضغطًا. ليس "التحدث بحرية"، بل "تقديم نموذج". عملية توفير البيانات الأنيقة هذه تأتي في ظل ندرة الحوسبة. نهج هيرميس مختلف—آلية ذاكرة ديناميكية. الذاكرة العاملة تحفظ فقط آخر 3-5 محادثات. إذا تجاوزت، يقوم النموذج الخفيف بتلخيص المحادثة القديمة إلى نقاط أساسية ثم يخزنها في قاعدة بيانات متجهية. ليست عملية التخلص من القمامة، بل عملية ذاكرة جراحية. إدارة السياق الدقيقة هذه تقلل بشكل كبير من تكلفة الحوسبة على المستوى الكلي.

لكن هناك تحول في العقلية أكثر جوهرية من كل الحلول التقنية هذه. في عصر الرخص، نتعامل مع الرموز بعقلية المستهلك—نظرة مباشرة على الخصم يدخل إلى السلة. العديد من الشركات تدمج LLM بشكل عشوائي في أنظمتها الداخلية، وتوفر الوصول لكل الموظفين، وحتى قائمة الكانتين تطلب من الذكاء الاصطناعي توليدها. النتيجة؟ صدمة فاتورة نهاية الشهر.

الآن يجب أن نتحول إلى عقلية استثمارية. كل رمز يُنفق هو استثمار يجب حساب عائده على الاستثمار. هل يُنفق هذا الرمز، وما هو العائد؟ معدل إغلاق التذاكر يرتفع؟ وقت إصلاح الأخطاء ينخفض؟ أم فقط رد "هاها، الذكاء الاصطناعي مضحك". إذا كانت الميزة تستخدم قاعدة قواعد وتكلف 0.1 يوان، لكن تكامل LLM يكلف 1 يوان مع تحسين معدل التحويل بنسبة 2% فقط، فقم فقط بإلغاءها. لا حاجة لمطاردة خيال الذكاء الاصطناعي الكبير، انتقل إلى نهج دقة مستهدف. يجب أن يُعامل كل رمز كأنه ذهب يُصاغ.

أخيرًا، فإن ارتفاع التكاليف هذا ليس أزمة بل تنقية. إنه كسر للفقاعة التي أنشأها الدعم غير المحدود، ويجبر الجميع على العودة إلى الواقع. هذا يقضي على اللاعبين السطحيين الذين يكتبون فقط الموجه ويتنقلون، ثم يمررون الشعلة للفريق الأساسي الذي يفهم حقًا الهندسة المعمارية، وتوجيه النموذج، وكيفية تعظيم الحوسبة على الأجهزة الطرفية. عندما تتراجع المياه، نرى من يسبح عريانًا. هذه المرة، من ينجو ويزدهر هم من يعاملون كل رمز كمورد ثمين، واثقين أنهم يمكن أن يحصلوا على أكثر مما ينفقون. هؤلاء هم من سيسيطرون على مستقبل بنية الذكاء الاصطناعي.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت