لقد كنت أفكر مؤخرًا في مشكلة مؤلمة بعض الشيء: تلك الخدمات الذكية التي كانت تدعي "تجربة مجانية" ذات يوم، لماذا بدأت الآن جميعها في فرض رسوم؟



في الواقع، المنطق وراء ذلك بسيط جدًا — سعر الحوسبة ارتفع. ليس زيادة صغيرة، بل ارتفاع شامل. معركة شرائح إنفيديا قد تصاعدت إلى مستوى الجغرافيا السياسية، واستهلاك الطاقة لمراكز البيانات يقترب من حدود الشبكة الكهربائية. انتهى عصر دعمنا من قبل المستثمرين بشكل رسمي.

لقد اطلعت سابقًا على فواتير بعض الشركات. يا إلهي، تلك الأرقام يمكن أن تجعل المدير المالي يستيقظ في منتصف الليل من الصدمة. شركة واحدة كانت تتجاوز استدعاءات API فيها عشرة ملايين مرة شهريًا، ووجدوا أنهم يفعلون أشياء غبية — يستخدمون GPT-4 لمساعدة المستخدمين على إعادة تعيين كلمات المرور، ويرسلون عشرات الصفحات من ملفات PDF ذات الآلاف من الكلمات مباشرة إلى النموذج ليبحث عن "الإجابات بنفسه"، وهناك وكلاء بدون آليات توقف جيدة يعيدون المحاولة بشكل جنوني عند تعطل API.

هذه تبدو كمشاكل هندسية، لكنها في جوهرها مشاكل في التفكير.

اكتشفت أن الفرق التي تعيش بشكل جيد الآن، كلها تقوم بثلاثة أشياء. أولًا هو التخزين المؤقت للمعنى — المستخدم يسأل "كيف أعيد تعيين كلمة المرور" مئات أو آلاف المرات يوميًا، فلماذا نستدعي النموذج الكبير في كل مرة؟ ببساطة، نطابق الأسئلة المشابهة ونرجع الإجابة المخزنة، دون استهلاك أي توكن. ثانيًا هو ضغط التعليمات — نستخدم خوارزمية لضغط التعليمات النظامية الطويلة من 1000 توكن بدون فقد إلى 300، وهكذا تتحدث الآلات بلغة الآلات. ثالثًا هو توجيه النموذج — نرسل المهام البسيطة إلى نماذج رخيصة، ونستخدم GPT-4 فقط للمسائل المعقدة.

الأكثر إثارة هو أساليب الأطر المتقدمة. OpenClaw، من أجل التكيف مع بيئة الأجهزة المحمولة ذات الموارد المحدودة، يفرض قيودًا صارمة على استخدام التوكن. يطلب من النموذج أن يخرج وفقًا لمخطط JSON، ولا يسمح للدردشة، فقط يطلب منه ملء نماذج. Hermes أدخل آلية ذاكرة ديناميكية — يحتفظ بأحدث عدة جولات من الحوار، وإذا تجاوز الحد، يلخصها بنموذج خفيف ويخزنها في قاعدة بيانات متجهة. هذا ليس مجرد التخلص من القمامة، بل هو إدارة ذاكرة جراحية دقيقة.

باختصار، تفكير الصناعة يتغير. من التفكير الاستهلاكي "نربط LLM لأنه يبدو رائعًا"، إلى التفكير الاستثماري. كل توكن يُستهلك يجب أن يُحسب عائده على الاستثمار. هل أنفقت هذا المال حقًا على ما يفيد الأعمال؟ إذا كانت الحلول التقليدية تكلف 0.1 يوان، بينما الوصول إلى النموذج الكبير يكلف 1 يوان ويزيد التحويل بنسبة 2% فقط، فسيتم الاستغناء عنه. بدون تردد.

مؤخرًا، قلت لقسم الأعمال "لا". عندما اقترحوا "هل يمكن أن يقرأ الذكاء الاصطناعي 100,000 تقرير بحثي ويعطينا ملخصًا؟"، سألتهم: "هل تغطي أرباح عملك من استهلاك API الذي يكلف ملايين التوكن هذا التكاليف؟"

صمت.

هذا لا يبدو رائعًا على الإطلاق، كأنه حسابات مخزن بقالة تقليدي، لكن هذا هو الطريق الذي لا بد أن يسلكه قطاع الذكاء الاصطناعي. عندما تتراجع المد والجزر، لن يكون من يبقى هو من يحمل أغلى نموذج، بل من ينظر إلى الأرقام المتحركة بسرعة على لوحة البيانات، ويظل واثقًا أن أرباحه أكثر من مصروفاته.

فريق يستطيع أن يصقل كل توكن كأنه ذهب، هو فقط من يلبس الدرع الحقيقي.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت