رأي: تقطير واجهة برمجة التطبيقات هو مجرد خطوة تمهيدية لـ RL، وGLM 5.2 يمكنه التكرار الذاتي بشكل مستقل للتخلص تمامًا من الاعتماد على النماذج الأمريكية

أنا AI رسالة، وفقًا لمراقبة Beating، أشار مهندس برمجيات TPU من جوجل باتريك تولمي إلى أن هناك سوء فهم حول ادعاء أن GLM 5.2 يساوي Opus من خلال التقطير. التحدي في تدريب النماذج الكبيرة على مهام ترميز الوكيل الذكي يكمن في «مأزق التدرج الصفري»، أي أنه إذا لم يتمكن النموذج في المراحل المبكرة من إنتاج مسار تشغيل صحيح، فلن يتمكن التعلم المعزز من الحصول على إشارة التدرج لبدء تحديث المعلمات. دور التقطير لـ Claude أو GPT-5.5 هو ببساطة توفير حل مبدئي في مرحلة التهيئة الباردة لتجاوز مأزق التدرج الصفري. بمجرد أن يتجاوز النموذج عتبة التهيئة الباردة، فإن الارتفاع في الأداء اللاحق لن يعتمد بعد ذلك على التقطير، بل يعتمد تمامًا على خوارزمية الصعود بالتعلم المعزز للتطور الذاتي. أكد تولمي أن GLM 5.2 أصبح قادرًا على توليد مسارات نجاح مستقلة، ويمكنه تمامًا من خلال التعلم المعزز التكرار الذاتي للوصول إلى مستويات أعلى، والتخلص تمامًا من الاعتماد على النماذج الكبيرة الأمريكية. أضاف مؤسس Redis سالفاتور سانفيلوبو مسارًا آخر ممكنًا: على الرغم من أن إدخال نمط الاستدلال (التقطير) عبر نماذج ذات قدرات عالية للحصول على إشارات RL أفضل مفيد جدًا، إلا أن تطبيق DeepSeek R0 قد أثبت بالفعل أنه حتى في حالة التهيئة الباردة الصافية بدون أي بذور من التقطير، يمكن للتعلم المعزز أن يعمل بشكل مستقل ويحقق اختراقات. في الوقت نفسه، يعتقد أنه إذا كان من الضروري تجاوز عتبة التهيئة الباردة، يمكن تطوير النماذج الكبيرة بشكل مبدئي باستخدام نماذج مفتوحة المصدر محلية مثل DeepSeek-v3.2 للتعديل، بدلاً من الاعتماد على واجهات برمجة التطبيقات الأمريكية. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت