أطلقت Fireworks AI نسخة معاينة لمنصة التدريب، وتدعم التدريب الكامل على جميع المعلمات ببيانات تريليونية.

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة 1M AI News، أطلقت شركة البنية التحتية لاستدلال الذكاء الاصطناعي Fireworks AI إصدارًا تجريبيًا لبرنامج Fireworks Training، لتوسيع نطاقها من منصة استدلال خالصة إلى منصة تكامل التدريب والنشر. أسست Fireworks AI المهندسة جولين (Lin Qiao)، التي شاركت سابقًا في بناء PyTorch لدى Meta، وتبلغ تقييمتها 4 مليارات دولار، ووصل عدد رموز المعالجة يوميًا إلى 15 تريليونًا.

تقدّم المنصة ثلاثة مستويات:

  1. Training Agent: مخصص لفرق المنتجات التي لا تمتلك بنية تحتية لتعلم الآلة، يتيح وصف المهمة ورفع البيانات لإتمام سير العمل بالكامل من التدريب إلى النشر، ولا يدعم حاليًا سوى LoRA
  2. Managed Training: مخصص لمهندسي تعلم الآلة، ويدعم SFT وDPO وضبطًا دقيقًا بالتعلم المعزز، ويتضمن تدريبًا بكامل المعلمات
  3. Training API: مخصص لفرق البحث، ويمكن تخصيص دوال الخسارة ودورات التدريب، ويدعم خوارزميات مثل GRPO وDAPO

يتراوح حجم التدريب بكامل المعلمات من Qwen3 8B على عقدة واحدة إلى Kimi K2.5 (عشرات المليارات من المعلمات) على 64 شريحة من إنفيديا B200.

وقد أنهت عملاء الاستدلال في الإنتاج لدى Fireworks AI، وهم أدوات برمجة الذكاء الاصطناعي Cursor وVercel وGenspark، تدريبات التعلم المعزز المتقدمة على هذه المنصة. قامت Vercel بتدريب نموذج تصحيح تلقائي لمنتج توليد الكود الخاص بها v0، فبلغ معدل توليد الأكواد الخالية من الأخطاء 93%. وتذكر مسؤولة التقنية (CTO) Malte Ubl أن المقارنة مع Sonnet 3.5 لا تتجاوز 62%، وأن زمن الاستجابة من النهاية إلى النهاية قد تحسّن بمقدار 40 مرة مقارنةً بالنماذج المغلقة المصدر التي كانت تُستخدم سابقًا. قامت Genspark بضبط نموذج Kimi K2 مفتوح المصدر بحجم تريليون معلمات عبر التعلم المعزز لبناء وكيل أبحاث عميقة، فارتفع عدد مرات استدعاء الأداة بنسبة 33% وانخفضت التكاليف بنسبة 50%. وقد نفذت Cursor تدريب التعلم المعزز لـ Composer 2 بشكل موزع عبر 3 إلى 4 مجموعات عنقودية حول العالم (ويتصدر حاليًا الترتيب الأول في CursorBench)، ويشارك التدريب مع الاستدلال في الإنتاج نفس تجمع وحدات GPU.

تؤكد Fireworks AI أن فارقها التقني الأساسي يتمثل في التناسق العددي بين التدريب والاستدلال. تعتبر نماذج MoE (النماذج متعددة الخبراء) أكثر هشاشة عدديًا من النماذج الكثيفة (Dense). قد تؤدي التغيرات الصغيرة في الحالات المخفية إلى قلب توجيه الخبراء وتسبب في تضخيم متسلسل. وقد قامت Fireworks بنشر قيمة تباعد KL بين التدريب والاستدلال لجميع النماذج المدعومة، وجميعها أقل من 0.01.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت