المهندس الأول لبرنامج Seed في ByteDance: دورة التكرار في ByteDance تستغرق نصف سنة، بينما الشائعات عن جوجل تقول إنها تستغرق ثلاثة أشهر فقط

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، كشف مهندس فريق Seed السابق في ByteDance، والأستاذ المساعد في جامعة بكين حاليًا، Zhang Chi، في بودكاست “Into Asia”، أن شركة ByteDance تحتاج حوالي نصف سنة لتدريب نموذج كبير واحد (التدريب المسبق والتدريب اللاحق)، بينما يُقال إن جوجل يحتاج فقط ثلاثة أشهر. يرى أن سرعة التكرار هي أحد الأسباب الرئيسية لصعوبة اللحاق بالشركات الصينية. خلال حوالي سنة في ByteDance، قال إن فريق الرياضيات الذي ينتمي إليه يركز بشكل أكبر على البحث، وذكر أن هدف هذا الفريق هو “للترويج أكثر”، وهو مختلف عن فريق التدريب المسبق والتدريب اللاحق المسؤول عن تسليم النماذج.

وصف Zhang Chi ثقافة “benchmaxxing” (تحقيق أعلى النقاط) داخل Seed: حيث يقيم قادة الفريق الأداء بناءً على معايير الأداء (benchmark)، والجميع يسعى لرفع النقاط، “لكن هذا لا يترجم إلى تجربة جيدة في الاستخدام الفعلي”. قال إن النماذج التي لدى الشركات الصينية الكبرى على الورق يمكن أن تصل إلى مستوى النماذج الرائدة في أمريكا، لكن عند الاستخدام الفعلي “ليست جيدة بما يكفي”. هدف Seed هو أن يكون من الطراز العالمي، “لكن للأسف، لا أعتقد أننا وصلنا إليه”، حتى أن الهدف أن نكون الأول في البلاد “لم يتحقق”. بحلول نهاية عام 2024، يعتقد أن Seed قد وصل إلى مستوى GPT-4o، ثم أطلقت DeepSeek، وأدرك الفريق أن الفجوة لا تزال قائمة، وعندما انضم إليهم، كانوا يركزون بشكل عاجل على التعلم المعزز.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت