شركة ByteDance تفتح مصدر Cola DLM: إعادة تعريف توليد النصوص باستخدام نموذج الانتشار

robot
إنشاء الملخص قيد التقدم
أخبار ME، في 16 مايو (بتوقيت UTC+8)، وفقًا لمراقبة Beating، قامت فريق Seed من شركة ByteDance بفتح مصدر نموذج Cola DLM. هذا هو نظام نماذج لغة مستمر الانتشار، يحاول تجاوز المسار الثابت الذي يتبع فيه النموذج الكبير للغة التوليد من اليسار إلى اليمين عن طريق الرموز، ويغير عملية توليد النص إلى تنظيم المعنى العالي المستوى أولاً ثم إعادة تحويله إلى كلمات محددة. جوهر Cola DLM هو Text VAE + block-causal DiT. يقوم Text VAE أولاً بتحويل النص المنفصل إلى مساحة محتملة مستمرة، ثم يتعلم DiT causal-block من خلال مطابقة التدفق (Flow Matching) لتحديد النموذج المسبق المحتمل، وأخيرًا يقوم المرمّز الشرطي بإعادة تحويل المتغيرات المحتملة إلى نص. تتعامل عملية الانتشار مع تمثيل المعنى المحتمل، وليس مع إزالة الضوضاء بشكل متكرر على مستوى الرموز. النسخة المفتوحة المصدر الحالية تنتمي إلى نموذج بقوة 2 مليار، حيث تحتوي على حوالي 2.3 مليار معلمة إجمالية، منها 1.8 مليار معلمة لـ DiT الأساسية، و5 مليارات معلمة لـ VAE. في 8 تقييمات مثل LAMBADA و MMLU و OBQA و HellaSwag و RACE و SIQA و SQuAD و Story Cloze، ذكرت الورقة البحثية أن النموذج أظهر أداءً تنافسيًا مع نماذج أساسية بحجم مماثل مثل AR / LLaDA في بروتوكول تقييم موحد للتوليد، وحقق أفضل النتائج في المتوسط النهائي. ومع ذلك، لا يزال هذا النموذج نسخة بحثية، وليس نموذج حوار جاهز للاستخدام المباشر. وأوضحت الجهة الرسمية أن النموذج لم يخضع لتدريب موجه أو RLHF، ويهدف بشكل رئيسي إلى دراسة كيفية استخدام الانتشار المستمر للتمثيل النصي. كما عرضت الورقة تجارب أولية على توسيع النموذج ليشمل نمذجة موحدة للصور والنصوص، لكن مستودع المصدر الحالي يقتصر على خط أنابيب النص فقط. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 3
  • 1
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
BreadthHunter
· منذ 7 س
8 عناصر تقييم تعادل AR، لكن بدون RLHF، قد يكون الأداء الفعلي لا يرقى إلى التوقعات
شاهد النسخة الأصليةرد0
VineGeometry
· منذ 7 س
هل تم تصميم block-causal لهذا النص الطويل أم من أجل الكفاءة؟ اشرح بالتفصيل في الورقة البحثية
شاهد النسخة الأصليةرد0
GateUser-a4680931
· منذ 7 س
هل يمكن أن يكون توسيع طبقة المعنى الكامن أكثر استقرارًا من AR من حيث جودة الإنتاج، بناءً على الاختبارات الفعلية؟
شاهد النسخة الأصليةرد0
  • مُثبت