تقرير تقنية 智谱GLM-5V-Turbo: Design2Code يتجاوز Claude Opus4.6، اكتب الكود مباشرة من الصورة الملتقطة

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدرت شركة Zhipu AI تقريرًا تقنيًا عن GLM-5V-Turbo. النموذج تم إطلاقه بالفعل في أوائل أبريل عبر واجهة برمجة التطبيقات Z.ai و OpenRouter، وهذه المرة هو نشر منهجية الكشف، ولم يتم إصدار النموذج كمصدر مفتوح. يعتبر GLM-5V-Turbo أول نموذج برمجة متعدد الوسائط من Zhipu، يدعم سياقًا يصل إلى 200 ألف، ويمكن دمجه مع أطر عمل الوكيل مثل Claude Code و OpenClaw. بخلاف العديد من الطرق التي تعتبر الرؤية ملحقًا لنموذج اللغة، يدمج هذا النموذج الإدراك البصري في جميع مراحل الاستدلال والتخطيط واستدعاء الأدوات وتنفيذها منذ مرحلة التدريب المسبق.

يتكون هيكل النموذج من ثلاثة تصاميم رئيسية. الأولى هي المشفر البصري الجديد CogViT، الذي يتم تدريبه مسبقًا بواسطة تقنيتي SigLIP2 و DINOv3 كمدرسين مزدوجين، ثم يتم محاذاته باستخدام تعلم المقارنة مع 8 مليارات من البيانات النصية والصور ثنائية اللغة الصينية والإنجليزية. الثانية هي التنبؤ متعدد الوسائط والمتعدد الرموز (MMTP)، حيث يتم استبدال الإدخال المباشر للصور بواسطة رمز خاص قابل للتعلم <|image|>، مما يقلل من تعقيد التواصل بين مراحل خط الأنابيب ويجعل التدريب أكثر استقرارًا. الثالثة هي التعلم المعزز المشترك لأكثر من 30 مهمة، والتي تغطي مستويات الإدراك والاستدلال وتنفيذ الوكيل.

التحسينات خلال مرحلة التعلم المعزز تتوزع على نطاق واسع: تحديد المواقع في الصور ثنائية الأبعاد +4.8%، فهم الفيديو +5.6%، تحديد المواقع ثلاثية الأبعاد +7.7%، التعرف على النصوص البصرية +4.2%، فهم الرسوم البيانية +7.7%، وكيل واجهة المستخدم الرسومية (OSWorld) +4.9%، استدعاء أدوات البحث متعددة الوسائط +3.5%. وأشار الفريق في الورقة البحثية إلى أن التعلم المعزز متعدد المهام يختلف عن التدخل عبر المجالات الشائع في Fine-Tuning، حيث يمكن لكل قدرة أن تتطور بشكل مستقر معًا، وحتى أن أنماط الاستدلال التي تم تعلمها في مجال معين يمكن أن تنتقل إلى مجالات أخرى.

أما عن نتائج الأداء المحددة: تصميم2كود 94.8، متفوقًا على Claude Opus بمقدار 4.6؛ OSWorld 62.3، AndroidWorld 75.7؛ البحث متعدد الوسائط MMSearch 72.9، BrowseComp-VL 51.9؛ البرمجة النصية البحتة على خلفية CC-Bench-V2 (22.8)، الواجهة الأمامية (68.4)، واستكشاف مستودعات الكود (72.2) تفوقت على قاعدة GLM-5-Turbo النصية البحتة. حصل MMSearch-Plus على 30.0، بزيادة تقارب 8 أضعاف عن الجيل السابق GLM-4.6V؛ كما حقق معيار البحث العميق البصري الذي تم تطويره داخليًا ImageMining نتيجة 30.7.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت