【AI+2513】إصدار الذكاء الاصطناعي يطلق نموذج الأساس متعدد الوسائط للبرمجة البصرية والتشفير GLM-5V-Turbo

robot
إنشاء الملخص قيد التقدم

واحدة من أبرز شركات/قادة الذكاء الاصطناعي (AI) في البرّ الرئيسي (02513) أعلنت يوم الخميس (2) عن نموذج أساسي متعدد الوسائط للتعليم البرمجي (Coding) لبناء برمجة متعددة الوسائط موجهة للبرمجة المرئية.

يقول «Zhipu» إن GLM-5V-Turbo يدمج على نحو عميق قدرات الرؤية والنص منذ مرحلة ما قبل التدريب، ولم يعد البرمجة مقتصرة على إدخال نصي فقط؛ إذ يفهم التصميمات والمقاطع المصوّرة (Screenshots) وواجهات الويب، ثم يولّد بناءً على ذلك كودًا كاملًا قابلًا للتشغيل، محققًا فعليًا «فهم ما هو ظاهر» و«كتابة الكود».

ثلاث ميزات رئيسية لـ GLM-5V-Turbo

  • أساس برمجة متعدد الوسائط أصلي: فهم أصلي للصور ومقاطع الفيديو والتصميمات والصفحات/التخطيطات الخاصة بالوثائق وغيرها من المدخلات متعددة الوسائط، مع دعم استدعاء أدوات متعددة الوسائط مثل الإطار/الترميز داخل الصورة وتلقط لقطات الشاشة وقراءة الويب، وتمدد نافذة السياق إلى 200k
  • يجمع بين قدرات الرؤية والبرمجة: يحقق أداءً متقدمًا على المعايير الأساسية مثل Multi-modal Coding وTool Use وGUI Agent وغيرها. ومن خلال تقنيات مثل RL للتعاون متعدد المهام يضمن عدم تراجع قدرات البرمجة والاستدلال واستدعاء الأدوات في سيناريوهات النص الخالص.
  • تكيف عميق مع Claude Code وسيناريو «龙蝦»: تعاون عميق مع Agent مثل Claude Code وOpenClaw/AutoClaw، ويدعم حلقة إغلاق كاملة لـ «فهم البيئة → التخطيط للحركات → تنفيذ المهمة»، كما يوفر حزمة كاملة من Skills الرسمية للاستخدام الفوري.

يشير «Zhipu» إلى أنه في معايير التقييم الخاصة بـ Multi-modal Coding والمهام القائمة على Agent وكذلك بُعد Coding النصي الخالص، حققت GLM-5V-Turbo أداءً متقدمًا بحجم أصغر.

	![](https://img-cdn.gateio.im/social/moments-d1c5841902-024843c1ac-8b7abd-badf29)

حققت GLM-5V-Turbo أيضًا أداءً متقدمًا في معايير مثل استعادة التصميمات (Designs) وتوليد كود الرؤية والبحث متعدد الوسائط والأسئلة والأجوبة واستكشاف/تفقد الرؤية. كما حققت أداءً بارزًا في معايير مثل AndroidWorld وWebVoyager التي تقيس قدرة التحكم في بيئات GUI الواقعية.

في جانب قدرات Coding النصي الخالص، حافظت GLM-5V-Turbo على أداء ثابت في اختبارات المعايير الأساسية الثلاثة في CC-Bench-V2: Backend وFrontend وRepo Exploration، ما يشير إلى أنه بعد إدخال قدرات الرؤية، ظلت قدرات البرمجة والاستدلال النصية عند المستوى نفسه.

	![](https://img-cdn.gateio.im/social/moments-ad1d8e7241-eb753f4f45-8b7abd-badf29)

وفقًا للمقدمة، يعود تحقيق أداء متقدم في GLM-5V-Turbo إلى ترقيات منهجية على أربعة مستويات في بنية النموذج وطرق التدريب وبناء البيانات وسلسلة الأدوات (Tool Chain):

وبالنسبة للتحديات الصناعية المتمثلة في ندرة بيانات Agent وصعوبة التحقق، أنشأت «Zhipu» نظامًا متعدد المستويات يمتد من إدراك العناصر إلى التنبؤ بالحركات على مستوى التسلسل. كما بنت على أساس بيئات اصطناعية توليدًا واسع النطاق لبيانات تدريب يمكن التحكم فيها ويمكن التحقق منها. وفي الوقت نفسه، منذ مرحلة ما قبل التدريب، تم حقن قدرات Agentic على مستوى الميتا (مثل إضافة بيانات GUI Agent PRM إلى ما قبل التدريب لتقليل الهلاوس)، كما استُكشف التحسين غير المتماثل، وذلك باستخدام مهام تقييم متعددة الوسائط لفتح قدرات أقوى لـ Agent.

برمجة مباشرة لـ Cap 图

في جانب التطبيقات، ضرب «Zhipu» الأمثلة التالية:

  1. الصورة هي الكود

تتميز GLM-5V-Turbo بشكل خاص في سيناريوهات برمجة الرؤية الأساسية.

استنساخ الواجهة الأمامية: إرسال رسومات أولية (草图) وتصميمات ولقطات شاشة أو تسجيلات فيديو لمواقع مرجعية؛ يمكن للنموذج أن يفهم مباشرة التخطيط وتناسق الألوان ومستوى المكونات ومنطق التفاعل، ثم يولّد مشروع واجهة أمامية كاملًا وقابلًا للتشغيل، مع استعادة دقيقة لتفاصيل بصرية مثل التنسيق وتناسق الألوان والرسوم/الحركات الديناميكية.

استكشاف GUI ذاتي لاستنساخ النسخة: بالاقتران مع أطر مثل Claude Code، يمكن لـ GLM-5V-Turbo بفضل قدرات GUI Agent القوية أن يستكشف ذاتيًا موقع الويب المستهدف، ويتصفح بنية الصفحة، وينظم علاقات الانتقال بين الصفحات، ويجمع مواد بصرية وتفاصيل تفاعلية، ثم في النهاية يولّد كودًا يعيد إنشاء الموقع بالكامل مباشرة بناءً على نتائج الاستكشاف المسجلة، محققًا قفزة من «استنساخ استنادًا إلى رؤية صورة» إلى «استنساخ استنادًا إلى استكشاف GUI».

تحرير تفاعلي: يدعم إضافة/حذف وحدات صفحات وفقًا للاحتياجات، وتعديل النصوص والأنماط، وضبط بنية التخطيط، ويمكنه أيضًا إضافة وظائف تفاعلية مثل ردود أزرار وتبديل النوافذ المنبثقة وربط النماذج (Form联动) وغيرها، لتحقيق تحرير تكراري عبر واجهة مرئية.

  1. وضع العيون على «龙蝦»

تم توسيع حدود مهمة «龙蝦» بشكل كبير؛ فبإمكانه مثلًا تصفح الويب والوثائق، وتوليد تقارير وPPT غنيين بالصور والنصوص، كما يمكنه الاستعلام عن مخططات K-line المعقدة وتفسيرها.

تم إطلاق Skill «محلل الأسهم (股票分析师)» في AutoClaw. وباستخدام قدرة الرؤية الأصلية لـ GLM-5V-Turbo، يمكن لـ «龙蝦» فهم مباشرة اتجاهات حركة خط سعر السهم، ورسوم نطاقات التقييم، وجداول رسومات تقارير أبحاث شركات السمسرة، ما يحقق جمعًا متوازياً لـ 4 مصادر بيانات خلال 60 ثانية، وإخراج تقرير أبحاث متناوبًا بين الصور والنصوص. ويمكن حاليًا التبديل في AutoClaw إلى GLM-5V-Turbo وتجربة السؤال: «ساعدني في تحليل سعر سهم اليوم XXX، وتوليد تقرير تحليل احترافي».

بالإضافة إلى برمجة الرؤية ومهام «龙蝦»، تحقق GLM-5V-Turbo أيضًا تحسينًا ملحوظًا في سيناريوهات Agentic الأوسع مثل البحث متعدد الوسائط والبحث العميق وGUI Agent وGrounding الإدراكي.

لذلك، توفر مجموعة من Skills الرسمية تغطي القدرات الأصلية مثل Captioning للصور وGrounding البصري والكتابة استنادًا إلى الوثائق وفرز السيرة الذاتية وتوليد عبارات/Prompt وغيرها، بالإضافة إلى القدرات المستندة إلى GLM-OCR وGLM-Image لبناء قدرات التعرف على النصوص والتعرف على الجداول والتعرف على الخط اليدوي والتعرف على المعادلات والقدرة على توليد الصور من النص، لمساعدة المستخدمين على إطلاق إمكانات النموذج متعددة الوسائط في المزيد من السيناريوهات. وقد تم رفع هذه Skills إلى ClawHub، ويمكن تثبيتها بنقرة واحدة للاستمتاع بجميع القدرات.

		ثرثرة السخونة في الشؤون المالية والاقتصادية (财經Hot Talk)
	





	هل تهدد إيران/الولايات المتحدة حربًا طويلة الأمد؟ هل السوق قلّلت من خطر الركود الاقتصادي العالمي؟
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.25Kعدد الحائزين:2
    0.08%
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.21Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.27Kعدد الحائزين:2
    0.24%
  • تثبيت