أطلق مختبر علي تونغِي VimRAG: إعادة بناء الاستدلالات متعددة الوسائط في الاسترجاع باستخدام مخططات الذاكرة

robot
إنشاء الملخص قيد التقدم

أخبار شبكة العملات الرقمية، أخبار ME News، في 10 أبريل (بتوقيت UTC+8)، قامت مختبرات علي تونغيي (Tongyi Lab) رسميًا بإطلاق إطار عمل VimRAG من الجيل الجديد للـ RAG متعدد الوسائط، مع التركيز على معالجة مشكلة «المنطقة العمياء» المستمرة التي تعاني منها الأنظمة الحالية على المدى الطويل. يطوّر VimRAG السجل التاريخي الخطي التقليدي إلى مخطط ذاكرة متعدد الوسائط (Multimodal Memory Graph)، لتنظيم عملية الاستدلال عبر بنية رسم بياني موجهة لادورية ديناميكيًا (DAG)، وبذلك يقضي بفعالية على عمليات الاسترجاع الزائدة، ويقوم بتتبّع مسارات الاستكشاف طوال الرحلة. تم تقديم ترميز ذاكرة بصري معدل بواسطة الرسم البياني (Graph-Modulated Visual Memory Encoding)، بهدف تحقيق تخصيص تكيّفي للرموز استنادًا إلى آليات، خصوصًا لبيانات بصرية عالية الحمل مثل الصور، مع دمج آلية GGPO، وذلك لتحقيق توزيع أدق للائتمان على مستوى أدق، وتحسين دقة إسناد الاستدلال. ووفقًا لبيانات التقييم المنشورة، أظهر VimRAG أداءً بارزًا في العديد من المعايير التجريبية متعددة الوسائط مثل SlideVQA وMMLongBench وLVBench، حيث تصدرت نسخة Qwen3-VL-8B-Instruct في النتيجة الإجمالية مقارنةً بالحلول المماثلة. يهدف VimRAG إلى نقل RAG متعدد الوسائط من «البحث البسيط» إلى «استدلال موثوق ومهيكل»، بما يوفّر حلولًا على مستوى النظام أكثر قوة للتعامل مع المستندات الطويلة المعقدة، والسيناريوهات المختلطة متعددة الوسائط.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.27Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • تثبيت