Али Туньи Лаборатория выпустила VimRAG: реконструкция мультимодального поиска и рассуждений с помощью графа памяти

robot
Генерация тезисов в процессе

Криптовалютная сеть сообщает, что 10 апреля (UTC+8) лаборатория Tongyi Lab официально запустила новое поколение мультимодальной рамочной системы RAG — VimRAG, которая сосредоточена на решении долгосрочной проблемы «слепых зон состояния».
VimRAG обновляет традиционную линейную историю до мультимодального графа памяти (Multimodal Memory Graph), организуя процесс рассуждения с помощью динамической ориентированной ацикличной графа (DAG), что эффективно устраняет избыточные запросы и обеспечивает полный контроль за путями исследования.
Вводится графовая модуляция визуального кодирования памяти (Graph-Modulated Visual Memory Encoding), которая реализует адаптивное распределение токенов для визуальных данных с высокой нагрузкой, таких как изображения, с использованием механизма GGPO для достижения тонкой гранулярности распределения кредитов и повышения точности рассуждения и атрибуции.
Согласно опубликованным оценочным данным, VimRAG показывает выдающиеся результаты на нескольких мультимодальных бенчмарках, таких как SlideVQA, MMLongBench, LVBench, а версия Qwen3-VL-8B-Instruct занимает лидирующие позиции по совокупному баллу среди аналогичных решений.
Цель VimRAG — вывести мультимодальный RAG от «простого поиска» к «структурированному надежному рассуждению», предоставляя более мощное системное решение для обработки сложных длинных документов и мультимодальных смешанных сценариев.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить