ニュース、ME Newsのニュース、4月10日(UTC+8)、アリ通義実験室(Tongyi Lab)は正式に新世代のマルチモーダルRAGフレームワークVimRAGを発表しました。これは既存システムに長らく存在していた「状態の盲点」問題に重点的に取り組んでいます。VimRAGは従来の線形履歴記録をマルチモーダルメモリグラフ(Multimodal Memory Graph)にアップグレードし、動的有向非巡回グラフ(DAG)構造を用いて推論過程を組織化し、冗長な検索を効果的に排除し、探索経路を全過程で追跡します。グラフ調整視覚記憶符号化(Graph-Modulated Visual Memory Encoding)を導入し、画像などの高負荷視覚データに対して適応的なトークン割り当てを実現し、GGPOメカニズムを搭載して細粒度の信用配分を行い、推論の帰属精度を向上させます。公開された評価データによると、VimRAGはSlideVQA、MMLongBench、LVBenchなどの多くのマルチモーダルベンチマークテストで優れたパフォーマンスを示し、Qwen3-VL-8B-Instructバージョンは同種の方案を上回る総合スコアを獲得しています。VimRAGの目標は、多モーダルRAGを「単純な検索」から「構造化された信頼できる推論」へと推進し、複雑な長文、多モーダルのハイブリッドシナリオに対してより強力なシステムレベルの解決策を提供することです。
アリ通義研究所、VimRAGを発表:記憶マップを用いたマルチモーダル検索推論の再構築
ニュース、ME Newsのニュース、4月10日(UTC+8)、アリ通義実験室(Tongyi Lab)は正式に新世代のマルチモーダルRAGフレームワークVimRAGを発表しました。これは既存システムに長らく存在していた「状態の盲点」問題に重点的に取り組んでいます。VimRAGは従来の線形履歴記録をマルチモーダルメモリグラフ(Multimodal Memory Graph)にアップグレードし、動的有向非巡回グラフ(DAG)構造を用いて推論過程を組織化し、冗長な検索を効果的に排除し、探索経路を全過程で追跡します。グラフ調整視覚記憶符号化(Graph-Modulated Visual Memory Encoding)を導入し、画像などの高負荷視覚データに対して適応的なトークン割り当てを実現し、GGPOメカニズムを搭載して細粒度の信用配分を行い、推論の帰属精度を向上させます。公開された評価データによると、VimRAGはSlideVQA、MMLongBench、LVBenchなどの多くのマルチモーダルベンチマークテストで優れたパフォーマンスを示し、Qwen3-VL-8B-Instructバージョンは同種の方案を上回る総合スコアを獲得しています。VimRAGの目標は、多モーダルRAGを「単純な検索」から「構造化された信頼できる推論」へと推進し、複雑な長文、多モーダルのハイブリッドシナリオに対してより強力なシステムレベルの解決策を提供することです。