Laboratorium Ali Tongyi merilis VimRAG: merekonstruksi pencarian dan penalaran multimodal menggunakan peta memori

robot
Pembuatan abstrak sedang berlangsung

Berita dari Bingjie.com, kabar dari ME News pada 10 April (UTC+8): Tongyi Lab dari Alibaba secara resmi meluncurkan kerangka kerja RAG multimodal generasi baru bernama VimRAG, dengan fokus mengatasi masalah “zona buta status” yang sudah lama menjadi kelemahan pada sistem yang ada. VimRAG meng-upgrade catatan riwayat linier tradisional menjadi Multimodal Memory Graph, yang mengorganisasi proses penalaran dengan struktur DAG (Directed Acyclic Graph) terarah tanpa siklus secara dinamis, sehingga secara efektif menghilangkan pencarian yang berlebihan, serta melakukan pelacakan penuh terhadap jalur eksplorasi. Memperkenalkan Graph-Modulated Visual Memory Encoding, yang menyesuaikan pembagian token untuk data visual berkapasitas tinggi seperti gambar, sekaligus mengintegrasikan mekanisme GGPO, untuk mencapai pembagian kredit yang lebih halus dan meningkatkan akurasi penalaran dan atribusi.

Berdasarkan data pengukuran yang dipublikasikan, VimRAG tampil menonjol dalam berbagai pengujian benchmark multimodal seperti SlideVQA, MMLongBench, LVBench, dan lainnya; versi Qwen3-VL-8B-Instruct meraih skor komprehensif tertinggi dibanding solusi sejenis. Target VimRAG adalah mendorong RAG multimodal dari “sekadar pencarian” menuju “penalaran andal yang terstruktur”, untuk menyediakan solusi tingkat sistem yang lebih kuat dalam menangani dokumen panjang yang kompleks serta skenario campuran multimodal.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan