Laboratorium Ali Tongyi merilis VimRAG: merekonstruksi pencarian dan penalaran multimodal menggunakan peta memori

CoinNetwork · 2026-04-10T02:47:10+00:00

Laboratorium Tongyi milik Alibaba meluncurkan kerangka RAG multimodal generasi baru VimRAG, mengatasi masalah “zona buta status” pada sistem tradisional. Kerangka ini meningkatkan akurasi penalaran melalui peta memori multimodal dan struktur graf berarah nir-siklus dinamis. VimRAG menunjukkan kinerja yang sangat baik dalam berbagai pengujian tolok ukur, dengan tujuan menyediakan solusi penalaran terstruktur untuk skenario yang kompleks.

CoinNetwork

2026-04-10 02:47:10

Pembuatan abstrak sedang berlangsung

Berita dari Bingjie.com, kabar dari ME News pada 10 April (UTC+8): Tongyi Lab dari Alibaba secara resmi meluncurkan kerangka kerja RAG multimodal generasi baru bernama VimRAG, dengan fokus mengatasi masalah “zona buta status” yang sudah lama menjadi kelemahan pada sistem yang ada. VimRAG meng-upgrade catatan riwayat linier tradisional menjadi Multimodal Memory Graph, yang mengorganisasi proses penalaran dengan struktur DAG (Directed Acyclic Graph) terarah tanpa siklus secara dinamis, sehingga secara efektif menghilangkan pencarian yang berlebihan, serta melakukan pelacakan penuh terhadap jalur eksplorasi. Memperkenalkan Graph-Modulated Visual Memory Encoding, yang menyesuaikan pembagian token untuk data visual berkapasitas tinggi seperti gambar, sekaligus mengintegrasikan mekanisme GGPO, untuk mencapai pembagian kredit yang lebih halus dan meningkatkan akurasi penalaran dan atribusi.

Berdasarkan data pengukuran yang dipublikasikan, VimRAG tampil menonjol dalam berbagai pengujian benchmark multimodal seperti SlideVQA, MMLongBench, LVBench, dan lainnya; versi Qwen3-VL-8B-Instruct meraih skor komprehensif tertinggi dibanding solusi sejenis. Target VimRAG adalah mendorong RAG multimodal dari “sekadar pencarian” menuju “penalaran andal yang terstruktur”, untuk menyediakan solusi tingkat sistem yang lebih kuat dalam menangani dokumen panjang yang kompleks serta skenario campuran multimodal.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka