Ramp Labs presenta una nueva solución de memoria compartida entre múltiples agentes, reduciendo el consumo de tokens hasta en un 65%

MeNews · 2026-04-11T12:21:18+00:00

La empresa de infraestructura de IA Ramp Labs publicó la investigación «Latent Briefing», que utiliza mecanismos de atención para lograr una compartición de memoria eficiente en sistemas multi-agente, reduciendo significativamente el consumo de tokens y mejorando la precisión. Este método mostró un rendimiento destacado en la prueba de referencia LongBench v2, reduciendo el consumo de tokens del modelo Worker en un 65%, y acelerando el proceso de compresión para adaptarse a diferentes tareas y longitudes de documentos.

MeNews

2026-04-11 12:21:18

Generación de resúmenes en curso

ME News Noticias, 11 de abril (UTC+8), la compañía de infraestructura de IA Ramp Labs publicó los resultados de investigación «Latent Briefing», que logra compartir memoria de manera eficiente entre sistemas multi-agente mediante la compresión directa de la caché KV de grandes modelos, reduciendo significativamente el consumo de tokens sin perder precisión. En las arquitecturas multi-agente convencionales, el orquestador descompone tareas y llama repetidamente a modelos de trabajadores, y a medida que la cadena de inferencia se extiende, el uso de tokens se expande exponencialmente. La idea central de Latent Briefing es: aprovechar mecanismos de atención para identificar las partes realmente clave del contexto, descartando directamente información redundante en la capa de representación, en lugar de depender de resúmenes lentos de LLM o de búsquedas RAG con baja estabilidad. En la prueba de referencia LongBench v2, este método mostró excelentes resultados: reducción del 65% en el consumo de tokens del modelo Worker, un ahorro mediano del 49% en tokens para documentos de longitud media (de 32k a 100k), una mejora de aproximadamente 3 puntos porcentuales en la precisión general respecto a la línea base, y un tiempo adicional de compresión de solo unos 1.7 segundos, lo que representa una aceleración de aproximadamente 20 veces en comparación con el algoritmo original. Los experimentos utilizaron Claude Sonnet 4 como orquestador y Qwen3-14B como modelo de trabajador, cubriendo escenarios con documentos académicos, textos legales, novelas y informes gubernamentales. La investigación también encontró que el umbral de compresión óptimo varía según la dificultad de la tarea y la longitud del documento: tareas complejas se benefician de una compresión agresiva para filtrar el ruido de inferencias especulativas, mientras que documentos largos prefieren una compresión ligera para conservar información dispersa y clave. (Fuente: BlockBeats)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.