Ramp Labs presenta una nueva solución de memoria compartida entre múltiples agentes, reduciendo el consumo de tokens hasta en un 65%

MeNews · 2026-04-12T00:17:18+00:00

La empresa de infraestructura de IA Ramp Labs publicó la investigación «Latent Briefing», que utiliza mecanismos de atención para lograr una compartición de memoria eficiente en sistemas multi-agente, reduciendo significativamente el consumo de tokens y mejorando la precisión. Este método mostró un rendimiento destacado en la prueba de referencia LongBench v2, reduciendo el consumo de tokens del modelo Worker en un 65%, y acelerando el proceso de compresión para adaptarse a diferentes tareas y longitudes de documentos.

MeNews

2026-04-12 00:17:18

Generación de resúmenes en curso

ME News Noticias, 11 de abril (UTC+8), la compañía de infraestructura de inteligencia artificial Ramp Labs publicó los resultados de investigación «Latent Briefing», que logra compartir memoria de manera eficiente entre sistemas multi-agente mediante la compresión directa de la caché KV de grandes modelos, reduciendo significativamente el consumo de tokens sin perder precisión. En las arquitecturas multi-agente convencionales, el orquestador descompone tareas y llama repetidamente a modelos de trabajadores, y a medida que la cadena de inferencia se extiende, el uso de tokens se expande exponencialmente. La idea central de Latent Briefing es: aprovechar el mecanismo de atención para identificar las partes realmente clave del contexto, descartando directamente información redundante en la capa de representación, en lugar de depender de resúmenes lentos de LLM o de búsquedas RAG con baja estabilidad. En la prueba de referencia LongBench v2, este método mostró excelentes resultados: reducción del 65% en el consumo de tokens del modelo Worker, un ahorro mediano del 49% en tokens para documentos de longitud media (de 32k a 100k), una mejora de aproximadamente 3 puntos porcentuales en la precisión general en comparación con la línea base, y un tiempo adicional de compresión de solo unos 1.7 segundos, lo que representa una aceleración de aproximadamente 20 veces respecto al algoritmo original. Los experimentos usaron Claude Sonnet 4 como orquestador y Qwen3-14B como modelo de trabajador, cubriendo escenarios con diferentes tipos de documentos como artículos académicos, documentos legales, novelas y informes gubernamentales. La investigación también encontró que el umbral de compresión óptimo varía según la dificultad de la tarea y la longitud del documento: las tareas difíciles se benefician de una compresión agresiva para filtrar el ruido de inferencias especulativas, mientras que los documentos largos son más adecuados para una compresión ligera que conserve información clave dispersa. (Fuente: BlockBeats)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta