Ramp Labs presenta una nueva solución de memoria compartida entre múltiples agentes, reduciendo el consumo de tokens hasta en un 65%

robot
Generación de resúmenes en curso

ME News Noticias, 11 de abril (UTC+8), la compañía de infraestructura de IA Ramp Labs publicó los resultados de investigación «Latent Briefing», que logra compartir memoria de manera eficiente entre sistemas multi-agente mediante la compresión directa de la caché KV de grandes modelos, reduciendo significativamente el consumo de tokens sin perder precisión. En las arquitecturas multi-agente convencionales, el orquestador descompone tareas y llama repetidamente a modelos de trabajadores, y a medida que la cadena de inferencia se extiende, el uso de tokens se expande exponencialmente. La idea central de Latent Briefing es: aprovechar mecanismos de atención para identificar las partes realmente clave del contexto, descartando directamente información redundante en la capa de representación, en lugar de depender de resúmenes lentos de LLM o de búsquedas RAG con baja estabilidad. En la prueba de referencia LongBench v2, este método mostró excelentes resultados: reducción del 65% en el consumo de tokens del modelo Worker, un ahorro mediano del 49% en tokens para documentos de longitud media (de 32k a 100k), una mejora de aproximadamente 3 puntos porcentuales en la precisión general respecto a la línea base, y un tiempo adicional de compresión de solo unos 1.7 segundos, lo que representa una aceleración de aproximadamente 20 veces en comparación con el algoritmo original. Los experimentos utilizaron Claude Sonnet 4 como orquestador y Qwen3-14B como modelo de trabajador, cubriendo escenarios con documentos académicos, textos legales, novelas y informes gubernamentales. La investigación también encontró que el umbral de compresión óptimo varía según la dificultad de la tarea y la longitud del documento: tareas complejas se benefician de una compresión agresiva para filtrar el ruido de inferencias especulativas, mientras que documentos largos prefieren una compresión ligera para conservar información dispersa y clave. (Fuente: BlockBeats)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado