Δ-Mem:Memoria en línea eficiente para modelos de lenguaje grandes

robot
Generación de resúmenes en curso
ME News Noticias, 16 de mayo (UTC+8), los investigadores propusieron Δ-Mem, un sistema de memoria en línea eficiente diseñado específicamente para grandes modelos de lenguaje. Este sistema reduce significativamente el uso de memoria al almacenar y actualizar solo los cambios incrementales en las activaciones del modelo, en lugar de los estados completos de activación. Los experimentos muestran que Δ-Mem puede reducir el uso de memoria en hasta un 70%, manteniendo casi sin pérdida la calidad de la salida del modelo. Este método ayuda a desplegar y ejecutar grandes modelos de lenguaje en entornos con recursos limitados, mejorando la viabilidad en escenarios de inferencia en línea y aprendizaje continuo. (Fuente: AiHot)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
VineGeometry
· hace3h
¿Dónde puedo ver los datos del experimento? Quiero ver la pérdida en la tarea específica.
Ver originalResponder0
AirdropMileCounter
· hace3h
Δ-Mem + cuantificación, ¿puede llevar la memoria de video al límite?
Ver originalResponder0
YieldSpring
· hace3h
La idea de almacenamiento incremental es muy ingeniosa, es como si el cerebro humano solo recordara las partes que cambian.
Ver originalResponder0
DegenLibrarian
· hace3h
¿Existe un problema de error acumulado en escenarios de aprendizaje continuo?
Ver originalResponder0
PineLiquidityPool
· hace3h
Si se integra en vLLM, la capacidad de procesamiento debe aumentar significativamente
Ver originalResponder0
QuantitativeButNotPretentious
· hace3h
La caída del 70% en el uso de memoria es increíble, ¡los dispositivos en el borde finalmente pueden ejecutar grandes modelos!
Ver originalResponder0
  • Fijado