Δ-Mem:Memoria en línea eficiente para modelos de lenguaje grandes

robot
Generación de resúmenes en curso
ME News Noticias, 16 de mayo (UTC+8), los investigadores propusieron Δ-Mem, un sistema de memoria en línea eficiente diseñado específicamente para grandes modelos de lenguaje. Este sistema reduce significativamente el uso de memoria al almacenar y actualizar solo los cambios incrementales en las activaciones del modelo, en lugar de los estados completos de activación. Los experimentos muestran que Δ-Mem puede reducir el uso de memoria en hasta un 70%, manteniendo prácticamente la calidad de la salida del modelo. Este método ayuda a desplegar y ejecutar grandes modelos de lenguaje en entornos con recursos limitados, mejorando la viabilidad en escenarios de inferencia en línea y aprendizaje continuo. (Fuente: AiHot)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
DeltaSmile
· hace2h
La calidad de salida sin pérdida es la más importante, muchas soluciones de compresión sacrifican demasiada precisión.
Ver originalResponder0
PickingUpAirdropsInTheFog
· hace8h
La mejora de la capacidad de aprendizaje continuo está subestimada, es muy importante para los modelos personalizados.
Ver originalResponder0
InvisibleMarketMaker
· hace8h
Una reducción del 70% en el uso de memoria es realmente sorprendente, pero en escenarios en línea, ¿el costo computacional de las actualizaciones incrementales no podría convertirse en un nuevo cuello de botella?
Ver originalResponder0
ColdStartUnderTheAurora
· hace8h
Finalmente alguien está abordando seriamente el problema de la pared de memoria de los LLM, espero con interés el trabajo futuro.
Ver originalResponder0
HotAirBalloonCrossingMountains
· hace8h
Se puede usar la atención dispersa y la atención esparcida en conjunto, compresión doble.
Ver originalResponder0
PettyLp
· hace8h
El sistema de memoria en línea tiene una posición muy precisa, llena el vacío en la etapa de inferencia.
Ver originalResponder0
CheckTheBlockchainBefore
· hace8h
¿Cómo es la compatibilidad de métodos de ajuste fino eficientes en parámetros como la curiosidad y LoRA?
Ver originalResponder0
ProtocolPaladin
· hace8h
Si esta dirección se abre al código abierto, la comunidad podrá experimentar muchas variaciones.
Ver originalResponder0
PerpPessimist
· hace8h
¿Con qué conjunto de evaluación de experimentos? ¿GLUE o tareas de razonamiento más complejas?
Ver originalResponder0
TokenomicsMechanic
· hace8h
¿El 70% es el límite superior o el promedio? ¿Las diferencias de rendimiento son grandes en diferentes escalas de modelos?
Ver originalResponder0
Ver más
  • Fijado