Nous de código abierto Lighthouse Attention: un solo B200 ejecuta 512K, acelerando 17 veces

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 16 de mayo (UTC+8), según Beating de Monitoreo de Dongcha, Nous Research ha abierto el mecanismo de preentrenamiento de contexto largo Lighthouse Attention. Cuando se procesa un texto de 512K de longitud en una sola tarjeta B200, este método es aproximadamente 17 veces más rápido que los mecanismos tradicionales, y logra una aceleración de entrenamiento de 1.4 a 1.7 veces en una longitud de 98K.
El mecanismo de atención tradicional requiere calcular las relaciones entre todas las palabras en pares, y cuanto más largo sea el texto, mayor será el consumo de potencia de cálculo en una escala cuadrática. Lighthouse Attention utiliza un enfoque de filtrado previo y cálculo preciso. Primero, revisa rápidamente los resúmenes comprimidos del texto en diferentes niveles, selecciona fragmentos clave mediante puntuaciones y los combina en un texto corto, que luego se procesa directamente con el operador eficiente FlashAttention.
Debido a que la lógica de filtrado se ha separado completamente del núcleo, los desarrolladores ahorran la molestia de escribir código de bajo nivel a mano y no necesitan agregar objetivos de entrenamiento adicionales.
Las soluciones de aceleración similares en el pasado a menudo tenían efectos secundarios: el modelo, acostumbrado a saltar la lectura, puede perder fácilmente la capacidad de lectura detallada palabra por palabra.
Para evitar esta trampa, el equipo de desarrollo hace que el modelo pase la mayor parte del proceso en modo acelerado, y solo en el final del entrenamiento vuelva brevemente al cálculo de atención completa tradicional para adaptarse.
En pruebas con un modelo de 530 millones de parámetros, entrenado con 50 mil millones de tokens de datos, este método no solo reduce significativamente el tiempo, sino que también logra un rendimiento que iguala o incluso supera la versión de referencia entrenada completamente con métodos tradicionales.
(Origen: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 9
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
PartiallyMeltedIceCream
· hace1h
Aumentar la velocidad en 17 veces es un poco exagerado, pero con solo 98K es de 1.4 a 1.7 veces, parece que cuanto más largo, mayor es la ganancia.
Ver originalResponder0
ACalmnessWithAHintOfPomelo
· hace1h
Resumen de múltiples niveles de textos cortos y luego usar FlashAttention, esta técnica ingeniosa.
Ver originalResponder0
GateUser-8ca669fd
· hace2h
La competencia de contexto largo entra en la fase de optimización de ingeniería, más interesante que los parámetros de pila
Ver originalResponder0
TidalShell
· hace2h
Es un poco sorprendente que la línea base tradicional haya sido superada, pensaba que acelerar siempre sacrificaba calidad.
Ver originalResponder0
GateUser-318a7dc8
· hace2h
Con solo 5.3 mil millones de parámetros, ya se puede verificar, incluso los pequeños equipos pueden seguir el ritmo.
Ver originalResponder0
GateUser-d6fb8ff1
· hace2h
Deja que salga el código para probar cuánto puede soportar mi 4090 en K
Ver originalResponder0
Glass-HeartMarketMaker
· hace2h
Eliminar objetivos de entrenamiento adicionales es demasiado crucial, de lo contrario, incluso si se abre el código, nadie podrá entrenarlo.
Ver originalResponder0
OrderbookOtter
· hace2h
El nombre Lighthouse está bien elegido, primero ilumina lo importante y luego mira con más detalle
Ver originalResponder0
TokenTinkerTao
· hace2h
B200 tarjeta única de 512K, en el futuro el costo de ejecutar documentos largos en RAG para particulares será más bajo
Ver originalResponder0
Ver más
  • Fijado