Lighthouse Attention, esta idea es bastante ingeniosa, primero filtrar de manera general y luego afinar los cálculos, finalmente ya no es necesario soportar a toda costa el contexto largo.

Ver original
MeNews
Nous código abierto Lighthouse Attention: solo B200 ejecutando 512K aceleración 17 veces
AIMPACT afirma que Nous Research ha abierto el mecanismo de preentrenamiento de contexto largo Lighthouse Attention. Con una sola tarjeta B200, procesa aproximadamente 17 veces más rápido textos de 512K, y a 98K la aceleración de extremo a extremo es de 1.4 a 1.7 veces. Este mecanismo realiza una selección preliminar seguida de un análisis detallado, filtrando los fragmentos clave mediante múltiples niveles de resumen y ensamblándolos en textos cortos, que luego son procesados por FlashAttention; la lógica de filtrado está fuera del núcleo, eliminando la necesidad de código de bajo nivel y objetivos de entrenamiento adicionales. Para evitar que el salto de lectura del modelo pierda la capacidad de lectura palabra por palabra, durante el entrenamiento primero se completa la mayor parte en modo acelerado, y al final se vuelve brevemente a la atención completa. En experimentos con 530 millones de parámetros y 50 mil millones de tokens, el tiempo de procesamiento disminuyó significativamente y el rendimiento final fue comparable o incluso superior a las líneas base tradicionales.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado