Lighthouse Attention esta idea es bastante ingeniosa, primero filtrar de manera gruesa y luego afinar, dividir textos largos en fragmentos cortos y alimentarlos a FlashAttention, en una sola tarjeta B200 con 512K se puede acelerar 17 veces, al final del entrenamiento volver a la atención completa para evitar saltos de lectura, el modelo de 5.3B funciona sin perder rendimiento, la optimización de contexto largo finalmente ya no requiere luchar con los kernels de bajo nivel

Ver original
El contenido original ya no es visible
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado