Tencent Hunyuan propone el algoritmo de atención dispersa Stem, que reduce la latencia de la primera palabra en 3.6 veces

Noticias de Mars Finance 5 de junio: Tencent HunYuan anunció la propuesta del algoritmo de atención dispersa Stem, que ha sido incluido en la conferencia líder en aprendizaje automático ICML-26.
Según el plan de aceleración de pila completa del algoritmo × operador HPC, a nivel de algoritmo, Stem logra una precisión casi sin pérdida con un presupuesto del 25% mediante la atenuación de la posición de tokens (TPD) y la medición de percepción de salida (OAM);
a nivel de operador, el operador Stem+BSA de código abierto de HPC convierte los beneficios de la dispersión en aceleración real de hardware, reduciendo la latencia de la primera palabra en un contexto de aproximadamente 128K en 3.7 veces. (Observación panorámica)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado