AIMPACT Mensaje, 16 de mayo (UTC+8), según Beating de Monitoreo de Dongcha, Nous Research ha abierto el mecanismo de preentrenamiento de contexto largo Lighthouse Attention. Cuando se procesa un texto de 512K de longitud en una sola tarjeta B200, este método es aproximadamente 17 veces más rápido que los mecanismos tradicionales, y logra una aceleración de entrenamiento de 1.4 a 1.7 veces en una longitud de 98K.
El mecanismo de atención tradicional requiere calcular las relaciones entre todas las palabras en pares, y cuanto más largo sea el texto, mayor será el consumo de potencia de cálculo en una escala cuadrática. Lighthouse Attention utiliza un enfoque de filtrado previo y cálculo preciso. Primero, revisa rápidamente los resúmenes comprimidos del texto en diferentes niveles, selecciona fragmentos clave mediante puntuaciones y los combina en un texto corto, que luego se procesa directamente con el operador eficiente FlashAttention.
Debido a que la lógica de filtrado se ha separado completamente del núcleo, los desarrolladores ahorran la molestia de escribir código de bajo nivel a mano y no necesitan agregar objetivos de entrenamiento adicionales.
Las soluciones de aceleración similares en el pasado a menudo tenían efectos secundarios: el modelo, acostumbrado a saltar la lectura, puede perder fácilmente la capacidad de lectura detallada palabra por palabra.
Para evitar esta trampa, el equipo de desarrollo hace que el modelo pase la mayor parte del proceso en modo acelerado, y solo en el final del entrenamiento vuelva brevemente al cálculo de atención completa tradicional para adaptarse.
En pruebas con un modelo de 530 millones de parámetros, entrenado con 50 mil millones de tokens de datos, este método no solo reduce significativamente el tiempo, sino que también logra un rendimiento que iguala o incluso supera la versión de referencia entrenada completamente con métodos tradicionales.
(Origen: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

7 me gusta

Recompensa
7
9
2
Compartir

Comentar

Añadir un comentario

PartiallyMeltedIceCream

· hace1h

Aumentar la velocidad en 17 veces es un poco exagerado, pero con solo 98K es de 1.4 a 1.7 veces, parece que cuanto más largo, mayor es la ganancia.

Ver originalResponder0

ACalmnessWithAHintOfPomelo

· hace1h

Resumen de múltiples niveles de textos cortos y luego usar FlashAttention, esta técnica ingeniosa.

Ver originalResponder0

GateUser-8ca669fd

· hace2h

La competencia de contexto largo entra en la fase de optimización de ingeniería, más interesante que los parámetros de pila

Ver originalResponder0

TidalShell

· hace2h

Es un poco sorprendente que la línea base tradicional haya sido superada, pensaba que acelerar siempre sacrificaba calidad.

Ver originalResponder0

GateUser-318a7dc8

· hace2h

Con solo 5.3 mil millones de parámetros, ya se puede verificar, incluso los pequeños equipos pueden seguir el ritmo.

Ver originalResponder0

GateUser-d6fb8ff1

· hace2h

Deja que salga el código para probar cuánto puede soportar mi 4090 en K

Ver originalResponder0

Glass-HeartMarketMaker

· hace2h

Eliminar objetivos de entrenamiento adicionales es demasiado crucial, de lo contrario, incluso si se abre el código, nadie podrá entrenarlo.

Ver originalResponder0

OrderbookOtter

· hace2h

El nombre Lighthouse está bien elegido, primero ilumina lo importante y luego mira con más detalle

Ver originalResponder0

TokenTinkerTao

· hace2h

B200 tarjeta única de 512K, en el futuro el costo de ejecutar documentos largos en RAG para particulares será más bajo

Ver originalResponder0

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.25M Popularidad
#
WTICrudeFallsBelow90Dollars
1.21M Popularidad
#
IsraelStrikesIranBTCPlunges
51.65K Popularidad
#
StockTradingChallengeUpTo17000U
210.22K Popularidad
#
USIranNegotiationGame
9.36M Popularidad

Fijado

Nous de código abierto Lighthouse Attention: un solo B200 ejecuta 512K, acelerando 17 veces

Temas de actualidad

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fijado