MIT se une a NVIDIA para desarrollar la tecnología TLT, logrando la máxima aceleración en la eficiencia de entrenamiento de grandes modelos de IA para inferencia, con una aceleración de hasta un 210%.

2026-04-04 15:04:57

Generación de resúmenes en curso

IT之家 28 de febrero informa que MIT News publicó un artículo el 26 de febrero, en el que se afirma que el Instituto Tecnológico de Massachusetts (MIT), junto con NVIDIA y otras instituciones, ha desarrollado la tecnología «tutelar la cola larga» (TLT), que puede mejorar considerablemente la eficiencia del entrenamiento de modelos de lenguaje grandes para inferencia (LLM).

Citando el artículo, IT之家 explica que los modelos de lenguaje grandes para inferencia son expertos en resolver problemas complejos descomponiendo los pasos, pero durante el entrenamiento de aprendizaje por refuerzo (RL), el consumo de cómputo y energía es extremadamente elevado.

El equipo de investigación descubrió que la fase de «rollout» en la que se generan múltiples respuestas candidatas ocupa hasta el 85% del tiempo de entrenamiento. Debido a que la longitud de las respuestas generadas por distintos procesadores varía, los procesadores que terminan más rápido solo pueden quedar obligados en estado inactivo, esperando a que los otros procesadores completen tareas de texto largo; esto genera un grave cuello de botella en la eficiencia.

Para abordar este problema, investigadores del MIT, en colaboración con NVIDIA, el Instituto Federal Suizo de Tecnología de Zúrich y otras instituciones, propusieron una solución adaptativa denominada «tutelar la cola larga» (TLT).

El núcleo de la propuesta reside en el uso innovador de la técnica de «decoificación especulativa», es decir, entrenar un «modelo de borrador» (drafter) más pequeño para predecir rápidamente la salida futura del modelo grande, y luego permitir que el modelo grande valide en lote estas suposiciones. De este modo, el modelo grande no necesita generar la salida de forma secuencial una por una, acelerando considerablemente el proceso.

En la decoificación especulativa tradicional, el modelo de borrador normalmente solo se entrena una vez y se mantiene estático. Sin embargo, en el aprendizaje por refuerzo, el modelo principal necesita actualizarse miles de veces; un modelo de borrador estático se vuelve obsoleto rápidamente.

Por lo tanto, el sistema TLT introduce un «entrenador adaptativo de borradores». En cuanto algunos procesadores terminan consultas cortas y pasan al estado de inactividad, el sistema los programa inmediatamente para que entrenen el modelo de borrador en tiempo real.

Al mismo tiempo, el «motor adaptativo de rollout» ajusta automáticamente la estrategia de decodificación según las características de la carga de trabajo, asegurando que el modelo de borrador se mantenga siempre altamente sincronizado con el modelo objetivo grande, y sin incrementar el coste de cómputo adicional.

Las pruebas basadas en conjuntos de datos del mundo real muestran que la tecnología TLT mejora la velocidad de entrenamiento de varios LLM de inferencia en un 70% a un 210%, manteniendo completamente sin pérdida la precisión del modelo.

Además, el modelo de borrador liviano obtenido durante el entrenamiento también puede usarse como un subproducto gratuito, directamente para una implementación eficiente posterior. El equipo de investigación planea en el futuro integrar esta tecnología en más marcos de entrenamiento e inferencia, reduciendo aún más los costes de desarrollo de IA y mejorando la eficiencia energética.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.