No más entrenamiento offline para modelos de borrador: Together AI publica Aurora como código abierto para decodificación especulativa con autoaprendizaje

robot
Generación de resúmenes en curso

Según el monitoreo de 1M AI News, la plataforma en la nube de IA Together AI ha publicado Aurora como código abierto, un marco adaptativo para la decodificación especulativa basado en aprendizaje por refuerzo. La decodificación especulativa es el método generalizado para acelerar la inferencia de modelos grandes: predice rápidamente secuencias de tokens usando un pequeño “modelo de borrador”, que luego son verificados en paralelo por un modelo más grande, aceptando los aciertos directamente y descartando los fallos para su reevaluación. El problema radica en que el modelo de borrador es un producto estático entrenado sin conexión; una vez que la carga de producción deriva (debido a actualizaciones del modelo, cambios en la demografía de los usuarios o cambios en el tipo de tareas), la precisión de la predicción disminuye continuamente, y volver a entrenar sin conexión es a la vez costoso y tardío. Aurora redefine la decodificación especulativa como un problema de aprendizaje por refuerzo: el modelo de borrador sirve como política, el verificador del modelo grande actúa como entorno, los tokens aceptados son recompensas positivas y los tokens rechazados son retroalimentación negativa. El sistema consta de dos componentes desacoplados: el servidor de inferencia, que procesa las solicitudes de forma normal y transmite los resultados de la verificación a un búfer, y el servidor de entrenamiento, que de manera asíncrona extrae datos para actualizar los pesos del modelo de borrador y los reemplaza en caliente en el lado de inferencia sin interrumpir el servicio. En pruebas de tráfico simuladas que involucran 40,000 solicitudes en cinco dominios (razonamiento matemático, Text-to-SQL, generación de código, finanzas y diálogo general), Aurora recuperó longitudes de aceptación dentro de aproximadamente 10,000 solicitudes después de los cambios de dominio del tráfico, logrando una aceleración de 1.25 veces sobre un modelo de borrador estático bien entrenado. En particular, Aurora, que entrena en línea desde cero, alcanzó una longitud de aceptación de 3.08, superando el punto de referencia estático de 2.63 y el punto de referencia “preentrenado y luego ajustado” de 2.99, con un rendimiento estabilizándose en 302.3 tokens por segundo, desafiando directamente la noción existente de que “la decodificación especulativa debe apoyarse en un preentrenamiento offline a gran escala”. En pruebas de extremo a extremo, la decodificación especulativa proporcionó una aceleración de 1.92 veces en Qwen3-Coder-Next (FP8) con un tamaño de lote de 1, y 1.63 veces en MiniMax M2.5 (FP8). El predecesor de Aurora, ATLAS, sentó las bases para el especulador adaptativo, y esta actualización ha dado como resultado un sistema cerrado totalmente autónomo. El código se ha publicado como código abierto en GitHub.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado