罗福莉: Los grandes modelos entran en la era del post-entrenamiento, y la relación de capacidad computacional entre pre-entrenamiento y post-entrenamiento en los equipos de élite alcanza 1:1.

robot
Generación de resúmenes en curso
ME News mensaje, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, Luo Fuli, líder del equipo del modelo grande de Xiaomi, señaló que la competencia de modelos grandes ha pasado completamente de la era Chat dominada por el preentrenamiento a la era Agent dominada por el post-entrenamiento (Post-train). El punto central actual es "cómo escalar el aprendizaje por refuerzo (RL) en Agent". Este cambio de paradigma ha llevado directamente a una reestructuración de la asignación de cómputo. Luo Fuli reveló que en la era Chat, la proporción de cómputo utilizada para investigación, preentrenamiento y post-entrenamiento era aproximadamente 3:5:1; mientras que en la actual era Agent, la proporción razonable de asignación de cómputo se ha convertido en 3:1:1, es decir, la inversión en cómputo para preentrenamiento y post-entrenamiento es básicamente equivalente. Actualmente, los equipos de modelos de primer nivel han alcanzado una proporción de inversión de 1:1 en estas dos áreas. Al mismo tiempo, los requisitos de arquitectura del sistema también han cambiado drásticamente. La infraestructura de RL anterior se centraba principalmente en el "motor de inferencia de modelos", procesando cálculos de texto puro; ahora, la infraestructura debe centrarse en "Agent", apoyando la programación de clústeres heterogéneos y tolerando la ambigüedad de las interrupciones de Agent debido a diversos factores incontrolables en flujos de trabajo complejos. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado