Luo Fuli: Los modelos grandes entran en la era posterior al entrenamiento, los equipos principales logran una proporción de cálculo 1:1 para el preentrenamiento y el postentrenamiento

Según la monitorización de Dongcha Beating, Luo Fuli, jefe del equipo de modelos grandes de Xiaomi, señaló que la competencia en modelos grandes ha cambiado del era de Chat dominada por el preentrenamiento al era de Agentes dominada por el post-entrenamiento (Post-train). El punto competitivo central actual es “cómo escalar de manera efectiva el aprendizaje por refuerzo (RL) en los Agentes.” Este cambio de paradigma ha llevado directamente a una reestructuración en la asignación de recursos computacionales. Luo reveló que durante la era de Chat, la proporción de recursos computacionales para investigación, preentrenamiento y post-entrenamiento era aproximadamente 3:5:1; mientras que en la era actual de Agentes, una proporción razonable de asignación de recursos computacionales se ha convertido en 3:1:1, indicando que la inversión en recursos para preentrenamiento y post-entrenamiento ahora es casi igual, con los principales equipos de modelos logrando una proporción 1:1 en sus inversiones en estas dos áreas. Además, los requisitos para la arquitectura del sistema han experimentado cambios significativos. Anteriormente, la infraestructura de RL se centraba principalmente en “motores de inferencia de modelos” que manejaban cálculos de texto puro; ahora, la infraestructura debe centrarse en “Agentes,” soportando la programación de clúster heterogéneo y tolerando la ambigüedad de que los Agentes puedan ser interrumpidos en flujos de trabajo complejos debido a diversos factores incontrolables.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado