El equipo del gran modelo de Xiaomi afirmó que la competencia ha pasado de la era del Chat centrada en el preentrenamiento a la era del Agente centrada en el entrenamiento posterior, donde lo clave es escalar el aprendizaje por refuerzo en los Agentes. La asignación de cálculos ha cambiado de 3:5:1 (investigación / preentrenamiento / postentrenamiento) a 3:1:1, con las dos primeras inversiones prácticamente iguales, y los equipos de élite ya alcanzan una proporción de 1:1. La infraestructura también ha pasado de centrarse en el motor de inferencia a centrarse en el Agente, requiriendo soporte para la programación de clústeres heterogéneos y tolerancia a interrupciones incontrolables de los Agentes en los flujos de trabajo.

MeNews

2026-04-24 06:20:36

Generación de resúmenes en curso

Noticias ME News, 24 de abril (UTC+8), según la monitorización de Dongcha Beating, la responsable del equipo de grandes modelos de Xiaomi, Luo Fuli, señaló que la competencia en grandes modelos ha pasado de una era dominada por el preentrenamiento en Chat a una era dominada por agentes en post-entrenamiento (Post-train). El punto clave actual es “cómo escalar el aprendizaje por refuerzo (RL) en los agentes”. Este cambio de paradigma ha llevado directamente a una reestructuración en la asignación de recursos computacionales. Luo Fuli reveló que, en la era de Chat, la proporción de recursos para investigación, preentrenamiento y post-entrenamiento era aproximadamente 3:5:1; mientras que en la era actual de agentes, la proporción razonable de asignación de recursos es 3:1:1, es decir, la inversión en preentrenamiento y post-entrenamiento es prácticamente equivalente, y los equipos de modelos de élite ya han alcanzado una proporción de 1:1 en estas dos áreas. Al mismo tiempo, los requisitos de la arquitectura del sistema también han cambiado drásticamente. La infraestructura de RL en el pasado se centraba principalmente en un “motor de inferencia de modelos” para procesar cálculos de texto puro; ahora, la infraestructura debe centrarse en “agentes”, soportar la programación de clústeres heterogéneos y tolerar la interrupción de agentes en flujos de trabajo complejos debido a diversos factores impredecibles. (Fuente: BlockBeats)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
135.61K Popularidad
#
CryptoMarketSeesVolatility
206.05K Popularidad
#
IsraelStrikesIranBTCPlunges
30.82K Popularidad
#
rsETHAttackUpdate
59.78K Popularidad
#
US-IranTalksStall
163.54K Popularidad

Anclado

Lofli: Los grandes modelos ingresan en la era posterior al entrenamiento, con la relación de potencia de preentrenamiento y postentrenamiento de los equipos de élite alcanzando 1:1

Temas de actualidad

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Anclado