A equipa do grande modelo da Xiaomi afirmou que a competição passou de uma era de Chat centrada em pré-treinamento para uma era de Agentes focada em treinamentos posteriores, sendo o núcleo a escalabilidade do reforço de aprendizagem nos Agentes. A alocação de cálculo mudou de 3:5:1 (Investigação / Pré-treinamento / Pós-treinamento) para 3:1:1, com os dois primeiros investimentos praticamente iguais, e as equipas de topo já atingem 1:1. A infraestrutura também passou de um motor de inferência como núcleo para um núcleo de Agentes, sendo necessário suportar agendamento de clusters heterogéneos e tolerar interrupções incontroláveis de Agentes durante o fluxo de trabalho.

MeNews

2026-04-24 06:20:36

Geração de resumo em curso

Notícias ME, 24 de abril (UTC+8), de acordo com o monitoramento do Beating, o responsável pela equipe de grandes modelos da Xiaomi, Luo Fuli, apontou que a competição de grandes modelos passou de uma era dominada por pré-treinamento, como no Chat, para uma era dominada por pós-treinamento (Post-train), os Agentes. O foco principal atual é “como escalar o reforço de aprendizagem (RL) em Agentes”. Essa mudança de paradigma leva diretamente à reconstrução da alocação de poder de processamento. Luo Fuli revelou que, na era do Chat, a proporção de poder de processamento para pesquisa, pré-treinamento e pós-treinamento era aproximadamente 3:5:1; enquanto na era atual dos Agentes, a proporção adequada de alocação de recursos é 3:1:1, ou seja, o investimento em pré-treinamento e pós-treinamento tornou-se praticamente equivalente, com as equipes de modelos de ponta atualmente investindo em ambas na proporção de 1:1. Ao mesmo tempo, as exigências de arquitetura do sistema também mudaram drasticamente. No passado, a infraestrutura de RL era centrada em um “motor de inferência de modelos”, que lidava com cálculos de texto puro; agora, a infraestrutura deve ser centrada em “Agentes”, suportando agendamento de clusters heterogêneos e tolerando a interrupção de Agentes devido a fatores imprevisíveis em fluxos de trabalho complexos. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
135.61K Popularidade
#
CryptoMarketSeesVolatility
206.05K Popularidade
#
IsraelStrikesIranBTCPlunges
30.82K Popularidade
#
rsETHAttackUpdate
59.78K Popularidade
#
US-IranTalksStall
163.54K Popularidade

Fixar

Lofli: Os grandes modelos entram na era pós-treinamento, com equipes de ponta alcançando uma proporção de poder de pré-treinamento e pós-treinamento de 1:1

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Fixar