Luo Fuli: Grandes Modelos Entram na Era Pós-Treinamento, Equipas de Topo Alcançam Relação de Cálculo 1:1 para Pré-Treinamento e Pós-Treinamento

De acordo com o monitoramento da Dongcha Beating, Luo Fuli, chefe da equipa de modelos grandes da Xiaomi, apontou que a competição em modelos grandes mudou da era do Chat dominada pelo pré-treinamento para a era do Agente dominada pelo pós-treinamento (Pós-treino). O ponto central competitivo atual é “como escalar efetivamente o reforço de aprendizagem (RL) nos Agentes.” Esta mudança de paradigma levou diretamente a uma reestruturação na alocação de recursos computacionais. Luo revelou que, durante a era do Chat, a proporção de computação para investigação, pré-treinamento e pós-treinamento era aproximadamente 3:5:1; enquanto na era atual do Agente, uma proporção razoável de alocação de computação tornou-se 3:1:1, indicando que o investimento em computação para pré-treinamento e pós-treinamento é agora quase igual, com as principais equipas de modelos a atingirem uma proporção 1:1 nesses dois setores. Além disso, os requisitos para a arquitetura do sistema sofreram mudanças significativas. Anteriormente, a infraestrutura de RL centrava-se principalmente em " motores de inferência de modelos" que lidavam com cálculos de texto puro; agora, a infraestrutura deve estar centrada em “Agentes”, suportando agendamento de clusters heterogéneos e tolerando a ambiguidade de que os Agentes podem ser interrompidos em fluxos de trabalho complexos devido a vários fatores incontroláveis.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar