Luo Fuli: Grandes modelos entram na era do pós-treinamento, e a relação de poder computacional entre pré-treinamento e pós-treinamento das equipes de ponta atinge 1:1.

robot
Geração do resumo em andamento
ME News informa que, em 24 de abril (UTC+8), de acordo com o monitoramento da Beating, Luo Fuli, líder da equipe de modelos de grande porte da Xiaomi, apontou que a competição de modelos de grande porte já passou completamente da era do Chat, dominada pelo pré-treinamento, para a era do Agente, dominada pelo pós-treinamento (Post-train). O ponto central atual é "como fazer o scaling do aprendizado por reforço (RL) no Agente". Essa mudança de paradigma leva diretamente à reestruturação da alocação de poder computacional. Luo Fuli revelou que, na era do Chat, a proporção de poder computacional usada para pesquisa, pré-treinamento e pós-treinamento era de aproximadamente 3:5:1; já na era atual do Agente, a proporção razoável de alocação de poder computacional se tornou 3:1:1, ou seja, o investimento em poder computacional para pré-treinamento e pós-treinamento está basicamente equilibrado, e atualmente as principais equipes de modelos já alcançaram uma proporção de 1:1 nesses dois itens. Ao mesmo tempo, os requisitos de arquitetura do sistema também mudaram drasticamente. A infraestrutura de RL do passado era centrada principalmente no "motor de inferência do modelo", processando cálculos de texto puro; a infraestrutura atual deve ser centrada no "Agente", apoiando a programação de clusters heterogêneos e tolerando a ambiguidade de interrupções do Agente em fluxos de trabalho complexos devido a vários fatores incontroláveis. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado