Xiaomi revela detalhes de treino do modelo 1T MiMo-V2-Pro: milhares de GPUs utilizadas, sem níveis de trabalho ou prazos

robot
Geração de resumo em curso

De acordo com o monitoramento da Dongcha Beating, Luo Fuli, chefe da equipe de modelos grandes da Xiaomi, revelou na sua primeira entrevista aprofundada que a base do modelo MiMo-V2-Pro possui um total de 1T de parâmetros, utilizando milhares de GPUs para o treino. Ela acredita que uma escala de 1T é a linha de base para alcançar um desempenho próximo ao Claude Opus 4.6 e garantir entrada na próxima fase da competição de agentes. Em nível técnico, a versão Pro aumenta a proporção de atenção global para atenção de janela deslizante para uma proporção esparsa extrema de 7:1, controlando o custo de raciocínio para textos longos enquanto expande o número de parâmetros, e continua a usar a arquitetura MTP (Previsão de Multi-Token) para aproveitar o poder de computação excedente para uma inferência acelerada. No lado da gestão, apenas cerca de 30 a 40 membros da equipe MiMo, de cem, estão diretamente envolvidos nas iterações principais, sem níveis de trabalho estabelecidos, divisões claras de grupo ou prazos de entrega. Ao encontrar problemas numéricos instáveis, como mudanças súbitas na perda de treino, a equipe opta por interromper o treino para solucionar problemas, mesmo que isso signifique parar por uma ou duas semanas e incorrer em milhões de custos de computação.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar