Xiaomi divulga detalhes de treinamento do modelo 1T MiMo-V2-Pro: utilizando milhares de GPUs, sem níveis de cargo e sem deadlines.

robot
Geração do resumo em andamento
ME News notícias, 24 de abril (UTC+8), de acordo com o monitoramento da Beating, Luo Fuli, líder da equipe de modelos grandes da Xiaomi, revelou em sua primeira entrevista aprofundada que o modelo MiMo-V2-Pro base tem um total de 1T parâmetros, usando milhares de GPUs para treinamento. Ela acredita que a escala de 1T é atualmente o mínimo necessário para alcançar um nível próximo ao Claude Opus 4.6 e garantir um ingresso para a próxima fase da competição de Agentes. No aspecto técnico, a versão Pro empurra a proporção de atenção global para atenção de janela deslizante para uma razão de esparsidade extrema de 7:1, controlando o custo de inferência de textos longos ao expandir a quantidade de parâmetros, e continua usando a arquitetura MTP (Multi-Token Prediction) para utilizar o poder computacional excedente para acelerar a inferência. No aspecto gerencial, em uma equipe MiMo de cem pessoas, apenas trinta ou quarenta estão diretamente envolvidas na iteração principal. A equipe não tem níveis definidos, nem divisões claras de grupos ou prazos de entrega. Ao encontrar problemas numéricos instáveis, como saltos na loss de treinamento, a equipe opta por interromper o treinamento para investigar, mesmo que isso signifique parar por uma ou duas semanas, consumindo milhões em custos computacionais. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado