Xiaomi revela detalhes do treinamento do modelo MiMo-V2-Pro de 1T: uso de milhares de cartões, sem cargos, sem prazos

robot
Geração de resumo em curso
ME News informa, 24 de abril (UTC+8), de acordo com a monitorização do 动察 Beating, o responsável pela equipa de grandes modelos da Xiaomi, Luo Fuli, revelou na sua primeira entrevista aprofundada que o modelo base MiMo-V2-Pro tem um total de 1T parâmetros e o treino utilizou milhares de GPUs. Ela considera que a escala de 1T é actualmente o mínimo necessário para atingir um nível próximo do Claude Opus 4.6 e obter o bilhete de entrada para a próxima fase da concorrência de Agent. A nível técnico, a versão Pro empurra a proporção entre atenção global e atenção de janela deslizante para uma relação de esparsidade extrema de 7:1, controlando o custo de inferência de textos longos ao aumentar o número de parâmetros, e continua a utilizar a arquitetura MTP (Multi-Token Prediction) para acelerar a inferência com poder computacional excedentário. A nível de gestão, apenas trinta a quarenta pessoas numa equipa MiMo de cem pessoas estão diretamente envolvidas na iteração principal. A equipa não tem níveis de carreira estabelecidos, nem divisões de grupos claras ou prazos de entrega definidos. Quando encontram problemas numéricos instáveis, como saltos na perda de treino, a equipa opta por parar o treino e investigar, mesmo que isso signifique parar por uma ou duas semanas, incorrendo em custos computacionais de milhões. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado