Resumo: A entrevista com Luo Fuli descreve o Xiaomi MiMo-V2-Pro, um modelo com trilhões de parâmetros, pesado em GPU, visando capacidades semelhantes ao Claude Opus 4.6. Ele emprega atenção extremamente esparsa com MTP; riscos operacionais incluem uma equipa reduzida e com estrutura insuficiente que interrompe o treino quando as perdas aumentam, incorrendo em custos elevados.O MiMo-V2-Pro supostamente possui 1T de parâmetros treinados em milhares de GPUs, visando desempenho ao nível do Claude Opus 4.6. Utiliza atenção extremamente esparsa (7:1) com MTP; uma equipa pequena interrompe o treino instável para resolver problemas, arriscando milhões em custos.

AirdropBlackHole

2026-04-24 06:31:18

Geração de resumo em curso

De acordo com o monitoramento da Dongcha Beating, Luo Fuli, chefe da equipe de modelos grandes da Xiaomi, revelou na sua primeira entrevista aprofundada que a base do modelo MiMo-V2-Pro possui um total de 1T de parâmetros, utilizando milhares de GPUs para o treino. Ela acredita que uma escala de 1T é a linha de base para alcançar um desempenho próximo ao Claude Opus 4.6 e garantir entrada na próxima fase da competição de agentes. Em nível técnico, a versão Pro aumenta a proporção de atenção global para atenção de janela deslizante para uma proporção esparsa extrema de 7:1, controlando o custo de raciocínio para textos longos enquanto expande o número de parâmetros, e continua a usar a arquitetura MTP (Previsão de Multi-Token) para aproveitar o poder de computação excedente para uma inferência acelerada. No lado da gestão, apenas cerca de 30 a 40 membros da equipe MiMo, de cem, estão diretamente envolvidos nas iterações principais, sem níveis de trabalho estabelecidos, divisões claras de grupo ou prazos de entrega. Ao encontrar problemas numéricos instáveis, como mudanças súbitas na perda de treino, a equipe opta por interromper o treino para solucionar problemas, mesmo que isso signifique parar por uma ou duas semanas e incorrer em milhões de custos de computação.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
160.43K Popularidade
#
CryptoMarketSeesVolatility
225.13K Popularidade
#
IsraelStrikesIranBTCPlunges
31.84K Popularidade
#
rsETHAttackUpdate
69.76K Popularidade
#
US-IranTalksStall
177.52K Popularidade

Fixar

Xiaomi revela detalhes de treino do modelo 1T MiMo-V2-Pro: milhares de GPUs utilizadas, sem níveis de trabalho ou prazos

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Fixar