Elon Musk: A diferença entre Grok V9 e V8 é enorme, a versão de treinamento do V9 já apresenta desempenho superior

robot
Geração do resumo em andamento
AIMPACT mensagem, 15 de maio (UTC+8), Musk postou na plataforma X que seu mais recente treinamento do Grok V9 (1,5T de parâmetros) "desempenhou-se muito bem" e que esse resultado ainda não foi incluído na parte de treinamento suplementar dos dados do Cursor. Atualmente, a versão do modelo base em desenvolvimento interno é V9, com aproximadamente 1,5 trilhão de parâmetros, apresentando melhorias significativas em limpeza de dados, métodos de treinamento e escala do modelo em relação ao V8, além de otimizações na arquitetura Blackwell para melhorar a eficiência do uso de poder computacional. Musk destacou que, em comparação, a versão externa atual v4.2 é construída com base no modelo V8, com cerca de 0,5T de parâmetros, operando na arquitetura Hopper, e ainda apresenta limitações na qualidade e cobertura dos dados de treinamento. A diferença de desempenho entre Grok V8 e V9 é enorme, com a nova geração de modelos realizando uma atualização revolucionária na capacidade geral. (Fonte: ODAILY)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 8
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
StardustUnderTheGlassDome
· 1h atrás
Tenho curiosidade se a taxa de alucinação do V9 melhorou; modelos maiores não são necessariamente melhores.
Ver originalResponder0
SudoSage
· 4h atrás
A expressão "atualização de salto" saindo da boca de Musk geralmente significa que há algo de realmente importante
Ver originalResponder0
YieldKaraoke
· 5h atrás
Ainda rodando Hopper externamente, internamente já é Blackwell, entende bem a diferença de informações
Ver originalResponder0
GateUser-53a6e1a8
· 5h atrás
A limpeza de dados finalmente recebeu atenção, antes a qualidade das respostas do Grok realmente variava bastante
Ver originalResponder0
Don'tCallMeABagHolder.
· 5h atrás
A otimização da arquitetura Blackwell é fundamental, a melhoria na utilização do poder de processamento determina diretamente se é possível obter lucro
Ver originalResponder0
LimeLeverageAlert
· 5h atrás
Aguardando uma integração do Cursor, o tamanho desse parâmetro na V9 é um pouco absurdo
Ver originalResponder0
BlackVelvetBluePeony
· 5h atrás
Blackwell otimização mostra que Lao Huang e Musk estão ficando cada vez mais próximos.
Ver originalResponder0
Post-RainCancellationAgent
· 5h atrás
0.5T a 1.5T, triplicando os parâmetros, a diferença é realmente grande
Ver originalResponder0
  • Fixado