Musk: A diferença entre Grok V9 e V8 é enorme, a versão de treino do V9 já apresenta um desempenho superior

robot
Geração de resumo em curso
AIMPACT mensagem, 15 de maio (UTC+8), Musk publicou na plataforma X que seu mais recente treinamento do Grok V9 (1,5T de parâmetros) "está a funcionar muito bem" e que esse resultado ainda não foi incluído na parte de treino suplementar dos dados do Cursor.
A versão do modelo base atualmente em desenvolvimento internamente é V9, com cerca de 1,5 triliões de parâmetros, apresentando melhorias significativas em limpeza de dados, métodos de treino e escala do modelo em comparação com o V8, além de ter sido otimizada para a arquitetura Blackwell, a fim de melhorar a eficiência do uso de poder computacional.
Musk destacou que, em comparação, a versão externa atual v4.2 é construída com base no modelo V8, com cerca de 0,5T de parâmetros, operando na arquitetura Hopper, e ainda apresenta limitações em qualidade e abrangência dos dados de treino.
A diferença de desempenho entre Grok V8 e V9 é enorme, com a nova geração de modelos alcançando uma evolução revolucionária na capacidade geral.
(Fonte: ODAILY)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 8
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
StardustUnderTheGlassDome
· 4h atrás
Tenho curiosidade para saber se a taxa de alucinação do V9 melhorou, grandes modelos não são quanto maiores, melhor.
Ver originalResponder0
SudoSage
· 7h atrás
A expressão "actualização revolucionária" dita por Musk geralmente significa que há algo de realmente importante
Ver originalResponder0
YieldKaraoke
· 8h atrás
Ainda estão a usar Hopper externamente, internamente já usam Blackwell, entendem bem a diferença de informações
Ver originalResponder0
GateUser-53a6e1a8
· 8h atrás
A limpeza de dados finalmente começou a ser valorizada, anteriormente a qualidade das respostas do Grok realmente variava bastante.
Ver originalResponder0
Don'tCallMeABagHolder.
· 8h atrás
A otimização da arquitetura Blackwell é fundamental, a melhoria na utilização do poder de processamento determina diretamente se é possível obter lucro
Ver originalResponder0
LimeLeverageAlert
· 8h atrás
Aguardar uma integração do Cursor, o tamanho deste parâmetro na V9 é um pouco absurdo
Ver originalResponder0
BlackVelvetBluePeony
· 8h atrás
A explicação da otimização do Blackwell mostra que Lao Huang e Musk estão ficando cada vez mais ligados.
Ver originalResponder0
Post-RainCancellationAgent
· 8h atrás
0.5T a 1.5T, triplicando os parâmetros, a diferença é realmente grande
Ver originalResponder0
  • Fixado