Elon Musk: La diferencia entre Grok V9 y V8 es enorme, la versión de entrenamiento de V9 ya muestra un rendimiento superior

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 15 de mayo (UTC+8), Musk publicó en la plataforma X que su última capacitación de Grok V9 (1.5T de parámetros) "funcionó muy bien", y que este resultado aún no se ha incluido en la parte de entrenamiento complementario de datos de Cursor. Actualmente, la versión del modelo base en desarrollo interno es V9, con un tamaño de aproximadamente 1.5 billones de parámetros, con mejoras significativas en limpieza de datos, métodos de entrenamiento y escala del modelo en comparación con V8, además de optimizaciones para la arquitectura Blackwell para mejorar la eficiencia en el uso del poder de cálculo. Musk enfatizó que, en comparación, la versión externa actual v4.2 se construye sobre el modelo base V8, con aproximadamente 0.5T de parámetros, funcionando en la arquitectura Hopper, y todavía tiene ciertas limitaciones en la calidad y cobertura de los datos de entrenamiento. La diferencia de rendimiento entre Grok V8 y V9 es enorme, y la nueva generación de modelos ha logrado una actualización revolucionaria en capacidades generales. (Fuente: ODAILY)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 8
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
StardustUnderTheGlassDome
· hace4h
¿Tiene alguna mejora la tasa de alucinaciones de V9? Los modelos grandes no son necesariamente mejores cuanto más grandes sean.
Ver originalResponder0
SudoSage
· hace7h
La expresión "actualización de salto" que sale de la boca de Musk, generalmente significa que realmente hay algo de peso.
Ver originalResponder0
YieldKaraoke
· hace8h
Aún están ejecutando Hopper externamente, pero internamente ya es Blackwell, entienden bien la diferencia de información
Ver originalResponder0
GateUser-53a6e1a8
· hace8h
La limpieza de datos finalmente ha recibido atención, antes la calidad de las respuestas de Grok realmente fluctuaba mucho.
Ver originalResponder0
Don'tCallMeABagHolder.
· hace8h
La optimización de la arquitectura de Blackwell es clave, y la mejora en la eficiencia del uso del poder de cómputo determina directamente si se puede obtener beneficios.
Ver originalResponder0
LimeLeverageAlert
· hace8h
Esperar a que se integre una mano Cursor, el tamaño de este parámetro en V9 es un poco exagerado
Ver originalResponder0
BlackVelvetBluePeony
· hace8h
La explicación de la optimización de Blackwell muestra que Lao Huang y Musk están cada vez más estrechamente vinculados.
Ver originalResponder0
Post-RainCancellationAgent
· hace8h
0.5T a 1.5T, tres veces más parámetros, la diferencia es realmente grande
Ver originalResponder0
  • Fijado