Así que hay algunas noticias interesantes sobre Groq que están circulando acerca del movimiento estratégico de NVIDIA en el espacio de inferencia. Resulta que Jensen Huang acaba de explicar el verdadero razonamiento detrás de por qué fueron tras Groq en primer lugar.



El pasado diciembre, NVIDIA desembolsó $20 mil millones para adquirir el negocio de chips de inferencia de Groq. El fundador Jonathan Ross y su equipo principal se unieron a NVIDIA, pero aquí está lo importante—Groq todavía opera de manera independiente. Luego, en GTC en marzo pasado, mostraron el chip Groq 3 LPU construido con el proceso de 4nm de Samsung. Los números de rendimiento son bastante impresionantes: 35 veces la capacidad de inferencia por megavatio en modelos de trillones de parámetros en comparación con el NVL72 Blackwell de NVIDIA.

Pero lo que realmente llamó mi atención fue la explicación de Huang sobre la dinámica del mercado que impulsa esto. Él habla de cómo el mercado de inferencia se está dividiendo en diferentes segmentos. Durante años, todos se centraron en una cosa: maximizar el rendimiento. Pero eso está cambiando. La economía de tokens ha cambiado drásticamente. Los diferentes usuarios ahora valoran diferentes velocidades de respuesta de manera distinta, y están dispuestos a pagar en consecuencia.

Huang lo explicó bastante claramente: si puedes ofrecer a los desarrolladores tokens de respuesta más rápida que los hagan más productivos, pagarán precios premium por esa capacidad. Este es un mercado relativamente nuevo que ha surgido recientemente. Esencialmente, está expandiendo la frontera de Pareto—añadiendo un segmento de baja latencia y mayor precio por token junto a las soluciones de alto rendimiento existentes.

Ahí es donde entra la arquitectura LPU de Groq. Está diseñada para una latencia determinista baja, que es casi lo opuesto a lo que optimizan las GPUs. Las GPUs destacan en rendimiento. Así que la adquisición de Groq básicamente llena un vacío en la estrategia de productos de NVIDIA. Puedes ejecutar el mismo modelo de dos maneras diferentes: maximizar el rendimiento en GPUs, o conseguir una latencia ultra baja en la LPU de Groq. Modelos de precios diferentes para diferentes casos de uso.

Las noticias sobre Groq aquí realmente resaltan cómo el mercado de inferencia de IA está madurando más allá del simple cómputo bruto. Se trata de entender qué necesitan realmente diferentes clientes y construir la herramienta adecuada para cada segmento. Un movimiento bastante inteligente si me preguntas.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado