Il y a des nouvelles intéressantes sur Groq qui circulent concernant la stratégie de NVIDIA dans le domaine de l'inférence. Il s'avère que Jensen Huang a récemment expliqué la véritable réflexion derrière leur décision de s'attaquer à Groq en premier lieu.



En décembre dernier, NVIDIA a dépensé $20 milliards pour acquérir l'activité de puces d'inférence de Groq. Le fondateur Jonathan Ross et son équipe principale ont rejoint NVIDIA, mais voici le point important — Groq fonctionne toujours de manière indépendante. Ensuite, lors du GTC en mars dernier, ils ont présenté la puce Groq 3 LPU construite sur le procédé 4nm de Samsung. Les chiffres de performance sont assez impressionnants : 35 fois le débit d'inférence par mégawatt sur des modèles à milliards de paramètres par rapport au Blackwell NVL72 de NVIDIA.

Mais ce qui a vraiment attiré mon attention, c'est l'explication de Huang sur la dynamique du marché qui motive cela. Il parle de la façon dont le marché de l'inférence se divise en différents segments. Pendant des années, tout le monde s'est concentré sur une seule chose : maximiser le débit. Mais cela change. L'économie des tokens a connu une évolution spectaculaire. Différents utilisateurs valorisent désormais différemment la rapidité de réponse, et sont prêts à payer en conséquence.

Huang l'a expliqué très clairement : si vous pouvez fournir aux développeurs des tokens à réponse plus rapide qui augmentent leur productivité, ils paieront des prix premium pour cette capacité. C'est un marché relativement nouveau qui n'a émergé que récemment. Il étend essentiellement la frontière de Pareto — en ajoutant un segment à faible latence et à prix par token plus élevé, en complément des solutions à haut débit existantes.

C'est là que l'architecture LPU de Groq entre en jeu. Elle est conçue pour une latence déterministe faible, ce qui est presque l'opposé de ce que les GPU optimisent. Les GPU excellent en débit. Donc, l'acquisition de Groq comble essentiellement une lacune dans la stratégie produit de NVIDIA. Vous pouvez exécuter le même modèle de deux manières différentes : maximiser le débit sur GPU, ou obtenir une latence ultra-faible avec le LPU de Groq. Des modèles de tarification différents pour des cas d'utilisation différents.

Les nouvelles concernant Groq mettent vraiment en lumière comment le marché de l'inférence IA mûrit au-delà du simple calcul brut. Il s'agit de comprendre ce dont différents clients ont réellement besoin et de construire l'outil adapté à chaque segment. Une move plutôt intelligente si vous me demandez.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler