Voici la répartition du calcul IA que peu de gens lisent correctement.


L'entraînement de pointe se concentre de plus en plus chaque trimestre, des milliers de GPU qui doivent être placés au même endroit et interconnectés. Mais l'entraînement ne représente que 30% de la demande en 2026. Les 70% restants sont l'inférence, et l'exécuter sur un hyperscaler signifie payer pour une infrastructure conçue pour la charge de travail la plus difficile afin d'effectuer la plus facile.
Sur les réseaux distribués, cette même inférence pourrait être 45 à 75 % moins chère, et pour quiconque dimensionne un budget d'infrastructure IA, cet écart est toute l'histoire.
L'entraînement se centralise par nécessité. L'inférence se fragmente car payer les marges d'AWS pour une charge de travail qui n'en a pas besoin cesse d'être pertinent à grande échelle.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé