Quelque chose s'est discrètement inversé dans le calcul de l'IA cette année, et cela change ce à quoi sert réellement le déploiement.


En 2023, les 2/3 du calcul de l'IA étaient consacrés à l'entraînement, le travail réel de construction d'un modèle. L'autre partie, plus petite, allait à l'inférence, le travail de l'exécuter une fois construit. Mais ce rapport a discrètement commencé à s'inverser.
L'inférence représente désormais 2/3 et continue d'augmenter, selon Deloitte, et les puces conçues pour l'exécuter ont franchi $50B cette année.
La principale raison pour laquelle ce basculement est important (et ce n'est pas en termes de pourcentage) : l'entraînement et l'inférence sont des bêtes différentes. L'entraînement se fait par à-coups, sur un seul cluster géant, puis c'est fini. L'inférence ne s'arrête jamais. Elle s'exécute chaque fois que quelqu'un envoie une invite ou qu'un agent fait un pas, et elle évolue avec chaque utilisateur que vous ajoutez. L'un est un projet de construction. L'autre est une facture de services publics qui ne cesse de croître.
Chaque hypothèse sur l'infrastructure de l'IA a été construite autour de l'entraînement, parce que c'est là que l'argent allait. L'argent vient de se déplacer vers la charge de travail qui n'a pas besoin de résider dans un seul cluster pour fonctionner.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire