Situation de diffusion de l'IA… La clé de la victoire ou de la défaite ne réside pas dans la « concurrence GPU », mais dans une infrastructure d'inférence rentable et efficace en termes de coûts

robot
Création du résumé en cours

Alors que les entreprises introduisent l’intelligence artificielle (IA) au-delà de la phase expérimentale pour entrer dans une phase de diffusion complète, la clé de la victoire sur le marché est également en train de changer. Aujourd’hui, le cœur de la compétition ne consiste plus simplement à accumuler des modèles plus grands et plus de processeurs graphiques (GPU), mais à savoir qui peut construire un « système d’inférence IA évolutif » capable de fonctionner de manière stable tout en contrôlant le budget.

Red Hat et Intel suivent cette tendance en accélérant l’expansion de l’infrastructure d’inférence IA basée sur des technologies open source. Taneem Ibrahim, responsable de l’ingénierie de l’inférence IA chez Red Hat, et Bill Pearson, vice-président du département Data Center et IA chez Intel, ont indiqué lors du « Red Hat Summit 2026 » que le défi réel de l’exploitation de services IA à grande échelle réside dans la rentabilité et l’optimisation de la composition de l’infrastructure.

De la tendance à un GPU unique à la stratégie parallèle CPU

Lors de la phase initiale de diffusion de l’IA générative, après l’émergence de ChatGPT et des modèles à poids ouverts, la pratique principale consistait à déployer autant que possible de grands modèles sur d’énormes clusters GPU. Cependant, dans un environnement d’entreprise réel, le coût d’exploitation et la contrôlabilité deviennent aussi importants que la performance. À ce stade, la question clé est de savoir comment faire évoluer efficacement les modèles sur des plateformes telles que Red Hat Enterprise Linux (RHEL) et OpenShift.

Ibrahim a déclaré que Red Hat réfléchit de plus en plus à la manière d’exploiter l’un de ses projets open source les plus contributifs, « vLLM », dans des environnements à grande échelle. Il a souligné que le défi principal consiste à réduire le « coût par token » afin de pouvoir appliquer l’IA à des cas d’usage concrets tout en maintenant la gouvernance, permettant ainsi un déploiement à grande échelle.

Récemment, l’ordre de priorité des infrastructures évolue également. Pearson explique qu’à la différence de la phase initiale centrée sur le GPU, avec la diffusion de l’« IA proxy », le rôle du processeur central (CPU) redevient crucial. Cela signifie que toutes les tâches IA ne nécessitent pas forcément un GPU ; en fonction du type de charge de travail, une combinaison judicieuse de CPU et GPU devient plus importante.

Red Hat et Intel étendent la prise en charge de vLLM basée sur Xeon

Sur cette base, les deux entreprises ont intégré dans la version « Red Hat AI 3.4 » la prise en charge complète de vLLM dans un environnement Intel Xeon. L’approche n’est pas de recommander une configuration uniforme à tous les clients, mais de concevoir une combinaison matérielle et logicielle adaptée aux caractéristiques et aux résultats attendus de chaque entreprise.

Pearson analyse que de nombreuses entreprises ont auparavant adopté une approche « avec un marteau en main, tout semble un clou », centrée sur le GPU. Mais il explique que si l’on réévalue les ressources CPU déjà déployées à grande échelle dans les centres de données et qu’on opte pour une addition à la demande de GPU, on peut atteindre à la fois de meilleures performances et des coûts plus faibles.

En particulier, des tâches proxy telles que l’appel d’outils ou l’orchestration de données peuvent souvent être traitées sans GPU. Intel estime que faire en sorte que le CPU prenne en charge ces tâches d’inférence permettrait de libérer le GPU pour des calculs plus lourds, améliorant ainsi l’efficacité globale du système.

Concurrence dans l’infrastructure IA : « efficacité opérationnelle » de plus en plus importante que la « performance »

Ce débat montre que le marché de l’IA a aujourd’hui dépassé la simple compétition sur la performance des modèles pour se concentrer sur la rentabilité en phase opérationnelle. Pour les entreprises, il ne s’agit plus seulement d’acquérir le matériel le plus puissant, mais de mieux exploiter les actifs existants dans les centres de données tout en réalisant un « coût par token » faible et une stabilité de service, ce qui devient une préoccupation plus concrète.

En fin de compte, le gagnant de la prochaine génération de compétition IA ne sera probablement pas l’entreprise disposant du matériel le plus puissant, mais celle qui, grâce à une combinaison appropriée de CPU et GPU et à un logiciel open source, pourra maximiser le « rapport coût-efficacité ». La collaboration entre Red Hat et Intel est également vue comme une démarche pour suivre cette tendance du marché.

TP AI Avertissement : Cet article est un résumé basé sur le modèle linguistique TokenPost.ai. Le contenu principal peut comporter des omissions ou des inexactitudes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler