Avec la mise en œuvre complète de l'IA, la compétition entre entreprises passe de la simple recherche de performances matérielles à la construction de systèmes d'inférence évolutifs et à faible coût. Red Hat et Intel prennent en charge de manière exhaustive l'open source vLLM dans l'environnement des processeurs Xeon, favorisant le déploiement hybride CPU-GPU, et en permettant au CPU de gérer l'inférence d'IA en mode proxy, en utilisant le GPU uniquement lorsque cela est nécessaire, ce qui réduit le coût par token et améliore l'efficacité de la gouvernance et des opérations. L'avenir de la victoire ou de la défaite en IA dépendra du rapport coût-efficacité, de la combinaison de logiciels open source et de matériel optimisé.

TechubNews

2026-05-13 16:10:08

Création du résumé en cours

Alors que les entreprises introduisent l’intelligence artificielle (IA) au-delà de la phase expérimentale pour entrer dans une phase de diffusion complète, la clé de la victoire sur le marché est également en train de changer. Aujourd’hui, le cœur de la compétition ne consiste plus simplement à accumuler des modèles plus grands et plus de processeurs graphiques (GPU), mais à savoir qui peut construire un « système d’inférence IA évolutif » capable de fonctionner de manière stable tout en contrôlant le budget.

Red Hat et Intel suivent cette tendance en accélérant l’expansion de l’infrastructure d’inférence IA basée sur des technologies open source. Taneem Ibrahim, responsable de l’ingénierie de l’inférence IA chez Red Hat, et Bill Pearson, vice-président du département Data Center et IA chez Intel, ont indiqué lors du « Red Hat Summit 2026 » que le défi réel de l’exploitation de services IA à grande échelle réside dans la rentabilité et l’optimisation de la composition de l’infrastructure.

De la tendance à un GPU unique à la stratégie parallèle CPU

Lors de la phase initiale de diffusion de l’IA générative, après l’émergence de ChatGPT et des modèles à poids ouverts, la pratique principale consistait à déployer autant que possible de grands modèles sur d’énormes clusters GPU. Cependant, dans un environnement d’entreprise réel, le coût d’exploitation et la contrôlabilité deviennent aussi importants que la performance. À ce stade, la question clé est de savoir comment faire évoluer efficacement les modèles sur des plateformes telles que Red Hat Enterprise Linux (RHEL) et OpenShift.

Ibrahim a déclaré que Red Hat réfléchit de plus en plus à la manière d’exploiter l’un de ses projets open source les plus contributifs, « vLLM », dans des environnements à grande échelle. Il a souligné que le défi principal consiste à réduire le « coût par token » afin de pouvoir appliquer l’IA à des cas d’usage concrets tout en maintenant la gouvernance, permettant ainsi un déploiement à grande échelle.

Récemment, l’ordre de priorité des infrastructures évolue également. Pearson explique qu’à la différence de la phase initiale centrée sur le GPU, avec la diffusion de l’« IA proxy », le rôle du processeur central (CPU) redevient crucial. Cela signifie que toutes les tâches IA ne nécessitent pas forcément un GPU ; en fonction du type de charge de travail, une combinaison judicieuse de CPU et GPU devient plus importante.

Red Hat et Intel étendent la prise en charge de vLLM basée sur Xeon

Sur cette base, les deux entreprises ont intégré dans la version « Red Hat AI 3.4 » la prise en charge complète de vLLM dans un environnement Intel Xeon. L’approche n’est pas de recommander une configuration uniforme à tous les clients, mais de concevoir une combinaison matérielle et logicielle adaptée aux caractéristiques et aux résultats attendus de chaque entreprise.

Pearson analyse que de nombreuses entreprises ont auparavant adopté une approche « avec un marteau en main, tout semble un clou », centrée sur le GPU. Mais il explique que si l’on réévalue les ressources CPU déjà déployées à grande échelle dans les centres de données et qu’on opte pour une addition à la demande de GPU, on peut atteindre à la fois de meilleures performances et des coûts plus faibles.

En particulier, des tâches proxy telles que l’appel d’outils ou l’orchestration de données peuvent souvent être traitées sans GPU. Intel estime que faire en sorte que le CPU prenne en charge ces tâches d’inférence permettrait de libérer le GPU pour des calculs plus lourds, améliorant ainsi l’efficacité globale du système.

Concurrence dans l’infrastructure IA : « efficacité opérationnelle » de plus en plus importante que la « performance »

Ce débat montre que le marché de l’IA a aujourd’hui dépassé la simple compétition sur la performance des modèles pour se concentrer sur la rentabilité en phase opérationnelle. Pour les entreprises, il ne s’agit plus seulement d’acquérir le matériel le plus puissant, mais de mieux exploiter les actifs existants dans les centres de données tout en réalisant un « coût par token » faible et une stabilité de service, ce qui devient une préoccupation plus concrète.

En fin de compte, le gagnant de la prochaine génération de compétition IA ne sera probablement pas l’entreprise disposant du matériel le plus puissant, mais celle qui, grâce à une combinaison appropriée de CPU et GPU et à un logiciel open source, pourra maximiser le « rapport coût-efficacité ». La collaboration entre Red Hat et Intel est également vue comme une démarche pour suivre cette tendance du marché.

TP AI Avertissement : Cet article est un résumé basé sur le modèle linguistique TokenPost.ai. Le contenu principal peut comporter des omissions ou des inexactitudes.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.52M Popularité
#
AprilCPIComesInHotterAt3.8%
12.61M Popularité
#
IsraelStrikesIranBTCPlunges
46.51K Popularité
#
#DailyPolymarketHotspot
914.6K Popularité
#
WalshConfirmedAsFedChair
1.98M Popularité

Épingler

Situation de diffusion de l'IA… La clé de la victoire ou de la défaite ne réside pas dans la « concurrence GPU », mais dans une infrastructure d'inférence rentable et efficace en termes de coûts

Red Hat et Intel étendent la prise en charge de vLLM basée sur Xeon

Sujets populaires

GateSquareMayTradingShare

AprilCPIComesInHotterAt3.8%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

WalshConfirmedAsFedChair

Épingler