L'IA PC est arrivée, avec une compatibilité locale pour un grand modèle de 120 milliards ! Nvidia redéfinit la base du « PC IA personnel » avec RTX Spark

Au cours des deux dernières années, les fabricants de PC ont répété à plusieurs reprises un paramètre lorsqu'ils faisaient la promotion du « PC IA » : la puissance NPU. Mais que ce soit les 45 TOPS du Lunar Lake d'Intel ou les 50 TOPS du Strix Point d'AMD, ces chiffres restent toujours à une échelle relativement modérée. Capables de faire du flou d'arrière-plan, de réduire le bruit vocal, d'exécuter quelques modèles côté appareil à petite échelle, mais c'est tout.

Le 31 mai, Nvidia a présenté lors du GTC 2026 la super puce RTX Spark, portant ce chiffre à 1 pétaflop, soit 1000 TOPS. Pas une augmentation de 30 % ou 50 %, mais un saut direct d’un ordre de grandeur.

D’autres annonces ont été faites le même jour : Microsoft a collaboré avec RTX Spark pour améliorer la sécurité native de Windows, et a intégré le sandbox open source OpenShell de Nvidia dans la plateforme Windows ; Adobe a annoncé une reconstruction en profondeur de Photoshop et Premiere, spécialement adaptée à l’architecture mémoire unifiée de RTX Spark ; six premiers fabricants OEM ont confirmé le lancement cet automne de laptops légers et d’ordinateurs de bureau compacts équipés de cette puce.

Ce que Nvidia fait lors de ce GTC ne consiste pas simplement à lancer une nouvelle puce. Elle tente de définir une nouvelle norme matérielle pour la catégorie des « PC IA personnels ».

image

Quand le GPU devient le protagoniste du PC

Commençons par cette puce elle-même. Selon les données communiquées par Nvidia lors du GTC, RTX Spark intègre un GPU basé sur l’architecture Blackwell, avec 6144 cœurs CUDA, associé à un CPU Grace à 20 cœurs Arm conçu en partenariat avec MediaTek, utilisant le procédé TSMC 3 nm. La principale innovation réside dans l’architecture mémoire : une mémoire unifiée pouvant atteindre 128 Go, où le CPU et le GPU partagent le même pool de mémoire, évitant ainsi les allers-retours de données entre eux.

Cela va à l’encontre de la logique architecturale traditionnelle du PC.

La structure de base d’un PC classique est « CPU x86 comme processeur principal, GPU indépendant comme option ». Même le concept récent de PC IA, avec Intel et AMD, consiste à intégrer une NPU dans le CPU, comme module d’accélération IA supplémentaire, avec une puissance généralement de 40 à 50 TOPS. Le GPU reste une « extension ».

RTX Spark redistribue le pouvoir. Cette SoC place le GPU au centre, reléguant le CPU au second rôle. La puissance IA fournie par Nvidia est de 1 pétaflop FP4, équivalent à 1000 TOPS, plus de 20 fois la puissance de la NPU intégrée dans la génération précédente de PC IA. Ce n’est pas une simple accélération sur la même voie, mais le départ sur une toute autre voie.

La rapidité de suivi par les OEM confirme cette analyse. Selon l’annonce officielle de Nvidia et les reportages de DIGITIMES, Asus, Dell, HP, Lenovo, Microsoft Surface et MSI lanceront cet automne des laptops légers et des mini-PC équipés de RTX Spark, avec Acer et GIGABYTE qui suivront. Presque toutes les grandes marques de PC Windows sont engagées.

image

RTX Spark n’est pas une création ex nihilo. Début 2025, un même cœur Blackwell avec Grace avait été présenté sous la forme de Project DIGITS et DGX Spark, mais à l’époque, il s’agissait d’un supercalculateur Linux destiné aux développeurs, de la taille d’un petit bureau. Un an plus tard, cette architecture a été intégrée dans des ordinateurs portables légers, avec le système d’exploitation changé de Linux à Windows, et le public cible élargi des développeurs IA aux consommateurs et entreprises. C’est cette évolution, lors de la présentation grand public du GTC 2026, qui est la plus notable : Nvidia ne lance pas un simple jouet pour développeurs, mais ouvre la porte au marché grand public.

120 milliards de paramètres en local, est-ce suffisant ?

Les chiffres de puissance et de mémoire doivent finalement répondre à une question : que peut-on faire avec ?

Lors de la conférence, Nvidia a affirmé que RTX Spark supporte l’exécution locale de modèles de 120 milliards de paramètres, avec une fenêtre contextuelle pouvant atteindre un million de tokens. Qu’est-ce que cela signifie ? En pratique, pour le matériel grand public actuel, exécuter un modèle localement se limite à environ 30 à 40 milliards de paramètres sur une RTX 4090 avec 24 Go de VRAM via compression quantifiée. Certains petits modèles, comme le 9 milliards, peuvent être rapidement exécutés sur une carte grand public. La différence entre 9 et 120 milliards redéfinit la norme de ce qui est « suffisant » pour l’IA côté appareil.

Une mémoire unifiée de 128 Go est la condition préalable à tout cela. Sur une architecture PC traditionnelle, le CPU dispose de sa propre mémoire système, le GPU de sa propre VRAM, avec une frontière physique entre les deux. Un modèle dépassant la capacité de VRAM ne peut pas être exécuté, sauf à recourir à des techniques complexes de partitionnement et d’échange de mémoire, ce qui réduit drastiquement la vitesse. L’architecture mémoire unifiée élimine ce goulot d’étranglement : les données du modèle sont directement placées dans le pool partagé de 128 Go, accessible à la fois par le CPU et le GPU. Apple Silicon a d’abord prouvé la faisabilité de cette approche pour le marché grand public, et Nvidia l’amène maintenant dans l’écosystème Windows.

Au-delà de l’inférence de grands modèles, Nvidia cite aussi des cas d’usage comme l’édition vidéo 12K, le rendu de scènes 3D de plus de 90 Go, ou les jeux en ray tracing à plus de 100 fps en 1440p. Ces scénarios ont en commun un volume de données extrêmement élevé, que le PC traditionnel ne peut traiter qu’avec un temps de traitement plusieurs fois supérieur ou tout simplement pas du tout.

Il y a encore un écart entre « supporte l’exécution » et « fonctionne de manière fluide ». Nvidia n’a pas publié de données sur la vitesse d’inférence réelle du modèle 120 milliards sur RTX Spark, ni sur la latence du premier token dans un contexte à million de tokens. La vitesse de traitement d’un contexte long dépend principalement de la bande passante mémoire. À titre de référence, le DGX Spark utilisant le même cœur GB10 affiche une bande passante mémoire d’environ 301 Go/s. Avec cette bande passante, le modèle 120 milliards est réalisable, mais pour un contexte à million de tokens, l’utilisateur devra attendre plusieurs secondes pour voir le premier token. La version portable de RTX Spark pourrait voir sa bande passante réelle encore limitée par la consommation électrique.

Ajouter une barrière de sécurité pour l’agent IA

Au-delà de la puissance, une autre annonce clé concerne la coopération entre Nvidia et Microsoft au niveau du système. C’est peut-être le point le plus facilement négligé, mais aussi celui qui aura le plus d’impact sur l’industrie lors de ce GTC 2026.

Un ordinateur capable d’exécuter un modèle de 120 milliards de paramètres, confié à un agent IA autonome capable d’interagir avec le bureau, de cliquer, de lire et écrire des fichiers, ne pose plus seulement la question de « perte de données » mais celle de « l’agent pourrait faire ce que vous ne souhaitez pas ». Sans solution à ce problème, aucune entreprise ne déploiera ce type d’appareil à ses employés.

La réponse de Nvidia et Microsoft consiste en deux couches de défense. La première, Microsoft a renforcé la sécurité native de Windows, pour surveiller et contraindre le comportement de l’agent IA au niveau du système d’exploitation. La seconde, Nvidia a intégré officiellement OpenShell, un environnement sandbox open source, dans Windows. Selon la documentation officielle, OpenShell est un runtime de sandbox open source offrant une isolation au niveau du noyau. Il délimite un espace contrôlé dans lequel l’agent IA peut exécuter ses tâches de façon autonome, mais avec des permissions strictement limitées : il ne peut pas accéder aux fichiers système critiques, aux connexions réseau ou aux données sensibles de l’utilisateur.

Ce dispositif a une signification claire pour les entreprises : jusqu’ici, le concept d’« agent IA local » restait au stade de la démonstration technique. Le matériel pouvait supporter la charge, mais le cadre de sécurité était inexistant. Aucune entreprise n’oserait intégrer un tel dispositif dans ses achats. Nvidia et Microsoft insèrent une couche d’isolation standardisée entre le matériel et l’application, transformant « ça peut servir » en « c’est gérable ».

La performance de OpenShell reste à observer. L’impact sur la vitesse d’inférence ou la réactivité du système, dû à l’isolation sandbox, n’a pas encore été publié par Nvidia. La complexité de déploiement pour l’IT d’entreprise, la compatibilité avec les politiques de sécurité existantes, sont autant de questions qui devront attendre la sortie des appareils OEM pour être vérifiées.

Pourquoi Adobe veut « reconstruire en profondeur » ?

La coopération des éditeurs de logiciels est souvent un indicateur clé pour juger si une nouvelle plateforme matérielle peut s’établir durablement.

Ce que Adobe a annoncé lors du GTC constitue le signal logiciel le plus fort de cette série de lancements. Selon le blog officiel de Nvidia et la confirmation de ses dirigeants, Adobe a lancé une reconstruction en profondeur de Photoshop et Premiere, spécialement adaptée à l’architecture mémoire unifiée de RTX Spark, avec une promesse d’amélioration des performances IA et graphique pouvant atteindre 2 fois.

« Reconstruction en profondeur » ne signifie pas simplement ajouter un plugin ou faire une adaptation superficielle. Sur un PC traditionnel, le CPU et le GPU disposent chacun de leur propre espace mémoire, et le traitement d’un fichier PSD ultra-large ou d’une timeline 8K implique des transferts répétés entre ces deux mémoires, ce qui est une source majeure de perte de performance. La mémoire unifiée de RTX Spark permet au CPU et au GPU de partager directement le même espace de 128 Go, ce qui a une valeur concrète pour le flux de travail des créateurs professionnels. Adobe modifie le code de bas niveau, ce qui montre qu’elle valide cette architecture comme une orientation sérieuse, pas une simple opération marketing.

Mais, quelle est la référence pour cette « accélération de 2 fois » ? Nvidia et Adobe n’ont pas publié de benchmark précis. S’agit-il de comparer avec un processeur x86 de la même génération avec une carte graphique dédiée, ou avec la NPU de la génération précédente de PC IA ? La réponse pourrait être très différente. Avant la publication de résultats concrets, cette valeur doit être considérée avec prudence.

Par ailleurs, d’autres partenaires comme Blackmagic Design, ComfyUI, llama.cpp, OTOY, ainsi que plusieurs éditeurs de jeux, ont annoncé leur soutien. La prise en charge de ComfyUI et llama.cpp, qui sont parmi les outils open source les plus actifs dans le workflow IA local, est particulièrement notable : le soutien précoce de la communauté de développeurs reflète souvent plus fidèlement le potentiel d’un écosystème qu’une simple promesse de grandes entreprises.

Nvidia construit avec CUDA et l’architecture mémoire unifiée une expérience semblable à celle d’Apple, dans l’écosystème Windows. La différence, c’est qu’Apple a construit ses propres murs, Nvidia doit convaincre Microsoft et les ISV de participer à cette construction. La volonté d’Adobe de s’attaquer en profondeur à cette architecture montre que la première pierre de ce mur a été posée.

Au-delà des paramètres en fiche technique

Revenons à une question très concrète : ces appareils seront-ils réellement disponibles à l’achat, et à quoi ressemblera l’expérience ?

Selon Nvidia, les premiers appareils RTX Spark seront lancés cet automne, avec des laptops légers et des mini-PC de Asus, Dell, HP, Lenovo, Microsoft Surface et MSI. Acer et GIGABYTE suivront. Aucun prix ni date précise n’a été communiqué.

Plus important que le prix, plusieurs inconnues physiques subsistent. Comment équilibrer la consommation électrique et la dissipation thermique pour une puce capable de 1 pétaflop ? La performance et l’autonomie en usage quotidien en dehors de l’IA, notamment dans un laptop, seront-elles à la hauteur ? La bande passante réelle de la mémoire unifiée de 128 Go dans un format portable sera-t-elle limitée par la consommation électrique ?

Ce sont ces questions qui détermineront la faisabilité industrielle. La puissance maximale d’un prototype ne reflète pas forcément la performance réelle en usage quotidien. Nvidia a souligné l’efficacité énergétique de RTX Spark, mais n’a pas publié de chiffres précis sur le TDP ou l’autonomie.

Du point de vue de la configuration du marché PC, l’émergence de RTX Spark marque une nouvelle organisation des rôles. Pendant trente ans, la puissance des processeurs x86 a dominé le cœur du marché, avec le GPU comme composant additionnel. Nvidia propose une SoC complète, intégrant CPU, GPU et contrôleur mémoire, avec un CPU Arm conçu par MediaTek. La chaîne de valeur du PC évolue d’un modèle « x86 + GPU optionnel » vers un modèle « plateforme SoC centrée sur le GPU ».

Ce changement ne sera pas immédiat. La stratégie tarifaire des OEM, la performance réelle en termes d’efficacité, l’adaptation des logiciels par les ISV, le cycle de validation des achats par les entreprises, chaque étape déterminera si RTX Spark devient une nouvelle référence dans le marché PC ou un simple démonstrateur technologique à haut potentiel. La réponse ne sera connue qu’à l’automne.

NVDAX-0,59%
AAPLX3,09%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé