L'intelligence artificielle moderne est dominée par 5 architectures matérielles, chacune faisant des compromis différents entre flexibilité, parallélisme et accès mémoire.


CPU : conception de calcul général, avec peu de cœurs puissants, spécialisé dans la logique complexe, les branches conditionnelles et les tâches système. Il dispose de caches profonds et de DRAM hors puce (mémoire principale), adapté aux systèmes d'exploitation, bases de données, etc., mais moins efficace pour les multiplications matricielles répétitives nécessaires aux réseaux neuronaux.
GPU : pas quelques cœurs puissants, mais des milliers de cœurs plus petits exécutant simultanément la même instruction (SIMD). Ce parallélisme élevé correspond parfaitement aux opérations mathématiques des réseaux neuronaux, ce qui en fait la principale architecture pour la formation de l'IA.
TPU (conçu par Google) : encore plus spécialisé. La grille est composée d'unités de multiplication-accumulation (MAC), avec un flux de données en « vagues » — les poids entrent d’un côté, les valeurs d’activation de l’autre, et le résultat se propage directement, sans réécriture en mémoire à chaque étape. L’ensemble de l’exécution est contrôlé par le compilateur (pas par la planification matérielle), optimisé pour les charges de travail des réseaux neuronaux.
NPU (Neural Processing Unit) : version optimisée pour l’edge. Intègre un Neural Compute Engine (grande matrice MAC + SRAM sur puce), mais utilise une mémoire système à faible consommation plutôt que la mémoire haute bande passante HBM. L’objectif est d’exécuter l’inférence dans des scénarios comme les smartphones, appareils portables, IoT, avec une consommation de quelques watts (Apple Neural Engine, Intel NPU en font partie).
LPU (Language Processing Unit, lancé par Groq) : membre le plus récent. Supprime complètement la mémoire hors puce, tous les poids étant stockés dans le SRAM sur puce. Exécution entièrement déterministe, planifiée par le compilateur, sans cache manqué ni surcharge de planification à l’exécution. Le coût est une mémoire limitée sur une seule puce, nécessitant des centaines de puces interconnectées pour de grands modèles, mais avec un avantage de latence très marqué.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler