42 millions ! Yuntian Lifei commence l'année en beauté en remportant le projet de cluster d'inférence AI de Zhanjiang à mille calories

MaticHoleFiller · 2026-03-21T04:13:51+00:00

Yuntian Leifei a remporté l'appel d'offres pour le projet de construction d'infrastructures de support de pénétration de l'IA à Zhanjiang, établissant un cluster de puissance de calcul basé sur sa carte d'accélération d'inférence IA propriétaire, optimisant l'architecture d'inférence des grands modèles, améliorant l'efficacité du système et soutenant les applications numériques gouvernementales et industrielles. Parallèlement, l'entreprise continuera à promouvoir la R&D des puces d'inférence IA, prévoyant de lancer des puces Prefill et Decode optimisées, en s'efforçant de réduire les coûts d'inférence des grands modèles.

MaticHoleFiller

2026-03-21 04:13:51

Création du résumé en cours

（来源：云天励飞）

Récemment, Yun Tian Li Fei a remporté le marché pour le projet de construction d’infrastructures de soutien à la nouvelle productivité basée sur l’IA à Zhanjiang. Selon le plan du projet, l’entreprise participera à la construction d’un cluster de puissance de calcul pour l’inférence IA en utilisant sa propre carte d’accélération IA nationale, et favorisera l’adaptation et le déploiement de grands modèles nationaux tels que DeepSeek dans des scénarios d’application pertinents, afin de fournir une infrastructure de puissance de calcul pour la digitalisation des gouvernements et des industries.

Construction d’une infrastructure de puissance de calcul pour l’inférence de grands modèles

Le cluster de puissance de calcul pour l’inférence IA construit dans le cadre de ce projet sera conçu de manière systématique autour des besoins en inférence de grands modèles.

Lors du processus d’inférence de grands modèles, les besoins en ressources du système varient selon les différentes phases. Actuellement, l’industrie adopte généralement une architecture d’inférence « Pré-remplissage – Décodage séparés », qui optimise la configuration des ressources pour chaque phase afin d’améliorer l’efficacité globale du système.

Dans cette architecture, la phase de Pré-remplissage est principalement responsable de la compréhension du contexte long et du calcul, nécessitant une grande puissance de calcul et une large bande passante ; la phase de Décodage, quant à elle, génère en continu des tokens, étant plus sensible à la latence du système. Pendant la construction du projet, la configuration des ressources en puissance de calcul et l’optimisation du système seront adaptées aux caractéristiques de chaque phase.

Par ailleurs, avec l’augmentation constante de la longueur du contexte du modèle, un grand nombre d’états intermédiaires doivent être stockés sous forme de cache KV. En se concentrant sur cette caractéristique, le projet a optimisé la collaboration entre calcul, stockage et réseau dans la conception du système, afin d’améliorer l’efficacité d’accès aux données et la performance globale du système.

Concernant l’architecture réseau, le système adoptera une architecture unifiée de haute vitesse, construite via un réseau optique 400G pour le réseau physique du cluster, permettant une communication à large bande passante et à faible latence entre les nœuds, et supportant une extension du cluster de dizaines de cartes à des milliers de cartes pour répondre aux besoins variés des applications IA.

Une fois le projet entièrement réalisé, il établira une infrastructure de puissance de calcul dédiée à l’inférence de grands modèles, fournissant un support stable pour diverses applications.

Poursuite du développement technologique des puces d’inférence IA et des systèmes de puissance de calcul

Selon le plan, le cluster d’inférence IA sera construit en trois phases, utilisant la carte d’accélération IA nationale développée par Yun Tian Li Fei.

La première phase déploiera la carte d’accélération d’inférence X6000 de Yun Tian Li Fei ; à l’avenir, la société équipera en priorité ses dernières générations de puces.

En ce qui concerne la R&D des puces d’inférence IA, Yun Tian Li Fei poursuit activement le développement de technologies adaptées aux différentes phases d’inférence. Selon la stratégie de l’entreprise, elle lancera progressivement des puces optimisées pour la phase de Pré-remplissage, ainsi que des puces d’inférence à faible latence pour la phase de Décodage, en optimisant davantage la performance globale par une collaboration au niveau du système.

Parmi celles-ci, la première puce de pré-remplissage, DeepVerse100, conçue pour l’inférence sur de longs contextes, devrait être finalisée dans l’année et déployée dans les systèmes de puissance de calcul concernés.

Concernant la planification technologique à long terme, l’entreprise a lancé le « Plan 1001 », visant à atteindre l’objectif à long terme de « cent milliards de tokens pour un centime », en optimisant la conception des puces et des systèmes de puissance de calcul pour réduire continuellement le coût de l’inférence de grands modèles.

À l’avenir, l’entreprise continuera à promouvoir la R&D des technologies liées aux puces d’inférence IA, afin de favoriser une adoption plus large de l’intelligence artificielle dans divers secteurs.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.