DeepSeek V4 suscite un débat aux États-Unis : un groupe de réflexion affirme qu'il accuse un retard de six mois en raison de puces interdites, un PDG de la Silicon Valley prône l'innovation ouverte

Selon la surveillance de Dongcha Beating, Chris McGuire, chercheur principal sur la Chine et les technologies émergentes au Conseil des Relations Extérieures (CFR) et ancien membre du Conseil de sécurité nationale de la Maison Blanche et du Département de la Défense, a déclaré que V4 n’avait pas modifié le paysage concurrentiel de l’IA entre la Chine et les États-Unis. Il a cité le rapport original de V4, qui indique que DeepSeek lui-même admet que ses capacités de raisonnement sont « environ 3 à 6 mois derrière les modèles leaders », faisant référence à GPT-5.2 et Gemini 3.0 Pro, sortis il y a six mois. Il a également questionné pourquoi le rapport V4 a divulgué la compatibilité avec les GPU NVIDIA et les NPU Huawei Ascend pour l’inférence, mais n’a pas révélé les modèles spécifiques de GPU et les coûts utilisés pour l’entraînement (V3 avait affirmé utiliser 2000 H800 à un coût de 5,57 millions de dollars), suggérant que le silence implique l’utilisation de puces NVIDIA Blackwell contrôlées par exportation. Auparavant, des responsables du gouvernement américain ont anonymement fait des affirmations similaires en février, que NVIDIA a qualifiées de « farfelues » ; DeepSeek a nié utiliser Blackwell, déclarant que le modèle avait été entraîné sur NVIDIA H800 et Huawei Ascend 910C. En revanche, le PDG de Replit, Amjad Masad, a soutenu que, alors que les politiciens et lobbyistes américains alimentent la crainte d’une « distillation chinoise », les scientifiques chinois partagent ouvertement de véritables avancées en IA. Il a fait référence aux innovations structurelles listées dans les tweets officiels de DeepSeek, notamment la compression de l’attention au niveau des tokens (DeepSeek Sparse Attention) et des améliorations significatives de l’efficacité computationnelle dans les longs contextes, soulignant que la puissance de raisonnement d’un seul token de V4-Pro et l’utilisation du cache KV à 1 million de contexte sont bien inférieures à celles de V3.2. Masad pense que ces innovations architecturales sont totalement indépendantes de la distillation des données d’entraînement, et que tout le monde peut bénéficier des développements open-source, y compris les laboratoires de toutes tailles aux États-Unis.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler