Vercel : Le volume d'appels de tokens de DeepSeek dépasse celui d'OpenAI, le coût ne représentant que 1 % des dépenses totales

robot
Création du résumé en cours
ME AI Message, selon la surveillance de Beating, Vercel a publié l'indice de production AI Gateway pour juin 2026. Le rapport indique qu'avec le lancement en mai de la série DeepSeek V4 (incluant Flash et Pro) sur Vercel Gateway, la part de trafic Token de DeepSeek a explosé en un mois, passant de moins de 1 % à 17 %, dépassant OpenAI (13 %) pour se classer troisième. Cependant, en raison de prix extrêmement bas, le coût total pour tous les utilisateurs utilisant DeepSeek ne représente qu'environ 1 % des dépenses globales du gateway. Le prix est la principale raison de l'explosion rapide de DeepSeek. Les frais pour un million de tokens d'entrée et de sortie de DeepSeek V4 Flash ne sont que de 0,14 USD et 0,28 USD, soit 20 à 50 fois moins cher que des modèles de pointe similaires d'Anthropic, et 8 à 12 fois moins que Qwen 3.6 Plus et Kimi K2.6. Les évaluations montrent que la performance de DeepSeek V4 est conforme, ce qui a permis à l'équipe de développement de déployer rapidement en production. Malgré la croissance du trafic des modèles à faible coût, les modèles de pointe dominent toujours en termes de consommation de fonds. En mai, la part des dépenses d'Anthropic est passée de 61 % à 65 %, représentant 70 % à 80 % des dépenses dans des scénarios complexes tels que la génération d'applications, les agents en arrière-plan et la programmation. Par exemple, dans le scénario d'agents de programmation, DeepSeek représente 49 % du trafic Token, mais seulement 4 % des coûts, tandis qu'Anthropic, avec 28 % du trafic, consomme 70 % des fonds. L'équipe de développement gère le budget via une gestion intelligente du routage, en déviant les tâches à faible fréquence et faible risque vers des modèles à faible coût, n'utilisant les modèles de pointe qu'aux étapes clés. La considération du retour sur investissement (ROI) ralentit également la mise à niveau des modèles. Par exemple, le lancement de Google en mai de Gemini 3.5 Flash, dont le prix est supérieur à celui de la version 3.0, a entraîné une migration lente, et à la fin du mois, 3.0 Flash représentait encore 90 % du trafic de la série Flash, tandis que 3.5 Flash ne représentait que 7 %. Par ailleurs, les agents intelligents AI montrent une densité de consommation de tokens extrêmement élevée, utilisant plus de la moitié des tokens avec un quart des requêtes. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé