Les entreprises américaines se tournent vers les modèles d'IA chinois, Coinbase prend la tête en utilisant GLM et Kimi.

Les entreprises technologiques américaines intègrent discrètement les modèles d'IA open source chinois dans leurs infrastructures de production. Alors que le coût des services des meilleurs modèles américains continue d'augmenter, des entreprises comme Coinbase adoptent les modèles open source chinois comme option par défaut, afin de réduire considérablement leurs dépenses en IA sans limiter l'utilisation.

Le PDG de Coinbase, Brian Armstrong, a publié vendredi soir sur la plateforme X que l'entreprise avait défini comme modèles par défaut pour ses ingénieurs, via sa passerelle LLM interne, le GLM 5.2 tout juste sorti par Zhipu et le Kimi 2.7 de la startup pékinoise Moonshot AI. Armstrong a indiqué qu'en combinant des optimisations de routage et des améliorations de cache, les dépenses en IA de Coinbase avaient été réduites de "près de la moitié", tandis que l'utilisation des tokens continue de croître de manière exponentielle.

L'avantage de coût des modèles open source chinois mis en avant

Dans son message, Armstrong a clairement précisé que 91 % des ingénieurs n'avaient jamais atteint la limite d'utilisation initiale. Coinbase n'a donc pas choisi de réduire cette limite ou d'ajouter des alertes de consommation, mais s'est tourné vers des "modèles par défaut moins chers".

Le GLM 5.2 provient de Zhipu, et le Kimi 2.7 de Moonshot AI (北京月之暗面). Tous deux sont des modèles à poids ouverts. Armstrong a déclaré que ces modèles sont déployés pour des tâches courantes, tandis que pour les tâches nécessitant une planification complexe, les ingénieurs peuvent toujours utiliser les modèles de pointe. Son raisonnement est que l'utilisation de modèles haut de gamme au niveau exécutif est souvent "un marteau pour écraser une mouche".

Pour l'étape de révision du code, une stratégie multi-modèles parallèle est adoptée, où différents modèles se vérifient mutuellement leurs sorties afin de maintenir les normes de qualité.

Trois niveaux de refonte d'infrastructure pour réduire les coûts

Armstrong a énuméré trois mesures clés.

Premièrement, le routage intelligent : dans un cadre d'ordonnancement personnalisé, le système prétraite les invites (prompts) et, en combinant le taux de succès du cache et la tarification des modèles, distribue automatiquement les tâches au modèle le plus adapté et le plus économique. Il a indiqué que l'objectif final est de laisser l'IA, et non l'humain, effectuer la sélection du modèle.

Deuxièmement, la mise en cache proactive : Coinbase exige que toutes les requêtes soient capables de gérer le cache, en réutilisant autant que possible le cache existant. Par exemple, avec LibreChat, après une mise en œuvre correcte du mécanisme de cache, le taux de succès est passé de 5 % à 60 %.

Troisièmement, la réduction du contexte : Armstrong recommande d'ouvrir une nouvelle session lors du changement de tâche, de réduire la portée du contexte des fichiers et de déconnecter les outils inutilisés. Il souligne que l'objectif n'est pas de réduire la quantité totale de tokens utilisés, mais de diminuer les "tokens gaspillés".

Priorité à l'efficacité, pas à la restriction d'utilisation

Armstrong a qualifié cette réduction des coûts de condition préalable à l'expansion de l'adoption de l'IA, et non d'une limitation. Il a précisé que les ingénieurs restent libres d'utiliser n'importe quelle quantité de tokens et n'importe quel modèle, mais l'entreprise a rendu les données d'utilisation visibles et les a corrélées à l'impact commercial : "Plus vous dépensez, plus nous attendons un impact élevé."

Il n'a pas divulgué de chiffres absolus précis en matière de dépenses. Mais structurellement, réaliser une réduction de près de la moitié des dépenses tout en connaissant une croissance exponentielle de l'utilisation signifie que Coinbase a dans une certaine mesure découplé la consommation et les coûts.

La conclusion d'Armstrong est que cette méthodologie est universelle et peut être adoptée par toute entreprise, afin de permettre une expansion durable de l'utilisation de l'IA sans que les coûts ne deviennent un plafond.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire