Les entreprises technologiques américaines se tournent discrètement vers les modèles d'IA chinois, Coinbase étant le premier à utiliser GLM et Kimi.

robot
Création du résumé en cours

Les entreprises technologiques américaines intègrent discrètement les modèles d'IA open source chinois dans leurs infrastructures de production. Alors que le coût des services des meilleurs modèles américains continue d'augmenter, des entreprises comme Coinbase commencent à adopter les modèles open source chinois comme option par défaut, afin de réduire considérablement leurs dépenses en IA sans limiter l'utilisation.

Le PDG de Coinbase, Brian Armstrong, a publié sur la plateforme X vendredi soir que la société a défini les modèles GLM 5.2 de Zhipu et Kimi 2.7 de Beijing Moonshot AI comme modèles par défaut pour les ingénieurs via sa passerelle LLM interne. Armstrong a déclaré qu'avec des mesures telles que l'optimisation du routage et l'amélioration du cache, les dépenses en IA de Coinbase ont été réduites de "près de la moitié", tandis que l'utilisation des tokens continue de croître de manière exponentielle.

L'avantage de coût des modèles open source chinois mis en avant

Armstrong a clairement indiqué dans son message que 91 % des ingénieurs n'avaient jamais atteint la limite d'utilisation précédente, donc Coinbase n'a pas choisi de réduire la limite ou d'ajouter des alertes de consommation, mais est passé à des "modèles par défaut moins chers".

GLM 5.2 vient de Zhipu, Kimi 2.7 vient de Beijing Moonshot AI, tous deux sont des modèles à poids ouverts. Armstrong a déclaré que ces modèles sont déployés pour les tâches courantes, tandis que pour les tâches nécessitant une planification complexe, les ingénieurs peuvent toujours utiliser des modèles de pointe. Sa logique est qu'utiliser des modèles de pointe pour l'exécution est souvent un "gaspillage de talents".

Pour la revue de code, une stratégie multi-modèles parallèle est adoptée, permettant à différents modèles de vérifier mutuellement les résultats afin de maintenir les normes de qualité.

Trois niveaux de restructuration de l'infrastructure pour réduire les coûts

Armstrong a énuméré trois moyens clés.

Le premier est le routage intelligent : dans un framework de planification personnalisé, le système prétraite les invites, combine le taux de succès du cache et la tarification des modèles, et distribue automatiquement les tâches au modèle le plus adapté et le plus économique. Il a déclaré que l'objectif final est que l'IA, plutôt que les humains, effectue la sélection du modèle.

Le deuxième est la mise en cache agressive : Coinbase exige que toutes les demandes soient conscientes du cache, en réutilisant autant que possible le cache existant. En prenant l'exemple de LibreChat, après une mise en œuvre correcte du mécanisme de cache, le taux de succès du cache est passé de 5 % à 60 %.

Le troisième est la réduction du contexte : Armstrong suggère d'ouvrir une nouvelle session lors du changement de tâche, de réduire la portée du contexte du fichier et de déconnecter les outils inutilisés. Il souligne que l'objectif n'est pas de réduire la quantité totale de tokens utilisés, mais de réduire les "tokens gaspillés".

Efficacité d'abord, pas limitation de l'utilisation

Armstrong a qualifié cette réduction des coûts de condition préalable pour étendre l'adoption de l'IA, plutôt que d'une restriction. Il a déclaré que les ingénieurs sont toujours libres d'utiliser n'importe quel nombre de tokens et n'importe quel modèle, mais l'entreprise a rendu les données d'utilisation visibles et a lié l'utilisation à l'impact commercial - "plus vous dépensez, plus nous attendons d'impact".

Il n'a pas divulgué le montant absolu des dépenses. Mais structurellement, réaliser une réduction de près de la moitié des dépenses tout en voyant une croissance exponentielle de l'utilisation signifie que Coinbase a dans une certaine mesure découplé la consommation et le coût.

La conclusion d'Armstrong est que cette méthodologie est universelle et que toute entreprise peut s'en inspirer pour parvenir à une expansion durable de l'échelle d'utilisation de l'IA sans que le coût ne devienne un plafond.

Avertissement sur les risques et clause de non-responsabilité

        Le marché présente des risques, les investissements doivent être prudents. Cet article ne constitue pas un conseil en investissement personnel et ne prend pas en compte les objectifs d'investissement, la situation financière ou les besoins spécifiques de chaque utilisateur. Les utilisateurs doivent déterminer si les opinions, points de vue ou conclusions contenus dans cet article correspondent à leur situation particulière. En cas d'investissement basé sur ces informations, la responsabilité incombe à l'utilisateur.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire