Coinbase : a réduit ses dépenses en IA de près de 50 % et tente désormais d'adopter par défaut un modèle de poids ouvert.

robot
Création du résumé en cours

深潮 TechFlow 消息,6 月 27 日,Coinbase CEO Brian Armstrong 发文介绍公司在 AI 成本优化方面的最新进展。

Armstrong 表示,随着 AI 使用量和 Token 消耗持续增长,控制成本的关键并非限制员工使用或频繁发送预算提醒,而是优化默认模型选择、任务路由机制以及缓存策略。

他透露,Coinbase 正通过内部 LLM 网关尝试将 GLM 5.2、Kimi 2.7 等开放权重模型作为默认选项,同时仍允许工程师根据具体任务需求选择其他模型。数据显示,公司 91% 的员工从未达到 AI 使用额度上限,因此 Coinbase 并未选择收紧配额,而是通过更低成本的模型方案提升整体效率。

在模型路由方面,Coinbase 会对提示词进行预处理,并结合缓存命中率及不同模型的定价情况,将任务自动分配给最合适的模型。Armstrong 认为,规划和推理等复杂任务可能需要前沿模型支持,但执行类任务未必需要调用成本更高的模型。未来,模型选择过程应更多由 AI 自动完成,而非依赖人工决策。

此外,他指出缓存命中率是影响 AI 成本的重要因素之一。Coinbase 已将缓存感知机制纳入请求流程,以提高历史结果复用率。以 LibreChat 为例,在优化缓存方案后,其缓存命中率已从 5% 提升至 60%。

Armstrong 还表示,公司要求工程师尽量保持上下文精简,包括切换任务时开启新会话、缩小文件上下文范围以及关闭未使用工具等,以减少不必要的 Token 消耗。

据其透露,通过上述措施,Coinbase 已成功将 AI 支出降低近 50%,同时 Token 使用量仍保持增长。Message de Deep Tide TechFlow, le 27 juin, le PDG de Coinbase, Brian Armstrong, a publié un article présentant les dernières avancées de l'entreprise en matière d'optimisation des coûts liés à l'IA.

Armstrong a indiqué qu'avec la croissance continue de l'utilisation de l'IA et de la consommation de tokens, la clé pour maîtriser les coûts ne réside pas dans la limitation de l'utilisation par les employés ou l'envoi fréquent de rappels budgétaires, mais dans l'optimisation de la sélection des modèles par défaut, des mécanismes de routage des tâches et des stratégies de cache.

Il a révélé que Coinbase teste actuellement l'utilisation de modèles à poids ouverts tels que GLM 5.2 et Kimi 2.7 comme options par défaut via sa passerelle LLM interne, tout en permettant aux ingénieurs de choisir d'autres modèles en fonction des besoins spécifiques des tâches. Les données montrent que 91 % des employés de l'entreprise n'ont jamais atteint le plafond d'utilisation de l'IA, donc Coinbase n'a pas choisi de resserrer les quotas, mais d'améliorer l'efficacité globale grâce à des solutions de modèles à moindre coût.

En ce qui concerne le routage des modèles, Coinbase prétraite les prompts et combine le taux de hits de cache ainsi que la tarification des différents modèles pour attribuer automatiquement les tâches au modèle le plus approprié. Armstrong estime que les tâches complexes telles que la planification et le raisonnement peuvent nécessiter le soutien de modèles de pointe, mais que les tâches d'exécution n'ont pas nécessairement besoin de faire appel à des modèles plus coûteux. À l'avenir, le processus de sélection des modèles devrait être davantage automatisé par l'IA plutôt que de dépendre de décisions humaines.

De plus, il a souligné que le taux de hits de cache est l'un des facteurs importants influençant les coûts de l'IA. Coinbase a intégré un mécanisme de sensibilisation au cache dans le processus de requête afin d'augmenter le taux de réutilisation des résultats historiques. Par exemple, avec LibreChat, après l'optimisation de la stratégie de cache, le taux de hits de cache est passé de 5 % à 60 %.

Armstrong a également indiqué que l'entreprise demande aux ingénieurs de maintenir un contexte aussi concis que possible, notamment en ouvrant de nouvelles sessions lors du changement de tâche, en réduisant la portée du contexte des fichiers et en fermant les outils inutilisés, afin de réduire la consommation inutile de tokens.

Selon ses révélations, grâce aux mesures ci-dessus, Coinbase a réussi à réduire ses dépenses liées à l'IA de près de 50 %, tout en maintenant une croissance de l'utilisation des tokens.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire