Wu soube que o CEO da Coinbase, Brian Armstrong, afirmou que a empresa reduziu quase para metade os gastos com IA empresarial através da otimização da infraestrutura, enquanto a utilização de tokens de IA continua a crescer exponencialmente.


As suas principais medidas de redução de custos incluem: utilizar modelos de código aberto como o GLM 5.2 e o Kimi 2.7 como opções padrão para o gateway interno de LLM, encaminhar de forma inteligente as tarefas para o modelo com melhor relação custo-benefício e aumentar significativamente a taxa de acerto da cache de ferramentas como o LibreChat de 5% para 60%.
Armstrong enfatizou que o objetivo de gerir os custos de IA não é limitar a utilização, mas sim tornar o crescimento exponencial sustentável através da redução do desperdício.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
MechanicalHummingbird
· 8h atrás
GLM 5.2 como padrão, esta onda de modelos nacionais a sair para o exterior foi validada, não?
Ver originalResponder0
ElevatorMeme
· 15h atrás
Crescimento exponencial + custo reduzido para metade, a equipa de infraestrutura de IA da Coinbase pode vir a vender cursos.
Ver originalResponder0
GateUser-2bbf8435
· 15h atrás
Brian tem uma abordagem original: não é sobre cortar orçamentos, mas sim cortar desperdícios. O uso de IA duplica e os custos até diminuem — isso sim é reduzir custos e aumentar a eficiência.
Ver originalResponder0
GateUser-ffe7bee5
· 15h atrás
De 5% para 60%, esta otimização de cache parece que percebeu bem a engenharia de prompts.
Ver originalResponder0
GateUser-870b5e71
· 15h atrás
Existe alguma solução open source para o cache do LibreChat? Quero copiar o trabalho.
Ver originalResponder0
FragmentedSilverStarMap
· 15h atrás
A taxa de acerto de cache de 60% subiu de 5%, esta melhoria de otimização deixa-me com inveja, a nossa equipa interna ainda luta para atingir os 20%.
Ver originalResponder0
SunshineCollector
· 15h atrás
Modelo de código aberto + encaminhamento inteligente, esta jogada é mesmo agressiva. GLM e Kimi diretamente como padrão, o dinheiro poupado pode ser usado para mais algumas rodadas de treino.
Ver originalResponder0