Empresas americanas se voltam para modelos de IA chineses; Coinbase lidera usando GLM e Kimi

As empresas de tecnologia dos EUA estão discretamente integrando modelos de IA de código aberto da China em suas infraestruturas de produção. Com o aumento contínuo dos custos dos principais modelos americanos, empresas como a Coinbase estão adotando modelos de código aberto chineses como opção padrão, reduzindo drasticamente os gastos com IA sem suprimir o uso.

O CEO da Coinbase, Brian Armstrong, publicou na noite de sexta-feira na plataforma X que a empresa configurou o GLM 5.2, recém-lançado pela Zhipu, e o Kimi 2.7, da Moonshot AI (Beijing), como modelos padrão para os engenheiros por meio de seu gateway LLM interno. Armstrong afirmou que, combinando otimização de roteamento e melhorias de cache, os gastos com IA da Coinbase foram reduzidos em "quase metade", enquanto o uso de tokens continua crescendo exponencialmente.

A vantagem de custo dos modelos de código aberto chineses é colocada em evidência

Armstrong deixou claro em sua postagem que 91% dos engenheiros nunca atingiram o limite de uso original; portanto, a Coinbase optou por não reduzir o limite ou adicionar alertas de consumo, mas sim por migrar para "modelos padrão mais baratos".

O GLM 5.2 é da Zhipu, e o Kimi 2.7 é da Moonshot AI (Beijing), ambos modelos de pesos abertos. Armstrong afirmou que esses modelos são implantados em tarefas rotineiras, enquanto para tarefas que exigem planejamento complexo, os engenheiros ainda podem usar modelos de ponta. Sua lógica é que usar modelos de alto nível para tarefas executivas muitas vezes é "usar um canhão para matar uma mosca".

Na revisão de código, é adotada uma estratégia de modelos paralelos, permitindo que diferentes modelos verifiquem os resultados uns dos outros para manter os padrões de qualidade.

Reestruturação da infraestrutura em três camadas impulsiona redução de custos

Armstrong listou três medidas principais.

A primeira é o roteamento inteligente: em um framework de escalonamento personalizado, o sistema pré-processa os prompts, combinando a taxa de acerto do cache com o preço do modelo, e distribui automaticamente as tarefas para o modelo mais adequado e econômico. Ele afirmou que o objetivo final é que a IA, e não os humanos, realize a seleção do modelo.

A segunda é o cache proativo: a Coinbase exige que todas as solicitações sejam cientes de cache, reutilizando ao máximo os caches existentes. Por exemplo, no LibreChat, após implementar corretamente o mecanismo de cache, a taxa de acerto saltou de 5% para 60%.

A terceira é a simplificação do contexto: Armstrong sugeriu abrir novas sessões ao alternar tarefas, reduzir o escopo do contexto do arquivo e desconectar ferramentas não utilizadas. Ele enfatizou que o objetivo não é reduzir o total de tokens usados, mas sim reduzir "tokens desperdiçados".

Eficiência em primeiro lugar, não a supressão do uso

Armstrong caracterizou essa redução de custos como uma condição prévia para expandir a adoção da IA, e não como uma restrição. Ele afirmou que os engenheiros ainda são livres para usar qualquer quantidade de tokens e qualquer modelo, mas a empresa tornou os dados de uso visíveis e vinculou o uso ao impacto nos negócios – "quanto mais gastam, maior o impacto que esperamos".

Ele não divulgou números absolutos de gastos. Mas, estruturalmente, alcançar uma redução de quase metade dos gastos enquanto o uso cresce exponencialmente significa que a Coinbase conseguiu, até certo ponto, dissociar o consumo do custo.

A conclusão de Armstrong é que essa metodologia é universal e qualquer empresa pode adotá-la para expandir o uso da IA de forma sustentável, sem que o custo se torne um teto.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários