Empresas americanas estão a voltar-se para modelos de IA chineses. Coinbase lidera o uso de GLM e Kimi.

As empresas de tecnologia dos Estados Unidos estão a integrar silenciosamente modelos de IA开源 chineses nas suas infraestruturas de produção. Com o aumento contínuo dos custos dos serviços dos principais modelos americanos, empresas como a Coinbase estão a adotar modelos开源 chineses como opção predefinida, reduzindo drasticamente as despesas com IA sem suprimir a utilização.

O CEO da Coinbase, Brian Armstrong, revelou na noite de sexta-feira na plataforma X que a empresa definiu o GLM 5.2, recentemente lançado pela Zhipu, e o Kimi 2.7, da Beijing Moonshot AI, como modelos predefinidos para os engenheiros através do seu gateway interno de LLM. Armstrong afirmou que, após combinar otimizações de roteamento e melhorias de cache, as despesas de IA da Coinbase foram reduzidas "quase para metade", enquanto a utilização de tokens continua a crescer a um ritmo exponencial.

A vantagem de custo dos modelos开源 chineses é posta em evidência

Armstrong afirmou claramente no post que 91% dos engenheiros nunca atingiram o limite de utilização original, pelo que a Coinbase não optou por reduzir esse limite ou adicionar alertas de consumo, mas sim por "modelos predefinidos mais baratos".

O GLM 5.2 vem da Zhipu, e o Kimi 2.7 da Beijing Moonshot AI, ambos modelos de pesos abertos. Armstrong disse que estes modelos são implantados em tarefas de rotina, enquanto para tarefas que exigem planeamento complexo, os engenheiros ainda podem usar modelos de ponta. A sua lógica é que usar modelos de topo para tarefas operacionais é muitas vezes "usar um canhão para matar uma mosca".

Para a revisão de código, é adotada uma estratégia de vários modelos em paralelo, permitindo que diferentes modelos verifiquem mutuamente os resultados, mantendo os padrões de qualidade.

Reestruturação da infraestrutura em três camadas impulsiona redução de custos

Armstrong listou três medidas principais.

A primeira é o roteamento inteligente: num quadro de agendamento personalizado, o sistema pré-processa os prompts, combina a taxa de acerto da cache com o preço do modelo e distribui automaticamente a tarefa para o modelo mais adequado e económico. Afirmou que o objetivo final é que a IA, e não os humanos, realize a seleção do modelo.

A segunda é a cache agressiva: a Coinbase exige que todos os pedidos sejam conscientes da cache, reutilizando ao máximo a cache existente. Com o LibreChat, por exemplo, após implementar corretamente o mecanismo de cache, a taxa de acerto saltou de 5% para 60%.

A terceira é a simplificação do contexto: Armstrong sugere iniciar novas sessões ao mudar de tarefa, reduzir o âmbito do contexto do ficheiro e desligar ferramentas não utilizadas. Enfatizou que o objetivo não é reduzir a quantidade total de tokens utilizados, mas sim reduzir os "tokens desperdiçados".

Prioridade à eficiência, não à supressão da utilização

Armstrong classificou esta redução de custos como uma condição prévia para expandir a adoção de IA, e não como uma limitação. Disse que os engenheiros ainda podem usar livremente qualquer quantidade de tokens e qualquer modelo, mas a empresa tornou os dados de utilização visíveis e vinculou a utilização ao impacto no negócio — "quanto mais se gasta, maior é o impacto que esperamos".

Não divulgou números absolutos de despesas. Mas, estruturalmente, conseguir uma redução de quase metade das despesas enquanto a utilização cresce exponencialmente significa que a Coinbase conseguiu, até certo ponto, dissociar o consumo dos custos.

A conclusão de Armstrong é que esta metodologia é universal e qualquer empresa pode adotá-la para expandir a utilização de IA de forma sustentável, sem que o custo se torne um teto.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado