As empresas de tecnologia dos EUA estão silenciosamente incorporando modelos de IA de código aberto chineses em sua infraestrutura de produção. Com o custo dos principais modelos americanos continuando a subir, empresas como a Coinbase estão adotando modelos de código aberto chineses como opção padrão, reduzindo drasticamente os gastos com IA sem suprimir o uso.

O CEO da Coinbase, Brian Armstrong, postou na plataforma X na noite de sexta-feira que a empresa configurou o GLM 5.2, recém-lançado pela Zhipu, e o Kimi 2.7, da Beijing Moonshot AI, como modelos padrão para engenheiros por meio de seu gateway LLM interno. Armstrong afirmou que, combinando otimização de roteamento e melhorias de cache, os gastos com IA da Coinbase foram reduzidos em "quase metade", enquanto o uso de tokens continua crescendo em um ritmo exponencial.

A vantagem de custo dos modelos de código aberto chineses é colocada em evidência

Armstrong declarou claramente no post que 91% dos engenheiros nunca atingiram o limite de uso original, então a Coinbase não optou por reduzir o limite ou adicionar alertas de consumo, mas sim mudou para "modelos padrão mais baratos".

O GLM 5.2 vem da Zhipu, e o Kimi 2.7 da Beijing Moonshot AI, ambos modelos de pesos abertos. Armstrong disse que esses modelos são implantados em tarefas comuns, enquanto para tarefas que exigem planejamento complexo, os engenheiros ainda podem usar modelos de ponta. Sua lógica é que usar modelos de nível superior para tarefas de execução muitas vezes é "usar um canhão para matar uma mosca".

Na revisão de código, é adotada uma estratégia paralela com vários modelos, permitindo que eles verifiquem os resultados uns dos outros para manter os padrões de qualidade.

Reestruturação da infraestrutura em três camadas impulsiona redução de custos

Armstrong listou três medidas principais.

A primeira é o roteamento inteligente: em um framework de agendamento personalizado, o sistema pré-processa os prompts, combinando a taxa de acerto do cache com a precificação do modelo, e distribui automaticamente as tarefas para o modelo mais adequado e econômico. Ele afirmou que o objetivo final é que a IA, e não os humanos, faça a seleção do modelo.

A segunda é o cache agressivo: a Coinbase exige que todas as solicitações sejam conscientes do cache, reutilizando o máximo possível dos caches existentes. Com o LibreChat como exemplo, após implementar corretamente o mecanismo de cache, a taxa de acerto saltou de 5% para 60%.

A terceira é a simplificação do contexto: Armstrong sugere iniciar uma nova sessão ao mudar de tarefa, reduzir o escopo do contexto do arquivo e desconectar ferramentas não utilizadas. Ele enfatizou que o objetivo não é reduzir o número total de tokens usados, mas sim os "tokens desperdiçados".

Eficiência em primeiro lugar, não suprimir o uso

Armstrong classificou essa redução de custos como uma pré-condição para expandir a adoção da IA, não como uma limitação. Ele disse que os engenheiros ainda podem usar qualquer quantidade de tokens e qualquer modelo livremente, mas a empresa tornou os dados de uso visíveis e vinculou o uso ao impacto nos negócios — "quanto mais você gasta, maior o impacto que esperamos".

Ele não divulgou valores absolutos de gastos. Mas, estruturalmente, reduzir os gastos pela metade enquanto o uso cresce exponencialmente significa que a Coinbase conseguiu, até certo ponto, desacoplar o consumo do custo.

A conclusão de Armstrong é que essa metodologia é universal e qualquer empresa pode adotá-la para expandir o uso da IA de forma sustentável, sem tornar o custo um teto.

Aviso de risco e termos de isenção de responsabilidade

        O mercado tem riscos, invista com cautela. Este artigo não constitui uma recomendação de investimento pessoal e não considera os objetivos de investimento, situação financeira ou necessidades específicas de usuários individuais. Os usuários devem considerar se as opiniões, pontos de vista ou conclusões neste artigo se adequam à sua situação específica. Investir com base nisso é por sua própria conta e risco.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
SKHynixTopsKOSPIByMarketCap
1,65M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
358,13K Popularidade
#
IsraelStrikesIranBTCPlunges
65,71K Popularidade
#
PredictWorldCupShare20000U
129,71K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
605,57K Popularidade

Fixado

sitemap

Empresas de tecnologia dos EUA estão silenciosamente migrando para modelos de IA chineses, com a Coinbase liderando o uso de GLM e Kimi.

A vantagem de custo dos modelos de código aberto chineses é colocada em evidência

Reestruturação da infraestrutura em três camadas impulsiona redução de custos

Eficiência em primeiro lugar, não suprimir o uso

Tendências

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado