As empresas tecnológicas americanas estão discretamente a integrar modelos de IA de código aberto chineses na sua infraestrutura de produção. Com os custos dos serviços dos melhores modelos americanos a continuarem a subir, empresas como a Coinbase começam a adotar modelos de código aberto chineses como opção predefinida, reduzindo drasticamente as despesas com IA sem suprimir a utilização.

O CEO da Coinbase, Brian Armstrong, publicou na noite de sexta-feira na plataforma X que a empresa definiu o recém-lançado GLM 5.2 da Zhipu e o Kimi 2.7 da Moonshot AI (Beijing) como modelos predefinidos para os engenheiros, através do seu gateway LLM interno. Armstrong afirmou que, após combinar otimização de roteamento e melhorias de cache, as despesas de IA da Coinbase foram reduzidas "quase para metade", enquanto o uso de tokens continua a crescer a um ritmo exponencial.

A vantagem de custo dos modelos de código aberto chineses é posta em evidência

Armstrong afirmou claramente na publicação que 91% dos engenheiros nunca atingiram o limite de utilização original, pelo que a Coinbase não optou por reduzir o limite ou adicionar alertas de consumo, mas sim por mudar para "modelos predefinidos mais baratos".

O GLM 5.2 é da Zhipu, o Kimi 2.7 é da Moonshot AI (Beijing), ambos são modelos de pesos abertos. Armstrong afirmou que estes modelos são implantados para tarefas regulares, enquanto para tarefas que exigem planeamento complexo, os engenheiros ainda podem optar por modelos de ponta. A sua lógica é que, ao nível da execução, usar modelos de topo é muitas vezes "usar um canhão para matar uma mosca".

Na revisão de código, é adotada uma estratégia paralela de múltiplos modelos, permitindo que diferentes modelos verifiquem mutuamente os resultados, de forma a manter os padrões de qualidade.

Reestruturação da infraestrutura em três camadas impulsiona a redução de custos

Armstrong enumerou três meios principais.

Primeiro, roteamento inteligente: num quadro de agendamento personalizado, o sistema pré-processa os prompts, combina a taxa de acerto da cache e os preços dos modelos, e distribui automaticamente as tarefas para o modelo mais adequado e económico. Ele afirma que o objetivo final é que a IA, e não os humanos, realize a tarefa de seleção de modelos.

Segundo, cache proativo: a Coinbase exige que todos os pedidos sejam conscientes da cache, reutilizando ao máximo as caches existentes. Tomando o LibreChat como exemplo, após implementar corretamente o mecanismo de cache, a taxa de acerto da cache saltou de 5% para 60%.

Terceiro, simplificação do contexto: Armstrong sugere iniciar uma nova sessão ao mudar de tarefa, reduzir o âmbito do contexto do ficheiro e desligar ferramentas não utilizadas. Ele enfatiza que o objetivo não é reduzir o total de tokens usados, mas sim reduzir os "tokens desperdiçados".

Eficiência em primeiro lugar, não supressão da utilização

Armstrong caracterizou esta redução de custos como uma condição prévia para expandir a adoção da IA, e não como uma limitação. Ele afirma que os engenheiros ainda podem usar livremente qualquer quantidade de tokens e qualquer modelo, mas a empresa tornou os dados de utilização visíveis e vinculou o uso ao impacto no negócio — "quanto mais gastam, maior é o impacto que esperamos".

Ele não divulgou valores absolutos de despesas. Mas, estruturalmente, conseguir uma redução de quase metade das despesas enquanto o uso cresce exponencialmente significa que a Coinbase alcançou até certo ponto um desacoplamento entre consumo e custos.

A conclusão de Armstrong é que esta metodologia é universal e qualquer empresa a pode adotar, de modo a alcançar uma expansão sustentável da escala de utilização da IA sem definir o custo como um teto.

Aviso de risco e isenção de responsabilidade

        O mercado tem riscos e o investimento requer cautela. Este artigo não constitui aconselhamento de investimento pessoal e não considera os objetivos financeiros, situação ou necessidades específicas de cada utilizador. Os utilizadores devem considerar se as opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. O investimento com base neste artigo é da responsabilidade do próprio.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
SKHynixTopsKOSPIByMarketCap
1,65M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
358,13K Popularidade
#
IsraelStrikesIranBTCPlunges
65,71K Popularidade
#
PredictWorldCupShare20000U
129,71K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
605,57K Popularidade

Fixado

Empresas tecnológicas americanas estão silenciosamente a mudar para modelos de IA chineses, com a Coinbase a liderar a adoção de GLM e Kimi.

A vantagem de custo dos modelos de código aberto chineses é posta em evidência

Reestruturação da infraestrutura em três camadas impulsiona a redução de custos

Eficiência em primeiro lugar, não supressão da utilização

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado