A jogada de cache implícito da Alibaba cortou diretamente 80% dos custos, o pesadelo de gastar dinheiro com o agente de contexto longo finalmente tem uma solução

Ver original
CoinNetwork
Notícias do Coinjie Wang, a equipe do Qwen da Alibaba anunciou que na plataforma Alibaba Cloud Bailing, o modelo flagship Qwen3.7-max terá automaticamente ativado o cache implícito por padrão. Os desenvolvedores não precisam modificar o código ou especificar parâmetros adicionais, podendo aproveitar diretamente a redução de custos com cache. Sob o novo mecanismo de cobrança, o sistema irá automaticamente identificar e extrair prefixos de contexto repetidos nas solicitações. Uma vez que ocorra um acerto de cache, o custo dos tokens de entrada na parte correspondente será cobrado apenas a 20% do preço original, eliminando em 80% o custo de entrada. O cache implícito é especialmente direcionado para os enormes custos associados a textos longos e cenários de agentes inteligentes. Com uma janela de contexto de 1 milhão de tokens, o Qwen3.7-max, ao executar tarefas avançadas como codificação autônoma, precisa de leituras frequentes e repetidas de grandes bibliotecas de código ou documentos de conhecimento.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado