OpenRouter cache de resposta ao vivo: pedidos idênticos sem cobrança, latência reduzida de segundos para milissegundos

robot
Geração de resumo em curso
Notícias do mundo das moedas, a OpenRouter lançou a funcionalidade de cache de resposta, os desenvolvedores podem ativar adicionando x-openrouter-cache: true no cabeçalho da requisição.
A primeira chamada funciona normalmente com cobrança do fornecedor, após isso, requisições exatamente iguais retornam diretamente o cache, sem gerar custos de token.
Quando o cache é atingido, o tempo de resposta fica entre 80 e 300 milissegundos, com uma média de 4 milissegundos na consulta.
Sem cache, o Gemini 2.5 Flash leva cerca de 1,3 segundos, o Kimi K2.6 cerca de 4,6 segundos, e o GPT-5.5 aproximadamente 9,1 segundos.
Essa funcionalidade difere do cache de prompt do fornecedor, pois o cache de resposta pula completamente o fornecedor, retornando diretamente a resposta completa do cache na borda do OpenRouter.
Texto, imagens, áudio, documentos e chamadas de ferramentas podem ser cacheados, cobrindo quatro endpoints.
O cache é isolado por chave API, com TTL padrão de 5 minutos, podendo ser configurado de 1 segundo a 24 horas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado