Cache de resposta do OpenRouter online: solicitações iguais sem cobrança, latência reduzida de segundos para milissegundos

robot
Geração do resumo em andamento
Notícias do CoinWorld, a OpenRouter lançou a funcionalidade de cache de resposta, onde os desenvolvedores podem ativar adicionando x-openrouter-cache: true no cabeçalho da requisição.
A primeira chamada funciona normalmente com cobrança do fornecedor, e as requisições idênticas subsequentes retornam diretamente o cache, sem gerar custos de token.
Após uma cache ser atingida, o tempo de resposta fica entre 80 e 300 milissegundos, com uma média de 4 milissegundos na consulta.
Quando não há cache, o Gemini 2.5 Flash leva cerca de 1,3 segundos, o Kimi K2.6 cerca de 4,6 segundos, e o GPT-5.5 aproximadamente 9,1 segundos.
Essa funcionalidade é diferente do cache de prompt do fornecedor, pois o cache de resposta pula completamente o fornecedor, retornando diretamente a resposta completa do cache na borda do OpenRouter.
Texto, imagens, áudio, documentos e chamadas de ferramenta podem ser cacheados, cobrindo quatro endpoints.
O cache é isolado por chave API, com TTL padrão de 5 minutos, podendo ser configurado de 1 segundo a 24 horas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado