Bộ đệm phản hồi mở Router: Yêu cầu giống nhau không tính phí, độ trễ giảm từ giây xuống mili giây

robot
Đang tạo bản tóm tắt
Thông tin từ Coin界网, OpenRouter đã ra mắt chức năng lưu trữ phản hồi (response caching), các nhà phát triển chỉ cần thêm x-openrouter-cache: true vào tiêu đề yêu cầu để kích hoạt. Lần gọi đầu tiên sẽ tính phí theo nhà cung cấp bình thường, các yêu cầu giống hệt sau đó sẽ trả về kết quả đã lưu trong bộ nhớ đệm mà không phát sinh phí token. Thời gian phản hồi khi trúng cache nằm trong khoảng 80 đến 300 mili giây, trung bình là 4 mili giây cho truy vấn. Khi chưa có cache, Gemini 2.5 Flash trung bình khoảng 1.3 giây, Kimi K2.6 khoảng 4.6 giây, GPT-5.5 khoảng 9.1 giây. Chức năng này khác với cache prompt của nhà cung cấp, phản hồi cache hoàn toàn bỏ qua nhà cung cấp, trả về trực tiếp phản hồi đầy đủ từ bộ nhớ đệm cạnh của OpenRouter. Văn bản, hình ảnh, âm thanh, tài liệu, gọi công cụ đều có thể được cache, bao phủ bốn điểm cuối. Cache được phân tách theo API key, TTL mặc định là 5 phút, có thể đặt từ 1 giây đến 24 giờ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim