Ця хвиля прихованого кешування Alibaba безпосередньо зменшила витрати майже на 80%, і нарешті з'явилося рішення для кошмару витрат на довгий контекст агентів.

Переглянути оригінал
CoinNetwork
Звіт з Coinjie.com, команда Qwen від Alibaba оголосила, що на платформі Alibaba Cloud Bailian за замовчуванням увімкнено автоматичне приховане кешування для флагманської моделі qwen3.7-max. Розробники можуть користуватися кешем без необхідності змінювати код або додатково вказувати параметри, що дозволяє безпосередньо знизити витрати на обчислення. За новою системою оплати система автоматично розпізнає та витягує повторювані префікси контексту з запитів. У разі попадання кешу, вартість обробки частини введених токенів зменшується лише до 20% від початкової ціни, що зменшує витрати на введення на 80%. Приховане кешування безпосередньо спрямоване на зменшення великих витрат у сценаріях довгих текстів та агентів-інтелекту. Модель qwen3.7-max з довжиною контексту у 1 мільйон токенів під час виконання високорівневих завдань, таких як автономне кодування, потребує високочастотного та повторюваного зчитування великих кодових баз або документів з знаннями.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено