ПРОРИВ: Google представила TurboQuant, техніку, яка має на меті стиснути робочу пам’ять мовних моделей без втрат.


Якщо вона досягне виробництва, як стверджують дослідження, це може полегшити один із головних вузьких місць сучасного ШІ: вартість і дефіцит пам’яті, необхідної для обробки довгих контекстів, агентів і масивних обчислювальних навантажень.
TurboQuant має на меті зменшити використання кешу KV до шести разів і прискорити обробку на чипі до восьми разів без втрати даних.
Переглянути оригінал
post-image
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити