Google випустив алгоритм стиснення TurboQuant, заявляючи про досягнення близько 6-кратної економії пам'яті

robot
Генерація анотацій у процесі

Google запустила алгоритм сжаття TurboQuant, який може зменшити потребу в пам’яті для систем штучного інтелекту. Технологія стиснення TurboQuant спрямована на зменшення обсягу пам’яті для великих мовних моделей і пошукових систем на основі векторів. Алгоритм переважно вирішує проблему вузького місця у кеші ключ-значення (key-value cache), який використовується для зберігання інформації з високою частотою доступу у системах ШІ. З розширенням контекстного вікна ці кеші стають головною причиною витрат пам’яті. TurboQuant дозволяє стиснути кеш ключ-значення до 3-бітної точності без необхідності повторного навчання або доопрацювання моделі, при цьому майже не впливаючи на точність моделі. Тести на відкритих моделях, таких як Gemma, показали, що ця технологія може забезпечити приблизно 6-кратне зменшення обсягу пам’яті кешу ключ-значення. (Фінансове агентство)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити