Google випустив алгоритм стиснення TurboQuant, заявляючи про досягнення близько 6-кратної економії пам'яті

MarsBitNews · 2026-03-26T04:11:54+00:00

Google представив алгоритм стиснення під назвою TurboQuant, спрямований на зменшення вимог до пам'яті для систем штучного інтелекту, особливо великих мовних моделей. Алгоритм вирішує проблему вузьких місць в кеші ключ-значення і може стискати кеш до 3-бітної точності без необхідності перетренування моделі, при цьому зберігаючи точність моделі. Тестування показало, що ця технологія може досягти приблизно 6-кратного ефекту стиснення пам'яті.

MarsBitNews

2026-03-26 04:11:54

Генерація анотацій у процесі

Google запустила алгоритм сжаття TurboQuant, який може зменшити потребу в пам’яті для систем штучного інтелекту. Технологія стиснення TurboQuant спрямована на зменшення обсягу пам’яті для великих мовних моделей і пошукових систем на основі векторів. Алгоритм переважно вирішує проблему вузького місця у кеші ключ-значення (key-value cache), який використовується для зберігання інформації з високою частотою доступу у системах ШІ. З розширенням контекстного вікна ці кеші стають головною причиною витрат пам’яті. TurboQuant дозволяє стиснути кеш ключ-значення до 3-бітної точності без необхідності повторного навчання або доопрацювання моделі, при цьому майже не впливаючи на точність моделі. Тести на відкритих моделях, таких як Gemma, показали, що ця технологія може забезпечити приблизно 6-кратне зменшення обсягу пам’яті кешу ключ-значення. (Фінансове агентство)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.