Google выпустил алгоритм сжатия TurboQuant, заявляя об экономии памяти примерно в 6 раз

MarsBitNews · 2026-03-26T04:11:54+00:00

Google представила алгоритм сжатия под названием TurboQuant, предназначенный для снижения требований к памяти систем искусственного интеллекта, особенно больших языковых моделей. Алгоритм решает проблему узкого места кэша ключей и значений, позволяя сжимать кэш до 3-битной точности без переобучения модели, при этом сохраняя точность модели неизменной. Тестирование показало, что эта технология может достичь примерно 6-кратного эффекта сжатия памяти.

MarsBitNews

2026-03-26 04:11:54

Генерация тезисов в процессе

Google выпустила алгоритм сжатия TurboQuant, который может снизить потребность в памяти у систем искусственного интеллекта. Технология сжатия TurboQuant предназначена для уменьшения объема памяти, необходимой для больших языковых моделей и поисковых систем на основе векторных представлений. Этот алгоритм в основном решает проблему узкого места — кеш ключ-значение (key-value cache), используемый для хранения часто запрашиваемой информации в AI-системах. По мере увеличения окна контекста эти кеши становятся основным ограничением по памяти. TurboQuant позволяет сжимать кеш ключ-значение до 3-битной точности без необходимости повторного обучения или доработки модели, при этом практически не снижая точность модели. Тесты на открытых моделях, таких как Gemma, показали, что эта технология обеспечивает примерно шестикратное снижение объема памяти кеша ключ-значение. (Цайляньшэ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .