2026-03-26 05:50:23

Одна статья потрясла триллионный рынок, хранилищные чипы рухнули...

Никто не ожидал, что в этот среду на открытии американского рынка сектор хранения чипов переживёт «черное время», акции гигантов резко пали —

К закрытию акции Micron снизились на 4%, Western Digital — на 4,4%, Seagate — на 5,6%, а SanDisk — на 6,5%.

Искрой этого ценового обвала стал алгоритм сжатия TurboQuant, выпущенный Google.

Как известно, когда большие модели работают, KV-кэш (KV cache) — это буквально «пожиратель денег» в памяти.

Чтобы не пересчитывать ранее использованные токены, LLM поддерживает «оперативную память», которая с ростом диалога быстро раздувается, как снежный ком.

Google’s TurboQuant предлагает очень «жесткий» способ уменьшения размера:

Во-первых, выполняет «вращение» высокоразмерных векторов в KV-кэше, затем переводит их в полярные координаты, что сразу сводит использование памяти к нулю.

Затем, с помощью всего лишь 1-битного дополнительного пространства, вставляет «калибратор» — математический «корректор», который точно сглаживает систематическую погрешность, вызванную сжатием.

Статья о TurboQuant будет официально опубликована на ICLR 2026, которая пройдет в следующем месяце.

Результаты впечатляют: без обучения с нуля, TurboQuant сжимает кэш до невероятных 3 бит.

Таким образом, расходы на KV-кэш сокращаются в 6 раз, а при этом практически не снижается производительность при выводе.

На H100, по сравнению с базовым 32-битным режимом, скорость внимания при 4-битных вычислениях выросла в 8 раз. Это не только экономит место, но и ускоряет работу.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .