Одночасна стаття порушує трильйонний ринок, зруйновано сховище чіпів...



Ніхто не очікував, що цього середу на відкритті американського ринку сектор сховищних чіпів зазнає «чорної години», а ціни гігантів знизяться — всі акції зросли зеленим кольором —

На закритті, Micron Technology знизилася на 4%, Western Digital — на 4,4%, Seagate — на 5,6%, SanDisk — на 6,5%.

Пусковим механізмом цієї хвилі продажів стала опублікована Google алгоритм стиснення TurboQuant.

Як відомо, коли працюють великі моделі, кеш KV (KV cache) — це буквально «пожирач грошей» у пам’яті.

Щоб не повторювати обчислення попередніх Token, LLM підтримує «оперативну пам’ять», і з довжиною діалогу вона швидко зростає, наче сніжний ком.

Google TurboQuant пропонує дуже «жорсткий» план зменшення розміру:

По-перше, робить «обертання» високорозмірних векторів у кеші KV, потім використовує іншу систему полярних координат для опису, і пам’ять зменшується до нуля.

Далі, за допомогою всього 1-бітного додаткового простору, вставляє «коригувальник», щоб точно згладити систематичну похибку, викликану стисненням.

Стаття TurboQuant буде офіційно опублікована на ICLR 2026, що відбудеться наступного місяця.

Результат дуже вражаючий: без будь-якого повторного навчання, TurboQuant стискає кеш до неймовірних 3-біт.

Таким чином, витрати на кеш KV зменшуються у 6 разів, і головне — продуктивність майже не погіршується.

На H100, у порівнянні з базовими 32-бітами, швидкість обчислення уваги з 4-бітами зросла у 8 разів. Це не лише економить місце, а й працює швидше.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити