Google выпустил алгоритм сжатия TurboQuant, заявляя об экономии памяти примерно в 6 раз

robot
Генерация тезисов в процессе

Google выпустила алгоритм сжатия TurboQuant, который может снизить потребность в памяти у систем искусственного интеллекта. Технология сжатия TurboQuant предназначена для уменьшения объема памяти, необходимой для больших языковых моделей и поисковых систем на основе векторных представлений. Этот алгоритм в основном решает проблему узкого места — кеш ключ-значение (key-value cache), используемый для хранения часто запрашиваемой информации в AI-системах. По мере увеличения окна контекста эти кеши становятся основным ограничением по памяти. TurboQuant позволяет сжимать кеш ключ-значение до 3-битной точности без необходимости повторного обучения или доработки модели, при этом практически не снижая точность модели. Тесты на открытых моделях, таких как Gemma, показали, что эта технология обеспечивает примерно шестикратное снижение объема памяти кеша ключ-значение. (Цайляньшэ)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить