Moonshot AI розширює технологію розділення Prefill/Decode на міждані центрами та гетерогічне обладнання

ME News Новини, 18 квітня (UTC+8), команда Moonshot AI нещодавно оголосила, що їхня технологія розділення Prefill (попереднє заповнення) та Decode (декодування) успішно масштабувалася з одного кластеру на міждані центри та гетерогенні апаратні середовища. За словами у статті, цей крок має потенціал значно знизити вартість обчислення кожного токена. Раніше розширення цієї технології було ускладнене через витрати на передачу KV cache. Цей прорив став можливим завдяки їхній гібридній моделі Kimi Linear. (Джерело: InFoQ)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити