Moonshot роз'єднує Prefill/Decode, створюючи крос-центрову роботу, підтримуючи гетерогічне обладнання, і структура витрат має змінитися.

Переглянути оригінал
MeNews
Moonshot AI розширює технологію розділення Prefill/Decode на міждані центрами та гетерогічне обладнання
ME News Новини, 18 квітня (UTC+8), команда Moonshot AI нещодавно оголосила, що їхня технологія розділення Prefill (попереднє заповнення) та Decode (декодування) успішно масштабувалася з одного кластеру на міжцентрові та гетерогенні апаратні середовища. За словами у статті, цей крок має потенціал значно знизити витрати на обчислення кожного токена. Раніше розгортання цієї технології було ускладнене через витрати на передачу кешу KV. Досягнення цього прориву стало можливим завдяки їхній гібридній моделі Kimi.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено