Moonshot AI розширює технологію розділення Prefill/Decode на міждані центрами та гетерогічне обладнання

ME News Новини, 18 квітня (UTC+8), команда Moonshot AI нещодавно оголосила, що їхня технологія розділення Prefill (попереднє заповнення) та Decode (декодування) успішно масштабувалася від одного кластеру до міжданих центрів та гетерогенних апаратних середовищ. За словами у статті, цей крок має потенціал значно знизити вартість обчислення кожного токена. Раніше розгортання цієї технології було ускладнене через витрати на передачу KV cache. Цей прорив став можливим завдяки їхній гібридній моделі Kimi Linear. (Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
PublicBlockchainUnderTheAurora
· 12год тому
Цікаво, як обробляється затримка між DC, у статті не докладно описано.
Переглянути оригіналвідповісти на0
ExitLiquidityIntern
· 12год тому
Змішана модельна архітектура здається ключовою змінною, чекати технічних деталей
Переглянути оригіналвідповісти на0
GateUser-c1cab702
· 12год тому
Від однієї кластеру до кількох дата-центрів — уявіть собі, наскільки складною є ця робота.
Переглянути оригіналвідповісти на0
  • Закріплено