Moonshot AI розширює технологію розділення Prefill/Decode на міждані центрами та гетерогічне обладнання

ME News Новини, 18 квітня (UTC+8), команда Moonshot AI нещодавно оголосила, що їхня технологія розділення Prefill (попереднє заповнення) та Decode (декодування) успішно масштабувалася з одного кластеру на міждані центри та гетерогенні апаратні середовища. За словами у статті, цей крок має потенціал значно знизити вартість обчислення кожного токена. Раніше розширення цієї технології було ускладнене через витрати на передачу KV cache. Цей прорив став можливим завдяки їхній гібридній моделі Kimi Linear. (Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
EchoOfL2
· 1год тому
Від однієї кластерної системи до кількох дата-центрів — цей крок досить великий, чи було перевірено стабільність?
Переглянути оригіналвідповісти на0
AirdropSideQuest
· 5год тому
Адаптація до різної апаратури — це найскладніше, Moonshot може впоратися, що свідчить про високий рівень команди інфраструктури
Переглянути оригіналвідповісти на0
SugarAirdropDream
· 5год тому
Вартість — це ключовий фактор впровадження ШІ, ідея розділення Prefill і Decode, ймовірно, вже досліджується командами великих моделей уночі.
Переглянути оригіналвідповісти на0
GlitchOrchard
· 5год тому
Kimi цей технічний прорив дійсно крутий, між дата-центрами ще зберігається низька затримка, витрати знизилися, і на рівні застосунків з’являється ще більше можливостей для уяви
Переглянути оригіналвідповісти на0
MoonlightMineralWater
· 5год тому
Зниження вартості кожного токена означає, що й малі та середні розробники зможуть використовувати довгий контекст, що добре
Переглянути оригіналвідповісти на0
  • Закріплено