Moonshot AI розширює технологію розділення Prefill/Decode на міждані центрами та гетерогічне обладнання
ME News Новини, 18 квітня (UTC+8), команда Moonshot AI нещодавно оголосила, що їхня технологія розділення Prefill (попереднє заповнення) та Decode (декодування) успішно масштабувалася з одного кластеру на міжцентрові та гетерогенні апаратні середовища. За словами у статті, цей крок має потенціал значно знизити витрати на обчислення кожного токена. Раніше розгортання цієї технології було ускладнене через витрати на передачу кешу KV. Досягнення цього прориву стало можливим завдяки їхній гібридній моделі Kimi.