Moonshot AI расширяет технологию разделения Prefill/Decode на межцентровые и гетерогенные аппаратные платформы
ME News Новости, 18 апреля (UTC+8), команда Moonshot AI недавно объявила, что их технология раздельной обработки Prefill (предварительная загрузка) и Decode (декодирование) успешно расширилась с одного кластера на межцентровую и гетерогенную аппаратную среду. Согласно статье, этот шаг может значительно снизить стоимость вычисления каждого токена. Ранее расширение этой технологии было затруднено из-за затрат на передачу KV cache. Ключевым фактором этого прорыва стала их гибридная модель Kimi.