Китайская Unicom предложила новую структуру MeanCache, обновив базовые показатели ускорения вывода мультимодальных генеративных моделей

2026-04-03 06:43:25

Генерация тезисов в процессе

Акции стоит смотреть по аналитическим обзорам аналитиков приложения JinQilin: авторитетно, профессионально, своевременно, всесторонне — помогайте вам раскрывать перспективные темы и возможности!

（Источник: ZhiJiZhiXin Pro）

Представление автора и команды: первый автор данной статьи — Гао Хуаньлинь, ответственные авторы — Чжао Фан и Лян Шиго, все авторы работают в компании China Unicom Data Intelligent Co., Ltd. (Китайская объединенная телекоммуникационная корпорация, Пекинская компания данных и интеллектуальных технологий) — в команде разработки модели Unicom Yuanjing Large Model и в Нанкинском университете; фокус — разработка модели Unicom Yuanjing Large Model.

Скорость инференса мультимодальных генеративных моделей, таких как FLUX и Qwen-Image, всегда была болевой точкой для внедрения мультимодальных моделей промышленного уровня. Традиционные схемы кэширования признаков (Feature Caching) при стремлении к ускорению в несколько раз нередко сталкиваются с резкими колебаниями мгновенной скорости, из-за чего возникает дрейф траекторий.

Чтобы решить эту проблему, исследовательские команды Китайской объединенной телекоммуникационной корпорации (China Unicom Data Science and Artificial Intelligence Research Institute) и Нанкинского университета, опираясь на предыдущую работу LeMiCa (NeurIPS 2025 Spotlight), продолжили углубленную работу и выпустили усовершенствованную ускоряющую структуру MeanCache

Этот результат не только продолжает глубокую накопленную командой экспертизу в области ускорения диффузионных моделей, но и технически обеспечивает прорыв: вдохновившись MeanFlow, MeanCache впервые вводит взгляд на «среднюю скорость» в кэш-инференс; с помощью корректировки JVP выполняется точная коррекция генерируемой траектории, что позволяет ускорить инференс более чем в 4 раза. Данный результат уже отобран на главную конференцию по ИИ ICLR 2026; сейчас и статья, и код опубликованы в open source.

Технические инновации: новая парадигма кэширования, управляемая средней скоростью

Ключевой вклад MeanCache заключается в том, что ускорение кэширования переводится с «мгновенной скорости» на «среднюю скорость» и включает в себя следующие два основных технологических пункта:

Средняя скорость, управляемая JVP

В этой модели кэш-перспектива расширяется с единственной точки до интервала, а за счет предоставления более стабильного направляющего сигнала эффективно корректируется отклонение траектории при ускорениях в несколько раз.

Стратегия стабильного диспетчеризирования траекторий

«Когда кэшировать?» Ранее многие подходы полагались на фиксированный шаг или ручные пороги. MeanCache моделирует процесс инференса как задачу оптимизации на многографе (Multigraph).

Она рассматривает каждый временной шаг как узел и определяет стабильное отклонение между предсказанной скоростью среднего и истинным значением в качестве веса ребра:

Узлы и ребра образуют многограф, затем с помощью алгоритма поиска кратчайшего пути с подавлением пиков (Peak-Suppressed Shortest Path) при заданном вычислительном бюджете и правилах вычислений рассчитывается оптимальная стратегия кэширования:

Экспериментальные результаты: обновление SOTA по ускорению

Текст в изображение

В коммерческих моделях текст-в-изображение Qwen-Image и FLUX.1 [dev] соответственно реализовано самое высокое ускорение 4x, а также получены SOTA-результаты по Image Reward и перцептивным метрикам.

С точки зрения визуального эффекта видно, что по мере роста коэффициента ускорения изображения, сгенерированные MeanCache, демонстрируют более высокую согласованность по содержанию.

Текст в видео

На модели генерации видео HunyuanVideo также достигнуты ускорение 3.6x и рост показателей SOTA.

В качественном анализе видео MeanCache тоже демонстрирует более эффективный эффект ускорения — и по качеству изображения, и по согласованности контента.

Семантическая согласованность: дальше, тестирование сложных промптов для rare-word (как на приведенном ниже рисунке «Peristeronic») показывает, что MeanCache демонстрирует более сильную семантическую устойчивость.

Рекомендации ведущих команд индустрии

Кроме того, MeanCache уже поддерживает новейшие модели текст-в-изображение Ali Tongyi Z-Image и Qwen-Image-2512 и получила официальную рекомендацию на главной странице команды Z-Image; сообщество также поддерживает ComfyUI

Итоги и перспективы

MeanCache как легковесная, безобучаемый фреймворк ускорения Flow Matching инновационно предлагает решения «кэширование средней скорости» и «диспетчеризацию стабильности траекторий». На основе того, что обеспечивается высокая точность (high-fidelity) и согласованность содержания изображения, предложенная схема существенно повышает эффективность инференса больших моделей. Команда Unicom Yuanjing Large Model будет использовать это как основу и продолжит углубленно работать в области ускорения инференса моделей и генерации в сложных сценариях. Мы стремимся внести в индустрию более разнообразные технические взгляды, дополнительно снижая порог использования промышленных генеративных моделей и стоимость вычислительных ресурсов.

Огромный поток новостей и точный разбор — всё в Sina Finance APP

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .