China Unicom propone el nuevo marco MeanCache, que actualiza el estándar de aceleración de inferencia para modelos generativos multimodales

2026-04-03 06:43:25

Generación de resúmenes en curso

Si invierte en acciones, consulte los informes de análisis de los analistas de Golden Qilin: autorizados, profesionales, oportunos, integrales; le ayudan a descubrir oportunidades temáticas con potencial.

（Fuente: Machine Heart Pro）

Introducción del autor y del equipo: el primer autor de este artículo es Gao Huanlin; el autor de correspondencia es Zhao Fang y Lian Shiguo. Todos los autores provienen de la Unidad de Datos Inteligentes de China Unicom (China Unicom Data Science and Artificial Intelligence Research Institute), el equipo de desarrollo del modelo grande Unicom Yuanjing y la Universidad de Nanjing, y se centran en la investigación y el desarrollo del modelo grande Yuanjing de Unicom.

La velocidad de inferencia de los modelos de generación multimodal como FLUX y Qwen-Image ha sido durante mucho tiempo un punto débil para el despliegue de modelos multimodales a nivel industrial. Las soluciones tradicionales de caché de características (Feature Caching), al perseguir aceleraciones de alto múltiplo, a menudo provocan una deriva de la trayectoria debido a fluctuaciones drásticas en la velocidad instantánea.

Para abordar este problema, el equipo de investigación del China Unicom Data Science and Artificial Intelligence Research Institute y la Universidad de Nanjing, basándose en trabajos previos LeMiCa (NeurIPS 2025 Spotlight), continuaron profundizando y lanzaron el marco de aceleración avanzado MeanCache

Este trabajo no solo hereda la profunda acumulación del equipo en el campo de la aceleración de modelos de difusión, sino que también logra un avance técnico: inspirado por MeanFlow, MeanCache introduce por primera vez una perspectiva de “velocidad promedio” en la inferencia con caché. Mediante la corrección por JVP calibra con precisión las trayectorias de generación, logrando una aceleración de la inferencia de más de 4x. Este resultado ya fue seleccionado en la conferencia principal de inteligencia artificial ICLR 2026; actualmente, el artículo y el código ya están de código abierto.

Innovación técnica: un nuevo paradigma de caché impulsado por la velocidad promedio

La contribución central de MeanCache consiste en transformar la aceleración mediante caché de la “velocidad instantánea” a la “velocidad promedio”. Principalmente incluye los siguientes dos puntos técnicos clave:

Velocidad promedio impulsada por JVP

Este método amplía la perspectiva de caché desde un único “punto” a un “intervalo”. Al proporcionar una señal de guía más estable, corrige de manera efectiva las desviaciones de trayectoria bajo aceleraciones de alto múltiplo.

Estrategia de despacho estable de trayectorias

“¿Cuándo se debe hacer caché?” Los métodos anteriores a menudo dependen de pasos fijos o umbrales manuales. MeanCache modela el proceso de inferencia como un problema de optimización en un multigrafo (Multigraph).

Considera cada paso temporal como un nodo y define la desviación de estabilidad entre la velocidad media predicha y el valor real como el peso de la arista:

Los nodos y las aristas forman el multigrafo, y luego, mediante el algoritmo de Peak-Suppressed Shortest Path (ruta más corta suprimida por picos), bajo un presupuesto de cómputo dado y las reglas de cálculo dadas, se calcula la estrategia de caché óptima:

Resultados experimentales: desempeño de aceleración SOTA actualizado

Generación de imágenes a partir de texto

En los modelos comerciales de generación de imágenes a partir de texto Qwen-Image y FLUX.1 [dev], se logran aceleraciones máximas de 4x respectivamente, alcanzando el desempeño SOTA en Image Reward y métricas perceptuales.

Desde el punto de vista de los efectos visuales, a medida que aumenta el factor de aceleración, las imágenes generadas por MeanCache muestran una mejor consistencia del contenido.

Generación de video a partir de texto

En el modelo de generación de video HunyuanVideo, también se logra una aceleración de 3.6x y una mejora de métricas SOTA.

En el análisis cualitativo del video, MeanCache también muestra mejores efectos de aceleración, tanto en calidad de imagen como en consistencia del contenido.

Consistencia semántica: aún más allá, en pruebas de prompts difíciles de palabras raras (como “Peristeronic” en la imagen a continuación), MeanCache exhibe una mayor robustez semántica.

Recomendación de equipos líderes en la industria

Además, MeanCache ya es compatible con los últimos modelos de generación de imágenes a partir de texto de Alibaba Tongyi Z-Image y Qwen-Image-2512, y obtuvo la recomendación oficial de la página principal del equipo Z-Image. La comunidad ya ha dado soporte a ComfyUI

Resumen y perspectivas

MeanCache, como un marco ligero de aceleración de Flow Matching sin entrenamiento, propone de manera innovadora las soluciones de “caché de velocidad promedio” y “despacho de estabilidad de trayectorias”. Esta solución, al garantizar la alta fidelidad de las imágenes y la consistencia del contenido, mejora de forma notable la eficiencia de inferencia de los modelos de gran escala. El equipo de modelos grandes de Unicom Yuanjing tomará esto como base y seguirá profundizando en el campo de la aceleración de inferencia de modelos y la generación en escenarios complejos. Nuestro compromiso es aportar perspectivas técnicas más diversas a la industria, reduciendo aún más el umbral de uso y los costos de cómputo de los modelos generativos a nivel industrial.

Gran cantidad de información, interpretación precisa: todo en la app de Sina Finance

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.