China Unicom propõe a nova estrutura MeanCache, renovando o benchmark de aceleração de inferência de modelos de geração multimodal

2026-04-03 06:43:25

Geração de resumo em curso

Ao investir em ações, é só acompanhar os relatórios de análise dos analistas do Jīn Qílín, com autoridade, profissionalismo, pontualidade e abrangência — ajude-o a descobrir oportunidades de temas com potencial!

（Fonte: Machine Heart Pro）

Apresentação do autor e da equipa: O primeiro autor deste artigo é Huanlin Gao, o autor de correspondência são Fang Zhao e Shiguo Lian, e todos os autores provêm da equipa de desenvolvimento do modelo de base Yuanjing da Unicom Data Intelligence Co., Ltd. (Instituto de Ciência de Dados e IA da China Unicom) — equipa de desenvolvimento do modelo Yuanjing e da Universidade de Nanjing, com foco no desenvolvimento do modelo de base Yuanjing da Unicom.

A velocidade de inferência de modelos de geração multimodais, como FLUX e Qwen-Image, tem sido sempre um ponto fraco para a implementação em contexto industrial de modelos multimodais. As soluções tradicionais de cache de características (Feature Caching), ao tentar atingir acelerações por múltiplos elevados, podem frequentemente causar deriva de trajetórias devido a flutuações drásticas na velocidade instantânea.

De forma a endereçar este problema, as equipas de investigação do Instituto de Ciência de Dados e IA da China Unicom e da Universidade de Nanjing, com base no trabalho anterior LeMiCa (NeurIPS 2025 Spotlight), continuaram a aprofundar o desenvolvimento e lançaram a framework de aceleração mais avançada MeanCache.

Este trabalho não só herda a base profunda da equipa na aceleração de modelos de difusão, como também alcança um salto técnico: inspirado pelo MeanFlow, o MeanCache introduz pela primeira vez uma perspetiva de “velocidade média” no raciocínio com cache; corrigiu de forma precisa as trajetórias geradas através de uma correção com JVP, obtendo aceleração de inferência de 4x ou mais. Este resultado já foi selecionado para o principal congresso de IA ICLR 2026; atualmente, o artigo e o código já foram disponibilizados em código aberto.

Inovação técnica: um novo paradigma de cache impulsionado pela velocidade média

A principal contribuição do MeanCache está em transformar a aceleração com cache de “velocidade instantânea” para “velocidade média”, envolvendo principalmente os seguintes dois pontos técnicos:

Velocidade média impulsionada por JVP

Este método alarga a perspetiva do cache, de um ponto único, para um intervalo, e ao fornecer um sinal de orientação mais estável, corrige de forma eficaz o desvio da trajetória em acelerações por múltiplos elevados.

Estratégia de agendamento estável de trajetórias

“Quando é que se deve fazer cache?” Os métodos anteriores dependiam muitas vezes de passos fixos ou de limiares manuais. O MeanCache modela o processo de inferência como um problema de otimização em um multigrafo (Multigraph).

Ele trata cada passo de tempo como um nó e define o desvio de estabilidade entre a velocidade média prevista e o valor real como o peso da aresta:

Nodos e arestas formam um multigrafo e, em seguida, através do algoritmo de Peak-Suppressed Shortest Path (caminho mínimo com supressão de picos), sob um orçamento de computação dado, calcula-se a estratégia ótima de cache nas regras de cálculo:

Resultados experimentais: desempenho de aceleração SOTA atualizado

Geração de imagem a partir de texto

Nos modelos comerciais de geração de imagem a partir de texto Qwen-Image e FLUX.1 [dev], foram implementadas acelerações máximas de 4x, atingindo desempenho SOTA em Image Reward e métricas de perceção.

Do ponto de vista dos efeitos visuais, à medida que aumenta a razão de aceleração, as imagens geradas pelo MeanCache apresentam melhor consistência de conteúdo.

Geração de vídeo a partir de texto

No modelo de geração de vídeo HunyuanVideo, também foi alcançada uma aceleração de 3,6x e uma melhoria dos indicadores para SOTA.

Na análise qualitativa do vídeo, o MeanCache também demonstra um efeito de aceleração melhor, tanto em qualidade de imagem quanto em consistência de conteúdo.

Consistência semântica: mais além — em testes de Prompts difíceis e pouco frequentes por palavras raras (como “Peristeronic” na imagem abaixo), o MeanCache mostra uma robustez semântica mais forte.

Recomendação por equipas de topo da indústria

Além disso, o MeanCache já suporta os mais recentes modelos de geração de imagem a partir de texto da Ali Tongyi, Z-Image e Qwen-Image-2512, e recebeu recomendação oficial da homepage da equipa do Z-Image; a comunidade já suporta ComfyUI.

Resumo e perspetivas

O MeanCache, como uma framework de aceleração Flow Matching leve e sem treino, propõe inovadoramente uma solução de “cache de velocidade média” e “agendamento de estabilidade de trajetórias”. Esta solução, garantindo a alta fidelidade e consistência de conteúdo das imagens, melhora de forma significativa a eficiência de inferência dos grandes modelos. A equipa do modelo de base Yuanjing da Unicom, como base, continuará a aprofundar-se na aceleração de inferência de modelos e na geração em cenários complexos. Estamos empenhados em contribuir com perspetivas técnicas mais diversificadas para a indústria, reduzindo ainda mais o limiar de utilização de modelos gerativos de nível industrial e os custos de computação.

Muitas notícias, interpretação precisa — tudo na app Sina Finance

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.