OpenRouter lança Fusion API: aproximação híbrida de três modelos Fable 5, com custo pela metade

OpenRouter em 13 de junho lançou oficialmente a API Fusion, permitindo que desenvolvedores façam chamadas por meio de uma única API, chamando múltiplos modelos em paralelo para inferência, e depois usando o modelo Judge para fundir as respostas em uma melhor. Nos testes de referência de pesquisa profunda DRACO, Fusion superou o Claude Fable 5 com 69% contra 65,3%, enquanto um painel de baixo custo composto por Gemini 3 Flash, Kimi K2.6 e DeepSeek V4 Pro ficou com menos de 1% de diferença, mas com metade do custo.
(Preâmbulo: Google lidera investimento na plataforma de roteamento de IA OpenRouter, avaliada em 1,3 bilhão de dólares, com crescimento de 240% ao ano)
(Complemento de contexto: Análise do relatório de 100 trilhões de tokens do OpenRouter: Para que os humanos usam IA, o surgimento de modelos chineses e os segredos da retenção de usuários)

Índice deste artigo

Alternar

  • Teste de referência DRACO: Fusion supera completamente os reis individuais
  • Painel de orçamento também pode competir: fusão de três modelos fica menos de 1% atrás de Fable
  • Fusion não substitui Fable, mas tem cenários de uso bem definidos
  • Quatro formas de chamada explicadas de uma vez

A plataforma de roteamento de IA popular OpenRouter lançou oficialmente a API Fusion em 13 de junho. Essa nova funcionalidade permite que desenvolvedores enviem a mesma questão para múltiplos modelos ao mesmo tempo, e um modelo Judge funde todas as respostas, extraindo a melhor, tudo com uma única chamada de API.

O mecanismo central do Fusion é bastante intuitivo: quando o usuário envia um prompt, o OpenRouter o distribui em paralelo para vários modelos dentro de um "painel" (cada modelo equipado com ferramentas de busca na web e busca de conteúdo na web). Em seguida, o modelo Judge lê todas as respostas do painel, produz uma análise estruturada, incluindo pontos de consenso, contradições, cobertura parcial, insights exclusivos e pontos cegos, e por fim, o modelo de chamada escreve a resposta final com base nessa análise. Todo o pipeline é executado no servidor, proporcionando uma experiência semelhante a fazer uma chamada a um único modelo.

Teste de referência DRACO: Fusion supera completamente os reis individuais

A equipe do OpenRouter avaliou usando a referência de pesquisa profunda DRACO da Perplexity AI, que cobre 100 tarefas de pesquisa complexas em 10 áreas diferentes. Os critérios de avaliação incluem precisão factual (cerca de 20 itens), amplitude e profundidade (cerca de 9 itens), qualidade de apresentação (cerca de 6 itens) e qualidade de citações (cerca de 5 itens), com um mecanismo de peso negativo que penaliza modelos que fornecem informações incorretas.

A seguir, os resultados de pontuação de cada configuração:

  • Fusion (Fable 5 + GPT-5.5 → fusão Opus 4.8): 69,0% 🥇
  • Fusion (Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro → fusão Opus 4.8): 68,3%
  • Fusion (Opus 4.8 + GPT-5.5 → fusão Opus 4.8): 67,6%
  • Fusion (Opus 4.8 + fusão própria): 65,5%
  • Claude Fable 5 individual: 65,3% (apenas 93/100 questões resolvidas, devido ao bloqueio do filtro de conteúdo)
  • Fusion (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro → fusão Opus 4.8): 64,7% 🔥
  • DeepSeek V4 Pro individual: 60,3%
  • GPT-5.5 individual: 60,0%
  • Claude Opus 4.8 individual: 58,8%

Painel de orçamento também pode competir: fusão de três modelos fica menos de 1% atrás de Fable

O resultado mais surpreendente do mercado veio de um "painel de orçamento", composto por Gemini 3 Flash, Kimi K2.6 e DeepSeek V4 Pro, modelos relativamente baratos. Após a fusão, atingiram 64,7%, não apenas superando GPT-5.5 (60,0%) e Opus 4.8 (58,8%), mas também ficando a menos de 1 ponto percentual de Claude Fable 5, enquanto o custo é apenas metade do último. Isso significa que desenvolvedores podem obter capacidades de pesquisa profunda próximas às dos modelos de ponta com custos de inferência mais baixos.

Outra descoberta importante é que "fazer fusão com si mesmo" também funciona. Quando o Opus 4.8, como membro do painel (duas cópias do mesmo modelo), é fundido com outro Opus 4.8 como Judge, o resultado é 65,5%, um aumento de 6,7 pontos em relação ao Opus 4.8 individual (58,8%). Isso demonstra que uma parte significativa do ganho de desempenho do Fusion vem do valor da etapa de síntese, mesmo usando o mesmo modelo duas vezes, com diferentes caminhos de inferência, ferramentas chamadas e fontes selecionadas, podendo gerar melhorias notáveis.

Fusion não substitui Fable, mas tem cenários de uso bem definidos

O CEO do OpenRouter, Alex Atallah, afirmou no X que "Fusion pode alcançar o nível de inteligência do Fable, por metade do preço". No entanto, a equipe também admite que a referência DRACO não inclui tarefas de longo prazo (long-horizon), que são exatamente o ponto forte do Claude Fable 5. Para tarefas que envolvem múltiplas etapas de raciocínio e contexto prolongado, Fable ainda não tem substituto a curto prazo.

Quanto ao cenário de desenvolvimento de software, Fusion não foi projetado para substituir diretamente modelos de programação. O OpenRouter o concebe como uma ferramenta de servidor, que, ao encontrar problemas que exigem pesquisa aprofundada (como decisões de arquitetura ou estudos de melhores práticas), pode decidir automaticamente chamar o Fusion para obter análises de múltiplos ângulos, enquanto a codificação diária continua sendo feita pelo modelo principal.

Quatro formas de usar Fusion de uma vez

Os desenvolvedores podem usar o Fusion de quatro maneiras:

  • Teste no chatroom: Acesse openrouter.ai/fusion, escolha um preset ou crie seu próprio painel
  • Slug do modelo: na API, especifique "model": "openrouter/fusion", que carregará automaticamente o painel padrão de ponta
  • Ferramenta de servidor: adicione {"type": "openrouter:fusion"} na matriz de ferramentas, permitindo que o modelo principal decida quando chamar
  • Modo plugin: adicione o parâmetro plugins na chamada da API, personalizando a combinação de modelos do painel

O painel padrão do Fusion tem custo de chamada aproximadamente 50% menor que o do Fable, mas a resposta leva cerca de 2 a 3 vezes mais tempo (pois aguarda a inferência paralela de múltiplos modelos antes de fundir). O OpenRouter afirmou que continuará aprimorando o desempenho com base no feedback dos usuários.

Este artigo é originado do OpenRouter Blog, compilado e organizado por Dongqu Dongqu.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado