OpenRouter lança Fusion API: aproximação híbrida de três modelos Fable 5, com custo pela metade

OpenRouter em 13 de junho lançou oficialmente a API Fusion, permitindo que os desenvolvedores façam chamadas a múltiplos modelos em paralelo através de uma única API, e depois usem o modelo Judge para fundir as respostas e extrair a melhor. Nos testes de referência aprofundados do DRACO, a Fusion superou o Claude Fable 5, com 69% contra 65,3%, enquanto um painel de baixo custo composto por Gemini 3 Flash, Kimi K2.6 e DeepSeek V4 Pro ficou com menos de 1% de diferença, mas com metade do custo.
(Antecedentes: Google lidera investimento na plataforma de roteamento de IA OpenRouter, avaliada em 1,3 mil milhões de dólares, com crescimento de 240% ao ano)
(Complemento: Análise do relatório de 100 trilhões de tokens do OpenRouter: para que os humanos usam IA, o surgimento de modelos chineses e segredos de retenção de utilizadores)

Índice deste artigo

Alternar

  • Teste de referência DRACO: Fusion supera completamente o rei dos modelos individuais
  • Painel de orçamento também consegue competir: fusão de três modelos fica menos de 1% atrás de Fable
  • Fusion não substitui Fable, mas tem cenários de aplicação bem definidos
  • Quatro modos de chamada explicados de uma vez

A plataforma de roteamento de IA OpenRouter lançou oficialmente a API Fusion em 13 de junho. Essa nova funcionalidade permite que os desenvolvedores enviem a mesma questão a vários modelos simultaneamente, e depois um modelo Judge funde todas as respostas, refinando a melhor, tudo com uma única chamada de API.

O mecanismo central do Fusion é bastante intuitivo: quando o usuário envia um prompt, o OpenRouter o distribui em paralelo para vários modelos dentro de um painel (cada um equipado com ferramentas de busca web e busca de web), e então o modelo Judge lê todas as respostas do painel, produz uma análise estruturada, incluindo pontos de consenso, contradições, cobertura parcial, insights exclusivos e pontos cegos, e por fim o modelo de chamada escreve a resposta final com base nessa análise. Todo o pipeline é executado no servidor, proporcionando uma experiência semelhante a fazer uma chamada a um único modelo.

Teste de referência DRACO: Fusion supera completamente o rei dos modelos individuais

A equipe do OpenRouter avaliou usando a referência de pesquisa profunda DRACO da Perplexity AI, que cobre 100 tarefas de pesquisa complexas em 10 áreas diferentes. Os critérios de avaliação incluem precisão factual (cerca de 20 itens), amplitude e profundidade (cerca de 9), qualidade de apresentação (cerca de 6) e qualidade de citações (cerca de 5), com um mecanismo de penalização por peso negativo, onde modelos que fornecem informações incorretas são penalizados.

A seguir, os resultados de pontuação de cada configuração:

  • Fusion (Fable 5 + GPT-5.5 → fusão Opus 4.8): 69,0% 🥇
  • Fusion (Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro → fusão Opus 4.8): 68,3%
  • Fusion (Opus 4.8 + GPT-5.5 → fusão Opus 4.8): 67,6%
  • Fusion (Opus 4.8 + Opus 4.8): 65,5%
  • Claude Fable 5 (modelo único): 65,3% (apenas 93/100 questões resolvidas, devido ao bloqueio do filtro de conteúdo)
  • Fusion (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro → fusão Opus 4.8): 64,7% 🔥
  • DeepSeek V4 Pro (modelo único): 60,3%
  • GPT-5.5 (modelo único): 60,0%
  • Claude Opus 4.8 (modelo único): 58,8%

Painel de orçamento também consegue competir: fusão de três modelos fica menos de 1% atrás de Fable

O resultado mais surpreendente do mercado veio de um painel de baixo custo, composto por Gemini 3 Flash, Kimi K2.6 e DeepSeek V4 Pro, três modelos relativamente baratos. Após a fusão, atingiram 64,7%, não apenas superando GPT-5.5 (60,0%) e Opus 4.8 (58,8%), mas também ficando a menos de 1 ponto percentual do Claude Fable 5, enquanto o custo é apenas metade do último. Isso significa que os desenvolvedores podem obter capacidades de pesquisa profunda próximas às dos modelos de topo com custos de inferência mais baixos.

Outra descoberta importante é que “fundir-se a si mesmo” também funciona bem. Quando o Opus 4.8, como dois membros do painel (duas cópias do mesmo modelo), é fundido com Opus 4.8 como Judge, a pontuação chega a 65,5%, superior aos 58,8% de um único Opus 4.8, um aumento de 6,7 pontos. Isso demonstra que grande parte do ganho de desempenho do Fusion vem do valor do passo de síntese, mesmo executando o mesmo modelo duas vezes, com caminhos de raciocínio diferentes, ferramentas diferentes e fontes variadas, é possível obter ganhos significativos.

Fusion não substitui Fable, mas tem cenários de aplicação bem definidos

O CEO do OpenRouter, Alex Atallah, afirmou no X que o Fusion pode alcançar “o nível de inteligência do Fable, por metade do preço”. No entanto, a equipe também admite que a referência DRACO não inclui tarefas de longo prazo (long-horizon), que são exatamente o ponto forte do Claude Fable 5. Para tarefas que envolvem raciocínio em múltiplas etapas e contexto prolongado, o Fable ainda não tem substituto a curto prazo.

Quanto ao cenário de desenvolvimento de software, o Fusion não foi projetado para substituir diretamente modelos de programação. O OpenRouter o concebe como uma ferramenta de servidor, que ao encontrar problemas que requerem pesquisa aprofundada (como decisões de arquitetura ou estudos de melhores práticas), pode decidir automaticamente chamar o Fusion para obter análises de múltiplos ângulos, enquanto a codificação diária continua a ser feita pelo modelo principal.

Quatro modos de chamada explicados de uma vez

Os desenvolvedores podem usar o Fusion de quatro maneiras:

  • Teste no chatroom: acesse openrouter.ai/fusion, escolha um preset ou crie seu próprio painel
  • Model slug: na API, especifique "model": "openrouter/fusion", que traz automaticamente o painel padrão avançado
  • Ferramenta de servidor: adicione {"type": "openrouter:fusion"} na matriz de ferramentas, permitindo que o modelo principal decida quando chamar
  • Modo plugin: adicione o parâmetro plugins na chamada API, para personalizar a combinação de modelos no painel

O painel padrão do Fusion tem custo de chamada cerca de 50% menor que o do Fable, mas o tempo de resposta é aproximadamente 2 a 3 vezes maior (pois aguarda a inferência paralela de múltiplos modelos antes de fundir). O OpenRouter afirmou que continuará aprimorando o desempenho com base no feedback dos usuários.

Este artigo é originado do OpenRouter Blog, compilado e organizado por Dongqu Dongqu.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado