OpenRouter lanza Fusion API: aproximación híbrida de tres modelos Fable 5, con solo la mitad del costo

OpenRouter el 13 de junio lanzó oficialmente la API Fusion, que permite a los desarrolladores realizar llamadas a múltiples modelos en paralelo mediante una única API, y luego un modelo Judge fusiona la mejor respuesta. En la prueba de referencia profunda DRACO, Fusion superó al 69% frente al 65.3% de Claude Fable 5, mientras que un panel compuesto por Gemini 3 Flash, Kimi K2.6 y DeepSeek V4 Pro, de bajo costo, quedó a menos de 1% de Fable, pero con la mitad del costo.
(Resumen previo: Google lidera la inversión en la plataforma de enrutamiento de IA OpenRouter, valorada en 13 mil millones de dólares y con un crecimiento del 240% en un año)
(Información adicional: Análisis de 100 billones de tokens en informes de investigación: ¿Para qué usan los humanos la IA?, el auge de los modelos chinos y los secretos de retención de usuarios)

Índice del artículo

Alternar

  • Prueba de referencia DRACO de DRACO: Fusion supera ampliamente a los monolitos
  • Panel de presupuesto también puede competir: la fusión de tres modelos solo pierde menos de 1% frente a Fable
  • Fusion no reemplaza a Fable, pero su escenario de aplicación es muy claro
  • Cuatro formas de llamada para entender en una sola vista

La plataforma de enrutamiento de IA popular OpenRouter lanzó oficialmente la API Fusion el 13 de junio. Esta nueva función permite a los desarrolladores enviar la misma pregunta a varios modelos simultáneamente, y un modelo Judge fusiona todas las respuestas para extraer la mejor, todo con una sola llamada API.

El mecanismo central de Fusion es bastante intuitivo: cuando un usuario envía un prompt, OpenRouter lo distribuye en paralelo a varios modelos dentro de un "panel" (cada uno equipado con herramientas de búsqueda web y fetch web). Luego, el modelo Judge lee todas las respuestas del panel, produce un análisis estructurado que incluye puntos de consenso, contradicciones, coberturas parciales, ideas originales y puntos ciegos, y finalmente, el modelo de llamada escribe la respuesta final basada en ese análisis. Todo el pipeline se ejecuta en el servidor, ofreciendo una experiencia similar a llamar a un solo modelo.

Prueba de referencia DRACO de DRACO: Fusion supera ampliamente a los monolitos

El equipo de OpenRouter evaluó usando la referencia profunda DRACO de Perplexity AI, que cubre 100 tareas de investigación complejas en 10 áreas, con criterios de puntuación que incluyen precisión factual (unas 20), amplitud y profundidad (unas 9), calidad de presentación (unas 6) y calidad de citas (unas 5), con un mecanismo de peso negativo que penaliza respuestas con información incorrecta.

A continuación, los resultados de puntuación de cada configuración:

  • Fusion (Fable 5 + GPT-5.5 → Opus 4.8 fusionados): 69.0% 🥇
  • Fusion (Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro → Opus 4.8 fusionados): 68.3%
  • Fusion (Opus 4.8 + GPT-5.5 → Opus 4.8 fusionados): 67.6%
  • Fusion (Opus 4.8 fusionado consigo mismo): 65.5%
  • Claude Fable 5 monolito: 65.3% (solo completó 93/100 preguntas, por filtrado de contenido)
  • Fusion (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro → Opus 4.8 fusionados): 64.7% 🔥
  • DeepSeek V4 Pro monolito: 60.3%
  • GPT-5.5 monolito: 60.0%
  • Claude Opus 4.8 monolito: 58.8%

Panel de presupuesto también puede competir: la fusión de tres modelos solo pierde menos de 1% frente a Fable

El resultado más sorprendente del mercado proviene de un "panel de presupuesto", formado por Gemini 3 Flash, Kimi K2.6 y DeepSeek V4 Pro, modelos relativamente económicos. Tras fusionarlos, obtuvieron un 64.7%, superando a GPT-5.5 (60.0%) y Opus 4.8 (58.8%), y solo a menos de 1 punto porcentual de Claude Fable 5, pero con la mitad del costo. Esto significa que los desarrolladores pueden obtener capacidades de investigación profunda cercanas a los modelos de élite con costos de inferencia más bajos.

Otra observación importante es que "fusionarse a sí mismo" también funciona. Cuando Opus 4.8, en un panel con dos instancias del mismo modelo, se fusiona con otra instancia de Opus 4.8 como Judge, obtiene un puntaje de 65.5%, superior al 58.8% de un solo Opus 4.8, con una diferencia de 6.7 puntos. Esto demuestra que gran parte de la mejora de rendimiento en Fusion proviene del valor de la etapa de síntesis, incluso usando el mismo modelo dos veces, diferentes rutas de inferencia, llamadas a herramientas y selección de fuentes, puede generar ganancias significativas.

Fusion no reemplaza a Fable, pero su escenario de aplicación es muy claro

El CEO de OpenRouter, Alex Atallah, expresó en X que Fusion puede alcanzar "el nivel de inteligencia de Fable, a la mitad del precio". Sin embargo, el equipo también admite que la referencia DRACO no incluye tareas de largo plazo (long-horizon), donde Claude Fable 5 es realmente fuerte. Para tareas complejas que requieren múltiples pasos de razonamiento y contexto prolongado, Fable seguirá siendo insustituible a corto plazo.

En cuanto a escenarios de desarrollo de software, Fusion no está diseñado para reemplazar directamente a los modelos de programación. OpenRouter lo ha diseñado como una herramienta de servidor: cuando un modelo base enfrenta un problema que requiere investigación profunda (como decisiones arquitectónicas o mejores prácticas), puede decidir automáticamente si llamar a Fusion para obtener análisis desde múltiples ángulos, mientras que en tareas diarias de codificación, el modelo principal continúa manejando la tarea.

Cuatro formas de llamada para entender en una sola vista

Los desarrolladores pueden usar Fusion de las siguientes cuatro maneras:

  • Prueba en Chatroom: directamente en openrouter.ai/fusion, seleccionando preset o creando un panel propio
  • Modelo slug: en la API, especificando "model": "openrouter/fusion", que trae automáticamente un panel avanzado por defecto
  • Herramienta de servidor: agregando {"type": "openrouter:fusion"} en la matriz de tools, permitiendo que el modelo principal decida cuándo llamar
  • Modo plugin: incluyendo el parámetro plugins en la llamada API, personalizando la combinación de modelos en el panel

El panel predeterminado de Fusion cuesta aproximadamente la mitad que Fable, pero la respuesta tarda unas 2-3 veces más (debido a la espera de inferencias paralelas múltiples y la fusión). OpenRouter indica que continuará mejorando el rendimiento en función de los comentarios de los usuarios.

Este artículo proviene del Blog de OpenRouter, traducido y organizado por Dongqu Dongqu.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado