La comparación de puntuaciones de referencia entre Sakana Fugu y Fable 5 es cuestionada; las diferencias en el andamiaje de pruebas pueden causar desviaciones de 10-20 puntos.

robot
Generación de resúmenes en curso
ME AI Mensaje, según el monitoreo de Dongcha Beating, el sistema multiagente colaborativo Fugu Ultra desarrollado por la startup japonesa de IA Sakana AI afirma haber superado al modelo insignia Fable 5 de Anthropic en múltiples pruebas de referencia como razonamiento científico y programación, pero la conclusión de las puntuaciones ha sido ampliamente cuestionada por la comunidad. Las críticas señalan que comparar datos autoevaluados en un entorno de prueba no uniforme no es objetivo. Las puntuaciones de las pruebas dependen en gran medida del andamiaje de ejecución (Scaffold/Harness), y diferentes andamiajes pueden producir desviaciones de 10 a 20 puntos, lo que hace que la llamada "superación" sea en gran medida producto de la optimización de la ingeniería del sistema, no un salto generacional en la capacidad del modelo subyacente. Los datos de evaluación independientes muestran que el andamiaje de agente construido alrededor del modelo grande tiene un gran impacto en la puntuación final. Bajo el mismo modelo Claude Opus 4.5, simplemente cambiando tres andamiajes de código abierto diferentes, la tasa de reparación en el benchmark SWE-bench Pro varía entre 50.2% y 55.4%. El análisis de la agencia de pruebas externa Scale AI confirma aún más que las estrategias de ejecución como plantillas de prompts, límite de intentos, gestión de retención de contexto e integración de llamadas a herramientas pueden causar desviaciones de 10 a 20 puntos en las puntuaciones para el mismo conjunto de pesos del modelo. Dado que los datos publicados por Sakana AI y Anthropic se basan en andamiajes cerrados (Vendor Scaffold) optimizados para sus propios sistemas, y no se han sometido a pruebas unificadas en un entorno independiente estandarizado de terceros (como Scale SEAL), los datos no reflejan realmente la fortaleza subyacente de los dos modelos. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios