Resultados de CMA Cuando el árbitro usa esa jugada, es bastante duro, Fable 5 se atreve a desmontar y reparar, Opus 4.7 todavía está arreglando y parcheando, el ciclo de retroalimentación > la ingeniería de indicaciones ha sido confirmada

Ver original
CoinNetwork
AI Tía: Usa un árbitro independiente para lograr un rendimiento seis veces mayor en Fable 5
La comunidad de criptomonedas afirma que, en las pruebas comparativas, Anthropic utilizó resultados de CMA para generar agentes de puntuación en ventanas de contexto independientes como jueces, evaluándolos según nueve indicadores.
Los resultados muestran que, mediante un ciclo de jueces independientes, la mejora de Fable 5 en la línea de producción de entrenamiento alcanzó 6 veces la de Opus 4.7.
Fable 5 demuestra una gran resiliencia, atreviéndose a realizar ajustes estructurales significativos, incluso manteniendo la reparación durante la retroceso cuantitativo; en comparación, Opus 4.7, debido a limitaciones en la toma de decisiones, tiende a ajustes de plantilla.
Conclusión del experimento: un ciclo de autocorrección retroalimentado y gestión autónoma de la memoria tienen más valor práctico que simplemente escribir instrucciones.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado