Résultats CMA Quand l'arbitre utilise cette technique, c'est plutôt dur, Fable 5 ose démonter et réparer, Opus 4.7 est encore en train de coudre et de réparer, la boucle de rétroaction > la preuve que l'ingénierie des prompts est solide

Voir l'original
CoinNetwork
AI Tante : faire six fois mieux que Fable 5 avec un arbitre indépendant
Le site Web de Coinjie affirme qu'Anthropic a utilisé des agents d'évaluation générés dans un contexte indépendant via les résultats CMA lors de tests comparatifs, en se basant sur neuf indicateurs. Les résultats montrent que la boucle de jugement indépendante a permis à Fable 5 d'améliorer la ligne de production d'entraînement de 6 fois plus que Opus 4.7. Fable 5 démontre une forte résilience, n'hésitant pas à effectuer des ajustements architecturaux importants, même en cas de rétrogradation quantifiée, en insistant sur la réparation ; en revanche, Opus 4.7, limité par ses décisions, privilégie un ajustement par micro-tuning de modèles. Conclusion de l'expérience : une boucle de correction automatique auto-rapportée et une gestion autonome de la mémoire ont une valeur pratique supérieure à la simple rédaction de prompts.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé