Результати CMA 当裁判這招挺狠,Fable 5 敢拆敢修,Opus 4.7 还在缝缝补补,反馈循环 > 提示工程实锤了

Переглянути оригінал
CoinNetwork
AI тітка: за допомогою незалежного судді показати в 6 разів кращу продуктивність Fable 5
Згідно з CoinWorld, Anthropic у порівняльних тестах за допомогою результатів CMA створює оцінювальні агентів у незалежних контекстних вікнах як суддів, оцінюючи за дев’ятьма показниками. Результати показують, що незалежний цикл суддів дозволив Fable 5 покращити виробничу лінію у 6 разів порівняно з Opus 4.7. Fable 5 демонструє стійкість і готовність до значних архітектурних змін, навіть при зниженні кількості обчислень він наполегливо виправляє помилки; у порівнянні, Opus 4.7 через обмеження у прийнятті рішень схильний до тонкої налаштування шаблонів. Висновок експерименту: зворотній зв’язок із самовиправленням і автономне управління пам’яттю мають більшу практичну цінність, ніж безпосереднє написання підказок.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено