Hasil CMA Ketika wasit melakukan langkah ini cukup keras, Fable 5 berani membongkar dan memperbaiki, Opus 4.7 masih melakukan perbaikan dan penambalan, umpan balik > rekayasa prompt terbukti benar

Lihat Asli
CoinNetwork
AI Tante: Menggunakan wasit independen untuk mencapai enam kali lipat kinerja Fable 5
Menurut CoinWorld, Anthropic dalam pengujian perbandingan menggunakan hasil CMA untuk menghasilkan agen penilaian skor dalam konteks independen sebagai wasit, berdasarkan sembilan indikator. Hasilnya menunjukkan bahwa siklus wasit independen membuat Fable 5 mencapai peningkatan 6 kali lipat dibandingkan Opus 4.7 dalam pipeline pelatihan. Fable 5 menunjukkan ketahanan yang kuat, berani melakukan penyesuaian arsitektur secara besar-besaran, bahkan saat mengalami penurunan kuantifikasi tetap berkomitmen untuk memperbaiki; dibandingkan, Opus 4.7 karena keterbatasan pengambilan keputusan cenderung mengandalkan penyesuaian template. Kesimpulan eksperimen: siklus koreksi diri yang dapat umpan balik dan pengelolaan memori otonom lebih bernilai praktis daripada langsung menulis prompt.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan