Saya telah mengirimkan versi publik pertama dari ConstraintGate.


Gagasan inti:
Kebanyakan kegagalan agen bukanlah kegagalan penalaran.
Mereka adalah kegagalan otoritas.
Model memang bekerja, tetapi tidak diizinkan untuk melakukannya.
Jadi saya membangun Agent Authority Router: sebuah kerangka evaluasi/pengukuran yang memeriksa apakah agen melakukan jenis pekerjaan yang benar, bukan hanya apakah jawabannya terdengar bagus.
Ini memisahkan:
- apa yang diizinkan pengguna
- primitive apa yang harus dilakukan agen
- primitive apa yang dilarang
- apakah respons melampaui batas
v0.8 sekarang memiliki:
- bukti perilaku yang disahkan manusia
- kesetaraan pengukur deterministik terhadap set yang dibekukan berlabel manusia
- 38/39 keberhasilan perilaku di bawah adjudikasi
- 195/195 kesetaraan pengukur tingkat lapangan
- h019 diselesaikan sebagai artefak fixture tidak valid
- tidak ada klaim keberhasilan benchmark otomatis baru
Intinya bukan “prompt yang lebih baik.”
Intinya adalah mengukur apakah agen tetap dalam pekerjaan yang diizinkan untuk dilakukan.
Ketepatan constraint mengalahkan teater constraint.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan