Tôi đã phát hành phiên bản công khai đầu tiên của ConstraintGate.


Ý tưởng cốt lõi:
Hầu hết các lỗi của tác nhân không phải là lỗi lý luận.
Chúng là lỗi quyền hạn.
Mô hình đã hoạt động nhưng không được phép thực hiện.
Vì vậy, tôi đã xây dựng Agent Authority Router: một khung đánh giá/điểm số kiểm tra xem tác nhân có thực hiện đúng loại công việc hay không, chứ không chỉ xem câu trả lời có nghe hợp lý hay không.
Nó phân biệt:
- những gì người dùng ủy quyền
- những gì nguyên thủy mà tác nhân nên thực hiện
- những nguyên thủy nào bị cấm
- liệu phản hồi có vượt qua giới hạn hay không
phiên bản v0.8 hiện có:
- bằng chứng hành vi được đánh giá bởi con người
- điểm số đối xứng xác định dựa trên bộ dữ liệu đã đóng băng do con người gán nhãn
- 38/39 hành vi vượt qua kiểm tra dưới sự phán xét
- 195/195 điểm số đối xứng ở cấp độ trường
- h019 được giải quyết như một hiện vật lỗi không hợp lệ
- không có tuyên bố về việc vượt qua một chuẩn tự động mới
Điều quan trọng không phải là “các câu lệnh tốt hơn.”
Điều quan trọng là đo lường xem tác nhân có ở trong phạm vi công việc được phép hay không.
Độ chính xác của giới hạn vượt trội hơn sân khấu giới hạn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim