Я випустив першу публічну версію ConstraintGate.


Головна ідея:
Більшість збоїв агентів — це не збої у міркуванні.
Вони — збої авторитету.
Модель працювала, але не була авторизована робити це.
Тому я створив Agent Authority Router: рамкову систему оцінювання/аналізу, яка перевіряє, чи виконав агент правильний тип роботи, а не лише чи звучала відповідь добре.
Вона розділяє:
- що дозволено користувачем
- яку примітивну операцію має виконати агент
- які примітиви заборонені
- чи перетнув відповідь межу
v0.8 тепер має:
- поведінкові докази, затверджені людиною
- детермінований порівняльний оцінювач із зафіксованим набором людських міток
- 38/39 поведінкових проходжень під час затвердження
- 195/195 порівнянь рівня поля з оцінювачем
- h019 вирішено як недійсний артефакт фікстури
- жодних заяв про новий автоматизований тестовий набір, що пройшов
Головне не «кращі підказки».
Головне — вимірювати, чи залишився агент у межах дозволеної роботи.
Точність обмежень перевищує театралізовану демонстрацію обмежень.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено