Lancei a primeira versão pública do ConstraintGate.


A ideia central:
A maioria das falhas de agentes não são falhas de raciocínio.
São falhas de autoridade.
O modelo funcionou, mas não tinha autorização para fazer isso.
Por isso, criei o Agent Authority Router: uma estrutura de avaliação/pontuação que verifica se um agente fez o tipo certo de trabalho, não apenas se a resposta soou bem.
Ele separa:
- o que o usuário autorizou
- qual primitivo o agente deve executar
- quais primitivos são proibidos
- se a resposta cruzou o limite
A versão 0.8 agora possui:
- evidências comportamentais avaliadas por humanos
- paridade de pontuação determinística contra o conjunto congelado rotulado por humanos
- 38/39 testes comportamentais aprovados sob avaliação
- 195/195 paridade de pontuação a nível de campo
- h019 resolvido como um artefato de fixture inválido
- nenhuma reivindicação de uma nova passagem em benchmark automatizado
O objetivo não é “prompts melhores”.
O objetivo é medir se o agente permaneceu dentro do trabalho para o qual foi autorizado.
A precisão na restrição supera o teatro das restrições.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado