Enviei a primeira versão pública do ConstraintGate.


A ideia central:
A maioria das falhas de agentes não são falhas de raciocínio.
São falhas de autoridade.
O modelo funcionou, mas não tinha autorização para fazer isso.
Então, criei o Agent Authority Router: uma estrutura de avaliação/pontuação que verifica se um agente fez o tipo certo de trabalho, não apenas se a resposta soou bem.
Ele separa:
- o que o usuário autorizou
- qual primitivo o agente deve executar
- quais primitivos são proibidos
- se a resposta cruzou o limite
v0.8 agora possui:
- evidências comportamentais avaliadas por humanos
- paridade de pontuação determinística contra o conjunto congelado rotulado por humanos
- 38/39 testes comportamentais aprovados sob avaliação
- 195/195 paridade de pontuação no nível de campo
- h019 resolvido como um artefato de fixture inválido
- nenhuma reivindicação de uma nova passagem em benchmark automatizado
O ponto não é “ prompts melhores.”
O ponto é medir se o agente permaneceu dentro do trabalho para o qual foi autorizado.
A precisão na restrição supera o teatro de restrição.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado