O framework BinEval usa perguntas de verdadeiro/falso para classificar automaticamente a IA, resolvendo o problema de relatórios falsos de pontuação máxima e a falta de transparência do modelo de avaliação.

ME AI mensagem, de acordo com a monitorização do Beating, a equipa de investigação da Capital One propôs o quadro de avaliação BinEval, que decompõe automaticamente critérios de avaliação complexos em perguntas específicas de "sim ou não", resolvendo o problema de a pontuação ser como uma caixa preta e de notas inflacionadas. O quadro faz com que o modelo de avaliação responda a cada pergunta de sim/não uma a uma, calculando a pontuação com base na proporção de respostas corretas. Nos testes em três conjuntos de dados principais, a qualidade de pontuação do BinEval usando grandes modelos como o Claude Sonnet 4 igualou ou superou ferramentas de avaliação comuns como o UniEval, sendo particularmente bom em detetar respostas que parecem fluidas mas que contêm erros factuais. Tomando como exemplo uma avaliação de resumo envolvendo a interceção de um avião, embora o resumo seja fluente e as entidades e modelos de avião estejam corretos, o resumo inverteu as afirmações do Pentágono e da Rússia e ainda inventou um URL. O antigo juiz de IA, porque só olhava para a superfície, deu diretamente a pontuação máxima de 5.0. Enquanto o BinEval, com sete perguntas de sim/não, detetou com precisão quatro erros factuais, atribuindo uma pontuação de 1.57, muito próxima da pontuação humana de 2.0. O caderno de erros das perguntas de sim/não pode ser usado tanto para otimizar os critérios de avaliação do próprio modelo de juiz, como para modificar automaticamente as instruções de escrita. As experiências mostram que, em testes de seguimento de instruções, a otimização com feedback pode aumentar a taxa de conformidade de formato e estrutura de frases em 17 pontos percentuais. No entanto, para capacidades de cálculo matemático, como a limitação de palavras, as ferramentas de otimização ainda são ineficazes, e a decomposição excessiva de requisitos pode tornar os critérios de avaliação demasiado rigorosos. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado