O framework BinEval usa perguntas de certo/errado para avaliar automaticamente a IA, resolvendo os problemas de relatar notas máximas falsas e falta de transparência dos modelos de avaliação.

ME AI Notícias, de acordo com o monitoramento da Beating, a equipe de pesquisa da Capital One propôs a estrutura de avaliação BinEval, que decompõe automaticamente critérios complexos de pontuação em perguntas específicas de "sim ou não", resolvendo os problemas de pontuação como uma caixa preta e notas infladas. A estrutura faz com que o modelo de avaliação responda a cada pergunta de verdadeiro ou falso uma por uma e, no final, calcula a pontuação com base na proporção de respostas corretas. Nos testes com três conjuntos de dados populares, o BinEval, usando grandes modelos como Claude Sonnet 4, correspondeu ou superou ferramentas de avaliação populares como UniEval, sendo especialmente eficaz em detectar respostas que parecem fluentes, mas contêm erros factuais. Tomando como exemplo a avaliação de um resumo sobre interceptação de aeronaves, embora o resumo fosse fluente e as entidades e modelos de aeronaves estivessem corretos, ele trocou as afirmações do Pentágono e da Rússia e ainda inventou uma URL. O antigo avaliador de IA, por olhar apenas para a superfície, deu diretamente uma nota máxima de 5,0. Já o BinEval, com sete perguntas de verdadeiro ou falso, detectou com precisão quatro erros factuais, dando uma nota de 1,57, muito próxima da nota humana de 2,0. O registro de erros das perguntas de verdadeiro ou falso pode ser usado tanto para otimizar os critérios de avaliação do próprio modelo avaliador quanto para modificar automaticamente os prompts de redação. Experimentos mostram que, em testes de conformidade com instruções, a otimização por feedback pode aumentar a taxa de conformidade com formato e estrutura de frases em 17 pontos percentuais. No entanto, para habilidades de "hard power" que exigem cálculos matemáticos, como limitação de palavras, as ferramentas de otimização ainda são ineficazes, e a decomposição excessiva de requisitos pode tornar os critérios de avaliação muito rigorosos. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado