BinEval divide a avaliação em questões de verdadeiro/falso, o que é uma tática muito inteligente; o espaço para inflar notas é diretamente comprimido, e as alucinações que são superficialmente coerentes mas factualmente erradas finalmente podem ser detectadas.

Ver original
CoinNetwork
O framework BinEval usa questões de verdadeiro/falso para avaliar automaticamente a IA, resolvendo os pontos problemáticos de modelos de avaliação que dão notas máximas falsas e falta de transparência.
BinEval transforma a avaliação em perguntas de verdadeiro ou falso, respondendo uma a uma e pontuando com base na taxa de acertos, aumentando a transparência e suprimindo relatórios falsos. Estudos mostram que sua pontuação em múltiplos conjuntos de dados se aproxima ou supera a do Unieval, e é especialmente boa em detectar respostas que parecem fluidas, mas contêm erros factuais. Usando o resumo de intercepção de aeronaves como exemplo, o avaliador antigo dava nota máxima 5.0, enquanto o BinEval, por meio de sete perguntas de verdadeiro ou falso, obteve 1.57, próximo ao humano 2.0. A otimização por feedback melhora a conformidade com o formato em cerca de 17 pontos percentuais, mas ainda é difícil melhorar restrições rígidas como contagem de palavras.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado