BinEval transforma a avaliação em perguntas de sim/não, o que é uma ideia inteligente; o espaço para inflar notas é diretamente comprimido, e a ilusão de frases aparentemente fluentes mas factualmente erradas finalmente pode ser exposta.

Ver original
CoinNetwork
O framework BinEval usa perguntas de verdadeiro ou falso para avaliar automaticamente a IA, resolvendo os problemas de o modelo avaliador relatar notas máximas falsas e falta de transparência.
BinEval transforma a avaliação em perguntas de verdadeiro ou falso, responde pergunta por pergunta e pontua com base na taxa de acertos, aumentando a transparência e inibindo falsos relatos. Estudos mostram que sua pontuação se aproxima ou supera a do Unieval em múltiplos conjuntos de dados, e é particularmente bom em detetar respostas que parecem coerentes mas são factualmente erradas. Tomando como exemplo um resumo de interceção de aviões, o avaliador antigo deu nota máxima 5.0, BinEval, através de sete perguntas de verdadeiro ou falso, obteve 1.57, próxima da nota humana de 2.0. A otimização com feedback melhora a conformidade com o formato em cerca de 17 pontos percentuais, mas ainda é difícil melhorar restrições rígidas como contagem de palavras.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado