O framework BinEval usa perguntas de verdadeiro ou falso para avaliar automaticamente a IA, resolvendo os problemas de o modelo avaliador relatar notas máximas falsas e falta de transparência.

robot
Geração de resumo em curso
Notícias do CoinWorld, o framework BinEval avalia automaticamente AIs através de perguntas de verdadeiro/falso, com o objetivo de resolver os problemas de notas máximas falsas e falta de transparência dos modelos de avaliação. A equipa de investigação da Capital One propôs este framework, que decompõe critérios de avaliação complexos em perguntas de escolha única de «sim ou não», garantindo que o modelo de avaliação responda a cada uma delas, e finalmente calcula a pontuação com base na proporção de respostas corretas. Nos testes com três conjuntos de dados principais, a qualidade das pontuações do BinEval, utilizando grandes modelos como o Claude Sonnet 4, igualou ou superou ferramentas de avaliação populares como o Unieval, sendo especialmente bom a identificar respostas que parecem fluentes mas que contêm erros factuais. Tomando como exemplo a avaliação de um resumo sobre a interceção de aeronaves, o antigo avaliador AI, por apenas olhar para a superfície, atribuiu a nota máxima de 5.0, enquanto o BinEval, através de sete perguntas de verdadeiro/falso, identificou quatro erros factuais e atribuiu 1.57 pontos, próximo dos 2.0 pontos humanos. As experiências mostram que a otimização por feedback pode aumentar a taxa de conformidade com o formato e a estrutura das frases em 17 pontos percentuais, mas para a capacidade matemática de cumprir limites de palavras, as ferramentas de otimização ainda são impotentes.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
L2NightCourier
· 2h atrás
A melhoria de formato de 17% é boa, mas não consigo lidar com a restrição de número de palavras — parece que as regras rígidas são fáceis de fazer, mas a compreensão flexível é difícil.
Ver originalResponder0
WalletPermissionAdministrator
· 2h atrás
O design de perguntas de verdadeiro ou falso é realmente inteligente, transformando a avaliação subjectiva em questões objectivas auditáveis, comprimindo directamente o espaço para falsas declarações.
Ver originalResponder0
DepegDaydream
· 2h atrás
Múltiplos conjuntos de dados aproximam-se ou superam o Unieval, esta capacidade de transferência tem algo de especial, não é um brinquedo de sobreajuste.
Ver originalResponder0
ForkingDrama
· 2h atrás
1.57 vs 5.0 — esta discrepância é tão real; finalmente é possível detetar o texto alucinatório que parecia fluido.
Ver originalResponder0
MosaicBow
· 2h atrás
A avaliação decomposta em sete questões é muito mais refinada do que a escala genérica de 1 a 5. A anotação humana 2.0 indica que a direção está correta.
Ver originalResponder0
  • Fixado