ME AI mensagem, de acordo com a monitorização do Beating, a equipa de investigação da Capital One propôs o quadro de avaliação BinEval, que decompõe automaticamente critérios de avaliação complexos em perguntas específicas de "sim ou não", resolvendo o problema de a pontuação ser como uma caixa preta e de notas inflacionadas. O quadro faz com que o modelo de avaliação responda a cada pergunta de sim/não uma a uma, calculando a pontuação com base na proporção de respostas corretas. Nos testes em três conjuntos de dados principais, a qualidade de pontuação do BinEval usando grandes modelos como o Claude Sonnet 4 igualou ou superou ferramentas de avaliação comuns como o UniEval, sendo particularmente bom em detetar respostas que parecem fluidas mas que contêm erros factuais. Tomando como exemplo uma avaliação de resumo envolvendo a interceção de um avião, embora o resumo seja fluente e as entidades e modelos de avião estejam corretos, o resumo inverteu as afirmações do Pentágono e da Rússia e ainda inventou um URL. O antigo juiz de IA, porque só olhava para a superfície, deu diretamente a pontuação máxima de 5.0. Enquanto o BinEval, com sete perguntas de sim/não, detetou com precisão quatro erros factuais, atribuindo uma pontuação de 1.57, muito próxima da pontuação humana de 2.0. O caderno de erros das perguntas de sim/não pode ser usado tanto para otimizar os critérios de avaliação do próprio modelo de juiz, como para modificar automaticamente as instruções de escrita. As experiências mostram que, em testes de seguimento de instruções, a otimização com feedback pode aumentar a taxa de conformidade de formato e estrutura de frases em 17 pontos percentuais. No entanto, para capacidades de cálculo matemático, como a limitação de palavras, as ferramentas de otimização ainda são ineficazes, e a decomposição excessiva de requisitos pode tornar os critérios de avaliação demasiado rigorosos. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
TradFiCFDGoldMaster
2,21M Popularidade
#
StrategyBuybackSurges12%
8,71M Popularidade
#
IsraelStrikesIranBTCPlunges
66,53K Popularidade
#
PredictWorldCupShare20000U
562,54K Popularidade
#
SolanaEcosystemANSEMSurges
22,02M Popularidade

Fixado

O framework BinEval usa perguntas de verdadeiro/falso para classificar automaticamente a IA, resolvendo o problema de relatórios falsos de pontuação máxima e a falta de transparência do modelo de avaliação.

Tópicos em destaque

TradFiCFDGoldMaster

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Fixado