Notícias do Coin World: O framework BinEval usa perguntas de sim/não para avaliar automaticamente AIs, com o objetivo de resolver os problemas de notas máximas falsas e falta de transparência dos modelos avaliadores. A equipe de pesquisa da Capital One propôs este framework, que divide os critérios complexos de avaliação em perguntas de "sim ou não", garantindo que o modelo avalie cada uma por vez, e finalmente calcula a pontuação usando a proporção de respostas corretas. Em testes nos três principais conjuntos de dados, o BinEval, usando grandes modelos como Claude Sonnet 4, teve qualidade de pontuação igual ou superior a ferramentas de avaliação mainstream como Unieval, sendo particularmente bom em identificar respostas que parecem fluentes, mas têm erros factuais. Tomando como exemplo uma avaliação de resumo envolvendo interceptação de aeronaves: o antigo juiz IA, por apenas olhar a superfície, deu nota máxima de 5.0, enquanto o BinEval, através de sete perguntas de sim/não, identificou quatro erros factuais e deu 1.57, próximo da nota humana de 2.0. Experimentos mostram que a otimização de feedback pode melhorar a taxa de conformidade de formato e estrutura de frases em 17 pontos percentuais, mas para habilidades duras de cálculo matemático, como limite de palavras, as ferramentas de otimização ainda são ineficazes.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

3 Curtidas

Recompensa
3
6
1
Compartilhar

Comentário

Adicionar um comentário

EbbShellLedger

· 14m atrás

A transparência da BinEval é o maior fosso, a era da pontuação em caixa preta já passou.

Ver originalResponder0

L2NightCourier

· 3h atrás

Aumento de 17% no formato é bom, mas não consigo lidar com a restrição de contagem de palavras — parece que regras rígidas são mais fáceis de implementar, enquanto a compreensão flexível é mais difícil.

Ver originalResponder0

WalletPermissionAdministrator

· 3h atrás

O design de perguntas de verdadeiro/falso é realmente inteligente, transformando a pontuação subjetiva em questões objetivas auditáveis, comprimindo diretamente o espaço para falsas declarações.

Ver originalResponder0

DepegDaydream

· 3h atrás

Múltiplos conjuntos de dados se aproximam ou superam o Unieval, essa capacidade de transferência é algo real, não é um brinquedo de overfitting.

Ver originalResponder0

ForkingDrama

· 3h atrás

1.57 vs 5.0 Essa diferença é muito real, o texto de ilusão superficialmente fluente finalmente pode ser exposto.

Ver originalResponder0

MosaicBow

· 3h atrás

A avaliação detalhada em sete questões é muito mais precisa do que a escala genérica de 1 a 5 pontos. A anotação humana 2.0 indica que a direção está correta.

Ver originalResponder0

Tendências
Ver projetos
#
TradFiCFDGoldMaster
2,22M Popularidade
#
SaylorHintsAtMoreBTC
8,5M Popularidade
#
IsraelStrikesIranBTCPlunges
66,23K Popularidade
#
PredictWorldCupShare20000U
474,79K Popularidade
#
SolanaEcosystemANSEMSurges
22,01M Popularidade

Fixado

sitemap

O framework BinEval usa questões de verdadeiro/falso para avaliar automaticamente a IA, resolvendo os pontos problemáticos de modelos de avaliação que dão notas máximas falsas e falta de transparência.

Tendências

TradFiCFDGoldMaster

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Fixado