Notícias do CoinWorld, o framework BinEval avalia automaticamente AIs através de perguntas de verdadeiro/falso, com o objetivo de resolver os problemas de notas máximas falsas e falta de transparência dos modelos de avaliação. A equipa de investigação da Capital One propôs este framework, que decompõe critérios de avaliação complexos em perguntas de escolha única de «sim ou não», garantindo que o modelo de avaliação responda a cada uma delas, e finalmente calcula a pontuação com base na proporção de respostas corretas. Nos testes com três conjuntos de dados principais, a qualidade das pontuações do BinEval, utilizando grandes modelos como o Claude Sonnet 4, igualou ou superou ferramentas de avaliação populares como o Unieval, sendo especialmente bom a identificar respostas que parecem fluentes mas que contêm erros factuais. Tomando como exemplo a avaliação de um resumo sobre a interceção de aeronaves, o antigo avaliador AI, por apenas olhar para a superfície, atribuiu a nota máxima de 5.0, enquanto o BinEval, através de sete perguntas de verdadeiro/falso, identificou quatro erros factuais e atribuiu 1.57 pontos, próximo dos 2.0 pontos humanos. As experiências mostram que a otimização por feedback pode aumentar a taxa de conformidade com o formato e a estrutura das frases em 17 pontos percentuais, mas para a capacidade matemática de cumprir limites de palavras, as ferramentas de otimização ainda são impotentes.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

3 gostos

Recompensa
3
5
1
Partilhar

Comentar

Adicionar um comentário

L2NightCourier

· 2h atrás

A melhoria de formato de 17% é boa, mas não consigo lidar com a restrição de número de palavras — parece que as regras rígidas são fáceis de fazer, mas a compreensão flexível é difícil.

Ver originalResponder0

WalletPermissionAdministrator

· 2h atrás

O design de perguntas de verdadeiro ou falso é realmente inteligente, transformando a avaliação subjectiva em questões objectivas auditáveis, comprimindo directamente o espaço para falsas declarações.

Ver originalResponder0

DepegDaydream

· 2h atrás

Múltiplos conjuntos de dados aproximam-se ou superam o Unieval, esta capacidade de transferência tem algo de especial, não é um brinquedo de sobreajuste.

Ver originalResponder0

ForkingDrama

· 2h atrás

1.57 vs 5.0 — esta discrepância é tão real; finalmente é possível detetar o texto alucinatório que parecia fluido.

Ver originalResponder0

MosaicBow

· 2h atrás

A avaliação decomposta em sete questões é muito mais refinada do que a escala genérica de 1 a 5. A anotação humana 2.0 indica que a direção está correta.

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradFiCFDGoldMaster
2,22M Popularidade
#
SaylorHintsAtMoreBTC
8,5M Popularidade
#
IsraelStrikesIranBTCPlunges
66,23K Popularidade
#
PredictWorldCupShare20000U
490,93K Popularidade
#
SolanaEcosystemANSEMSurges
22M Popularidade

Fixado

O framework BinEval usa perguntas de verdadeiro ou falso para avaliar automaticamente a IA, resolvendo os problemas de o modelo avaliador relatar notas máximas falsas e falta de transparência.

Tópicos em destaque

TradFiCFDGoldMaster

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Fixado