Laboratórios de Stanford e Berkeley em colaboração com a Nvidia propuseram o LLM-as-a-Verifier, que, através da análise da distribuição de probabilidades de pontuação e múltiplas avaliações, conseguiu melhorar a precisão na seleção de soluções do agente de programação de IA. Os experimentos mostram que, em comparação com o juiz tradicional, o Verifier apresenta um desempenho superior na avaliação, com uma taxa de sucesso significativamente maior, e a estrutura já foi de código aberto.

MeNews

2026-05-01 06:03:18

Geração de resumo em curso

ME News Notícias, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, quando um agente de programação AI trata uma única tarefa, executá-lo várias vezes pode gerar soluções diferentes, algumas corretas e outras incorretas. Se for possível selecionar automaticamente a melhor, a taxa de sucesso geral pode superar a de uma única execução. A questão é como fazer essa seleção: usar outro modelo como juiz para avaliar (ou seja, LLM-as-a-Judge) é a abordagem predominante atualmente, mas a granularidade da avaliação é demasiado grosseira, frequentemente atribuindo a diferentes soluções a mesma pontuação, dificultando distinguir qual é melhor. O Laboratório de IA de Stanford e o Laboratório de Computação Sky de Berkeley, em parceria com a Nvidia, propuseram o LLM-as-a-Verifier, que melhora esse processo de seleção. Em vez de apenas considerar a pontuação final fornecida pelo juiz, ele lê a distribuição de probabilidade de cada nível de avaliação do modelo, calculando um valor de recompensa contínuo a partir dela. Além disso, o juiz repete a avaliação várias vezes e faz a média para eliminar desvios aleatórios, dividindo a avaliação geral em três dimensões independentes (se atende aos requisitos da tarefa, se o formato de saída está correto, se há sinais de erro) para validação separada. No experimento, foi utilizado o Gemini 2.5 Flash como verificador, com uma precisão de validação única de 74,7%, enquanto o juiz tradicional atingiu apenas 57,0%; após 16 repetições, o Verificador alcançou 77,4%, enquanto o Juiz ficou em 70,2%. O método tradicional de Juiz apresenta 26,5% de empates, enquanto o Verificador apresentou uma taxa de empate de 0% em todas as configurações. Efeito prático: no Terminal-Bench 2, ao fazer o GPT-5.4 executar a mesma tarefa 5 vezes, a taxa de sucesso de uma seleção aleatória foi de 81,8%, aumentando para 86,4% após a seleção com o Verificador. No SWE-Bench Verified, ao selecionar uma solução de Claude Opus 4.5, Claude Opus 4.6 e Gemini 3 Flash (uma de cada, total de 3 soluções), a taxa de sucesso aumentou de 76,1% para 77,8%. Até o lançamento em 9 de abril, ambas as métricas estavam no topo da lista. A estrutura foi de código aberto. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
436.06K Popularidade
#
USSeeksStrategicBitcoinReserve
58.68M Popularidade
#
IsraelStrikesIranBTCPlunges
37.17K Popularidade
#
BitcoinETFOptionLimitQuadruples
976.85K Popularidade
#
#FedHoldsRateButDividesDeepen
30.13K Popularidade

Fixar

Stanford e Berkeley propõem o LLM-as-a-Verifier, ao mesmo tempo que redefinem os rankings do Terminal-Bench e do SWE-Bench

Tópicos em destaque

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Fixar