Stanford e Berkeley propõem o LLM-as-a-Verifier, ao mesmo tempo que redefinem os rankings do Terminal-Bench e do SWE-Bench

robot
Geração de resumo em curso

ME News Notícias, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, quando um agente de programação AI trata uma única tarefa, executá-lo várias vezes pode gerar soluções diferentes, algumas corretas e outras incorretas. Se for possível selecionar automaticamente a melhor, a taxa de sucesso geral pode superar a de uma única execução. A questão é como fazer essa seleção: usar outro modelo como juiz para avaliar (ou seja, LLM-as-a-Judge) é a abordagem predominante atualmente, mas a granularidade da avaliação é demasiado grosseira, frequentemente atribuindo a diferentes soluções a mesma pontuação, dificultando distinguir qual é melhor. O Laboratório de IA de Stanford e o Laboratório de Computação Sky de Berkeley, em parceria com a Nvidia, propuseram o LLM-as-a-Verifier, que melhora esse processo de seleção. Em vez de apenas considerar a pontuação final fornecida pelo juiz, ele lê a distribuição de probabilidade de cada nível de avaliação do modelo, calculando um valor de recompensa contínuo a partir dela. Além disso, o juiz repete a avaliação várias vezes e faz a média para eliminar desvios aleatórios, dividindo a avaliação geral em três dimensões independentes (se atende aos requisitos da tarefa, se o formato de saída está correto, se há sinais de erro) para validação separada. No experimento, foi utilizado o Gemini 2.5 Flash como verificador, com uma precisão de validação única de 74,7%, enquanto o juiz tradicional atingiu apenas 57,0%; após 16 repetições, o Verificador alcançou 77,4%, enquanto o Juiz ficou em 70,2%. O método tradicional de Juiz apresenta 26,5% de empates, enquanto o Verificador apresentou uma taxa de empate de 0% em todas as configurações. Efeito prático: no Terminal-Bench 2, ao fazer o GPT-5.4 executar a mesma tarefa 5 vezes, a taxa de sucesso de uma seleção aleatória foi de 81,8%, aumentando para 86,4% após a seleção com o Verificador. No SWE-Bench Verified, ao selecionar uma solução de Claude Opus 4.5, Claude Opus 4.6 e Gemini 3 Flash (uma de cada, total de 3 soluções), a taxa de sucesso aumentou de 76,1% para 77,8%. Até o lançamento em 9 de abril, ambas as métricas estavam no topo da lista. A estrutura foi de código aberto. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar