Stanford e Berkeley propõem o LLM-as-a-Verifier, ao mesmo tempo que redefinem os primeiros lugares do Terminal-Bench e do SWE-Bench

robot
Geração de resumo em curso

Notícias ME, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, quando um agente de programação AI trata uma única tarefa, executá-lo várias vezes frequentemente resulta em soluções diferentes, algumas corretas, outras incorretas. Se for possível selecionar automaticamente a melhor, a taxa de sucesso geral pode superar a de uma única execução. A questão é como fazer essa seleção: fazer outro modelo atuar como juiz para avaliar (ou seja, LLM-as-a-Judge) é a abordagem predominante atualmente, mas a granularidade da avaliação é demasiado grosseira, frequentemente atribuindo a diferentes soluções a mesma pontuação, dificultando distinguir qual é melhor. O Laboratório de IA de Stanford e o Laboratório de Computação Sky de Berkeley, em parceria com a Nvidia, propuseram o LLM-as-a-Verifier, que aprimora esse processo de seleção. Em vez de apenas considerar a pontuação final dada pelo juiz, ele lê a distribuição de probabilidade de cada nível de avaliação do modelo, calculando assim um valor de recompensa contínuo. Além disso, o juiz repete a avaliação várias vezes e faz a média para eliminar desvios aleatórios, além de dividir a avaliação geral em três dimensões independentes (se atende aos requisitos da tarefa, se o formato da saída está correto, se há sinais de erro) para validação separada. Nos experimentos, foi utilizado o Gemini 2.5 Flash como verificador, com uma precisão de validação de 74,7% em uma única rodada, enquanto o método tradicional de Juiz atingiu apenas 57,0%; após 16 repetições, o Verificador atingiu 77,4%, enquanto o Juiz ficou em 70,2%. O método tradicional de Juiz apresentou 26,5% de empates, enquanto o Verificador teve uma taxa de empate de 0% em todas as configurações. Resultados práticos: no Terminal-Bench 2, ao fazer o GPT-5.4 executar a mesma tarefa 5 vezes, a taxa de sucesso de uma seleção aleatória foi de 81,8%, aumentando para 86,4% após a seleção com Verificador. No SWE-Bench Verified, ao selecionar uma solução de Claude Opus 4.5, Claude Opus 4.6 e Gemini 3 Flash (uma de cada, total de 3 soluções), a taxa de sucesso aumentou de 76,1% para 77,8%. Até o lançamento em 9 de abril, ambas as métricas estavam no topo da lista. A estrutura já foi de código aberto. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar