Laboratório de IA de Stanford lança o quadro de validação geral LLM-as-a-Verifier, atingindo o estado da arte em dois testes de referência

robot
Geração de resumo em curso

ME News, em 10 de abril (UTC+8), o Laboratório de IA de Stanford (StanfordAILab) lançou recentemente uma estrutura de verificação universal chamada “LLM-as-a-Verifier”. A estrutura alcançou 86,4% de precisão no teste de referência Terminal-Bench 2, através de métodos como a expansão da granularidade de pontuação, a verificação repetida e a decomposição padrão; e alcançou 77,8% de precisão no teste de referência SWE-Bench Verified, atingindo ambos o nível mais elevado atualmente (SOTA). O artigo fornece ligações para o blogue e para o código relacionados. (Fonte: InFoQ)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar