A prova de teoremas também está começando a competir em custos: Mistral lançou o Leanstral 1.5 como código aberto, cerca de 4 dólares por questão.

De acordo com o monitoramento do Beating, a Mistral AI lançou o Leanstral 1.5, um modelo voltado para provas formais em Lean 4. O modelo possui 119 bilhões de parâmetros totais, com cerca de 6,5 bilhões de parâmetros ativos, licenciado sob Apache-2.0 e com acesso gratuito via API. Avaliações oficiais mostram que o Leanstral 1.5 resolveu 587 dos 672 problemas do PutnamBench; nos benchmarks de álgebra abstrata FATE-H e FATE-X, alcançou 87% e 34%, respectivamente, estabelecendo o melhor desempenho entre modelos similares. O custo médio de resolução de problemas no PutnamBench para o Leanstral 1.5 é de aproximadamente 4 dólares, inferior aos custos de dezenas a centenas de dólares de sistemas anteriores. Com o aumento do orçamento de tokens por problema, o número de problemas resolvidos continua a crescer; na prova de complexidade da árvore AVL, o modelo passou por mais de 2,7 milhões de tokens de raciocínio e 22 compressões de contexto, concluindo a prova relevante. Além de provas matemáticas, o Leanstral 1.5 também é usado para verificação de código. A equipe encontrou 11 bugs reais em 57 repositórios Rust de código aberto, dos quais 5 não haviam sido relatados anteriormente.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado