定理证明成本开始上升:Mistral发布开源Leanstral 1.5,每个问题约4美元

据洞察“Beating”的监测,Mistral AI 发布了 Leanstral 1.5,这是一款面向 Lean 4 形式化证明设计的模型。该模型总计 1190 亿个参数,约有 65 亿个活跃参数,并采用 Apache-2.0 协议授权,提供免费 API 访问。官方评估显示,Leanstral 1.5 在 PutnamBench 上解决了 672 道题中的 587 道;在抽象代数基准 FATE-H 和 FATE-X 上,正确率分别达到 87% 和 34%,在同类模型中创下新的性能记录。在 PutnamBench 上,Leanstral 1.5 的每道问题平均成本约为 4 美元,显著低于此前多个系统的成本(这些成本通常为数十到数百美元)。随着每道问题的令牌预算增加,它能够解决的题目数量持续上升;在 AVL 树的复杂度证明中,该模型在推理超过 270 万个令牌并进行 22 次上下文压缩后,完成了相关证明。除了数学证明之外,Leanstral 1.5 还被用于代码验证。团队在 57 个开源 Rust 仓库中发现了 11 个真实错误,其中 5 个此前未被报告。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论