CoinWorld消息,SWE-bench团队发布了新的基准ProgramBench,在评测9个前沿AI模型在重建真实软件任务中的完全通过率为0%。


该基准由Meta AI研究团队联合斯坦福、哈佛发布,任务要求AI代理仅凭一个已编译的二进制文件和使用文档,从零架构并实现完整代码库,复现原程序行为。
基准包含200个任务,涵盖从小型命令行工具到大型项目,测试结果显示,主指标「完全通过」没有一个达标,Claude Opus 4.7在辅助指标「几乎通过」上以3%的优势领先,其余模型均为0%。
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé