币界网消息,SWE-bench团队发布新基准ProgramBench,评测9个前沿AI模型在重建真实软件的任务中,完全通过率为0%。


该基准由meta AI研究团队联合斯坦福、哈佛发布,任务要求AI agent仅凭一个编译好的二进制文件和使用文档,从零架构并实现完整代码库,复现原程序行为。
基准包含200个任务,覆盖小型CLI工具到大型项目,测试结果显示,主指标「完全通过」无一达标,claude opus 4.7在辅助指标「几乎通过」上以3%领先,其余模型均为0%。
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить