OpenAI 推出 SWE-Lancer:一个面向真实世界自由职业编码的全新 AI 基准


发现顶级金融科技新闻与活动!

订阅 FinTech Weekly 的通讯

被 JP Morgan、Coinbase、Blackrock、Klarna 等的高管阅读


在零工经济中衡量 AI 编程能力的新标准

人工智能正在借助一个新的基准走进自由职业软件开发领域,用来测试它的编程能力能否胜任真实世界的任务。该基准名为 SWE-Lancer,由 OpenAI 推出,使用来自 Upwork 的 1,400 多项真实自由职业软件工程任务来评估 AI 的表现,这些任务合计价值 100 万美元的支付款

该举措旨在在职业环境中更清晰地呈现 AI 的能力图景。SWE-Lancer 不再依赖合成的编程问题,而是采用已由真实公司完成并支付的任务,从而提供 对 AI 在软件工程中有效性的更现实衡量

真实的自由职业岗位,真实的挑战

大多数 AI 编程基准聚焦于定义明确、解决方案可预测的问题。SWE-Lancer 则不同。数据集涵盖了广泛的任务,从 50 美元的漏洞修复到复杂的 32,000 美元功能实现。有些作业会测试 AI 编写代码的能力,而另一些则要求做出决策——通过在竞争性的技术方案之间进行选择来模拟工程经理的角色

为确保准确性,端到端测试由经验丰富的工程师进行三重核验,并且管理层的选择会与最初的招聘经理所做决定进行对比评估。该基准不仅衡量 AI 是否能够编写代码——还评估这些代码是否达到了付费客户所期望的标准。

AI 模型表现如何?

结论很明确:即便是最先进的 AI 模型,在这些任务面前也仍然难以胜任。尽管 AI 已证明它能够生成代码片段并协助调试,但在处理自由职业工程工作的全部复杂性时,它仍然有所欠缺。需要创造力、问题解决能力和长期规划的任务依然是难点。

这一差距带来重大影响。AI 在软件开发中的角色正在增长,但像 SWE-Lancer 这样的基准表明,完全自主的编程仍然还有很长的路要走。目前,人类工程师依然不可或缺,尤其是在超出简单代码生成的复杂项目中。

为研究与经济洞察而开源

为了鼓励进一步研究,SWE-Lancer 背后的团队已将关键资源公开。研究人员可以获取一个 统一的 Docker 镜像,以及基准的一个子集,名为 SWE-Lancer Diamond,用于评估。通过将 AI 表现映射到真实的货币价值,这一基准提供了新的见解:AI 可能如何影响经济以及软件工程岗位市场

除了软件开发之外,这些洞察也可能对依赖自由职业人才的金融科技公司和企业具有价值。随着 AI 模型不断进步,公司将需要 更好的方式来衡量自动化的财务与运营影响。SWE-Lancer 为理解 AI 如何融入基于合同的工作提供了基础。

迈向 AI 在软件开发中的未来的一步

SWE-Lancer 的发布凸显了一个重要现实:AI 在进步,但它仍然难以满足自由职业软件工程所带来的真实需求。尽管 AI 工具可以帮助开发者,但它们目前还不是对熟练专业人士的可靠替代

随着 AI 研究持续推进,像 SWE-Lancer 这样的基准将有助于追踪进展、改进模型,并推动关于自动化经济影响的讨论。至于 AI 是否终将完全取代自由职业开发者仍不确定,但就目前而言,软件工程中的人类触感依然不可替代

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论