OpenAI推出的AI基准测试却让Claude拿了第一名

为了 准确评估 AI 模型的“ 实际 ”编程能力,OpenAI 最近推出了一个全新的基准测试,叫做: SWE-Lancer 。

小火箭shadowrocket

SWE,全称“Software Engineering”,中文意为“软件工程”;Lancer,源自单词“Freelancer”,“自由职业者”的意思。所以,合在一起, SWE-Lancer 要评估的就是 AI 模型在真实的 软件工程自由职业任务 中的表现。

SWE-Lancer 基准测试由来自 Upwork 自由职业平台的超过 1400 个真实的软件开发任务构成,涵盖从 bug 修复、新功能添加到代码重构等多种类型,并具有不同的复杂度和对应的实际支付金额,这些问题总价值达 100 万美元。

小火箭shadowrocket

其实 AI 领域关于评估编程能力的基准测试已经有很多了,比如 Codeforces 和 SWE-bench Verified,但他们有一个明显的特点:测试任务是 孤立 的,如代码生成、算法问题或特定功能的实现。这些任务能够评估模型的基本编程能力,但却无法反映 真实的软件开发 工作。现实世界中的软件开发涉及的任务会更复杂,包含从前端到后端、从功能到系统架构多方面内容。因此,需要一个基准测试来评估 AI 模型在 全栈软件开发 任务中的表现。

SWE-Lancer 应运而生。

SWE-Lancer 测试集包含两类任务: 独立开发任务(IC SWE) 和 管理任务(SWE Manager) 。

小火箭shadowrocket

独立开发任务会要求 AI 模型解决实际的软件问题,从简单的bug修复到复杂的新功能实现,并通过端到端的自动化测试进行评估。管理任务则让 AI 模型扮演技术经理的角色,选择最佳的技术实现方案,评估并决定多个解决方案中的最佳选项。

小火箭shadowrocket

这些任务的奖励基于真实世界的支付金额,反映了任务的 实际经济价值 。任务越难,支付金额就越高。

小火箭shadowrocket

测评结果

上测评结果。

真实世界中经济价值 100万美元 的软件开发任务, Claude 3.5 Sonnet 完成度最高,但也仅有 40.3万美元 的完成度,百分比 40.3 %;第二名为 o1 ,完成度 38 %;接下来说不会思考的 GPT-4o ,完成度 30.3 %。

小火箭shadowrocket

Claude 3.5 Sonnet 模型的编程能力再次在这个测评中得到了验证。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/330.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>