OpenAI推出的AI基准测试却让Claude拿了第一名

小火箭shadowrocket • 2026年1月9日 am7:47 • 小火箭

为了准确评估 AI 模型的“ 实际 ”编程能力，OpenAI 最近推出了一个全新的基准测试，叫做： SWE-Lancer 。

SWE，全称“Software Engineering”，中文意为“软件工程”；Lancer，源自单词“Freelancer”，“自由职业者”的意思。所以，合在一起， SWE-Lancer 要评估的就是 AI 模型在真实的软件工程自由职业任务中的表现。

SWE-Lancer 基准测试由来自 Upwork 自由职业平台的超过 1400 个真实的软件开发任务构成，涵盖从 bug 修复、新功能添加到代码重构等多种类型，并具有不同的复杂度和对应的实际支付金额，这些问题总价值达 100 万美元。

其实 AI 领域关于评估编程能力的基准测试已经有很多了，比如 Codeforces 和 SWE-bench Verified，但他们有一个明显的特点：测试任务是孤立的，如代码生成、算法问题或特定功能的实现。这些任务能够评估模型的基本编程能力，但却无法反映真实的软件开发工作。现实世界中的软件开发涉及的任务会更复杂，包含从前端到后端、从功能到系统架构多方面内容。因此，需要一个基准测试来评估 AI 模型在全栈软件开发任务中的表现。

SWE-Lancer 应运而生。

SWE-Lancer 测试集包含两类任务：独立开发任务（IC SWE）和管理任务（SWE Manager）。

独立开发任务会要求 AI 模型解决实际的软件问题，从简单的bug修复到复杂的新功能实现，并通过端到端的自动化测试进行评估。管理任务则让 AI 模型扮演技术经理的角色，选择最佳的技术实现方案，评估并决定多个解决方案中的最佳选项。

这些任务的奖励基于真实世界的支付金额，反映了任务的实际经济价值。任务越难，支付金额就越高。

测评结果

上测评结果。

真实世界中经济价值 100万美元的软件开发任务， Claude 3.5 Sonnet 完成度最高，但也仅有 40.3万美元的完成度，百分比 40.3 %；第二名为 o1 ，完成度 38 %；接下来说不会思考的 GPT-4o ，完成度 30.3 %。

Claude 3.5 Sonnet 模型的编程能力再次在这个测评中得到了验证。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/330.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

DeepSeek画图进阶掌控图像尺寸风格水印全靠这几个参数

< <上一篇

腾讯元宝QQ音乐接入DeepSeekClaude4Grok3即将发布AIWeekly

下一篇>>

搜索内容

OpenAI推出的AI基准测试却让Claude拿了第一名

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章