GPT52深夜炸场智商暴涨3倍OpenAI杀回来了
刚刚, GPT-5.2 如期而至。
距离上一个版本 GPT-5.1 发布,才过去不到一个月。
这个节奏,在 OpenAI 的历史上,实属罕见。
还记得上周我写的那篇文章吗?
CEO Sam Altman 在 OpenAI 内部拉响「Code Red」红色警戒。
各种新功能开发暂停,集中精力干大事: 让 ChatGPT 变得更好。
今天,是第一枪。
01|首次达到人类专家水平
OpenAI 有一个叫 GDPval 的测试,专门评估 AI 在真实工作场景下的表现。
这个测试覆盖了 44 种职业,任务包括做 PPT、做表格、写报告这些实打实的「知识工作」。
GPT-5.2 Thinking 在这个测试中拿到了 70.9% 的胜率或平局率。
GPT-5.2 Pro 更高,达到了 74.1%。
这是什么意思?
在这些任务上, GPT-5.2 有超过七成的概率做得比行业专家更好,或者至少一样好。
作为对比,上一代 GPT-5 Thinking 只有 38.8%,谷歌的 Gemini 3 Pro 是 53.3%,Anthropic 的 Claude Opus 4.5 是 59.6%。
OpenAI 说:
「这是我们第一个达到人类专家水平的模型。」
02|ARC-AGI-2:从 17.6% 暴涨到 52.9%
如果说 GDPval 测的是「干活能力」,那 ARC-AGI-2 测的就是「聪明程度」。
这个测试专门衡量 AI 的抽象推理能力。
它被称为「AI 领域的图灵测试」,设计初衷就是让 AI 没法通过死记硬背作弊。
三周前, Gemini 3 Pro 发布时拿到了 31.1% 的成绩,当时已经让整个 AI 圈震惊。
因为之前最好的 GPT-5.1 Thinking 也只有 17.6%。
而今天, GPT-5.2 Thinking 直接拿到了 52.9% 的高分。
GPT-5.2 Pro 更高,54.2%。
从 17.6% 到 52.9%,三倍提升。
这还只是一个小版本更新。
OpenAI,你认真的吗。
03|编程、数学、多模态,全面提升
SWE Bench Pro,SWE bench Verified 的进阶版。
更难,覆盖四种编程语言。
GPT-5.2 Thinking 在 SWE Bench Pro 上准确率 55.6%。
在 SWE bench Verified 上是 80%。
数学也很猛。
在 AIME 2025(美国数学竞赛), GPT-5.2 Thinking 直接满分,100%。
没有使用任何工具,纯推理,满分。
这是第一个在这个测试上拿满分的 AI 模型。
多模态方面,OpenAI 表示错误率大约减半。
CharXiv Reasoning(科学图表推理)准确率 88.7%。
ScreenSpot Pro(软件界面理解)是 86.3%。
说人话:理解图表、屏幕截图、技术文档,更靠谱了。
另外值得一提的是, GPT-5.2 Thinking 相比前代,幻觉减少 30%。
OpenAI 今天总算实在了一回:
「和所有模型一样, GPT-5.2 并不完美。对于任何重要的事情,请复核它的答案。」
这种坦诚,我喜欢。
04|三个版本,今天上新
GPT-5.2 有三个版本。
Instant,快。
日常问答、写作、翻译,用它就够了。
OpenAI 说它保持了 GPT-5.1 那种温暖的对话风格,但解释更清晰,重点信息会提前呈现。
Thinking,深。
编程、文档分析、数学推理、规划决策,这些需要「思考」的任务交给它。
Pro,强。
最聪明,也最慢。
适合那些「答案质量比等待时间更重要」的场景。
ChatGPT 付费用户(Plus、Pro、Business、Enterprise)今天开始陆续推送。
免费和 ChatGPT Go 用户明天开放。
GPT-5.1 会作为旧版模型(Legacy Model)保留三个月,之后下线。
API 和 Codex,今天就能用。
GPT-5.2 API 定价是 1.75 美元/百万输入 tokens,14 美元/百万输出 tokens。
比 GPT-5.1 贵了约 40%。
但 OpenAI 说,因为 token 效率提升,实际完成任务的总成本可能反而更低。
最后,附上一个模型对比,高清大图,拿走不谢。
05|代号:「大蒜」
今天发布 GPT-5.2 ,并不突然。
我昨天的文章里已经写了。
ChatGPT 官方账号也有预热。
发了两张图,是 Sam Altman 在厨房里炒大蒜。
答案揭晓。
这个模型的内部代号叫「Garlic」,大蒜。
OpenAI 的应用 CEO Fidji Simo 说, GPT-5.2 不是 Code Red 的直接产物,已经开发了好几个月。
「我们一周内做不出这样的模型。」
但她也承认,Code Red 确实帮助 OpenAI 把资源集中到了 ChatGPT 上。
Sam Altman 预计会在明年一月份解除 Code Red 红色警戒状态。
看来,这场厮杀,还会继续下去。
AI 的竞争,比我们想象的还要激烈。
欢迎在评论区聊聊 GPT-5.2 的使用体验!
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/56.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论