GPT5疯狂刷屏CursorCopilot基准测试成绩真相来了
最近几天,被 GPT-5 连续刷屏。
Reddit、X、Hacker News 上同时出现了关于它的多个爆料:
有人说它已经能“一击(one-shot)解决几乎任何问题”;
有人说 macOS ChatGPT 客户端里已经出现了 GPT-5 模型的身影;
甚至还有人放出了 GPT-5 的基准测试对比图。
到底哪条是真的,哪条是“AI 圈八卦”?
今天来梳理一波。
01|GPT‑5‑Alpha 悄然现身 Cursor
鉴定结果:99 真。
新模型上线前要经过多方、大量的测试。
这一次,是 Cursor。
Cursor 悄然上线了 GPT-5-Alpha ,已有不少用户获得了内测权限。
最早的爆料来自 Cursor 的首席设计官 Ryo Lu,他用 Cursor 一次提示就生成了一个样式精美的“Emoji 水族箱”对话气泡,据传背后驱动的就是 GPT‑5‑Alpha 模型。
Ryo Lu 甚至附上了体验地址,浓浓的 GUI 复古风扑面而来。
https://os.ryo.lu/
也有拿到内测资格的 Cursor 用户晒出了截图,并直呼 GPT‑5 太强:“它一击就解决了其他模型搞不定的难题。我甚至觉得,到 2026 年初,我们可能都不再需要程序员了。”
从这些用户放出的 Cursor 模型选择页面截图来看,还是有一定可信度的。
02|macOS ChatGPT 客户端提前曝出 GPT‑5
鉴定结果:99 真。
如果说 Alpha 内测属于“小道消息”,那接下来的这个爆料就更硬核了。
今天,有开发者在 macOS 版 ChatGPT 应用缓存目录中,发现了 GPT-5 相关条目:
~/Library/Caches/com.openai.chat/fsCachedData
在模型列表里赫然出现了两个新模型:
GPT-5-Auto
GPT-5-Reasoning
多位开发者在 X 和 Reddit 平台晒出了截图。
这意味着什么?
首先, GPT-5 的客户端集成已经在准备阶段,离官方发布不远了。
其次,模型命名暗示了新特性:
Auto:快速执行、可能整合代理功能;
Reasoning:思维链式推理,专门解决复杂问题。
结合此前 The Verge 和 BleepingComputer 的报道推测,8 月初 GPT-5 正式发布的概率很高。
03|GPT-5 基准成绩“吊打全场”?
鉴定结果:8 成假。
这两天流传最广的,还有所谓“ GPT-5 基准测试成绩”。
具体说来,是下面这张图(方便大家查看,我整合到了一张图里)。
它们分别是 GPT-5 在人类最后一场考试 HLE、代码 SWE‑Bench、知识推理 GPQA 及数学 AIME 2025 这几项测评中与其他前沿模型的对比结果。
下面则是 GPT-5 在 ARC-AGI 2 基准测试中的表现。横坐标是单次任务成本,纵坐标则是正确率百分比。
虽然看起来有模有样,结果也挺唬人,但可以负责任地讲:全是假图。
准确点说,它们都是预测值。
图表作者本人也在 X 上进行了澄清:“这些是我对 GPT‑5 的预测,内部人士 Satoshi 确认大多数是准确的,或者部分准确。”
04|Copilot Smart Mode 提前用上 GPT-5
鉴定结果:99 真。
就在 GPT-5 话题持续发酵、谣言满天飞时,微软这边也放出了“实锤”:Copilot 的智能模式(Smart Mode)已开始小范围推送。
内部代码显示,它的核心引擎就是 GPT-5 。
Smart Mode 有两个模式:
快速思考:简单问题秒回答;
深度思考:复杂任务先推理,再回答。
这其实就是 OpenAI 传闻已久的“路由器机制”:根据用户问题类型自动切换不同推理深度。
而用整合了 GPT 和 o 系列的 GPT-5 做底座模型,延迟和算力成本都更好控。
Copilot Smart Mode 长这样,截图来自职业爆料人 TestingCatalog。
实测切换了几个 Copilot 账号,都没有被推送到这个新功能。
结语
AI 圈从不缺热闹,缺的只是“实锤”。
从 Cursor 到 Copilot,从截图到基准成绩, GPT‑5 已经在“云端”徘徊了太久。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/177.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论