GPT5疯狂刷屏CursorCopilot基准测试成绩真相来了

小火箭shadowrocket • 2026年1月12日 am8:12 • 小火箭

最近几天，被 GPT-5 连续刷屏。

Reddit、X、Hacker News 上同时出现了关于它的多个爆料：

有人说它已经能“一击（one-shot）解决几乎任何问题”；

有人说 macOS ChatGPT 客户端里已经出现了 GPT-5 模型的身影；

甚至还有人放出了 GPT-5 的基准测试对比图。

到底哪条是真的，哪条是“AI 圈八卦”？

今天来梳理一波。

01｜GPT‑5‑Alpha 悄然现身 Cursor

鉴定结果：99 真。

新模型上线前要经过多方、大量的测试。

这一次，是 Cursor。

Cursor 悄然上线了 GPT-5-Alpha ，已有不少用户获得了内测权限。

最早的爆料来自 Cursor 的首席设计官 Ryo Lu，他用 Cursor 一次提示就生成了一个样式精美的“Emoji 水族箱”对话气泡，据传背后驱动的就是 GPT‑5‑Alpha 模型。

Ryo Lu 甚至附上了体验地址，浓浓的 GUI 复古风扑面而来。

https://os.ryo.lu/

也有拿到内测资格的 Cursor 用户晒出了截图，并直呼 GPT‑5 太强：“它一击就解决了其他模型搞不定的难题。我甚至觉得，到 2026 年初，我们可能都不再需要程序员了。”

从这些用户放出的 Cursor 模型选择页面截图来看，还是有一定可信度的。

02｜macOS ChatGPT 客户端提前曝出 GPT‑5

鉴定结果：99 真。

如果说 Alpha 内测属于“小道消息”，那接下来的这个爆料就更硬核了。

今天，有开发者在 macOS 版 ChatGPT 应用缓存目录中，发现了 GPT-5 相关条目：

~/Library/Caches/com.openai.chat/fsCachedData

在模型列表里赫然出现了两个新模型：

GPT-5-Auto

GPT-5-Reasoning

多位开发者在 X 和 Reddit 平台晒出了截图。

这意味着什么？

首先， GPT-5 的客户端集成已经在准备阶段，离官方发布不远了。

其次，模型命名暗示了新特性：

Auto：快速执行、可能整合代理功能；

Reasoning：思维链式推理，专门解决复杂问题。

结合此前 The Verge 和 BleepingComputer 的报道推测，8 月初 GPT-5 正式发布的概率很高。

03｜GPT-5 基准成绩“吊打全场”？

鉴定结果：8 成假。

这两天流传最广的，还有所谓“ GPT-5 基准测试成绩”。

具体说来，是下面这张图（方便大家查看，我整合到了一张图里）。

它们分别是 GPT-5 在人类最后一场考试 HLE、代码 SWE‑Bench、知识推理 GPQA 及数学 AIME 2025 这几项测评中与其他前沿模型的对比结果。

下面则是 GPT-5 在 ARC-AGI 2 基准测试中的表现。横坐标是单次任务成本，纵坐标则是正确率百分比。

虽然看起来有模有样，结果也挺唬人，但可以负责任地讲：全是假图。

准确点说，它们都是预测值。

图表作者本人也在 X 上进行了澄清：“这些是我对 GPT‑5 的预测，内部人士 Satoshi 确认大多数是准确的，或者部分准确。”

04｜Copilot Smart Mode 提前用上 GPT-5

鉴定结果：99 真。

就在 GPT-5 话题持续发酵、谣言满天飞时，微软这边也放出了“实锤”：Copilot 的智能模式（Smart Mode）已开始小范围推送。

内部代码显示，它的核心引擎就是 GPT-5 。

Smart Mode 有两个模式：

快速思考：简单问题秒回答；

深度思考：复杂任务先推理，再回答。

这其实就是 OpenAI 传闻已久的“路由器机制”：根据用户问题类型自动切换不同推理深度。

而用整合了 GPT 和 o 系列的 GPT-5 做底座模型，延迟和算力成本都更好控。

Copilot Smart Mode 长这样，截图来自职业爆料人 TestingCatalog。

实测切换了几个 Copilot 账号，都没有被推送到这个新功能。

结语

AI 圈从不缺热闹，缺的只是“实锤”。

从 Cursor 到 Copilot，从截图到基准成绩， GPT‑5 已经在“云端”徘徊了太久。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/177.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

Kimi新王登顶Qwen3Max开启推理Gemini3年内上线AIWeekly

< <上一篇

AWSKiro火到官网下架安装包一招教你跳过候补免费用Claude

下一篇>>

搜索内容

GPT5疯狂刷屏CursorCopilot基准测试成绩真相来了

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章