OpenAI强势发布GPT5Codex连续编程7小时程序员饭碗还稳吗

听说最近 OpenAI 凭借 Codex 吸了一波粉。

Codex 是 OpenAI 推出的 AI 编程工具,类似于 Anthropic 的 Claude Code、谷歌的 Gemini CLI。

可能是 GPT-5 确实有实力,也可能是 Anthropic 自己不争气,反正结果就是,之前一直不愠不火的 Codex,最近重新被“翻红”了。

OpenAI 自然也懂得抓住这波流量。

于是,它更新了。

北京时间 9 月 16 日凌晨,OpenAI 官宣发布 GPT-5-Codex ,一个专门为 Codex 编程任务优化的 GPT-5 变体模型。

小火箭shadowrocket

今天,我们就来聊聊 GPT-5-Codex 。

01|动态思考时间:不是所有任务都需要深度思考

7 小时,是 GPT-5-Codex 身上最亮眼的标签(之一)。

在 OpenAI 的测试中,它能连续独立工作超过 7 个小时,持续迭代、debug 调试、修复问题,最终成功交付。

这背后,更值得一提的,其实是“动态思考时间”。

之前的模型,要么不会思考(牺牲质量)但响应迅速,要么深度思考但耗时久(且浪费 token)。

而 GPT-5-Codex ,会根据任务复杂度自动调整思考时间。

注意,是在模型训练时就让 GPT-5-Codex 学会“什么时候快,什么时候慢”,而不是像 ChatGPT 里的 GPT-5 那样路由到其他子模型。

这个设计很“聪明”。

实测,对于简单任务, GPT-5-Codex 比 GPT-5 少用 93.7% 的 token,几乎秒回。

中等难度的任务,token 使用量减少 30%-68%。

对于真正复杂的任务,比如重构大型项目代码, GPT-5-Codex 反而会比 GPT-5 多花 102.2% 的时间去思考、验证、迭代。

小火箭shadowrocket

02|跑分很漂亮,但看看就好

SWE-bench Verified 是目前最流行的 AI 编程基准测试。

GPT-5-Codex 正确率 74.5%,看起来很强。

但先别急。

首先,SWE-bench 这个测试有点“水”。

根据 Epoch AI 的公开分析,里面 90% 的任务都是资深程序员 1 小时内能修复的简单 bug。说白了,测的是“AI 会不会改 bug”,不是“AI 会不会写代码”。

其次,跑分这个东西,看看就好。

不提 GPT-5 (high) 本身就能拿到 72.8% 的准确率,就是自称编程 SOTA 的 Claude Opus 4.1 ,也有 74.5% 的 SWE-bench 成绩。

小火箭shadowrocket

真正有意思的是代码重构测试。

GPT-5-Codex 正确率 51.3%,而 GPT-5 (high) 只有 33.9%。

这个差距就很大了,提升了 17%。

小火箭shadowrocket

另一个比较大的提升在代码审查(Code Review)。

错误评论从 13.7% 降到 4.4%

高价值评论从 39.4% 上升到 52.4%

每个 PR 的评论数从 1.32 条降到 0.93 条

总结:说更少的话,犯更少的错。

03|产品升级:终于不那么割裂了

除了 GPT-5-Codex 这个新模型,OpenAI 把整个 Codex 产品线都升级了。

以前 OpenAI 的 Codex 产品很混乱,CLI、Web、IDE 插件,各玩各的。

现在终于统一了。

最实用的更新:Codex CLI 终于支持添加图片了,截图、线框图、设计稿都可以。

还加了任务追踪(to-do list)功能,过程更透明。

小火箭shadowrocket

权限管理更加简化,一共三档:只读(最谨慎)、自动(工作区内完整访问)、完全访问(放飞自我)。虽简单粗暴,但够用。

Codex IDE 扩展增加了对 VS Code 和 Cursor 的支持。

另外一个很实用的更新是跨端协作。在 IDE 里启动云任务,手机上看进度,回来继续改。不丢失下文,不用重复解释需求。

小火箭shadowrocket

和之前一样,Codex 默认在沙盒环境运行。

通过容器缓存,云端任务的完成时间减少了 90%。Codex 还会自动扫描项目里的 setup 脚本并执行,pip install 之类的依赖安装都能自动完成。

总结:Codex 产品力越来越强了。

04|Codex 怎么用?

和 Claude Code 类似,Codex 是和你的 ChatGPT 账号绑定在一起的。

ChatGPT Plus、Pro、Team、Edu 和 Enterprise 用户都能用 Codex,额度不同。

Codex 额度分为本地任务和云端任务。

其中,云端任务目前限制很宽松,但 OpenAI 没说会持续多久。

小小总结一波 ChatGPT 不同订阅本地任务的额度。

Plus:每 5 小时 30-150 条消息,适合轻度使用

Pro:每 5 小时 300-1500 条消息,全职开发爽用

Business/Edu:默认和 Plus 一样,但能买额外 credits

Enterprise:团队共享额度

大型项目、多文件操作、长对话会消耗更多额度。

当然,不想订阅的话,也可以用 OpenAI API Key 按需付费。

不过,非常不建议,因为贵。

# 设置环境变量export OPENAI_API_KEY="你的 API Key"# CLI 切换到 API 模式codex --config preferred_auth_method="apikey"

至于 Codex 的使用方式,那可就太多了。

网页端:ChatGPT 网页直接用

Codex CLI: npm i -g @openai/codex 安装

IDE 扩展:VS Code/Cursor 插件

手机端:ChatGPT iOS app(安卓不确定,官方没有明确说)

结语

在 AI 编程领域,Codex 是一个追赶者,而不是领跑者。

Cursor 年收入已经突破 5 亿美元;Claude Code 占 Anthropic 年收入的 10%;GitHub Copilot 则拥有最多的用户。

用户体验、功能细节、产品交互,这些软实力 OpenAI 还在追赶。

但速度,很快。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/135.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>