GPT5提前泄露神秘模型Zenith横扫竞技场一夜刷屏强到离谱
要说 AI 领域接下来最值得期待的更新, GPT-5 必定榜上有名。
毕竟,它是真的快要发布了。
上周四,科技媒体 The Verge 爆料,OpenAI 下一代模型 GPT-5 将于 8 月初登场!此次发布将包含标准、mini 与 nano 三个版本,其中 nano 版仅通过 API 提供。
而就在刚过去的周末,一款名为 Zenith 的模型悄悄登陆 LMArena 平台,该模型性能炸裂,几乎一夜之间就在 X 平台刷屏。
LMArena 全称 LMSYS Chatbot Arena,是一个开源、实时的大模型对战平台。它有点像 AI 竞技场:用户输入提示,系统随机挑选两个模型匿名上阵,对答完再投票,选出“谁更强”,最后才揭晓模型的真实身份。
当投票数量够大,系统就会为模型计算出稳定的 Elo 分数。这些分数再汇总,构成 LMSYS 官方榜单 —— 目前公认最有参考价值的大模型排行榜之一。
那么, Zenith 到底有多猛?
TestingCatalog 将 Zenith 视为能够与谷歌前段时间爆火的 Kingfall 比肩的模型,并晒出了两者绘制 SVG 机器人的对比图。
图中左边为 Zenith 画的机器人,右边则是 Kingfall 的作品。
从视觉风格来看, Zenith 偏“可爱”路线,形象更贴近我们对机器人的想象;而疑似基于 Gemini 3 的 Kingfall ,则呈现出更酷炫、前卫的科技感。
SVG 图可以用来衡量一个语言模型的综合能力,它涵盖了理解、编辑、生成等多个维度,考验的不只是代码能力,而且是结构推理与逻辑。
下面我附上其他模型画的 SVG 机器人,你就知道上面两个有多“大神”了。
DeepSeek-R1 0528 ,勉强能看。
OpenAI o3 ,画风抽象,不忍直视。
也只有 Claude Opus 4 画的像是那么回事了。
这么一对比,是不是觉得 Zenith 和 Kingfall 画的 SVG 机器人更顺眼了。
下面这位网友则直接晒出了 Zenith 对“神经同步 Neural sync”的模拟构建,并表示:“ GPT-5 比 Grok 4 强 1000 倍!”
附一张大图。如果是真的,那 GPT-5 还真有点厉害。
同时,也有不少用户表示, Zenith 在前端设计方面有了“质的飞跃”。
要知道,前端一直是 OpenAI 模型的短板,Claude、DeepSeek 写前端页面普遍强于 GPT 和 o 系列。
但这次, Zenith 给出的结果令人惊艳。
星际战舰风格的仪表盘界面。
完整结构的单页网站。
生成者表示,“质量惊人,甚至已经可以直接投入生产环境使用!”
如果这是真的,那像 Bolt、Lovable 这样的前端 AI 工具,恐怕就要感受到前所未有的压力了。
在处理复杂信息上, Zenith 也展现出过人的“天赋”。
以“双重 Base64 解码”为例,这是一个常用于加密挑战的测试。
据用户反馈,目前唯有 Claude 模型能够稳定完成这种嵌套解码,其他模型大多会出现理解偏差。
而从实测截图来看, Zenith 不仅识别准确,解码过程也十分流畅。
当然,尽管 Zenith 表现强悍,目前仍无法百分百确认它就是传说中的 GPT-5 。
也有用户在体验后表示:“它没有给我 GPT-5 的感觉。”
不过,单看 Zenith 这个名字,就已经透出几分“野心”。
Zenith,意为“顶点”“极盛之时”,象征着力量与成就的巅峰。
Zenith (noun) — the highest point or peak of something; the time at which something is most powerful or successful.
敢用这个词命名模型的,大概率不是什么“普通玩家”。
结语
最后,如果你也想亲自体验 Zenith 的实力,那还得靠点运气。
访问 lmarena.ai ,默认就是“Battle”模式,输入一个问题,系统会随机选出两款模型匿名对战,你投票后才能看到它们的真实身份。
无需注册,也不需要登录,即开即玩。
我实测玩了几个小时,基本把榜上模型都刷了一遍,但 Zenith 一次也没遇上。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/180.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论