DeepSeekR1vso1proGrok3竟成幕后赢家

小火箭shadowrocket • 2026年1月14日 am8:03 • 小火箭

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“ 外挂 ”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于 AI科普， AI工具测评， AI效率提升， AI行业洞察。关注我，AI之路不迷路，2025我们继续出发。

关于国产靓仔 DeepSeek-R1 和老牌强手 o1 谁更强的话题从来没有停止过。

其实，在 o1 之上，还有一个更厉害的 o1-pro 。 o1-pro 并不是一个新模型，而是 o1 模型的高算力模式，类似于电脑和手机的“高性能模式”或“电竞模式”。目前 o1-pro 只对开通了每月200美元的 ChatGPT Pro 会员开放使用。

o1-pro 在本身的问答质量上其实和 o1 差不多，毕竟底层模型没有变，“智商”还是那个“智商”。但 o1-pro 在问答质量的稳定性和一致性上要比 o1 高不少。

比如同一个问题，你连续分别问 o1-pro 和 o1 4次，记录它们在 4次尝试中都回答正确的比例。这个测试被称为“ 4/4可靠性（ 4/4 reliability ）”测试。

这么强的 o1-pro ，也有被 DeepSeek-R1 打败的时候。

近期，一项编程测试开始在X平台风靡。

这个测试要求AI模型编写一个 Python 脚本，实现“一个黄色小球在一个正方形区域内反弹”的动画效果，同时正方形区域在缓慢旋转。

这个测试的原始提示词如下。

write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square

就是看起来如此“平平无奇”的问题， DeepSeek-R1 完败了 o1-pro 。来看结果。左边是 o1-pro 的结果。右边是 DeepSeek-R1 的结果。

原作者Ivan Fioravanti表示：尽管 DeepSeek-R1 的碰撞效果还不完美，但这两个结果简直是天壤之别，而且一个每月要200美元（ o1-pro ），另一个几乎是免费的（ DeepSeek-R1 ）。

随后，Ivan Fioravanti让 DeepSeek-R1 对输出结果中的“碰撞效果”进行改进。这次 DeepSeek-R1 的表现稍稍“拉胯”，小球直接飞出去了。

Ivan Fioravanti随即表示：好了，程序员们，2025年我们安全了！（意思是不会被AI取代了）

等等别走，还有高手。

Ivan Fioravanti的这个颇为有趣的测试很快传播开来。网友们纷纷进行了测试，分享测试结果。这其中就包括xAI的工程师 Eric Zelikman 。

Eric Zelikman分享了 Grok 3 的测试结果。注意，这些都是首次（one shot）结果。

从结果来看，毫无疑问， Grok 3 在其中的效果是最好的。比 DeepSeek-R1 还要好。

Grok 3 是xAI未发布但即将发布的最新模型，是当前的 Grok 2 的升级版本。据马斯克之前的透露， Grok 3 的预训练使用了比 Grok 2 高出 10倍的算力，利用了100,000个NVIDIA H100 GPU的Colossus超级计算机集群进行训练。目前， Grok 3 的预训练已经完成，等待发布中。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/354.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

Manus横空出世阿里开源QwQ32B豆包深度思考字节发布Trae国内版AIWeek

< <上一篇

深度好文来自Claude官方的AIAgent详解

下一篇>>

搜索内容

DeepSeekR1vso1proGrok3竟成幕后赢家

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章