测试了一天我帮你们找到了OpenAIo1的平替

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2025我们继续出发。

今天,我和深度求索刚刚发布的 DeepSeek-R1 玩了一天。

先放结论: DeepSeek-R1 强,很强。

DeepSeek-R1 是由低调奢华有内涵的国内AI初创公司深度求索(DeepSeek)发布并 开源 的最新推理模型。

该模型的前身是 DeepSeek-R1-Lite 。我之前也做过不少关于 DeepSeek-R1-Lite 的测评,说实话,和OpenAI的 o1 比起来,推理能力差距不小,大约是比 o1-preview 弱一点的水平。

而如今的 DeepSeek-R1 令人刮目相看,不只是停留在纸面上的基准测试。

为了测试 DeepSeek-R1 的推理能力在实际体验中到底怎么样,我今天做了大量测试。分享一些比较有趣的。

24点问题(困难版)

1. “2、3、5、12”

用数字 2、3、5、12 和四则运算得出结果 24。

这个是 DeepSeek-R1-Lite 无法推理出的一道题,我用 DeepSeek-R1 测试了多次,稳定回答正确。

小火箭shadowrocket

美中不足的是,好几次答案中的 LaTeX公式 都没有正常渲染显示,比如上面那个。但也有能渲染出来的,比例大概50%吧。

2. “2, 7, 8, 9”

用数字 2, 7, 8, 9 和四则运算得出结果 24。

思考19秒,回答正确,还进行了最终结果的二次验证。

小火箭shadowrocket

3. “1, 2, 7, 7”

用数字 1, 2, 7, 7 和四则运算得出结果 24。

思考21秒,回答正确。可以看到,像这种带有除法运算的24点问题本身还是有一定难度的。

小火箭shadowrocket

4. “2, 2, 2, 9”

用数字 2, 2, 2, 9 和四则运算得出结果 24。

划重点,这是 DeepSeek-R1 第一次 出错。思考了139秒,最终以幻觉结束。

小火箭shadowrocket

来看看 o1-mini 和 o1 的回答。这里只考虑第一次回答的结果。

o1-mini 和 o1 均回答正确,甚至 o1-mini 只思考了4秒钟就给出了正确答案。

o1-mini:

小火箭shadowrocket

o1:

小火箭shadowrocket

附上 GPT-4o 和 Claude 3.5 Sonnet 的回答作为对比。错的很离谱,这就是 推理模型 和 通用模型 在推理能力上的区别。

GPT-4o:

小火箭shadowrocket

Claude 3.5 Sonnet:

小火箭shadowrocket

5. “4, 4, 10, 10”

用数字 4, 4, 10, 10 和四则运算得出结果 24。

DeepSeek-R1 思考了25秒,回答正确。

小火箭shadowrocket

6. “1, 5, 5, 5”

用数字 1, 5, 5, 5 和四则运算得出结果 24。

思考9秒,回答正确。同样出现了Latex渲染失败的问题。

小火箭shadowrocket

7. “2, 5, 5, 10”

用数字 2, 5, 5, 10 和四则运算得出结果 24。

很有难度的题目。 DeepSeek-R1 思考了45秒,最终回答正确。

小火箭shadowrocket

8. “1, 4, 5, 6”

用数字 1, 4, 5, 6 和四则运算得出结果 24。

凡是涉及除法、分数等需要逆向运算的24点题目,都有难度。这道题, DeepSeek-R1 思考了38秒,不但回答正确, 甚至给出了2个都正确的解答 。

小火箭shadowrocket

9. “6, 9, 9, 10”

用数字 6, 9, 9, 10 和四则运算得出结果 24。

很遗憾, DeepSeek-R1 思考45秒,还是回答错了。

划重点,这是 DeepSeek-R1 第二次 出错。

小火箭shadowrocket

同样,来看看 o1-mini 和 o1 的回答。 o1-mini 和 o1 都是一次通过,思考时间方面, o1-mini 思考57秒, o1 思考了1分44秒。

o1-mini:

小火箭shadowrocket

o1:

小火箭shadowrocket

10. “3, 3, 7, 7”

用数字 3, 3, 7, 7 和四则运算得出结果 24。

“3, 3, 7, 7”在这些题目里都算是简单的了。 DeepSeek-R1 思考17秒,给出正确答案。

小火箭shadowrocket

11. “3, 3, 8, 8”

用数字 3, 3, 8, 8 和四则运算得出结果 24。

回答正确,用时15秒。

小火箭shadowrocket

总结一下, 11道 困难版本的24点题目(含有除法、分数运算的), DeepSeek-R1 的战绩是回答正确 9道 。拿 DeepSeek-R1 出错的题目投喂给 o1-mini 和 o1 ,这两个模型都回答正确了。

最后,再附上一个上一代的 DeepSeek-R1-Lite 出错了的真假话推理问题。我在《 国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 》一文中有过记录。

DeepSeek-R1 回答完全正确。虽然是通过枚举法推理出的,但的确答对了。

小火箭shadowrocket

结语

总结一下 DeepSeek-R1 的综合表现: 肉眼可见的进步。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/359.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>