阿里Qwen3MaxThinking终于上线但被这道小学数学题难住了

等了一个多月, Qwen3-Max Thinking 终于来了。

几小时前,阿里 Qwen 团队的 Junyang Lin 在 X 上低调官宣: Qwen3-Max Thinking 已经在 Qwen Chat 正式上线。

Word文档图片

Qwen3-Max Thinking 是什么?

时间回到 9 月 24 日的云栖大会。

当时阿里发布 Qwen3-Max 时,只上线了 Instruct 非推理版本。

作为一个万亿参数的 MoE 模型, Qwen3-Max 确实很强,借用阿里官方的说法:“大就是好”。

Artificial Analysis 排行榜当时直接把它列为了最强非推理模型(现已被超越)。

Word文档图片

但所有人都在等 Thinking 版本。

官方当时的说法是“还在训练中”,但已经在 AIME25、HMMT25 数学测试上拿到了 100% 的满分。

Qwen3-Max Thinking 的基准测试结果是这样的。

Word文档图片

今天,它终于发布了。

怎么体验

最简单的方式:直接访问 Qwen Chat https://chat.qwen.ai ,选择 Qwen3-Max 模型,然后开启 Thinking 模式。

完全免费。

Word文档图片

使用时,你可以自行调节 Qwen3-Max Thinking 的 Thinking budget(推理预算),默认最大 80K tokens。

推理预算越大,模型思考越深入,耗时也越长。

Word文档图片

一个 Bug

根据热心网友测试, Qwen3-Max Thinking 在下面这个简单问题上经常“翻车”。

9.8-9.11=?

Word文档图片

实测发现, Qwen3-Max Thinking 在思考时第一反应会给出 “-0.31” 这个错误答案,但马上会意识到不对,在后续推理中否定掉,最终给出正确答案 “0.69”。

很可能是模型本身的问题。

Word文档图片

结语

需要注意的是, Qwen3-Max 和 Qwen3-Max Thinking 都是闭源模型。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/93.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>