阿里Qwen团队发布首个开源推理模型QwQ32Bpreview
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2024我们一起变强。
昨天(北京时间11月28日), 全球首个开源的推理模型 诞生了:来自 阿里Qwen团队 的 QwQ-32B-preview 模型!
最近这段时间,国内AI领域中,“推理模型”卷的厉害。先是DeepSeek(深度求索)发布了国内首个对标 o1 的推理模型 DeepSeek-R1-Lite ,接着是月之暗面正式发布了Kimi数学版,对应的模型为 k0-math 。紧接着昆仑万维开启了天工大模型 4.0 o1版的邀请测试,该模型英文名 Skywork o1 ,从命名也能看出它是个什么模型了吧。
接下来就是阿里的通义团队(Qwen团队),出手即王炸,直接发布了开源的推理模型 QwQ-32B-preview 。
该模型的名字有点意思,QWQ看起来像是一个颜文字,Qwen团队官方表示发音为/kwju:/,与单词“quill”的读音近似。
QwQ-32B-preview 在各项基准测试中的表现如下。

老规矩,先解释一下这些基准测试。
GPQA : 测试模型在常识问答和通用知识理解上的能力。
AIME : 检验模型对高难度数学竞赛题目的解题能力。
MATH-500 : 测评模型在广泛数学领域中解决复杂问题的表现。
LiveCodeBench : 测试模型生成、调试和实现代码的编程能力。
可以看到, QwQ-32B-preview 综合表现优异,并且各项能力比较均衡,没有“偏科”情况。在MATH-500测评中甚至超过了OpenAI的2个 o1 模型。作为一个推理模型, QwQ-32B-preview 的综合表现已全面超越常规模型,如 GPT-4o 和 Claude 3.5 Sonnet 。
另外,值得注意的是, QwQ-32B-preview 是一个模型参数仅有32B的小模型! 更轻量化的模型意味着更高的计算资源效率、更快的推理速度,以及更低的硬件需求 。这种高性能的小模型能够有更大的使用场景,值得关注。
在此,附上Kimi- k0-math 和DeepSeek- DeepSeek-R1-Lite 的测评结果。毕竟大家都是以 o1 作为对标模型,还是有一定的对比和参考意义的。


QwQ-32B-preview项目地址
QwQ模型地址 :https://huggingface.co/Qwen/QwQ-32B-Preview
QwQ体验地址 :https://huggingface.co/spaces/Qwen/QwQ-32B-preview
QwQ-32B-preview初体验
目前Qwen团队提供了 QwQ-32B-preview 免费的在线体验方式。感兴趣的小伙伴可以通过上面那个Hugging Face Spaces(中文俗称:抱抱脸)平台的链接进行体验。
还是先来测试一个草莓测试。
Strawberry一词中有多少个字母“r”?
和Kimi一样, QwQ-32B-preview 也会把完整的推理过程打印出来。从下面的回答可以看出, QwQ-32B-preview 回答正确无误,用了数数的方式来解答。
但细看推理过程可以发现, QwQ-32B-preview 是出现了一定幻觉的,比如它提到“ 但是,我觉得可能数错了,因为草莓这个词里好像有两个r ”。

接着来测试一道官方推荐的逻辑推理问题。
S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉 P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q 先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话:
P先生:我不知道这张牌。
Q先生:我知道你不知道这张牌。
P先生:现在我知道这张牌了。
Q先生:我也知道了。
请问:这张牌是什么牌?
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/412.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论