号称媲美o1的KimiK15被24点难哭了首发实测

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2025我们继续出发。

推理模型 在国内AI领域已不是什么新鲜事。

很多AI厂商都推出了自家的推理模型,注意,这里的“推理模型”指的是通过 强化学习 训练出的、在回答问题前会“ 思考 ”的模型。 深度求索 的 DeepSeek-R1 ,Kimi的 K1.5 , 阿里通义 的 QwQ-32B-preview 和 QVQ-72B-Preview , 智谱 的 GLM-Zero-Preview , 阶跃星辰 的 Step R-mini , 讯飞星火 的 X1 , 百川智能 的 Baichuan-M1-preview ,甚至连 中国电信 都官宣了自研的推理模型 TeleAI-t1-preview 。

然而,目前这么多国产推理模型中,只有2个敢于声称 性能媲美 OpenAI满血版 o1 ,其中一个自然是目前红的发紫的 DeepSeek-R1 ,另一个则是Kimi的 K1.5 ,也是今天文章的主角。

小火箭shadowrocket

关于 DeepSeek-R1 和 Kimi K1.5 ,我在《 DeepSeek-R1与Kimi k1.5深度分析:大模型进化的4大趋势! 》一文中也写了一些思考。

Kimi K1.5 有这么几个关键词: 强化学习 、 长上下文扩展 、 多模态 。和大多数推理模型一样, Kimi K1.5 基于奖励机制的强化学习 进行训练,让模型在不断试错和反馈中提升推理能力。“长上下文”指的是 K1.5 的推理上下文窗口扩展至了 128K 。好处是显而易见的,能够记住更多的推理轨迹,能够进行更长的思考,也能更好地规划与反思。 多模态 则是Kimi官方一直强调的功能,这也无可厚非,毕竟 DeepSeek-R1 也只是个纯文本模型。

对于AI模型来说, 基准测试 只是一个起步。在复杂多变的使用场景中的表现,某种程度上更为重要。关于国内推理模型的测试,之前也测过几次,详情可以看这里。

元旦献礼:谁才是o1的最佳平替?!

国产推理模型卷起来了!阶跃星辰Step R-mini推理模型首发实测!

测试了一天,我帮你们找到了OpenAI o1的平替!

昨天收到了 Kimi K1.5 的灰度推送,今天来实测一波,供小伙伴们参考。

小火箭shadowrocket

1. 帽子颜色问题

有 10 个人站成一列纵队,从 10 顶黄帽子和 9 顶蓝帽子中,取出 10 顶分别给每个人戴上。每个人都看不见自己头上的帽子颜色,却只能看见站在前面那些人的帽子颜色。站在最后的第十个人说:“我虽然看见了你们每个人头上的帽子,但仍然不知道自己头上帽子的颜色。”依次类推,直到第二个人也说不知道自己头上帽子的颜色。出乎意料的是,第一个人却说:“我知道自己头上帽子的颜色了。”请问:第一个人头上戴的是什么颜色的帽子?他为什么知道呢?

这是一个开胃小菜, Kimi K1.5 表现不错,最终答案和推理过程都 准确无误 。

小火箭shadowrocket

2. 蜗牛爬杆问题

一只蜗牛白天爬上 10 英尺高的杆子,然后晚上从 6 英尺高的杆子上滑下来。蜗牛需要多少天才能到达顶端?

题目理解和解答 完全正确 ,同时给出了计算公式。同样的问题我之前也测试过, Kimi K1.5 和其前代模型相比,表现出了 很大的进步 。

小火箭shadowrocket

3. 真假话推断问题

有三个匣子,分别是金匣子、银匣子和铅匣子,其中一个匣子里有宝物。每个匣子上都有一条题词:

金匣子:宝物不在此匣中。银匣子:宝物在金匣中。铅匣子:宝物不在此匣中。

已知这三句话中只有一句是真话。请问宝物在哪个匣子里?

Kimi K1.5 回答正确 ,推理思路也很清晰明了。和 DeepSeek-R1 一样,偶尔出现Latex公式未渲染的问题,就像下面这个截图里展示的。

小火箭shadowrocket

4. 逻辑推理问题

有 5 个人(A、B、C、D、E)参加比赛,他们分别来自不同的国家(美国、英国、法国、德国、意大利),每个人从事不同的职业(教师、医生、律师、工程师、作家)。已知:

A 是美国人,且不是教师。

B 是英国人,且不是医生或律师。

C 不是法国人,也不是工程师。

D 是德国人,且不是作家。

意大利人是律师。

教师来自法国。

很遗憾,这道题目 Kimi K1.5 用完了所有的思考上下文长度,也 没能得出答案 ,导致 思考被迫中断 。本身回答过长,仅截取结果部分。

小火箭shadowrocket

通过检查 Kimi K1.5 的思考过程,我发现它其实很快就推理出了可能的情况。然而,后续它陷入了“深深地”自我怀疑,过度思考,导致耗完了所有的思考上下文长度。

小火箭shadowrocket

接下来进入到 困难版24点问题 的测试。

5. 24点:2、3、5、12

用数字 2、3、5、12 和四则运算得出结果 24。

Kimi K1.5 回答错误 ,未使用数字2。

小火箭shadowrocket

结合思考过程,可以看到 Kimi K1.5 出现了幻觉。思考时的输出语气倒是挺可爱的,“让我深呼吸,再试一次”。

小火箭shadowrocket

6. 24点:2, 7, 8, 9

用数字 2, 7, 8, 9 和四则运算得出结果 24。

回答错误 ,多用了一次数字2。

小火箭shadowrocket

7. 24点:1, 2, 7, 7

用数字 1, 2, 7, 7 和四则运算得出结果 24。

本题 Kimi K1.5 的表现和上面的“4 逻辑推理问题”一样,由于耗尽了思考上下文长度, 未能给出答案 。

小火箭shadowrocket

8. 24点:2, 2, 2, 9

用数字 2, 2, 2, 9 和四则运算得出结果 24。

Kimi K1.5 再次思考中断, 未给出答案 。

小火箭shadowrocket

9. 24点:4, 4, 10, 10

用数字 4, 4, 10, 10 和四则运算得出结果 24。

Kimi K1.5 给出了一个结果,但是 错的 ,多用了一次数字4。

小火箭shadowrocket

10. 24点:1, 5, 5, 5

用数字 1, 5, 5, 5 和四则运算得出结果 24。

回答正确 。测试到这里我以为 Kimi K1.5 在24点问题里要全军覆没了,没想到还有惊喜。

小火箭shadowrocket

11. 24点:2, 5, 5, 10

用数字 2, 5, 5, 10 和四则运算得出结果 24。

很遗憾, Kimi K1.5 再次 没答出来 。

小火箭shadowrocket

12. 24点:1, 4, 5, 6

用数字 1, 4, 5, 6 和四则运算得出结果 24。

Kimi K1.5 回答错误 ,多用了一次数字6。另外,后面的推荐问题自动变成了 英文 ,整个推理过程倒是全中文的。

小火箭shadowrocket

13. 24点:6, 9, 9, 10

用数字 6, 9, 9, 10 和四则运算得出结果 24。

Kimi K1.5 继续 回答错误 ,多用了一次数字6。

小火箭shadowrocket

14. 24点:3, 3, 7, 7

用数字 3, 3, 7, 7 和四则运算得出结果 24。

回答错误 ,看起来是强行凑了一个答案。

小火箭shadowrocket

15. 24点:3, 3, 8, 8

用数字 3, 3, 8, 8 和四则运算得出结果 24。

Kimi K1.5 再次 回答错误 。

小火箭shadowrocket

总结

总结一波 Kimi K1.5 的测试表现。

所有测试只记录 首次测试(one-shot) 的结果。

和前一代 K1.0 相比,确实有进步,主要体现在整体 推理能力 上。一般性的推理问题,比如我测试的前几题,无压力通过,推理思路很清晰,也较少出现“自我怀疑”、“自我否定”的情况。推理过程均为中文。

一共 15个测试问题 ,包括11道很有难度的24点问题, Kimi K1.5 仅答对 4题 ,其中24点问题仅答对 1题 。客观来说,这个结果相当不理想,要知道, DeepSeek-R1 的战绩是 答对9题 ,仅错了2题,全程记录在这里: 测试了一天,我帮你们找到了OpenAI o1的平替!

出现了多次耗尽思考上下文长度,导致 思考被迫中断 的情形。检查后可以明显看到“ 过度思考 ”的痕迹。

小火箭shadowrocket

Kimi官方确实提到了: 由于测试时算力限制,当前预览版本在基准测试中的表现可能略逊于k1.5正式版。完整的k1.5 模型将很快进行效率优化并上线。 也许正式版发布后性能会好一点?

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/355.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>