号称媲美o1的KimiK15被24点难哭了首发实测

小火箭shadowrocket • 2026年1月17日 am8:02 • 小火箭

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“ 外挂 ”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于 AI科普， AI工具测评， AI效率提升， AI行业洞察。关注我，AI之路不迷路，2025我们继续出发。

推理模型在国内AI领域已不是什么新鲜事。

很多AI厂商都推出了自家的推理模型，注意，这里的“推理模型”指的是通过强化学习训练出的、在回答问题前会“ 思考 ”的模型。深度求索的 DeepSeek-R1 ，Kimi的 K1.5 ，阿里通义的 QwQ-32B-preview 和 QVQ-72B-Preview ，智谱的 GLM-Zero-Preview ，阶跃星辰的 Step R-mini ，讯飞星火的 X1 ，百川智能的 Baichuan-M1-preview ，甚至连中国电信都官宣了自研的推理模型 TeleAI-t1-preview 。

然而，目前这么多国产推理模型中，只有2个敢于声称性能媲美 OpenAI满血版 o1 ，其中一个自然是目前红的发紫的 DeepSeek-R1 ，另一个则是Kimi的 K1.5 ，也是今天文章的主角。

关于 DeepSeek-R1 和 Kimi K1.5 ，我在《 DeepSeek-R1与Kimi k1.5深度分析：大模型进化的4大趋势！》一文中也写了一些思考。

Kimi K1.5 有这么几个关键词：强化学习、长上下文扩展、多模态。和大多数推理模型一样， Kimi K1.5 基于奖励机制的强化学习进行训练，让模型在不断试错和反馈中提升推理能力。“长上下文”指的是 K1.5 的推理上下文窗口扩展至了 128K 。好处是显而易见的，能够记住更多的推理轨迹，能够进行更长的思考，也能更好地规划与反思。多模态则是Kimi官方一直强调的功能，这也无可厚非，毕竟 DeepSeek-R1 也只是个纯文本模型。

对于AI模型来说，基准测试只是一个起步。在复杂多变的使用场景中的表现，某种程度上更为重要。关于国内推理模型的测试，之前也测过几次，详情可以看这里。

元旦献礼：谁才是o1的最佳平替？！

国产推理模型卷起来了！阶跃星辰Step R-mini推理模型首发实测！

测试了一天，我帮你们找到了OpenAI o1的平替！

昨天收到了 Kimi K1.5 的灰度推送，今天来实测一波，供小伙伴们参考。

1. 帽子颜色问题

有 10 个人站成一列纵队，从 10 顶黄帽子和 9 顶蓝帽子中，取出 10 顶分别给每个人戴上。每个人都看不见自己头上的帽子颜色，却只能看见站在前面那些人的帽子颜色。站在最后的第十个人说：“我虽然看见了你们每个人头上的帽子，但仍然不知道自己头上帽子的颜色。”依次类推，直到第二个人也说不知道自己头上帽子的颜色。出乎意料的是，第一个人却说：“我知道自己头上帽子的颜色了。”请问：第一个人头上戴的是什么颜色的帽子？他为什么知道呢？

这是一个开胃小菜， Kimi K1.5 表现不错，最终答案和推理过程都准确无误。