460万训练成本挑战万亿OpenAIKimiK2Thinking拆解实测
昨天,英伟达股价又又又跌了。
市值一夜蒸发 1733 亿美元,约合 1.2 万亿人民币。
这已经是近期五连跌。
从 10 月 29 日创下的 5.15 万亿美元历史高点,到现在跌破 4.6 万亿美元,短短几天市值缩水超 5000 亿美元。
英伟达股价五连跌,从历史高点 5.15 万亿美元 跌破 4.6 万亿。
华尔街开始紧张了。
因为上一个让英伟达股价暴跌的,还是今年 1 月 DeepSeek 的突然爆发——用 560 万美元训练成本,打造出媲美 OpenAI o1 的模型,让投资者质疑“烧钱买算力”的路线还能走多久。
而这一次,来自中国的月之暗面,用更少的钱,做了更狠的事。
本周, Kimi K2 Thinking 正式发布并开源。
460 万美元训练成本,在 “人类最后一场测试”(Humanity’s Last Exam,HLE)中拿下 44.9% 的成绩,超过 GPT-5 的 41.7%,吊打 Claude Sonnet 4.5 Thinking 的 32.0%。
Kimi K2 Thinking 在多项测试中超越 GPT-5 和 Claude,尤其是 HLE 和 BrowseComp。
关键还是完全开源的。
海外社区炸了。
推特上,有研究者引用 1969 年 NASA 用 4KB RAM 登月的例子,感叹“约束孕育创造力”(Creativity loves constraints)。
海外研究者感叹:460 万美元的训练成本,就像 1969 年 NASA 用 4KB RAM 登月。
也有人质疑性能是否真的全面超越 GPT-5 ,但无论如何,460 万 vs 数十亿美元的对比,已经让整个 AI 圈开始重新思考 “烧钱买算力” 的路线。
Nathan Lambert 在分析文章中指出:“这是开源模型距离闭源前沿最近的一次。”
VentureBeat 则提出质疑:“如果企业能免费获得与 GPT-5 相当的性能,为什么还要为闭源模型付费?”
这不只是技术突破,这是直接改写了游戏规则。
01|当 460 万美元碰上万亿野心
我们来算一笔账。
成本方面, Kimi K2 Thinking 的训练仅花了 460 万美元,比 DeepSeek V3 的 560 万还低,更不用说 GPT-5 的数十亿美元了。
差距高达上千倍。
估值端,月之暗面(Moonshot AI)上轮融资后市值约 33 亿美元,而 OpenAI 目前约 5000 亿美元,并计划 IPO 冲击 1 万亿美元。
换句话说,月之暗面的估值只有 OpenAI 的 0.66%。
但性能呢?
在“人类最后一场测试”(HLE)这个横跨物理、化学、数学、人文等 100 多个学科的博士级测试中, Kimi K2 Thinking 拿下 44.9%,一举超过 GPT-5 High 的 41.7% 和 Grok-4 的 41.0%,更是远超 Claude Sonnet 4.5 Thinking 的 32.0%。
在 Agentic 推理和搜索任务上,Kimi K2 Thinking 表现亮眼。
在网页搜索测试(BrowseComp)中,差距更悬殊。
Kimi K2 Thinking 得分 60.2%,领先 GPT-5 的 54.9%,而 Claude Sonnet 4.5 只有 24.1%,甚至人类平均水平也仅有 29.2%。
一个市值只有对手 0.66% 的公司,用不到千分之一的训练成本,在多个关键测试中碾压了估值万亿美元的 OpenAI。
这完全是一场“不对称战争”。
OpenAI 花数十亿美元训练 GPT-5 ,承诺未来十年投入超过 1 万亿美元建数据中心。
月之暗面用 460 万美元,就把游戏规则改写了。
对比强烈。
02|为什么 Kimi 新模型这么能打?
这次的 Kimi K2 Thinking ,有一个新关键词: 边思考,边调用 。
传统 AI 模型是“先想清楚,再执行”。
K2 Thinking 则是“一边想,一边做,发现错了马上改”。
就像人类解决复杂问题的真实过程。
更狠的是,它能连续执行 200–300 次工具调用,从搜索、输出到验证,一次搞定。
Kimi 展示“一边思考,一边调用”的能力。一个问题,数十次搜索,自动完成。
Kimi 的另一个秘密武器是: 成本控制 。
K2 Thinking 采用“量化感知训练”(Quantization-Aware Training,QAT),在训练时就让模型习惯 INT4 这种低精度运行环境,而不是训练完再压缩。
结果就是:推理速度翻倍,性能几乎无损。
并且,上面提到的所有测试成绩,都是在 INT4 这个压缩版上跑出来的。
有网友仅用两台 Mac Studio(M3 Ultra)就成功运行了这个万亿参数模型。
这在以前,想都不敢想。
Nathan Lambert 评论:“中国实验室发布模型的速度,远超美国同行。当进步节奏很快时,谁迭代更快,谁就更强。”
03|实测:看看它到底有多强
是骡子是马,拉出来遛遛。
来实测一波 Kimi K2 Thinking 。
1. 过河难题
一个男人带着儿子去市场,买了一只猴子和一些食物。回家要过河,但小船一次最多只能载两件东西,且必须有人划船。如果男人把儿子单独留在食物旁,儿子会吃掉食物;若把猴子单独留在食物旁,猴子也会吃掉它。请问,这个男人如何才能把儿子、猴子和食物都安全运到河对岸,而不损失任何食物?
这道题比经典的“农夫过河”更狠。
它考察 AI 对于复杂约束条件的处理和长链规划。
Kimi K2 Thinking 的回答完全正确。
它首先抓住了核心:只要父亲在场,儿子和猴子都不敢动食物。
然后给出 7 步完整方案,核心策略是让父亲充当“监督者”,确保食物不与儿子或猴子单独相处。
整个推理过程严谨清晰,每一步都标注了安全性验证。
Kimi 抓住核心,给出七步完整方法,逻辑严谨。
2. 八皇后问题
在 8×8 棋盘上放置 8 个皇后,使得任意两个皇后都不能互相攻击(不在同一行、同一列、同一对角线)。
这是经典的回溯算法问题。
Kimi K2 Thinking 不仅给出了正确解,还主动用 ASCII 字符画出了棋盘布局,标注每个皇后的位置。
它指出这道题共有 92 种不同解法,并解释了回溯算法的核心思路。
最贴心的是,它还提供了第二个解作对比,说明这两个解“无法通过旋转或镜像重合”。
Kimi 不仅给出正确解,还指出 92 种可能解法,甚至连回溯算法原理都讲明白了。
3. 天气卡片
你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况:- 风力(如:飘动的云朵、摇曳的树木或风线)- 降雨(如:下落的雨滴、形成的水洼)- 晴天(如:闪耀的光线、明亮的背景)- 下雪(如:飘落的雪花、积雪效果)所有天气卡片需要并排显示,背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。将前端显示效果优化得更精致流畅,打造出价值20元/月的精品天气应用既视感。
这也是一道经典题目,考察模型前端代码能力和审美。
Kimi K2 Thinking 的表现可以说相当惊艳。
总共 1421 行代码,一次生成,直接运行。
UI 采用深色渐变背景,并排展示天气卡片,每个卡片都有天气动画、毛玻璃效果,甚至还设计了详细的气象数据。
美观又精致。
唯一美中不足的是,缺少了“下雪”的天气卡片。
深色渐变 + 毛玻璃 + 流畅动画,Kimi 这 UI 水准可以的。
4. 深度商业分析
对比英伟达与全球前 10 大车企(特斯拉、丰田、小米、比亚迪等)的市值,验证“一家芯片公司比全球 10 大车企加起来还值钱 50% 以上”的说法。深度分析这种反常识估值背后的逻辑、英伟达护城河的真实宽度,以及如果你是比亚迪王传福会如何应对。
Kimi K2 Thinking 调用了联网搜索工具,分别搜索了 97、239、117、26 条信息源,进行多轮数据验证。
给出的数据:英伟达历史最高市值 5 万亿美元,最新市值 4.6 万亿美元;全球十大车企总和约 2.32 万亿美元。
数字准确无误。
K2 Thinking 通过多步推理和工具调用执行任务。
分析部分框架清晰,融入了多维视角:
英伟达卖的不是芯片,而是 AI 时代的“电力基础设施”
护城河的三重结构:技术壁垒(CUDA 生态)、网络效应(开发者锁定)、先发优势
资本市场的预期心理学:估值是“折现的未来想象力”
深度分析英伟达估值逻辑:卖的不是芯片,而是AI时代的“电力基础设施”。
最后给比亚迪的建议,有点“疯狂”,但又不无道理:
战略转型:比亚迪不应是汽车公司,而应是“物理世界 AI 公司”。不是加大自研投入,而是成为“英伟达在物理世界的应用分发商”。
给比亚迪的“疯狂”建议:不做汽车公司,而是成为“物理世界 AI 公司”。
整份报告 3100 字,耗时仅 30 秒。
一句话总结 Kimi K2 Thinking 在实测中的表现: 有点东西。
结语
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/88.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论