开源国产芯片具身智能的DeepSeek时刻来了

为什么大语言模型已经能写作、编程、拿数学奥赛金牌,但机器人连叠个衣服都费劲?

一个反常识的事实:

机器人全行业的训练数据加起来,也不够特斯拉的自动驾驶系统训练一天的。

这一点不夸张。

特斯拉 FSD(Full Self-Driving)在世界模型的加持下,每天的训练量相当于人类司机开 400 万小时。

换算一下,大约是 500 年的驾驶经验。

而整个具身智能行业的真机数据,加起来只有 10 万小时。

1 天 vs 几十年,还差了 40 倍。

这就是开头那个问题的答案。

不是算法不行,是数据不够。

这个差距怎么来的?

机器人学东西,有两条路。

「人教机器」。

业内术语叫遥操作。

采集员穿戴设备,手把手教机器人每一个动作。

比如想让机器人学会拿杯子,就得有人真的拿着遥控器,一帧一帧地教它怎么伸手、怎么握、怎么抬起来。

成本高,效率低。

一个采集员一天能采多少数据?

并且,采集到的数据只能用在特定型号的机器人上。

换一个机器人,手臂长度不一样、关节数量不一样,之前的数据就废了,又得重新教。

这种训练方式的本质,是让人迁就机器。

这条路,特斯拉和 Figure AI 都试过,现在都快放弃了。

另一条路是「机器看视频自学」。

逻辑相当简单。网上有海量的人类活动视频,让机器人看这些视频,直接学习人类怎么动。

听起来很美好,但有个致命问题。

视频都是二维的,没有深度信息。

机器看得见人怎么拿杯子,但不知道杯子有多重、材质是玻璃还是塑料、手要用多大力气才能握住但不会捏碎。

视频里没有力,没有摩擦,没有物理规律。

机器能模仿动作的「形」,但学不会背后的「魂」。

一条路是为难人,一条路是为难机器。

都不太行。

小火箭shadowrocket

从「机器为中心」转向「以人为中心」。

12 月 18 日,大晓机器人,提出了第三条路。

这套方法叫 ACE ,Ambient Capture Engine,环境捕捉引擎。

核心思路一句话总结: 不是人教机器,也不是机器自己看视频,而是「让机器看人怎么生活」。

怎么操作?

在真实环境里布设多视角、多模态的采集设备。

专门记录人在日常生活中与物品、环境的自然交互。

在厨房做饭,它能记录。

在仓库分拣货物,它也能记录。

开门、拿东西、放东西,它都能记录。

关键是,不只是拍视频。

同时采集视觉、触觉、力反馈、运动轨迹等多维度数据。

它知道你拿起杯子时用了多大力,推开门时门有多重,抓起一颗鸡蛋和抓起一个苹果的力道有什么区别。

小火箭shadowrocket

多机位、全要素捕捉人类操作的每一个细节。

这些信息,是纯视频永远无法提供的。

数据量从 10 万小时级别,跃升到一年千万小时。

而且这些数据不绑定特定机器人。

因为记录的是「人怎么做」,而不是「某个机器人怎么做」,理论上可以迁移到任何构型的机器人上。

然后,光有数据还不够。

采集到的是人的行为,最终要让机器人执行。

中间还需要一个「翻译器」,把人的动作转化成机器人能理解、能执行的指令。

小火箭shadowrocket

开悟世界模型 3.0:「理解-生成-预测」,让机器读懂物理规律。

这就是大晓机器人同时发布的 开悟世界模型 3.0 ( Kairos 3.0 )。

这个模型和 OpenAI Sora 那类视频生成模型不一样。

Sora 的目标是生成好看的视频, 开悟 3.0 的目标是理解物理规律。

什么意思?看两个对比测试你就懂了。

接水测试。

指令很简单:打开水龙头,用杯子接水。

Sora 生成的画面里,水流进了水槽。谷歌 Veo,水直接倒在杯子外面。

画面好看,但物理逻辑错了。

它们不懂「杯子必须放在水流正下方」这个因果关系。

机器人如果照着学,厨房都得淹掉。

再看 开悟 3.0 。

机械臂把杯子放到水流下方,接满,关水龙头。

它知道水会往下流,知道杯子是容器,知道接水的逻辑是什么。

搭积木测试。

指令:用积木拼出 ACE 的 Logo。

Sora 和 Veo 的画面里,模型压根没理解要做什么,字母甚至凭空出现。

开悟 3.0 生成的画面里,机械臂先抓取,再移动,最后放置。

区别在哪?

Sora 和 Veo 生成的是「看起来像」的视频, 开悟 3.0 是对「物理世界」的仿真。

前者是 AI 动画,后者可以当训练数据。

这些人类三岁小孩就懂的常识,机器人学起来却很困难。

开悟世界模型要做的,就是让机器人在虚拟世界里脑补各种场景,试错一万次,学会怎么接水、怎么拿易碎品、怎么在狭窄空间里转身。

当然,不用真的摔碎一万个杯子。

因为, 真实数据经过世界模型放大,效果相当于上亿小时的训练数据。

10 万小时到上亿小时,直接跨越了三个数量级。

划重点, 开悟世界模型 3.0 是开源的。

12 月 18 日已经面向全行业开放 API,还配备了一个产品平台。

内置 100 多个垂类场景,开发者输入指令就能生成任务模拟内容。

更更重要的是,它已经跑通了沐曦、壁仞、中科曙光这些国产芯片。

开源,国产芯片全线适配,有 DeepSeek 那味儿了。

世界模型解决的是未来的问题。

那么,现在呢?

小火箭shadowrocket

具身超级大脑模组 A1:纯视觉、无图导航,让机器人拥有空间智能。

大晓同时发布了一个硬件模组,叫 具身超级大脑 A1 。

它的核心能力是「纯视觉无图导航」。

在传统方案里,机器狗要在一个新环境里行动,得先采集高精地图。

环境一变,地图就废了。

想想你家的扫地机器人,是不是这样。

有了 A1 ,不需要提前建图。

机器狗靠视觉理解环境,实时规划路径,直接就能走。

而且,它能听懂自然语言。

你说「绕过那个障碍物」,它知道你在说哪个障碍物,也知道该怎么绕。

你说「靠近那扇门」,它能理解「那扇门」是什么意思,然后自己规划路线过去。

这不是预设好的固定指令,是真的在理解你在说什么。

目前已经能应用在安防巡检、能源电力、交通文旅这些场景里了。

世界模型 让机器人变聪明, A1 让机器人现在就能干活。

具身智能的 DeepSeek 时刻,来了。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/43.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>