机器人技术

教机器人在不确定性下规划

帮助机器人感知、推理与行动、并具备更安全反馈回路的具身AI研究。

范畴感知 · 规划 · 受控的真实世界交接
立场不确定性栖于感知之中,而非规划器的盲区之内
回路仿真 → 真实 → 仿真,每一次意外都回折其中
俯视场景 · 检测置信度 + 规划路径 box · 92% human · 78% unknown · 41% high confidence medium confidence low confidence
具身AI中改变了什么

不确定性是感知的一部分,而非规划器的一部分

在真实世界中行动的机器人,必须能够识别自己何时出错。我们的具身工作把不确定性推回感知之中,以便规划器能对其作出反应,然后在将意外回馈进仿真器之前,先针对精心受控的真实环境对一切加以验证。

传统分割

感知输出点估计,而规划器被寄望于对其一切谬误都保持鲁棒。

我们的分割

感知直接输出疑虑——检测上的置信区间、轨迹上的协方差——而规划器被设计为对这份疑虑作出反应。

三项承诺

具身回路在何处赢得其安全性

E1

敢于承认疑虑的感知

每一次检测都报告一个置信区间,每一条轨迹都给出协方差。规划器直接看见这份疑虑。

point + 2σ ellipse
奖励 实时对不确定性作出反应的规划器 惩罚 在某物坠地之前都显得信心十足的点估计
E2

仿真 → 真实 → 仿真

我们在仿真中训练,在精心受控的真实环境中验证,并将每一次意外回馈进仿真器。

i1 0.62 i2 0.41 i3 0.27 i4 0.16 i5 0.09 reality gap by iteration
奖励 每一轮都缩小现实差距的回路 惩罚 将仅限仿真的指标当作真实世界代理的做法
E3

更安全的反馈回路

不知道自己错了的机器人才是危险的那一个。我们奖励那些在不确定性越过书面阈值时会停下、发问并重新规划的系统。

confident execute uncertain pause · ask unsafe stop
奖励 在疑虑下让步的控制器 惩罚 强行碾过不确定状态的控制器
仿真 → 真实 → 仿真

回路不断收紧,直至差距微小

在仿真中训练,在受控的真实环境中验证,将每一次意外回馈进仿真器。每一轮现实差距都在缩小。

SIM trained policy unit-test surface REAL controlled environment measured surprise SIM′ surprise folded in next training round cycle: each iteration shrinks the reality gap deploy log surprises
场景策略

检测表即动作表

与首图相同的场景,被拆解为控制器的视角:检测、置信度、决策、策略类别。一个低置信度的未知物不会变成被执行的计划。

检测 置信度 决策 策略类别 紧迫度
d1 · box 0.92 pick execute low
d2 · human 0.78 stop & yield override high
d3 · unknown 0.41 pause · ask escalate medium

敢于承认疑虑的感知

在真实世界中行动的机器人,必须能够识别自己何时出错。我们的感知栈在每一次检测旁一并报告不确定性,以便规划器能作出反应。

先仿真,再真实,再仿真

我们在仿真中训练,在精心受控的真实环境中验证,并将意外回馈进仿真器。回路不断收紧,直至差距微小。

横向贯通

具身的不确定性,不过是带有截止期限的标定

在我们的气候预报与评测库中浮现的那套标定准则,在此落地为一条控制律:当区间变宽时,机器人让步。